알고 싶어요, 데이터 호수는 무엇입니까? Data Lakes는 데이터 호수를 구축하는 구현 프로세스입니다. 단순히 데이터 호수에 대해 이야기한다는 것은 무엇을 의미합니까? 다양한 유형과 소스의 데이터가 함께 수집되며 호수의 물과 불순물이 내부에 저장되는 것처럼 많은 양의 지저분한 데이터가 하나씩 저장되어 필요한 데이터를 언제든지 사용할 수 있습니다.
이 작업 과정의 핵심 사항에 대해 이야기합시다
첫째, 도구를 선택하는 것이 특히 중요합니다. 적절한 스토리지 도구만이 대량의 데이터가 잘 배치되도록 할 수 있습니다. 예를 들어, Microsoft의 Azure Data Lake와 S3에는 고유 한 기능이 있습니다. Azure Data Lake는 매우 편리하고 구현하기 쉬운 Azure의 데이터 및 인공 지능 서비스를 통합하는 장점을 고려해야합니다. 사용하는 경우 읽기 및 쓰기 속도가 데이터의 대규모 판독에 실용적이고 구체적이며 실제적으로 영향을 미치는지 여부에주의를 기울여야합니다. 회사의 데이터 볼륨에 대한 요구에 따라 다르며 대량으로 더 높은 가용성이 필요합니다.
둘째, 데이터 액세스 표준 및 관리 규칙은 무시할 수 없습니다! 데이터 가이 데이터 호수에 들어가는 방법을 정의하기 위해 표준적이고 명확한 규칙을 설정해야합니다. 예를 들어, 데이터 보안에 약간의주의를 기울이면 높은 보안 수준의 데이터를 독립적 인 보안 메커니즘에 넣어 백업을 저장하고 백업 할 수 있습니다. 데이터 형식을 통합해야하므로 후속 데이터 분석을 매우 편리하게 만들 수 있습니다. 예를 들어, 데이터 일관성과 관련하여 새로운 입력 데이터가 기존 기존 및 기존 데이터와 충돌하지 않는지 확인하는 방법을 결정합니다.
데이터 운영의 통합에 대해 이야기 해 봅시다. 다른 소스에는 규칙 데이터를 저장하는 데이터베이스의 데이터 테이블과 같은 구조화 된 구성이 포함됩니다. 반 구조화는 XML 파일 등이며 사진 및 비디오와 같은 구조화되지 않은 데이터입니다. 사례는 회사입니다. 영업 부서의 영업 정보는 일류 유형이며 마케팅 부서에는 시장 조사 보고서 차트, 인사 부서 직원 정보 테이블 등이 포함되어 있습니다. 이러한 다양한 유형의 다양한 데이터를 어떻게 결합하고 집계 할 수 있습니까? 일부 도구는 수많은 텍스트 보고서에서 필드 데이터를 추출하는 것과 같은 대규모 텍스트를 추출하는 데 적합합니다.
질문이 있으시면 아래 답변을 볼 수 있습니다.
Q : 로컬 스토리지 도구를 선택할 것인지 클라우드 스토리지가 아닌지를 어떻게 결정합니까? 어떤 클라우드 제조업체가 적합합니까?
답변 : 가장 중요한 것은 회사의 요구의 실제 상황을 기반으로합니다. 회사가 데이터 보안에 큰 관심을 기울이고 시설 레이아웃에 큰 투자를 할 의향이 있다면 회사가 완전히 제어하는 로컬 스토리지 장치와 같은 회사 내에 사이트 및 아키텍처를 구축하는 것을 고려할 수 있습니다. 신속한 배치와 상황의 편리한 확장을 고려할 때 자본이 빡빡하고 특히 부족한 경우 클라우드 스토리지 제조업체는 필요에 따라 더 일치합니다.
Q :이 데이터 호수에 들어갈 때 많은 데이터와 많은 데이터가이를 따라 잡을 수있는 방법은 무엇입니까?
답변 : 데이터 마이그레이션 도구가 초기 단계에서 올바르게 선택되며,이 도구는 컴퓨터 기계의 하드웨어 재단 및 네트워크 안정성과 같은 환경을 선택하고 네트워크 안정성의 정도를 합리적으로 결정하도록 최적화되어 있습니다. 또한 데이터 레이크 하단에 물리적 데이터 저장 배포를 계획 할 때는 계획 레이아웃이 빠른 스토리지 영역에 전략적으로 배치되어야합니다.
제 생각에, 데이터 레이크 구축은 전반적인 비즈니스 상황을 이해 하고이 대규모 스토리지를 정확하게 설정하여 엔터프라이즈 데이터 리소스의 활용을 극대화하여 진정으로 장점을 제공하고 엔터프라이즈 데이터 분석 및 운영에 대한 강력한 지원을 제공하는 데 매우 중요합니다. 우리는 더 많은 생각을해야합니다.
답글 남기기