ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 웨어하우스란 무엇인가
    CS지식/데이터베이스 2021. 6. 19. 23:03

    데이터 웨어하우스(Data Warehouse)란 사용자의 비즈니스 분석 활동과 의사 결정 지원을 위한 대규모의 데이터 저장소이다.

    데이터 웨어하우스여러 곳에 분산되어 운영되는 시스템들로부터 필요한 데이터를 추출한 후 표준화된 형식으로 변환하여 하나의 중앙 집중화된 저장소에 모아놓고 다양한 목적을 가진 여러 사람들이 쉽게 데이터를 쓸 수 있도록 만든 창고라고 생각하면 된다.

     

     

    이러한 데이터 웨어하우스의 특징은 데이터의 주제 지향성, 통합성, 시계열성, 비휘발성이 있다.

    주체 지향성(subject orientation)은 의사결정에 필요한 특징 주제에 따라 데이터를 분류, 저장, 관리한다는 것이다.

    우리가 지금까지 알아본 데이터베이스는 어떠한 개체(entity)에 대한 모든 데이터는 의사결정에 필요하지 않아도 저장, 관리한다.

    하지만 데이터 웨어하우스는 주제 지향성이라는 특징을 가져 예를 들어 새로운 상품을 출시해야할 때 의사 결정이 필요한텐데 이를 위해 상품이라는 특정 주제에 따라 데이터를 분류, 저장, 관리한다는 것이다.

     

    통합성(integration)은 데이터 웨어하우스에 저장되는 데이터가 일관된 형식으로 정의된다는 것이다.

    예를 들어, 서비스 등록 시간이라는 데이터들이 있는데 운영 데이터베이스별로 다른 형태의 형식(ex, 년월일, 년월, 년월일시간...)으로 관리되고 있다면 데이터 웨어하우스에서는 변환 및 통합 규칙을 통해 일관성을 유지한 데이터를 통합하여 저장한다.

     

    시계열성(time variance)는 데이터 웨어하우스에 저장된 데이터가 시간의 흐름에 따라 변화하는 값을 유지하는 특성이다.

    데이터베이스를 생각해보면 최신의 값을 유지하려고 새로운 데이터로 갱신을 한다.

    하지만 시계열성 특성을 가진 데이터 웨어하우스는 새로운 데이터가 이전 데이터를 갱신하는 것이 아닌 계속 누적, 관리한다.

    예를 들어, 고객의 등급데이터가 있다고 해보자.

    데이터베이스에서는 고객 A의 등급이 silver에서 gold로 올라갔다면 데이터를 silver에서 gold로 바꿀 것이다.

    하지만 데이터 웨어하우스에서는 고객 A의 등급이 silver였던 데이터를 지우지 않고 gold로 변화했다는 데이터를 누적하여 관리하는 것이다.

     

    비휘발성(nonvolatilization)은 데이터 웨어하우스에 데이터가 저장되면 batch 작업 이외에는 데이터 변경 작업이 허용되지 않는 특징이다.

     

     

    데이터 웨어하우스의 구조는 아래와 같다.

    전반적인 데이터 웨어하우스가 생성되는 과정을 말하면 여러 내부 운영 데이터베이스나 외부 운영 데이터베이스에 저장되어 있는 원천 데이터(raw data)중 필요한 데이터를 추출, 변환 하여 데이터 웨어하우스에 적재하는 것이다.

    위 그림에서 ETL(Extraction, Transformation, Loading)이라는 말은 데이터베이스에 있던 raw data에서 필요한 데이터를 추출(Extraction)하는 과정과 통일된 데이터 형식으로 변환(Transformation)하는 과정과 마지막으로 데이터를 데이터 웨어하우스에 적재(Loading)하는 과정을 통틀어 말하는 것이다.

    댓글

Designed by Tistory.