데이터 웨어하우스(Data Warehouse) 및 데이터 마트(Data Mart)

반응형
  • 데이터 웨어하우스의 정의
    • 기업의 의사 결정 과정을 지원하기 위한 주제 중심적이고 통합적이며, 시간성을 가지는 비휘발성 자료의 집합 - Inmom
    • 기업 내의 의사 결정 지원 애플리케이션들을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간 - Kelly
    • 운영 시스템과 연계하여 의사 결정 지원에 효과적으로 사용될 수 있도록 다양한 운영 시스템으로부터 추출,변환, 통합되고 요약된 읽기 전용 데이터베이스 - Poe
    • 기업 내 여러 곳에 분산 운영되는 트랜잭션 위주의 시스템들로부터 필요한 데이터를 수집하여 통합 스키마 하에 전사적인 하나의 중앙 집중화된 저장소에 모아 놓고, 이를 여러 계층의 사용자들이 효율적으로 의사 결정 과정에 사용할 수 있도록 한 대용량 데이터 저장소

         

  • 데이터 웨어하우스의 필요성
    • 전사적 데이터의 통합을 통한 정보의 효율적인 분석이 필요하게 되었고, 또한 신속 정확한 의사 결정으로 경쟁력을 확보하기 위하여 의사 결정용 데이터베이스가 필요하게 되었음
    • 급증하는 다량의 데이터를 효과적으로 분석하여 정보화하고, 이를 여러 계층의 사용자들이 효율적으로 사용할 수 있도록 한 데이터 웨어하우스가 필요하게 되었음

         

  • 데이터 웨어하우스의 활용
    • 다양한 원본 데이터베이스부터 데이터 웨어하우스에 저장될 데이터를 추출하고, 질의를 효과적으로 처리하기 위하여 필요한 데이터만 정재한 후 선택된 데이터를 데이터 웨어하우스에 전송해서 저장하고, 필요한 인덱스를 생성
    • 데이터 웨어하우스로부터 다차원 분석 도구를 이용하여 효율적인 의사 결정을 수행

         

  • 데이터 웨어하우스의 특징
    • 주제 중심적(Subject Oriented)
      • 각 조직의 주요 주제를 중심으로 관련 데이터를 구성(즉, 데이터가 조직의 업무 주제에 따라 분류 및 저장됨)
      • 특정 업무 기능이나 응용 프로그램에 종속되지 않는 데이터 구조를 지원
    • 통합 구조(Integrated)
      • 업무 기능별로 관리되는 다수의 운영 데이터를 전사적 관점에서 중복을 최소화하고, 모든 업무에 공유할 수 있도록 통합
      • 데이터의 정합성과 물리적 통일성을 갖는 통합된 데이터 구조를 지원
      • 전사적인 데이터 표준화를 통해 데이터 통일성(즉, 속성 이름, 데이터 표현, 계산 단위 등) 확보
      • 데이터 획득 시 데이터 통합을 위한 일련의 변환 작업을 수행
    • 시계열(Time Variant) 이력 데이터
      • 데이터는 오랜 기간 동안 보유되며, 과거와 현재의 경향에 대한 분석이 가능하도록 시간에 따라 모든 순간의 값을 유지하고 있음(즉, 일련의 스냅삿(Snapshot)처럼 저장됨)
      • 일정 기간 동안의 업무 변화 내지는 발전의 추세 분석에 필요
        • 이력 데이터를 통해 시간 경과에 따른 데이터의 변화 과정 파악이 가능
      • 스냅샷 생성
        • 키 구조에 시간 요소를 추가하여 레코드 생성
        • 이벤트 발생 시점의 일자 또는 시간 저장
    • 비휘발성(Non Volatile)
      • 초기 데이터 적재 이후에는 데이터의 갱신은 발생하지 않고 검색만 있음(즉, 데이터 적재와 데이터 검색만 존재)
      • 데이터 변경이 발생하더라도 변경을 직접 반영하지 않고 스냅샷 형태로 반영
      • 장애 발생에 대한 데이터의 복구, 트랜잭션과 데이터의 무결성 유지, 교착상태의 탐지와 처리가 매우 단순함
      • 데이터 갱신 이상에 대한 고려가 불필요하고, 정규화 및 반정규화에 대한 융통성의 증가

           

  • 데이터 웨어하우스의 구축 과정
    • 비즈니스 요구 사항 정의
      • 사용자 요구 사항 수집
      • 효과적인 요구 사항 수집을 위해 사용자를 대상으로 데이터 웨어하우스 개념 교육이 필요
    • 데이터 모델링
      • 일반적으로는 엔터프라이즈 데이터 웨어하우스는 ER 모델, 데이터 마트는 다차원 모델로 구성
      • 데이터 마트 모델링 시 측정을 생산하기 위한 비즈니스 로직의 중복 구현의 최소화가 필요
    • 데이터 소스 확인 및 식별

      완성된 모델이 실제로 구성 가능한지 데이터 소스 확인

    • 데이터 추출 변환

      처음 데이터 구축 시 필요한 초기 적재 프로그램과 향후 지속적인 ETT(Extraction : 추출, Transformation : 가공, Transportation : 전송)를 위한 프로그램 개발

    • 데이터 웨어하우스 구축

      OLAP, 데이터 마이닝 등 BI 환경도 이 단계에서 개발

    • 사용자 교육

      개발자 및 운영자로 하여금 데이터 웨어하우스와 관련된 충분한 교육과 실습을 통해 능력을 배양해야 함

       

  • ETT(Extraction : 추출, Transformation : 가공, Transportation : 전송)
    • ETT의 개념

      기존의 다양한 시스템과 파일에 저장된 데이터를 하나의 데이터 웨어하우스로 통합하기 위해 데이터를 추출, 가공, 전송하는 일련의 과정을 통칭

    • ETT의 단계
      • 추출
        • 원본 파일과 트랜잭션 데이터베이스로부터 데이터 웨어하우스에 저장될 데이터를 추출하는 과정
        • 추출의 기준이 명확해야 함
        • 초기 추출(Migration) : 데이터 웨어하우스에 최초로 데이터를 구축할 때 이용
        • 주기적 추출(Batch) : 데이터 웨어하우스 초기 추출 이후에 일/월 단위의 주기적인 보완
      • 가공
        • 질적으로 문제가 있는 데이터에 대해 데이터 정제(Cleansing) 기법을 이용
        • 열(Column) 수준 : 각 도메인의 값들에 대한 정제
        • 레코드 수준 : 셀렉션(Selection), 조인(Join), 집단화 기능을 이용
      • 전송

        선택된 데이터를 데이터 웨어하우스에 전송해서 저장하고, 필요한 색인을 작성

       

  • 데이터 웨어하우스 모델링 기법
    • 주요 용어

단계

주요 의미

사실(Facts)

  • 사업의 특정 단면이나 활동을 수치로 표현한 값
  • 납입 보험료
  • 신규 계약건

차원(Dimensions)

  • 주어진 사실에 대한 추가적인 관점(View)을 제공하는 특성
  • 차원 테이블(Dimension Table)에 저장됨
  • 1개의 사실 테이블에 여러 차원의 테이블이 연결되어 분석에 사용됨
  • 부서

속성(Attribute)

  • 각 차원 테이블이 가지고 있는 속성
  • 사실을 검색하고, 여과하고 분류할 때 사용됨
  • 본부
  • 지점
  • 영업소

속성 계층(Hierarchies)

  • 차원 내에 정의된 속성들 간에 존재하는 관계
  • 아래로 가기(Drill-down) 및 위로 가기(Roll-up) 등의 기능 사용
  • 지점의 부모는 본부
  • 스타 스키마(Star Schema)
    • 정의
      • 스타 스키마라는 용어는 구성된 데이터 모델의 모양에서 비롯된 것
      • 데이터 모델의 한 가운데에 위치한 사실 테이블(Fact Table)이 있으며, 그 주위를 많은 수의 차원 테이블(Dimension Table)이 둘러싸고 있는 형태
      • 사실 테이블과 차원 테이블 사이는 ER 다이어그램에서와 같이 관계 표시선을 연결하여 상호간의 관계를 표시
    • 구성 요소
      • 사실 테이블
        • 업무상 중요한 수치 데이터를 중앙에 위치한 테이블에 사실로 저장
        • 기본키는 모든 차원의 키를 결합한 키
        • 주로 연속적인 값들로 가산이 가능하여 집계된 값을 얻기 쉬움
      • 차원 테이블
        • 사용자의 분석 요인들을 저의(예: 시간, 매장, 상품 등)
        • 각 차원은 계층적 구조를 가짐
        • 사실 테이블 주변에 위치하며, 일반적으로 크기가 작음
        • 질의 유형 : 드릴다운, 드릴업 등
          • Drill-down - 분석할 항목에 대해 차원의 계층 구조를 따라 단계적으로 요약된 형태의 데이터 수준에서 보다 구체적인 내용의 상세 데이터로 접근하는 기능
          • Drill-up -분석할 항목에 대해 한 차원의 계층 구조를 따라 단계적으로 구체적인 내용의 상세 데이터로부터 요약된 형태의 데이터로 접근하는 기능
    • 특징
      • 정규화되지 않음
      • 조인 횟수가 적게 되어 검색 성능이 향상
    • 구성도 및 예

  • Snowflake Schema
    • 정의

      스타 스키마의 차원 테이블을 완전 정규화시킨 것

    • 특징
      • 정규화를 통해 차원 테이블에 중복된 데이터를 제거함으로써, 저장 공간을 줄일 수 있음(사실 테이블에 비해 차원 테이블은 크기가 작아 실제적으로 큰 효과를 보지 못할 수 있음)
      • 조인 횟수가 많아 검색 속도를 떨어뜨릴 수 있음
    • 구성도 및 예

  • 데이터 웨어하우스 효과와 고려할 점
    • 데이터 웨어하우스 구축 성공 요인
      • 효과적인 의사 결정 지원 업무의 선택
      • 분석에 적합한 모델링 기술
      • 손쉽게 사용 가능한 도구의 선택
      • 의사 결정 지원 프로세스의 가치 부여
    • 데이터 웨어하우스의 장점
      • 높은 투자 수익률(ROI)
      • 타사에 비해 경쟁 우위를 획득
      • 의사 결정자의 생산성을 향상
    • 데이터 웨어하우스의 단점
      • 기존의 시스템가 명확한 역할을 설정하지 못하면 업무의 혼란을 초래할 수 있음
      • 추출 기준에 맞지 않는 데이터의 입력, 갱신, 삭제가 발생하면 불일치 문제가 발생할 수 있음
      • 의사 결정을 위한 충분한 데이터가 확보되지 않으면 정확한 결과를 도출할 수 없음
      • 과다한 자원을 사용하게 되고 유지보수가 어려움
    • 데이터 웨어하우스 유지시 고려할 점
      • 기간계 시스템과의 명확한 역할 미설정시 업무 혼란이 예상
      • 추출 기준에 맞지 않는 기간계 데이터의 삽입/갱신/삭제로 인한 불일치 문제
      • 데이터 적재에 맞지 않는 기간계 데이터의 삽입/갱신/삭제로 인한 불일치 문제
      • 데이터 적재에 필요한 자원의 과소 평가
      • 기존 시스템에 내재된 데이터의 문제점 상존
      • 필요한 데이터의 미확보
      • 과다한 자원 요구, 데이터 소유권, 유지보수 노력 등

           

  • 데이터 마트(Data Mart)
    • 데이터 마트의 정의
      • 전사적으로 구축된 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스
      • 특정 부서의 의사 결정 지원을 목적으로 하는 부서별 또는 부분별 데이터 웨어하우스
      • 일반적으로 한 기업 내에 복수개의 데이터 마트가 존재
        • 부서별로 구축
        • 업무 기능별로 구축
      • 전사적 통합성을 염두에 두고 데이터 마트가 데이터 웨어하우스보다 먼저 구축될 수도 있음
    • 데이터 마트의 특징
      • 분석 요건 중심

        전사적 데이터 웨어하우스의 데이터를 분석 요건에 적합한 구조로 재구성

      • 요약 데이터로 구성
        • 추세, 패턴 분석 및 데이터 접근이 용이
        • 필요시 일부 상세 데이터 포함
      • 제한된 규모의 이력 데이터 포함

        분석에 필요한 이력 데이터만을 포함

      • 유연성과 접근성이 뛰어난 데이터 구조

        다양한 질의나 요구를 충족하는 다차원 구조

반응형