반응형
- 데이터 웨어하우스의 정의
- 기업의 의사 결정 과정을 지원하기 위한 주제 중심적이고 통합적이며, 시간성을 가지는 비휘발성 자료의 집합 - Inmom
- 기업 내의 의사 결정 지원 애플리케이션들을 위한 정보 기반을 제공하는 하나의 통합된 데이터 저장 공간 - Kelly
- 운영 시스템과 연계하여 의사 결정 지원에 효과적으로 사용될 수 있도록 다양한 운영 시스템으로부터 추출,변환, 통합되고 요약된 읽기 전용 데이터베이스 - Poe
- 기업 내 여러 곳에 분산 운영되는 트랜잭션 위주의 시스템들로부터 필요한 데이터를 수집하여 통합 스키마 하에 전사적인 하나의 중앙 집중화된 저장소에 모아 놓고, 이를 여러 계층의 사용자들이 효율적으로 의사 결정 과정에 사용할 수 있도록 한 대용량 데이터 저장소
- 데이터 웨어하우스의 필요성
- 전사적 데이터의 통합을 통한 정보의 효율적인 분석이 필요하게 되었고, 또한 신속 정확한 의사 결정으로 경쟁력을 확보하기 위하여 의사 결정용 데이터베이스가 필요하게 되었음
- 급증하는 다량의 데이터를 효과적으로 분석하여 정보화하고, 이를 여러 계층의 사용자들이 효율적으로 사용할 수 있도록 한 데이터 웨어하우스가 필요하게 되었음
- 데이터 웨어하우스의 활용
- 다양한 원본 데이터베이스부터 데이터 웨어하우스에 저장될 데이터를 추출하고, 질의를 효과적으로 처리하기 위하여 필요한 데이터만 정재한 후 선택된 데이터를 데이터 웨어하우스에 전송해서 저장하고, 필요한 인덱스를 생성
- 데이터 웨어하우스로부터 다차원 분석 도구를 이용하여 효율적인 의사 결정을 수행
- 데이터 웨어하우스의 특징
- 주제 중심적(Subject Oriented)
- 각 조직의 주요 주제를 중심으로 관련 데이터를 구성(즉, 데이터가 조직의 업무 주제에 따라 분류 및 저장됨)
- 특정 업무 기능이나 응용 프로그램에 종속되지 않는 데이터 구조를 지원
- 통합 구조(Integrated)
- 업무 기능별로 관리되는 다수의 운영 데이터를 전사적 관점에서 중복을 최소화하고, 모든 업무에 공유할 수 있도록 통합
- 데이터의 정합성과 물리적 통일성을 갖는 통합된 데이터 구조를 지원
- 전사적인 데이터 표준화를 통해 데이터 통일성(즉, 속성 이름, 데이터 표현, 계산 단위 등) 확보
- 데이터 획득 시 데이터 통합을 위한 일련의 변환 작업을 수행
- 시계열(Time Variant) 이력 데이터
- 데이터는 오랜 기간 동안 보유되며, 과거와 현재의 경향에 대한 분석이 가능하도록 시간에 따라 모든 순간의 값을 유지하고 있음(즉, 일련의 스냅삿(Snapshot)처럼 저장됨)
- 일정 기간 동안의 업무 변화 내지는 발전의 추세 분석에 필요
- 이력 데이터를 통해 시간 경과에 따른 데이터의 변화 과정 파악이 가능
- 스냅샷 생성
- 키 구조에 시간 요소를 추가하여 레코드 생성
- 이벤트 발생 시점의 일자 또는 시간 저장
- 비휘발성(Non Volatile)
- 초기 데이터 적재 이후에는 데이터의 갱신은 발생하지 않고 검색만 있음(즉, 데이터 적재와 데이터 검색만 존재)
- 데이터 변경이 발생하더라도 변경을 직접 반영하지 않고 스냅샷 형태로 반영
- 장애 발생에 대한 데이터의 복구, 트랜잭션과 데이터의 무결성 유지, 교착상태의 탐지와 처리가 매우 단순함
- 데이터 갱신 이상에 대한 고려가 불필요하고, 정규화 및 반정규화에 대한 융통성의 증가
- 데이터 웨어하우스의 구축 과정
- 비즈니스 요구 사항 정의
- 사용자 요구 사항 수집
- 효과적인 요구 사항 수집을 위해 사용자를 대상으로 데이터 웨어하우스 개념 교육이 필요
- 데이터 모델링
- 일반적으로는 엔터프라이즈 데이터 웨어하우스는 ER 모델, 데이터 마트는 다차원 모델로 구성
- 데이터 마트 모델링 시 측정을 생산하기 위한 비즈니스 로직의 중복 구현의 최소화가 필요
- 데이터 소스 확인 및 식별
완성된 모델이 실제로 구성 가능한지 데이터 소스 확인
- 데이터 추출 변환
처음 데이터 구축 시 필요한 초기 적재 프로그램과 향후 지속적인 ETT(Extraction : 추출, Transformation : 가공, Transportation : 전송)를 위한 프로그램 개발
- 데이터 웨어하우스 구축
OLAP, 데이터 마이닝 등 BI 환경도 이 단계에서 개발
- 사용자 교육
개발자 및 운영자로 하여금 데이터 웨어하우스와 관련된 충분한 교육과 실습을 통해 능력을 배양해야 함
- ETT(Extraction : 추출, Transformation : 가공, Transportation : 전송)
- ETT의 개념
기존의 다양한 시스템과 파일에 저장된 데이터를 하나의 데이터 웨어하우스로 통합하기 위해 데이터를 추출, 가공, 전송하는 일련의 과정을 통칭
- ETT의 단계
- 추출
- 원본 파일과 트랜잭션 데이터베이스로부터 데이터 웨어하우스에 저장될 데이터를 추출하는 과정
- 추출의 기준이 명확해야 함
- 초기 추출(Migration) : 데이터 웨어하우스에 최초로 데이터를 구축할 때 이용
- 주기적 추출(Batch) : 데이터 웨어하우스 초기 추출 이후에 일/월 단위의 주기적인 보완
- 가공
- 질적으로 문제가 있는 데이터에 대해 데이터 정제(Cleansing) 기법을 이용
- 열(Column) 수준 : 각 도메인의 값들에 대한 정제
- 레코드 수준 : 셀렉션(Selection), 조인(Join), 집단화 기능을 이용
- 전송
선택된 데이터를 데이터 웨어하우스에 전송해서 저장하고, 필요한 색인을 작성
- 데이터 웨어하우스 모델링 기법
- 주요 용어
단계 | 주요 의미 | 예 |
사실(Facts) |
|
|
차원(Dimensions) |
|
|
속성(Attribute) |
|
|
속성 계층(Hierarchies) |
|
|
- 스타 스키마(Star Schema)
- 정의
- 스타 스키마라는 용어는 구성된 데이터 모델의 모양에서 비롯된 것
- 데이터 모델의 한 가운데에 위치한 사실 테이블(Fact Table)이 있으며, 그 주위를 많은 수의 차원 테이블(Dimension Table)이 둘러싸고 있는 형태
- 사실 테이블과 차원 테이블 사이는 ER 다이어그램에서와 같이 관계 표시선을 연결하여 상호간의 관계를 표시
- 구성 요소
- 사실 테이블
- 업무상 중요한 수치 데이터를 중앙에 위치한 테이블에 사실로 저장
- 기본키는 모든 차원의 키를 결합한 키
- 주로 연속적인 값들로 가산이 가능하여 집계된 값을 얻기 쉬움
- 차원 테이블
- 사용자의 분석 요인들을 저의(예: 시간, 매장, 상품 등)
- 각 차원은 계층적 구조를 가짐
- 사실 테이블 주변에 위치하며, 일반적으로 크기가 작음
- 질의 유형 : 드릴다운, 드릴업 등
- Drill-down - 분석할 항목에 대해 차원의 계층 구조를 따라 단계적으로 요약된 형태의 데이터 수준에서 보다 구체적인 내용의 상세 데이터로 접근하는 기능
- Drill-up -분석할 항목에 대해 한 차원의 계층 구조를 따라 단계적으로 구체적인 내용의 상세 데이터로부터 요약된 형태의 데이터로 접근하는 기능
- 특징
- 정규화되지 않음
- 조인 횟수가 적게 되어 검색 성능이 향상
- 구성도 및 예
- Snowflake Schema
- 정의
스타 스키마의 차원 테이블을 완전 정규화시킨 것
- 특징
- 정규화를 통해 차원 테이블에 중복된 데이터를 제거함으로써, 저장 공간을 줄일 수 있음(사실 테이블에 비해 차원 테이블은 크기가 작아 실제적으로 큰 효과를 보지 못할 수 있음)
- 조인 횟수가 많아 검색 속도를 떨어뜨릴 수 있음
- 구성도 및 예
- 데이터 웨어하우스 효과와 고려할 점
- 데이터 웨어하우스 구축 성공 요인
- 효과적인 의사 결정 지원 업무의 선택
- 분석에 적합한 모델링 기술
- 손쉽게 사용 가능한 도구의 선택
- 의사 결정 지원 프로세스의 가치 부여
- 데이터 웨어하우스의 장점
- 높은 투자 수익률(ROI)
- 타사에 비해 경쟁 우위를 획득
- 의사 결정자의 생산성을 향상
- 데이터 웨어하우스의 단점
- 기존의 시스템가 명확한 역할을 설정하지 못하면 업무의 혼란을 초래할 수 있음
- 추출 기준에 맞지 않는 데이터의 입력, 갱신, 삭제가 발생하면 불일치 문제가 발생할 수 있음
- 의사 결정을 위한 충분한 데이터가 확보되지 않으면 정확한 결과를 도출할 수 없음
- 과다한 자원을 사용하게 되고 유지보수가 어려움
- 데이터 웨어하우스 유지시 고려할 점
- 기간계 시스템과의 명확한 역할 미설정시 업무 혼란이 예상
- 추출 기준에 맞지 않는 기간계 데이터의 삽입/갱신/삭제로 인한 불일치 문제
- 데이터 적재에 맞지 않는 기간계 데이터의 삽입/갱신/삭제로 인한 불일치 문제
- 데이터 적재에 필요한 자원의 과소 평가
- 기존 시스템에 내재된 데이터의 문제점 상존
- 필요한 데이터의 미확보
- 과다한 자원 요구, 데이터 소유권, 유지보수 노력 등
- 데이터 마트(Data Mart)
- 데이터 마트의 정의
- 전사적으로 구축된 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스
- 특정 부서의 의사 결정 지원을 목적으로 하는 부서별 또는 부분별 데이터 웨어하우스
- 일반적으로 한 기업 내에 복수개의 데이터 마트가 존재
- 부서별로 구축
- 업무 기능별로 구축
- 전사적 통합성을 염두에 두고 데이터 마트가 데이터 웨어하우스보다 먼저 구축될 수도 있음
- 데이터 마트의 특징
- 분석 요건 중심
전사적 데이터 웨어하우스의 데이터를 분석 요건에 적합한 구조로 재구성
- 요약 데이터로 구성
- 추세, 패턴 분석 및 데이터 접근이 용이
- 필요시 일부 상세 데이터 포함
- 제한된 규모의 이력 데이터 포함
분석에 필요한 이력 데이터만을 포함
- 유연성과 접근성이 뛰어난 데이터 구조
다양한 질의나 요구를 충족하는 다차원 구조
반응형
'밥벌이 > 기타 데이터베이스' 카테고리의 다른 글
주기억 장치 데이터베이스(MMDB; Main Memory DataBase) (0) | 2011.03.21 |
---|---|
실시간(Real-time) 데이터베이스 (0) | 2011.03.21 |
모바일(Mobile) 데이터베이스 (0) | 2011.03.21 |
웹(Web)과 데이터베이스 연동 (0) | 2011.03.21 |
OLAP, 데이터 마이닝, 정보 검색 (0) | 2011.03.21 |