-
데이터 웨어하우스 알아가기 #2. 모델링 편(Star Schema, Snowflake Schema)데이터 2025. 3. 2. 20:16
지난 편 데이터 웨어하우스 알아가기 #1. DW(Data Warehouse)란? 에 이어서 오늘은 모델링과 관련한 이야기를 한 번 해볼까 합니다. 지난 편에서 언급한 팩트 테이블(Fact Table)과 차원 테이블(Dimension Table) 용어를 다시 확인하고 오시는 것도 추천합니다😉
DW 모델링의 특징
데이터웨어하우스 모델링은 대용량 데이터를 여러 관점에서 분석할 수 있게 구성하는 건데요, 이러한 모델링이 필요한 이유는 데이터 마트의 정보 요건을 적절히 지원할 수 있어야하고, 운영DB부터 비지니스 로직, 업무규칙을 바탕으로 모델의 기본 골격을 결정할 수 있어야하기 때문입니다. 더불어 이러한 DW 모델링에 몇 가지 특징이 있습니다.
- DW 모델링의 특징
- 정보를 비즈니스 차원으로 분류 및 조직화
- 특정 부서나 분석 목적을 위해 정보분석 기준을 중심으로 미리 집계된 형태로 정보를 관리 및 제공
- Fact Table과 Dimension Table로 이루어진다.
이러한 DW 모델링 기법 중 대표적으로 언급되는 스타스키마(Star Schema)와 눈송이 스키마(Snowflake Schema)가 있습니다.
스타스키마(Star Schema)
- Fact Table을 중심으로 Dimension Table이 뻗어져나가는 구조
- 해당 형태가 별 모양과 같아서 스타 스키마라고 부른다.
- 주제별로 정보가 하나씩의 테이블에 모두 정리
- 비교적 단순화된 형태로 저장되며, 이해하기 쉽다.
- 복잡한 조인할 필요가 많지 않다.
- 컬럼과 같은 추가 변경이 용이
https://www.tutorialspoint.com/dwh/dwh_schemas.htm 예시 이미지 tutorials point 에서 설명과 함께 제공하는 테이블 구조를 보면 이해하기 쉬울 듯 합니다. 일단 이름부터 왜 Star Schema 인지 납득이 가는 모양인데요! 예시처럼 중심에 세일즈 팩트 테이블을 기준으로 그에 파생된 시간, 위치(주소), 아이템(상품), 지점 정보를 담은 차원 테이블들이 뻗어나간 모양을 확인할 수 있습니다.
눈송이스키마(Snowflake Schema)
- 스타스키마에서 발전된 형태?(스타 스키마에서 차원이 대용량일 경우 처리속도 저하 이슈 해결을 위해 제시된 기법)
- 중심이 되는 Fact Table을 중심으로 Dimension Table이 뻗어져나가는 구조는 동일
- 모든 Dimension Table을 정규화하는 과정을 거친 것. 더 복잡한 가지가 늘어난다.→ 구조 이해의 어려움 증가
- 형태가 눈송이 구조와 비슷하기에 눈송이스키마(Snowflake)라고 한다.
- Dimension Table이 잘게 쪼개지면서 비교적 복잡한 조인이 필요
https://www.tutorialspoint.com/dwh/dwh_schemas.htm 예시 이미지 비교? 확인을 위해 눈송이 이미지를 함께 첨부해 보았습니다. 팩트 테이블을 중심으로 디멘젼 테이블 이를 다시 정규화한 형태로 다시 가지 뻗어나가는 형태로 눈송이 결정과 비슷한 모양인 것을 확인할 수 있습니다. 스타스키마, 눈송이 스키마 모두 다이어그램으로 그려봤을 때 비슷하다는 게 조금 재밌지 않나요?ㅎㅎ
코멘트
오늘은 간략하게 데이터웨어하우스의 모델링 특징과 대표적인 스타스키마, 눈송이 스키마에 대해서 간략하게 알아봤습니다. 정말 개인적인 사족이지만 글 작성을 하면서 자료를 찾으면서 발견하게 된 tutorials point 이 사이트가 참 좋은 것 같다는 생각을 했습니다. DW에 관한 튜토리얼 혹은 초반 접근하기 좋은 사이트 찾기가 예전엔 좀 어려웠는데 이런 곳도 있다는 게 그냥 감회가 새로운 느낌이었네요. 다음엔 무슨 주제로 글을 작성해볼지 또 고민을 하며 오늘은 이만 마무리하겠습니다!
더보기참고
- https://www.tutorialspoint.com/dwh/dwh_schemas.htm
Data Warehousing - Schemas
Data Warehousing - Schemas - Schema is a logical description of the entire database. It includes the name and description of records of all record types including all associated data-items and aggregates. Much like a database, a data warehouse also require
www.tutorialspoint.com
- http://www.jidum.com/jidums/view.do?jidumId=692
지식덤프
특성 장점 : 이해하기 쉽고, 계층구조 정의가 용이하고, 물리적인 조인수가 줄어 듬. 단점 : 단일 차원 테이블 -> 설명 및 속성의 중복 저장, 상위 레벨에서의 조회 성능 저하
www.jidum.com
'데이터' 카테고리의 다른 글
점점 사라지는 봄, 정말 짧아지고 있는걸까? (0) 2025.04.26 네이버 카드정보 크롤링, 이제 selenium과 삽질을 곁들인 (0) 2025.03.23 여행 갈 수 있을까..? ARIMA 모형과 함께하는 유로 환율 예측(2) (1) 2025.02.16 여행 갈 수 있을까..? ARIMA 모형과 함께하는 유로 환율 예측(1) - 전처리 (3) 2025.02.02 데이터 웨어하우스 알아가기 #1. DW(Data Warehouse)란? (1) 2025.01.18 - DW 모델링의 특징