데이터
-
점점 사라지는 봄, 정말 짧아지고 있는걸까?데이터 2025. 4. 26. 17:26
어쩌다 이런 주제를?봄여----름가을겨----울 이라고하는 요즘인데, 기후 변화로 봤을 때도 정말 봄이 짧아지고 있는건지?! 에 대한 궁금증 해소를 위해 날씨 데이터를 한 번 파보기로 했습니다. 데이터는 공공데이터포털 API를 이용했습니다. 아주 많은 항목들을 포함하고있지만 기후에 대한 지식이 얕은 관계로 기온을 위주로만 확인해보기로했기에 Response Element 중에서 아래 항목들만 사용했습니다. 기간은 1994년부터 2025년 4월 21일까지 '서울' 데이터를 가져와서 썼습니다. 대부분 2024까지 끊어서 봐야했습니다.(아직 올해는 여름이 오지않았기때문에)항목명(국문)항목명(영문)항목크기항목구분샘플데이터항목설명시간tm10필수2010-01-01일시지점 번호stnId3필수108종관기상관측 지점 번호..
-
네이버 카드정보 크롤링, 이제 selenium과 삽질을 곁들인데이터 2025. 3. 23. 16:01
월데노 두 번째 주제로 소비 패턴 파악과 카드 정보를 가지고 필요한 카드 찾기 프로젝트를 진행해보려고 한다. 크롤링을 제대로 해본 경험이 많지는 않아서 쪼끔 걱정이긴했지만 뭐든 일단 해..! 하고 진행해보기로(그리고 시작된 고난의 길) 크롤링을위한 파이썬 라이브러리크롤링을 하고자할 때, 파이썬에 가장 대표적으로 beautifulSoup과 selenium 두 가지가 있는데요. 저는 이번에 selenium을 활용하여 네이버 신용카드 정보를 크롤링 해보고자 합니다!beautifulSoupHTML, XML 파일을 통해 데이터를 꺼낼 수 있는 라이브러리개인적으로 자주 사용한 함수: find_all(), find(), get_text(), select()참고selenium프로그램을 이용해 자동화된 웹 테스트를 수행..
-
데이터 웨어하우스 알아가기 #2. 모델링 편(Star Schema, Snowflake Schema)데이터 2025. 3. 2. 20:16
지난 편 데이터 웨어하우스 알아가기 #1. DW(Data Warehouse)란? 에 이어서 오늘은 모델링과 관련한 이야기를 한 번 해볼까 합니다. 지난 편에서 언급한 팩트 테이블(Fact Table)과 차원 테이블(Dimension Table) 용어를 다시 확인하고 오시는 것도 추천합니다😉 DW 모델링의 특징데이터웨어하우스 모델링은 대용량 데이터를 여러 관점에서 분석할 수 있게 구성하는 건데요, 이러한 모델링이 필요한 이유는 데이터 마트의 정보 요건을 적절히 지원할 수 있어야하고, 운영DB부터 비지니스 로직, 업무규칙을 바탕으로 모델의 기본 골격을 결정할 수 있어야하기 때문입니다. 더불어 이러한 DW 모델링에 몇 가지 특징이 있습니다. DW 모델링의 특징정보를 비즈니스 차원으로 분류 및 조직화특정 부서..
-
여행 갈 수 있을까..? ARIMA 모형과 함께하는 유로 환율 예측(2)데이터 2025. 2. 16. 12:35
지난 글에 이어서 시계열 분석 모형 중 하나인 ARIMA 모형으로 분석작업한 진행한 과정의 기록입니다!https://hyun21.tistory.com/17 여행 갈 수 있을까..? ARIMA 모형과 함께하는 유로 환율 예측(1) - 전처리계기: 월간데이터노또(트)어느 날 글또 '데이터-ai 빌리지' 슬랙 채널에 올라온 글 하나...보는 순간 너무 재밌어보이잖아?! 물론 내가 이걸 꾸준히 할 수 있을까? 란 생각도 잠시 들었지만 할 수hyun21.tistory.com 유로 환율 그래프(2022.12.30 ~ 2025.01.24)파이썬 라이브러리 matplotlib으로 2022년12월30일부터 2025년1월25일까지 유로 환율 값의 추이를 보기 위한 그래프를 그려 본 모습입니다. 당연하다면 당연하게도 계속해..
-
여행 갈 수 있을까..? ARIMA 모형과 함께하는 유로 환율 예측(1) - 전처리데이터 2025. 2. 2. 18:23
계기: 월간데이터노또(트)어느 날 글또 '데이터-ai 빌리지' 슬랙 채널에 올라온 글 하나...보는 순간 너무 재밌어보이잖아?! 물론 내가 이걸 꾸준히 할 수 있을까? 란 생각도 잠시 들었지만 할 수 있는 건 다 용기내어 해보기를 목표로 삼았기에 일단 신청! (안되면 되게 하라 어차피 하게는 되어있을테니..) 올라온 글을 살짝 늦게 확인한 터라 걱정했는데 다행히도 참여할 수 있었습니다🫢 주제 선정해보고 싶은 건 많지만 할 수 있는 것을 염두에 두고 정리하려니 너무 복잡...하지만 사실 할 건 정해져있었다! 5월에 프랑스 여행을 앞두고 최근 유로화 환전을 얼마쯤에 하면 그래도 괜찮을까? 를 고민하고 있었기에 그리고 오랜만에 비교적 간단한(?) 시계열 분석도 돌려보고 싶어서 유로 환율을 ARIMA 모형으..
-
데이터 웨어하우스 알아가기 #1. DW(Data Warehouse)란?데이터 2025. 1. 18. 23:32
요즘 데이터 모델링 관련해서도 계속해서 찾아보던 중에, 오늘은 데이터웨어하우스가 무엇인지, 필요성과 DW와 관련한 몇 가지 개념을 간단하게 살펴보려고 합니다. DW(Data Warehouse)란?Data Warehouse는 단어 그대로는 데이터 창고라는 의미를 가지는데, BI(Business Intelligence) 리포팅, 분석을 쉽게 할 수 있도록 지원하는 통합 데이터 관리 시스템입니다. 여러 원천(소스) 데이터를 연결하고 모아서 구축한 정보 시스템으로, 현재와 과거(historical) 데이터를 모아 조직의 분석 데이터 소스 역할을 합니다. 트랜잭션 데이터 일체부터 로그 및 기타 비정형 데이터까지 다양한 소스 데이터를 포함합니다. DW의 특징(이점)각 표현에 차이는 있을 수 있겠으나 데이터 웨..
-
[Amazon Redshift]DELETE vs TRUNCATE데이터 2024. 11. 24. 21:43
할 일들이 좀 몰려서 밀리다 결국 간신히 이번 글을 쓰게 되었네요. 어떤 내용을 쓰면 좋을까하며 일할 때 작성해둔 메모 및 정리글들을 좀 훑어보다가 DB에서 한 번씩은 꼭 언급된다는 DELETE와 TRUNCATE가 Amazon Redshift에서는 어떻게 다른지!에 대한 글을 작성해보려합니다.(딱 한 줄짜리 내용이지만 쓰고싶은 내용이 있어서요👀) +사용 예시(구문 예시)는 누군가에겐 그렇게까지?할 수 있겠지만 익숙하게 사용하던 명칭 습관과 같은 종류로 보안 이슈를 일으킬까봐 혹시몰라 Amazon Redshift 공식문서 예시로만 작성합니다. DELETE테이블의 데이터를 삭제하는 구문입니다. 테이블 전체 삭제를 할 수도 있고, 특정 조건 하의 데이터만 삭제하는 것도 가능합니다 사용 예시1) 테이블 전체..
-
Amazon Redshift 분산방식(diststyle) - AUTO, ALL, EVEN, KEY데이터 2024. 11. 10. 21:12
지난 번 Amazon Redshift 알아보기 글에서 '테이블을 생성할 때, 컬럼 1개를 분산 키(distribution key)로 지정할 수 있는데, 정의된 분산 키에 따라 행이 노드 슬라이스로 분산됩니다.' 라는 언급을 한 적이 있는데요. Amazon Redshift 에서 테이블을 생성할 때, 분산 방식(distribution style)을 지정할 수 있습니다. 이 때, 총 4가지 옵션 AUTO, EVEN, KEY, ALL 중 하나를 선택할 수 있습니다. 분산방식(DISTSTYLE) 지정 방법테이블 생성 시, 아래 스크립트와 같이 CREATE TABLE 구문과 함께 끝에 DISTSTYLE [분상방식 옵션]을 지정해주면 됩니다. DISTSTYLE을 KEY로 했을 경우에만 추가적으로 어떤 컬럼을 기준으..