필요한 데이터 파일
이 실습을 위해서는 다음 데이터 파일들이 필요합니다.data/ 폴더에 저장해주세요.
💡 데이터 준비 방법
- 1. 프로젝트 폴더에
data폴더를 생성하세요 - 2. 위의 모든 CSV 파일을 data 폴더에 저장하세요
- 3. Jupyter Notebook을 실행하고 실습을 시작하세요
실습 정보
실습 단계 미리보기
다음과 같은 순서로 실습이 진행됩니다.
환경 설정 및 데이터 로딩
분석에 필요한 라이브러리를 import하고, 4개의 주요 데이터셋을 로딩하여 기본 정보를 확인합니다.
데이터 전처리 및 파생변수 생성
날짜 데이터를 적절한 형식으로 변환하고, 배송 지연을 측정할 수 있는 파생변수를 생성합니다.
매출 데이터 통합 및 월별 분석
주문과 결제 데이터를 결합하여 시간별 매출 추이를 분석할 수 있는 데이터셋을 구성합니다.
매출 추이 시각화
매출의 시간적 변화를 시각적으로 파악하여 계절성이나 트렌드를 분석합니다.
주문 상태별 분포 분석
주문의 다양한 상태를 파악하여 비즈니스 프로세스의 효율성을 평가합니다.
배송 성과 분석
배송 성과를 정량적으로 분석하여 물류 효율성을 평가하고 개선점을 찾습니다.
배송 지연 분포 시각화
배송 지연의 패턴을 시각적으로 분석하여 배송 프로세스 개선의 우선순위를 설정합니다.
상품별 매출 분석
개별 상품의 매출 성과를 분석하여 베스트셀러와 수익성 높은 상품을 식별합니다.
지역별 판매 현황 분석
지역별 판매 성과를 분석하여 주요 시장과 성장 기회가 있는 지역을 파악합니다.
지역별 매출 시각화
지역별 매출 분포를 시각화하여 비즈니스 집중 지역과 확장 기회를 명확히 파악합니다.
머신러닝 데이터 준비
매출 예측 모델을 위한 피처 엔지니어링을 수행하여 시간적 패턴과 결제 방법을 수치화합니다.
머신러닝 모델 학습 데이터 분할
머신러닝 모델 학습을 위해 피처를 선정하고 학습/테스트 데이터를 적절히 분할합니다.
선형 회귀 모델 학습 및 평가
기본적인 선형 회귀 모델을 사용하여 매출 예측의 베이스라인 성능을 측정합니다.
랜덤 포레스트 모델 학습 및 평가
앙상블 기법인 랜덤 포레스트를 사용하여 예측 성능을 개선하고 선형 회귀와 비교합니다.
피처 중요도 분석
모델이 학습한 패턴을 분석하여 매출에 가장 큰 영향을 미치는 요인들을 파악합니다.
예측 결과 시각화
예측 모델의 성능을 시각적으로 비교하여 모델의 정확도와 편향을 직관적으로 파악합니다.
비즈니스 인사이트 도출
전체 분석 결과를 종합하여 경영진이 이해하기 쉬운 핵심 지표들을 정리합니다.
개선 방안 제시
데이터 분석 결과를 실제 비즈니스 개선으로 연결하는 구체적이고 실행 가능한 방안을 제시합니다.