필요한 데이터 파일
이 실습을 위해서는 다음 데이터 파일들이 필요합니다.data/ 폴더에 저장해주세요.
💡 데이터 준비 방법
- 1. 프로젝트 폴더에
data폴더를 생성하세요 - 2. 위의 모든 CSV 파일을 data 폴더에 저장하세요
- 3. Jupyter Notebook을 실행하고 실습을 시작하세요
실습 정보
실습 단계 미리보기
다음과 같은 순서로 실습이 진행됩니다.
환경 설정 및 데이터 로딩
고객 서비스 분석에 필요한 라이브러리를 import하고, 리뷰, 주문, 고객 데이터를 로딩합니다.
기본 리뷰 분석
고객 리뷰 점수의 전체적인 분포를 파악하여 고객 만족도 현황을 분석합니다.
만족도 지표 계산
고객 만족도의 핵심 지표들을 계산하여 서비스 품질의 전반적인 수준을 평가합니다.
주문 데이터 전처리
배송 성과 분석을 위해 날짜 데이터를 전처리하고 배송 소요일을 계산합니다.
데이터 병합 및 통합
리뷰, 주문, 고객 데이터를 통합하여 종합적인 고객 서비스 분석이 가능한 데이터셋을 구성합니다.
배송 시간과 만족도 관계 분석 준비
배송과 만족도의 관계를 분석하기 위해 배송 완료된 주문만을 대상으로 데이터를 준비합니다.
배송 시간대별 만족도 분석
배송 소요 시간이 고객 만족도에 미치는 영향을 구간별로 분석합니다.
배송 시간과 만족도 시각화
배송 시간과 고객 만족도의 관계를 시각적으로 표현하여 배송 성과의 영향을 분석합니다.
지역별 만족도 분석
지역별 고객 만족도를 분석하여 지역 특성에 따른 서비스 품질 차이를 파악합니다.
상위 지역 만족도 시각화
주요 지역의 고객 만족도를 시각화하여 지역별 서비스 품질 격차를 명확히 파악합니다.
리뷰 텍스트 길이 분석
리뷰 텍스트의 길이를 분석하여 고객의 만족도와 리뷰 작성 패턴의 관계를 파악합니다.
리뷰 텍스트 패턴 시각화
리뷰 텍스트의 다양한 패턴을 종합적으로 분석하여 고객의 피드백 특성을 파악합니다.
시간별 만족도 추이 분석
시간에 따른 고객 만족도 변화를 분석하여 서비스 품질의 추이를 파악합니다.
월별 추이 시각화
월별 리뷰 수와 만족도 추이를 시각화하여 시간에 따른 패턴과 변화를 분석합니다.
머신러닝 데이터 준비
머신러닝 모델 학습을 위해 시간 관련 피처를 생성하고 배송 지연 여부를 이진화합니다.
카테고리 인코딩 및 피처 선택
카테고리 변수를 인코딩하고 머신러닝 모델에 사용할 피처를 최종 선정합니다.
데이터 분할 및 선형 회귀 모델
기본적인 선형 회귀 모델을 사용하여 고객 만족도 예측의 베이스라인 성능을 측정합니다.
랜덤 포레스트 회귀 모델
앙상블 기법인 랜덤 포레스트를 사용하여 예측 성능을 개선하고 선형 회귀와 비교합니다.
만족도 분류 모델 데이터 준비
회귀 문제를 분류 문제로 변환하여 고객 만족도를 범주별로 예측하는 모델을 준비합니다.
랜덤 포레스트 분류 모델 학습
랜덤 포레스트 분류 모델을 사용하여 고객 만족도를 범주별로 예측하고 성능을 평가합니다.
피처 중요도 분석
모델이 고객 만족도를 예측할 때 가장 중요하게 고려하는 요인들을 분석합니다.
피처 중요도 시각화
피처 중요도를 시각화하여 고객 만족도에 영향을 미치는 주요 요인들을 직관적으로 파악합니다.
혼동 행렬 시각화
혼동 행렬을 통해 각 만족도 범주별 예측 정확도와 오분류 패턴을 분석합니다.
불만족 고객 심층 분석
불만족 고객의 특성을 심층 분석하여 서비스 개선이 시급한 지역과 원인을 파악합니다.
배송 지연 영향 분석
배송 지연이 고객 만족도에 미치는 구체적인 영향을 정량적으로 분석합니다.
개선 우선순위 지역 분석
불만족 고객이 많고 평균 점수가 낮은 지역을 식별하여 서비스 개선의 우선순위를 설정합니다.
예측 모델 결과 시각화
예측 모델의 성능을 시각적으로 비교하여 모델의 예측 정확도와 편향을 분석합니다.
비즈니스 인사이트 도출
전체 고객 서비스 분석 결과를 핵심 지표로 요약하여 현재 서비스 품질 수준을 평가합니다.
개선 제안 사항 도출
데이터 분석 결과를 실제 서비스 개선으로 연결하는 구체적이고 실행 가능한 방안을 제시합니다.