#[요구사항 정의서] 통신사 고객 이탈 예측 모델 구축 프로젝트

1. 프로젝트 개요
- 프로젝트명: 머신러닝 기반 통신사 고객 이탈(Churn) 예측 및 분석
- 목적: 가입 고객 데이터를 활용하여 이탈 여부를 예측하는 분류 모델을 구축하고
  - 예측 성능 향상을 위한 데이터 전처리 및 알고리즘 최적화를 실습함
- 핵심 도구: Python, Pandas, Scikit-learn (RandomForest)

## 변수 설명 (WA_Fn-UseC_-Telco-Customer-Churn.csv)

- Churn: 고객의 이탈 여부 (Yes: 이탈, No: 유지)
- gender: 성별 (Male, Female)

- SeniorCitizen: 고령자 여부 (0: 아님, 1: 맞음)

- Partner: 배우자 유무 (Yes, No)

- Dependents: 부양가족(자녀 등) 유무 (Yes, No)

- tenure: 고객의 가입 기간 (개월 수)

- PhoneService: 휴대폰 서비스 가입 여부 (Yes, No)

- MultipleLines: 다회선 사용 여부 (Yes, No, No phone service)

- InternetService: 인터넷 서비스 제공 방식 (DSL, Fiber optic, No)

- OnlineSecurity: 온라인 보안 서비스 가입 여부 (Yes, No, No internet service)

- OnlineBackup: 온라인 백업 서비스 가입 여부 (Yes, No, No internet service)

- DeviceProtection: 기기 보호 서비스 가입 여부 (Yes, No, No internet service)

- TechSupport: 기술 지원 서비스 가입 여부 (Yes, No, No internet service)

- StreamingTV: TV 스트리밍 서비스 가입 여부 (Yes, No, No internet service)

- StreamingMovies: 영화 스트리밍 서비스 가입 여부 (Yes, No, No internet service)

- Contract: 계약 형태 (Month-to-month, One year, Two year)

- PaperlessBilling: 종이 없는 청구서(전자 고지서) 이용 여부 (Yes, No)

- PaymentMethod: 결제 수단 (Electronic check, Mailed check, Bank transfer, Credit card)

- MonthlyCharges: 매달 청구되는 금액

- TotalCharges: 현재까지 청구된 총 누적 금액

- customerID: 각 고객을 구분하기 위한 고유 ID

## [학생 전달 사항]

- 위 요구사항의 순서대로 코드를 작성하십시오.

- 각 단계마다 데이터의 형태(shape)나 결측치 존재 여부를 info(), isnull().sum() 함수 등으로 수시로 체크하며 진행하십시오.

# 2. 데이터 분석 프로세스 (Workflow)


## 단계 1: 환경 설정 및 데이터 로드
- 요구사항: 분석에 필요한 라이브러리를 임포트하고 제공된 CSV 데이터를 데이터프레임 형식으로 불러온다.


- 기술 지침:
  - 데이터 가공을 위해 pandas, numpy를 사용한다.

  - 시각화를 위해 matplotlib, seaborn을 활용하며, 한글 폰트 설정을 완료해야 한다.

In [None]:
# 한글 설정 (1) 실행 후 세션 다시 시작 할 것 (colab 기반)
# !sudo apt-get install -y fonts-nanum
# !sudo fc-cache –fv
# !rm ~/.cache/matplotlib -rf

In [1]:
# 한글 처리를 위한 matplotlib 설정 (2)
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns

df = pd.read_csv('./data/raw/WA_Fn-UseC_-Telco-Customer-Churn.csv')

## 단계 2: 데이터 전처리 (Data Cleaning & Feature Engineering)
- 요구사항: 모델 학습이 가능하도록 데이터 타입을 변환하고, 불필요한 변수 제거 및 수치화 과정을 거친다.

- 기술 지침:

  - 타입 변환: 'TotalCharges' 컬럼의 문자열 데이터를 수치형(pd.to_numeric)으로 변환하고 발생한 결측치는 제거한다.

  - 변수 제거: 예측 성능에 영향을 주지 않는 'customerID'와 같은 식별값은 데이터셋에서 제외한다.

  - 범주형 변수 처리:

    - 이진 분류 값(gender, Partner 등)은 LabelEncoder를 사용하여 0과 1로 변환한다.

    - 다중 범주형 변수(Contract, PaymentMethod 등)는 pd.get_dummies를 사용하여 원-핫 인코딩(One-hot Encoding)을 수행한다.

In [3]:
df.head(5)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


# 단계 3: EDA(탐색적 데이터 분석)
- 요구사항: 데이터 시각화를 통해 데이터 분석 과정을 거친다.
- 기술 지침:
  - [그래프 1] countplot: 계약 유형별 이탈 현황
  - [그래프 2] kdeplot: 가입 기간과 이탈의 관계
  - [그래프 3] kdeplot: 월 요금과 이탈의 관계
- 분석 결과를 작성하여 고객 이탈에 영향을 미치는 주요 시각화 지표를 설명하시오.

# 단계 4: 데이터 분리 (Train/Test Split)
- 요구사항: 모델의 객관적인 성능 평가를 위해 데이터를 학습용(Train)과 테스트용(Test)으로 분리한다.

- 기술 지침:

  - sklearn.model_selection의 train_test_split을 사용한다.

  - 종속 변수(target)는 'Churn'으로 설정하고, 독립 변수(features)에서 이를 제외한다.

# 단계 5: 모델 구축 및 학습 (Modeling)
- 요구사항: 앙상블 학습 알고리즘인 랜덤 포레스트(Random Forest)를 사용하여 예측 모델을 생성한다.

- 기술 지침:

  - sklearn.ensemble 라이브러리의 RandomForestClassifier를 호출한다.

  - 일관된 결과를 위해 random_state 인자를 특정 숫자로 고정하여 학습을 진행한다.

# 단계 6: 성능 평가 (Evaluation)
- 요구사항: 학습된 모델에 테스트 데이터를 입력하여 예측 정확도와 상세 지표를 확인한다.

- 기술 지침:

  - accuracy_score를 통해 전체 정확도를 산출한다.

  - classification_report를 활용하여 Precision(정밀도), Recall(재현율), F1-score를 종합적으로 분석한다.

  - confusion_matrix를 통해 실제값 대비 예측값의 분포를 확인한다.

# 단계 7: 비즈니스 분석 및 인사이트 도출
- 요구사항: 모델이 예측 시 가장 중요하게 고려한 변수(Feature Importance)를 추출하고 시각화한다.

- 기술 지침:

  - 학습된 모델의 feature_importances_ 속성을 사용하여 변수 중요도를 정렬한다.

  - 도출된 중요 변수(예: tenure, MonthlyCharges 등)를 바탕으로 이탈 방지 전략을 서술한다.