# 3. 분별(Classification) 문제: 이탈 고객 감지하기

## 비즈니스 상황

* 신규 고객 획득 비용은 기존 고객 유지 비용보다 5-25배 이상 높음(<a href="https://hbr.org/2014/10/the-value-of-keeping-the-right-customers" target="_blank">HBR</a>).
* 또한 충성도 높은 고객 기반은 upselling 또는 VOC 수집 등이 가능하여 1차 비용 절감 이상의 전략적 가치를 지닌, 지속 가능한 성장의 밑바탕 자산임.
* 고객 행동의 예후를 바탕으로 이탈 가능성을 미리 파악할 경우, 타겟팅된 마케팅 전략으로 이탈을 일부 방어하여 유지율을 높일 수 있음.

## 분석 제목

* _A(어떤 데이터로)_: **가입 고객의 프로필 데이터로** 
* _B(어떤 분석 컨셉으로)_: **해지 여부를 사전에 예측하여**
* _C(어떤 결론을 내어)_: **위험 고객에 선제적 프로모션으로** 
* _D(어떤 가치를 더할지)_: **고객 이탈을 방지함**

## 데이터 준비

* 나이 (`age`): 고객의 나이
* 성별 (`gender`): 고객 성별 (1: 남성, 0: 여성)
* 가입 유형 (`subscription_type`): 가입 유형 (1: 기본, 2: 프리미엄, 3: 가족, 4: 맞춤)
* 평균 월간 지출 (`average_spend`): 평균 월간 지출액
* 가입 기간 (`duration`): 가입 기간 (주 수로 표현)
* 이벤트 이용 여부 (`promotion`): 프로모션 이벤트 이용 여부 (1: 자주 이용, 0: 거의/전혀 이용하지 않음)
* 피드백 응답 (`feedback_response`): 고객의 피드백 상태 (0: 응답하지 않음, 1: 부정적 응답, 2: 긍정적 응답)
* 앱에서의 활동 레벨 (`app_activity`): 앱에서의 평균 월간 로그인 빈도
* 고객 불만 (`complaints`): 불만이 있었는지 (1: 있음, 0: 없음)
* 할인 민감도 (`discount_sensitivity`): 할인에 대한 민감도 (0-1 사이의 소수점; 높을수록 민감)
* 결제 방법 (`payment_method`): 선호 결제 방법 (1: 신용카드, 2: 직불카드, 3: 기타)
* 이탈 여부 (`churn`): 멤버십 해지 여부 (0: 해지하지 않음, 1: 해지함)

In [None]:
# 5.1 [TASK] pandas 패키지를 불러오고 "churn_data.csv" 파일을 열어 data 변수로 저장합니다
# 그리고 ChatGPT에게 질문할 수 있도록 준비해둡니다


In [None]:
# 5.2 범주형 데이터를 수치형에서 변환
category_variables = ["gender", "subscription_type", "promotion", "feedback_response", "complaints", "payment_method"]
data[category_variables] = data[category_variables].astype("string")

## 탐색 분석(EDA)

여기에서는 자동 EDA 툴을 사용하여 데이터를 탐색함.

In [None]:
# 5.3 데이터 레포트
import warnings
import sweetviz as sv

warnings.filterwarnings('ignore')
my_report = sv.analyze(data)
my_report.show_notebook()

## 모델링을 위한 데이터 준비

In [None]:
# 5.4 범주형 데이터 처리하기 (dummy 변수)
data2 = pd.get_dummies(data, columns=category_variables, drop_first=True)
data2.head()

In [None]:
# 5.5 [TASK] 모델링을 위해 data2에서 X와 y("churn")를 분리합니다



In [None]:
# 5.6 [TASK] 변수 스케일링
# 아래와 같이 age 변수에 대해 스케일링을 합니다
# Z-Score = (값 - 평균) / 표준편차
age_values = data2["age"]
age_mean = age_values.mean()
age_stdev = age_values.std()
age_scaled = (____ - ____) / ____
age_scaled

In [None]:
# 5.7 [TASK] 변수 스케일링
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled

In [None]:
# 5.8 중요! [TASK] X_scaled와 y를 train과 test로 나눕니다


## 모델링

참고: [로지스틱 회귀 시각화](https://mlu-explain.github.io/logistic-regression/)

In [None]:
# 5.9 [TASK] X_train, X_test, y_train, y_test이 있을 때 로지스틱 회귀 모델로 예측한 후 정확도를 출력합니다


참고: [구글 신경망 플레이그라운드](https://playground.tensorflow.org/)

In [None]:
# 5.10 [TASK] X_train, X_test, y_train, y_test이 있을 때 신경망 모델로 예측한 후 정확도를 출력합니다 (MLPClassifier 이용)


참고: [랜덤 포레스트 시각화](http://www.r2d3.us/visual-intro-to-machine-learning-part-1/)

In [None]:
# 5.11 [TASK] X_train, X_test, y_train, y_test이 있을 때 랜덤포레스트 모델로 예측한 후 정확도를 출력합니다


## 결과 해석

In [None]:
# 5.12 [TASK] random_forest_model 예측 값의 혼동 행렬(confusion matrix)를 plot으로 출력한 후 정확도, 정밀도, 회수율을 계산합니다


In [None]:
# 5.13 [TASK] random_forest_model 예측의 요인별 중요도를 plot으로 출력합니다


## 첨부. 완성된 코드

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score

data = pd.read_csv("churn_data.csv")
category_variables = ["gender", "subscription_type", "promotion",
                      "feedback_response", "complaints", "payment_method"]
data[category_variables] = data[category_variables].astype("string")
data2 = pd.get_dummies(data, columns=category_variables, drop_first=True)

X = data2.drop('churn', axis=1)
y = data2['churn']

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

X_scaled_train, X_scaled_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42)

logistic_model = LogisticRegression()
logistic_model.fit(X_scaled_train, y_train)
logistic_y_pred = logistic_model.predict(X_scaled_test)
accuracy_score(y_test, logistic_y_pred)

rf_model = RandomForestClassifier()
rf_model.fit(X_scaled_train, y_train)
rf_y_pred = rf_model.predict(X_scaled_test)
accuracy_score(y_test, rf_y_pred)

nn_model = MLPClassifier()
nn_model.fit(X_scaled_train, y_train)
nn_y_pred = nn_model.predict(X_scaled_test)
accuracy_score(y_test, nn_y_pred)

confusion_matrix = confusion_matrix(y_test, rf_y_pred)
sns.heatmap(confusion_matrix, annot=True, cmap="Blues", fmt="d")
plt.xlabel("Predicted")
plt.ylabel("Actual")
plt.title("Confusion Matrix")
plt.show()
accuracy_score(y_test, rf_y_pred), precision_score(y_test, rf_y_pred), recall_score(y_test, rf_y_pred)

importances = rf_model.feature_importances_
sns.barplot(x=importances, y=X.columns)
plt.xlabel("Importance")
plt.ylabel("Features")
plt.title("Feature Importances")
plt.show()
