# 고객 이탈 여부 예측하기

어느 서비스이건 많은 수의 고객을 확보하는 것이 중요합니다. 하지만 그만큼 중요한 것은 그 고객들이 얼마나 서비스를 이탈하는지 인데 이를  이탈율(churn rate)이라고 부릅니다. 구독 서비스의 경우 이는 고객이 구독을 해지하는 비율을 말합니다. 예를 들어 이번 달에 100명의 구독자가 있었는데 다음 달에 이중 10명의 구독자가 해지를 한다면 이탈률은 10%가 됩니다. 이탈율은 당연히 회사 전체로 중요한 지표가 됩니다. 

서비스 이탈이 주는 영향이 크기에 많은 회사에서는 고객의 행동을 보고 이 사람이 이탈을 할지 말지 결정하는 모델을 만들어서 미리 예측을 하고 거기에 맞춰 마음을 돌릴 수 있는 행동(할인쿠폰 보내기 등등)을 취합니다. 이번 문제는 고객의 지난 4주 간의 거래 금액의 추이를 보고 고객이 이탈을 할지 서비스를 계속 사용할지 예측하는 모델을 만들어보는 것입니다. 


## 훈련/테스트 데이터 셋 설명

앞서 섹션에서 언급한 모델을 만들기 위한 훈련용 데이터(train.csv)와 나중에 만들어진 모델의 성능을 측정하기 위한 테스트 데이터(test.csv)가 제공이 됩니다. 두 개의 포맷은 전자에는 레이블 필드가 있다는 점을 제외하고는 동일합니다.

* train.csv
* test.csv

### Feature 설명

먼저 훈련용 데이터와 테스트용 데이터에 들어오는 Feature들을 정리해보면 다음과 같습니다.

|필드이름|	타입|	설명|
|:-----|:---|:----|
|churned|	정수|	이번 주에 고객이 서비스를 이탈할지 여부를 나타내는 레이블 필드로 1이면 이탈한 것이고 0이면 아직 서비스를 사용하고 있음을 나타냄.|
|id|	정수|	레코드마다 부여되는 일련번호|
|customer_code|	정수|	고객마다 부여되는 식별자|
|co_name|	문자열|	고객의 이름|
|total_spend|   실수| 고객의 지난 일년간 총 거래액|
|week_minus_4|	실수|	4주전의 고객 거래액/일년간 총 거래액|
|week_minus_3|	실수|	3주전의 고객 거래액/일년간 총 거래액|
|week_minus_2|	실수|	2주전의 고객 거래액/일년간 총 거래액|
|last_week|	실수|	지난 주 고객 거래액/일년간 총 거래액 |

#### 훈련용 데이터 (train.csv) 예제

고객 이탈 여부를 훈련하기 위한 데이터는 train.csv 파일에 있고 총 9개의 필드로 구성되어 있고 그 중 처음 필드는 이탈 여부를 나타내는 레이블 필드(churned)입니다. 훈련용 데이터 파일에는 총 2,499개의 레코드(와 하나의 헤더)가 제공되며 참고로 처음 2줄(첫 줄은 헤더)은 다음과 같습니다.

| churned | id  | customer_code | co_name                       | total_spend | week_minus_4 | week_minus_3 | week_minus_2 | last_week |
| ------- | --- | ------------- | ----------------------------- | ----------- | ------------ | ------------ | ------------ | --------- |
| 0       | 1   | 1826          | Hoffman Martinez and Chandler | 68567.34    | 0.81         | 0.02         | 0.74         | 1.45      |

#### 테스트용 데이터 (test.csv) 예제

앞서 만든 모델로 풀어야 하는 문제들이 들어있는 파일들이 바로 test.csv입니다. 이 파일의 구성은 앞서 train.csv와 비슷하게 한 줄의 헤더 라인과 500개의 feature 데이터 라인들로 구성되어 있습니다. test.csv에는 train.csv와는 달리 이탈 여부를 나타내는 churned 필드가 없다는 점을 제외하고는 동일합니다. 예를 들어 처음 2줄(첫 줄은 헤더)은 다음과 같습니다.

| id   | customer_code | co_name      | total_spend | week_minus_4 | week_minus_3 | week_minus_2 | last_week |
| ---- | ------------- | ------------ | ----------- | ------------ | ------------ | ------------ | --------- |
| 2500 | 1104          | Martinez PLC | 15555.41    | 1.01         | 2.07         | 2.12         | 2.25      |

## 초기코드 선택

Python, R 중 본인의 선호 언어에 따라 초기 코드를 선택하세요.
Python을 선호한다면 Python 초기 코드를, R을 선호한다면 R 초기 코드만 남기면 됩니다.

In [None]:
# 초기코드 - python
import pandas as pd

# 데이터 로드
train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

train.head()

### 최종 제출 파일

여러분이 제출해야하는 파일은 다음과 같은 두 개의 필드는 갖는 CSV 파일입니다.
 
1. id
2. churned


id는 test.csv에서 받은 id 필드의 값을 사용합니다. churned는 해당 고객의 이탈 여부 예측 값에 해당합니다. 예를 들면 아래와 같습니다.

|id|churned|
|--|-------|
|2500|0|
|2501|0|
|2502|0|
|2503|1|
|2504|1|
|...|...|

앞서 언급했던 것처럼 보통 분류 지도학습의 경우 훈련용 데이터가 제공되고 예측해야하는 레이블 정보가 어느 정도 밸런스를 유지해야 합니다. 이 이탈 예측 문제의 경우 이탈 고객의 수가 훨씬 작기 때문에 여러분이 만드는 모델의 최종 성능은 정확도 (accuracy)로 측정하지 않고 F1 점수로 측정합니다.

###   결과 저장

채점을 위해, 위에서 구한 데이터를 현재 파일과 같은 디렉토리(.ipynb 파일이 있는 디렉토리)에 `submission.csv`이라는 이름으로 저장해주세요.

In [None]:
# 여기에 코드를 작성하세요.

In [None]:
# csv 파일 저장 예시 - python
df.to_csv('submission.csv')

In [None]:
# csv 파일 저장 예시 - R
write.csv(df, file='submission.csv')