<font color = "#CC3D3D">
# End-to-End Machine Learning Project #
<p>
- #### *Based on CRISP-DM & scikit-learn*    
<br>
<img align="left" src="http://www.kdnuggets.com/wp-content/uploads/crisp-dm-4-problems-fig1.png" alt="CRISP-DM">

## Step 1: Business Understanding ##

1. Business Objectives
 - 새로운 개인연금상품(PEP: Personal Equity Plan)을 개발하여 기존 고객들을 대상으로 가능한 많은 계좌를 유치
2. Analytics Goals
 - PEP 가입 예측모형 개발
 - 고객 프로파일 개발
 - 다이렉트 메일 광고 효율성 제고
 - 타겟 메일링에 의한 응답률 제고 

## Step 2: Data Understanding ##
1. 데이터 획득 절차
 - 기존고객 DB로부터 시험메일 발송을 위한 표본고객목록을 추출
 - 새로운 금융상품(PEP)의 제안 메일을 발송
 - 고객의 반응을 기록
2. 분석 데이터
 - 학습용 데이터 600건
 - 신규고객 데이터 200건

In [None]:
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

### Collect Initial Data ###

##### for modeling

In [None]:
df = pd.read_csv("data_pepTestCustomers.csv")
df

##### for deployment

In [None]:
new = pd.read_csv("data_pepNewCustomers.csv")
new.head()

### Describe Data ###

In [None]:
# 데이터 구조 살펴보기
# ex) age의 경우 600개중 540개만 있어서 60개가 결측치로 예상
df.info()

##### Find Missing Values

In [None]:
# 결측값이 존재하는 속성이 무엇인지, 몇개나 있는지 파악할 수 있는 두번째 방법
# null 갯수 체크
df.isnull().sum()

## Step 3: Data Preparation ##

### Clean Data ###
##### Replace Missing Values #####

In [None]:
# 평균값으로 결측값 대체하기
# fillna 는 널값을 채우라. 여기서는 평균으로 채우고 있음.
# 분석의 상황에 따라 null 값을 그대로 사용함.
df.age.fillna(round(df.age.mean(),0), inplace=True)
df.info()

In [None]:
# for Hold-out validation
from sklearn.model_selection import train_test_split  

In [None]:
# scikit-learn에서는 속성과 클래스를 분리하여야 한다.

dfX = df.drop(['id','pep'], axis=1)  # exclude 'id' attribute & class variable
dfy = df['pep']                    # class variable
X_train, X_test, y_train, y_test = train_test_split(dfX, dfy, test_size=0.25, random_state=0)

In [None]:
# 지정한 비율(75:25)로 데이터가 잘 나누어졌는지 확인
display(X_train.shape, X_test.shape)
X_train.head()

## Step 4: Modeling ##

In [None]:
# 1. Import the estimator
from sklearn.tree import DecisionTreeClassifier

In [None]:
# 2. Instantiate the estimator
tree = DecisionTreeClassifier(max_depth=6, random_state=0)

In [None]:
# 3. Fit the data to the estimator
tree.fit(X_train, y_train)

In [None]:
# 4. Generate a prediction
pred_tree = tree.predict(X_test); pred_tree

In [None]:
# 5. Evaluate the estimator
display(tree.score(X_train, y_train))
display(tree.score(X_test, y_test))

## Step 5: Evaluation ##

<font color = "red">
- *Which model is the best ?*
- *Is the model useful ?*
<font>

In [None]:
tree.score(X_test, y_test)

## Step 6: Deployment ##

In [None]:
ndf = new

### A Case: Apply the best model to select target customers ###

In [None]:
# 개발 모형에 고객 데이터를 적용하여 개인연금 구매여부를 예측: id 제외
new['pred'] = tree.predict(ndf.loc[:,'age':'mortgage'])

In [None]:
# 개인연금 구매확률을 예측: predict_proba() 사용
print(tree.predict_proba(new.loc[:,'age':'mortgage']))
new['pred_prob'] = tree.predict_proba(new.loc[:,'age':'mortgage'])[:,1]
new.head()

In [None]:
# 특정 조건을 만족하는 고객 리스트를 추출하고 저장
# query 조건 만족 행을 뽑을 때 사용
target = new.query('pred == 1 & pred_prob > 0.7')  # PEP에 가입할 확율이 70%가 넘는 고객만 추출
target.sort_values(by="pred_prob", ascending=False).to_csv("pep_target.csv", index=False)
pd.read_csv("pep_target.csv").tail()