[View in Colaboratory](https://colab.research.google.com/github/RayleighKim/M04_SN_II_Classification/blob/master/M4_Classification.ipynb)

# Classification 실습

1. Multivariate Logistic Regression
2. Artificial Neural Network Classification

Data : RetailChurnTemplate_TaggedData.csv

# 1. 라이브러리 로딩

In [0]:
import pandas as pd
import numpy as np
import sklearn as sk
import statsmodels.api as sm

from sklearn import linear_model
from sklearn import neural_network
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

# 2. 데이터 로딩 & 기초 전처리

1. 데이터를 불러올 것이다.
2. 사용하지 않는 데이터는 버려버릴 것이다!
3. 빈 칸이 있을까?
4. 더미를 이용하여 펼칠 것이다!

In [0]:
churn = pd.read_csv('https://raw.githubusercontent.com/RayleighKim/Example_datasets/master/RetailChurnTemplate_FeatureEngg.csv')

churn.head()

In [0]:
churn_dropped = churn.drop(['UserId', 'Gender', 'UserType'], axis=1)
churn_dropped.head()

In [0]:
churn_dropped.isna().any()

더미를 이용하여 펼치자.

In [0]:
churn_dropped.head()

In [0]:
pd.get_dummies(churn_dropped[['Age','Address']])

In [0]:
churn_processed = pd.concat([churn_dropped, pd.get_dummies(churn_dropped[['Age','Address']])], axis=1).drop(['Age','Address'], axis=1)

churn_processed['label'] = 1
churn_processed.ix[churn_processed['Label']=='Nonchurner', 'label'] = 0

churn_ready = churn_processed.drop('Label', axis=1)

churn_ready.head()

# 3. 데이터 스플릿.

시계열은 아니다!

데이터의 모양을 먼저 본다

In [0]:
churn_processed.shape

In [0]:
X_train, X_test, Y_train, Y_test = churn_ready.ix[:7000].drop('label', axis=1), \
churn_ready.ix[7001:].drop('label', axis=1),\
churn_ready.ix[:7000, 'label'],\
churn_ready.ix[7001:, 'label']

In [0]:
print(X_train.shape, X_test.shape, Y_train.shape, Y_test.shape)

# 4. Logistic Regression

In [0]:
# 6일 자른것

clf = linear_model.LogisticRegression()
clf.fit(X_train, Y_train)
Y_pred = clf.predict(X_test)
Y_pred_train = clf.predict(X_train)

print('트레이닝 7001명 중 실제 churner의 비율 : ',Y_train.mean())
print('트레이닝 7001명에 대해서 예측된 churner의 비율 :', Y_pred_train.mean())
print('모델의 트레이닝셋위의 정확도는 : {:.2f}'.format(clf.score(X_train, Y_train)*100))

print('--------------------------------------------')

print('테스트 2158명 중 실제 churner의 비율 : ',Y_test.mean())
print('테스트 2158명에 대해서 예측된 churner의 비율 :', Y_pred.mean())
print('모델의 테스트셋위의 정확도는 : {:.2f}'.format(clf.score(X_test, Y_test)*100))


print('---------------------------------------------')
print(metrics.confusion_matrix(Y_test,Y_pred).T)


print('---------------------------------------------')
print(metrics.classification_report(Y_test, Y_pred, target_names=('Non-churner','churner')))
pd.DataFrame({'colnames':X_train.columns, 'coef':clf.coef_.reshape(-1,)})

# 5. Neural Network Classification

In [0]:

clf = neural_network.MLPClassifier(hidden_layer_sizes=(32,32,32),learning_rate_init = 0.0001,max_iter=2000, random_state=2018)
clf.fit(X_train, Y_train)
Y_pred = clf.predict(X_test)
Y_pred_train = clf.predict(X_train)

print('트레이닝 7001명 중 실제 churner의 비율 : ',Y_train.mean())
print('트레이닝 7001명에 대해서 예측된 churner의 비율 :', Y_pred_train.mean())
print('모델의 트레이닝셋위의 정확도는 : {:.2f}'.format(clf.score(X_train, Y_train)*100))

print('--------------------------------------------')

print('테스트 2158명 중 실제 churner의 비율 : ',Y_test.mean())
print('테스트 2158명에 대해서 예측된 churner의 비율 :', Y_pred.mean())
print('모델의 테스트셋위의 정확도는 : {:.2f}'.format(clf.score(X_test, Y_test)*100))


print('---------------------------------------------')
print(metrics.confusion_matrix(Y_test,Y_pred).T)


print('---------------------------------------------')
print(metrics.classification_report(Y_test, Y_pred, target_names=('Non-churner','churner')))
print(clf.coefs_)

## (+Additional) Random Forest

In [0]:
clf = RandomForestClassifier(max_depth=8)
clf.fit(X_train, Y_train)
Y_pred = clf.predict(X_test)
Y_pred_train = clf.predict(X_train)

print('트레이닝 7001명 중 실제 churner의 비율 : ',Y_train.mean())
print('트레이닝 7001명에 대해서 예측된 churner의 비율 :', Y_pred_train.mean())
print('모델의 트레이닝셋위의 정확도는 : {:.2f}'.format(clf.score(X_train, Y_train)*100))

print('--------------------------------------------')

print('테스트 2158명 중 실제 churner의 비율 : ',Y_test.mean())
print('테스트 2158명에 대해서 예측된 churner의 비율 :', Y_pred.mean())
print('모델의 테스트셋위의 정확도는 : {:.2f}'.format(clf.score(X_test, Y_test)*100))


print('---------------------------------------------')
print(metrics.confusion_matrix(Y_test,Y_pred).T)


print('---------------------------------------------')
print(metrics.classification_report(Y_test, Y_pred, target_names=('Non-churner','churner')))
print(clf.feature_importances_)

In [0]:
}