# 実習3　分類

## 実習概要

scikit-learnのライブラリを使用して、以下の操作を習得します。

- ラベルの数値化、One-Hotエンコーディング
- 標準化
- 主成分分析
- グリッドサーチによるパラメーター調整

※セルは適宜追加してください。

## データ概要

- クレジットカード.csv

    C:\PyML\exercise\1.Classifier\クレジットカード.csv
    ※実習１の課題と同じデータを使います。

    あなたはクレジットカード会社A社の運用担当です。将来的に債務不履行を起こす予兆があるユーザーを事前に把握し、アプローチしていきたいと考えています。

|列名|意味|
|:--|:--|
|性別、最終学歴など|クレジットカード利用者のユーザー情報|
|支払状況|過去の滞納情報。「なし」=滞納なし、「Nヶ月」=Nヶ月滞納。|
|請求額|クレジットカード会社からの請求額|
|支払額|クレジットカード会社からの貸し出し額|
|債務不履行|当月の債務不履行の発生有無（1が債務不履行あり、0が債務不履行なし）|

## 事前準備

### ライブラリのインポート

※必要であれば、ライブラリを追加インポートしてください

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_score,recall_score,make_scorer
from sklearn.preprocessing import LabelEncoder,OneHotEncoder, StandardScaler
from sklearn.decomposition import PCA

### ファイルの読み込み

In [2]:
df = pd.read_csv('クレジットカード.csv',encoding='shift_jis',engine='python')

In [3]:
df.head(3)

Unnamed: 0,性別,最終学歴,結婚,支払状況_1ヵ月前,支払状況_2ヵ月前,支払状況_3ヵ月前,支払状況_4ヵ月前,支払状況_5ヵ月前,支払状況_6ヵ月前,年齢,...,請求額_4ヵ月前,請求額_5ヵ月前,請求額_6ヵ月前,支払額_1ヵ月前,支払額_2ヵ月前,支払額_3ヵ月前,支払額_4ヵ月前,支払額_5ヵ月前,支払額_6ヵ月前,債務不履行
0,女,大学,既婚,2ヵ月,2ヵ月,なし,なし,なし,なし,24,...,0,0,0,0,689,0,0,0,0,1
1,女,大学,未婚,なし,2ヵ月,なし,なし,なし,2ヵ月,26,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,女,大学,未婚,なし,なし,なし,なし,なし,なし,34,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0


## データ加工

### 欠損値削除

In [4]:
df_post_drop = df.dropna()

In [5]:
df_post_drop.shape

(29931, 24)

In [6]:
df_post_drop = df_post_drop.reset_index(drop=True) # indexの振りなおしをしないと、後でconcatする際、正しく結合されないので注意

In [7]:
df_post_drop.head(1)

Unnamed: 0,性別,最終学歴,結婚,支払状況_1ヵ月前,支払状況_2ヵ月前,支払状況_3ヵ月前,支払状況_4ヵ月前,支払状況_5ヵ月前,支払状況_6ヵ月前,年齢,...,請求額_4ヵ月前,請求額_5ヵ月前,請求額_6ヵ月前,支払額_1ヵ月前,支払額_2ヵ月前,支払額_3ヵ月前,支払額_4ヵ月前,支払額_5ヵ月前,支払額_6ヵ月前,債務不履行
0,女,大学,既婚,2ヵ月,2ヵ月,なし,なし,なし,なし,24,...,0,0,0,0,689,0,0,0,0,1


### 下記の加工リストを参考に、適切な加工を実行してください。

- ラベルの数値化、One-Hotエンコーディング
- 標準化
- 主成分分析
- グリッドサーチによるパラメーター調整

### LabelEncoding

In [8]:
le = []
enc_columns = []
df_post_leenc = df_post_drop.copy()

In [9]:
#np.unique(df.iloc[:,1]) #欠損値チェック

In [10]:
for i in np.arange(0,9):
    le = np.append(le,LabelEncoder())
    le[i].fit(df_post_leenc.iloc[:,i])
    enc_columns = np.append(enc_columns , df_post_leenc.columns[i] + '_' + le[i].classes_)
    df_post_leenc.iloc[:,i] = le[i].transform(df_post_leenc.iloc[:,i])

In [11]:
df_post_leenc.head(2)

Unnamed: 0,性別,最終学歴,結婚,支払状況_1ヵ月前,支払状況_2ヵ月前,支払状況_3ヵ月前,支払状況_4ヵ月前,支払状況_5ヵ月前,支払状況_6ヵ月前,年齢,...,請求額_4ヵ月前,請求額_5ヵ月前,請求額_6ヵ月前,支払額_1ヵ月前,支払額_2ヵ月前,支払額_3ヵ月前,支払額_4ヵ月前,支払額_5ヵ月前,支払額_6ヵ月前,債務不履行
0,0,1,1,1,1,8,8,7,7,24,...,0,0,0,0,689,0,0,0,0,1
1,0,1,2,8,1,8,8,7,0,26,...,3272,3455,3261,0,1000,1000,1000,0,2000,1


In [12]:
df_post_leenc.shape

(29931, 24)

### One-Hotエンコーディング

In [13]:
one_hot_encoder = OneHotEncoder()
one_hot_encoder.fit(df_post_leenc.iloc[:,:9])

OneHotEncoder(categorical_features='all', dtype=<class 'numpy.float64'>,
       handle_unknown='error', n_values='auto', sparse=True)

In [14]:
enc_data = one_hot_encoder.transform(df_post_leenc.iloc[:,:9]).toarray()

In [15]:
df_ohe = pd.DataFrame(enc_data)
df_ohe.columns = enc_columns

In [16]:
df_ohe.head(1)

Unnamed: 0,性別_女,性別_男,最終学歴_その他,最終学歴_大学,最終学歴_大学院,最終学歴_高校,結婚_その他,結婚_既婚,結婚_未婚,支払状況_1ヵ月前_1ヵ月,...,支払状況_5ヵ月前_8ヵ月,支払状況_5ヵ月前_なし,支払状況_6ヵ月前_2ヵ月,支払状況_6ヵ月前_3ヵ月,支払状況_6ヵ月前_4ヵ月,支払状況_6ヵ月前_5ヵ月,支払状況_6ヵ月前_6ヵ月,支払状況_6ヵ月前_7ヵ月,支払状況_6ヵ月前_8ヵ月,支払状況_6ヵ月前_なし
0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


In [17]:
df_ohe.shape

(29931, 61)

In [18]:
df_post_leenc.iloc[:,9:-1].shape

(29931, 14)

In [19]:
df_post_leenc.iloc[:,-1].shape

(29931,)

In [20]:
df_post_enc = pd.concat([df_post_leenc.iloc[:,9:-1],df_ohe,df_post_leenc.iloc[:,-1]],axis=1)

In [21]:
df_post_enc.head(5)

Unnamed: 0,年齢,上限額,請求額_1ヵ月前,請求額_2ヵ月前,請求額_3ヵ月前,請求額_4ヵ月前,請求額_5ヵ月前,請求額_6ヵ月前,支払額_1ヵ月前,支払額_2ヵ月前,...,支払状況_5ヵ月前_なし,支払状況_6ヵ月前_2ヵ月,支払状況_6ヵ月前_3ヵ月,支払状況_6ヵ月前_4ヵ月,支払状況_6ヵ月前_5ヵ月,支払状況_6ヵ月前_6ヵ月,支払状況_6ヵ月前_7ヵ月,支払状況_6ヵ月前_8ヵ月,支払状況_6ヵ月前_なし,債務不履行
0,24,20000,3913,3102,689,0,0,0,0,689,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1
1,26,120000,2682,1725,2682,3272,3455,3261,0,1000,...,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1
2,34,90000,29239,14027,13559,14331,14948,15549,1518,1500,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0
3,37,50000,46990,48233,49291,28314,28959,29547,2000,2019,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0
4,57,50000,8617,5670,35835,20940,19146,19131,2000,36681,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0


In [22]:
df_post_enc.shape

(29931, 76)

### 標準化

In [23]:
sc = StandardScaler()

In [24]:
sc.fit(df_post_enc.iloc[:,:-1])

StandardScaler(copy=True, with_mean=True, with_std=True)

In [25]:
df_post_sc = pd.DataFrame(sc.transform(df_post_enc.iloc[:,:-1]))

### 主成分分析

#### 主成分の探索

In [26]:
pca = []
num_components = np.arange(1, len(df_post_sc.columns)+1)
cnt = 0
list_pca = np.empty((0,2))

In [27]:
for i in num_components:
    pca = np.append(pca,PCA(n_components = i))
    pca[cnt].fit(df_post_sc)
    list_pca = np.append(list_pca, np.array([[i, pca[cnt].explained_variance_ratio_.sum()]]), axis = 0)
    cnt += 1

In [28]:
list_pca

array([[  1.        ,   0.09470553],
       [  2.        ,   0.17410375],
       [  3.        ,   0.22854136],
       [  4.        ,   0.27456209],
       [  5.        ,   0.31445114],
       [  6.        ,   0.35037095],
       [  7.        ,   0.38289318],
       [  8.        ,   0.41481818],
       [  9.        ,   0.44188829],
       [ 10.        ,   0.46857642],
       [ 11.        ,   0.49471768],
       [ 12.        ,   0.52033401],
       [ 13.        ,   0.54472931],
       [ 14.        ,   0.56941549],
       [ 15.        ,   0.59002449],
       [ 16.        ,   0.60959418],
       [ 17.        ,   0.6296095 ],
       [ 18.        ,   0.64759043],
       [ 19.        ,   0.66504774],
       [ 20.        ,   0.68099991],
       [ 21.        ,   0.69627909],
       [ 22.        ,   0.71040125],
       [ 23.        ,   0.72419851],
       [ 24.        ,   0.73785844],
       [ 25.        ,   0.75109604],
       [ 26.        ,   0.76374908],
       [ 27.        ,   0.77635498],
 

39くらいの主成分数が良いという結果に。

#### 最適な主成分数での主成分分析結果を利用

In [29]:
best_pca = pca[38]

In [30]:
X = best_pca.transform(df_post_sc) #特徴変数の決定

In [31]:
y = df_post_enc.iloc[:,-1].values

## 最適なモデルを探索

In [32]:
param_grid = {'C':[0.0001,0.001,0.01,0.1,1,10,100,1000,10000],'penalty':['l1','l2']}

In [33]:
clf_lr = LogisticRegression()

In [34]:
scorer = make_scorer(score_func=recall_score,pos_label=1)

In [35]:
gs = GridSearchCV(estimator=clf_lr,
                  param_grid=param_grid,
                  cv=10,
                  scoring=scorer,
                  n_jobs=-1)

In [36]:
gs.fit(X=X,y=y)

GridSearchCV(cv=10, error_score='raise',
       estimator=LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False),
       fit_params={}, iid=True, n_jobs=-1,
       param_grid={'C': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000, 10000], 'penalty': ['l1', 'l2']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=make_scorer(recall_score, pos_label=1), verbose=0)

## 最適なモデルの評価の算出

In [37]:
gs.best_score_

0.55610654631343381

In [38]:
best_model = gs.best_estimator_

## ※オプション課題

以下の内容を実装してください。

- 必要なデータのシリアライズ
- 新たなノートブックファイルの作成
- 「クレジットカード_予測用.csv」を使い、新たな特徴変数から、債務不履行が起こるかどうかを予測