## 事前準備

### ライブラリのインポート

In [1]:
import numpy as np
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.decomposition import PCA

### ファイルの読み込み

In [2]:
df = pd.read_csv('クレジットカード.csv',encoding='shift_jis')

In [3]:
#df.head(3)

In [4]:
#df.columns

## データ加工

### One-Hotエンコーディング

#### 定性データをエンコーディング

In [5]:
df_dummy = pd.get_dummies(df[['性別', '最終学歴', '結婚', 
                   '支払状況_1ヵ月前', '支払状況_2ヵ月前', '支払状況_3ヵ月前', '支払状況_4ヵ月前', '支払状況_5ヵ月前', '支払状況_6ヵ月前']])

In [6]:
# df_dummy.head(3)

#### 元のデータフレームとエンコーディングされたデータフレームを結合

In [7]:
df_merge = pd.concat([df_dummy, df.ix[:, 9:len(df.columns)]], axis=1)

### 目的変数と特徴変数の抽出

In [8]:
#X = df.ix[:, 3:len(df.columns)-1].values
X = df_merge.ix[:, 0:len(df_merge.columns)-1].values
y = df_merge['債務不履行'].values

### 標準化

In [9]:
stdsc = StandardScaler()

In [14]:
X_std = X.copy()

In [16]:
# 62～75列目を対象に標準化
X_std[:, 61:X_std.shape[1]] = stdsc.fit_transform(X_std[:, 61:X_std.shape[1]])

### 主成分分析

#### 主成分の探索

In [18]:
num_components = np.arange(1, X_std.shape[1])
cnt = 0
list_pca = np.empty((0,2))

In [19]:
for i in num_components:
    pca = PCA(n_components = i)
    pca.fit(X_std)
    list_pca = np.append(list_pca, np.array([[i, pca.explained_variance_ratio_.sum()]]), axis = 0)
    cnt += 1

In [20]:
list_pca

array([[  1.        ,   0.34694262],
       [  2.        ,   0.45040417],
       [  3.        ,   0.52059838],
       [  4.        ,   0.57670664],
       [  5.        ,   0.62857322],
       [  6.        ,   0.67979926],
       [  7.        ,   0.72794831],
       [  8.        ,   0.77350132],
       [  9.        ,   0.81610173],
       [ 10.        ,   0.849936  ],
       [ 11.        ,   0.87877443],
       [ 12.        ,   0.90124485],
       [ 13.        ,   0.91874245],
       [ 14.        ,   0.93397355],
       [ 15.        ,   0.94643709],
       [ 16.        ,   0.95682284],
       [ 17.        ,   0.96446076],
       [ 18.        ,   0.97012754],
       [ 19.        ,   0.97516921],
       [ 20.        ,   0.9793213 ],
       [ 21.        ,   0.98329696],
       [ 22.        ,   0.98624043],
       [ 23.        ,   0.98864118],
       [ 24.        ,   0.9901285 ],
       [ 25.        ,   0.99158789],
       [ 26.        ,   0.9929494 ],
       [ 27.        ,   0.99410135],
 

#### 主成分分析

In [21]:
pca = PCA(n_components=12)

In [22]:
pca.fit(X_std)

PCA(copy=True, n_components=12, whiten=False)

In [None]:
X_train , X_test , y_train , y_test = train_test_split(X, y, test_size = 0.5)

## 学習

### ロジスティクス回帰（正則化なし）

In [None]:
clf_lr = LogisticRegression()

In [None]:
clf_lr.fit(X = X_train, y = y_train)

In [None]:
clf_lr.coef_

### ロジスティクス回帰（L1正則化）

In [None]:
clf_l1 = LogisticRegression(penalty='l1', C=0.0001)

In [None]:
clf_l1.fit(X = X_train, y = y_train)

In [None]:
clf_l1.coef_

### ロジスティクス回帰（L2正則化）

In [None]:
clf_l2 = LogisticRegression(penalty='l2', C=0.00001)

In [None]:
clf_l2.fit(X = X_train, y = y_train)

In [None]:
clf_l2.coef_

### ランダムフォレスト

In [None]:
clf_rf = RandomForestClassifier(n_estimators=10000, n_jobs=-1, random_state=1)

In [None]:
clf_rf.fit(X = X_train, y = y_train)

## 評価

### 評価用の関数

In [None]:
def eval(method):
    print('学習用データ:', method.score(X=X_train, y=y_train))
    print('テスト用データ:', method.score(X=X_test, y=y_test))

### ロジスティクス回帰（正則化なし）

In [None]:
eval(clf_lr)

### ロジスティクス回帰（L1正則化）

In [None]:
eval(clf_l1)

### ロジスティクス回帰（L2正則化）

In [None]:
eval(clf_l2)

### ランダムフォレスト

In [None]:
eval(clf_rf)