## 特徴量の生成とデータ前処理

In [14]:
# ライブラリのインポート
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [15]:
# データ読み込み
# データの読み込み
train_data = pd.read_csv('train.csv')

# 不要項目を削除する
train_data_var = train_data.drop(columns=['id'])

# 欠損値を削除する
train_data_drop = train_data_var.dropna()

# 予測の手助けとなる列を取り出す
X = train_data_drop[['interest_rate','credit_score','term','grade','application_type']]

# 予測対象の列を取り出す
target = train_data_drop['loan_status']

# データの確認
print(X.shape)
print(X.head())
print(target.shape)
print(target.head())


(228971, 5)
   interest_rate  credit_score     term grade application_type
1          16.29         700.0  5 years    C4       Individual
2          21.98         670.0  5 years    E4       Individual
3           8.59         710.0  3 years    A5       Individual
4          13.99         680.0  3 years    C1       Individual
5           7.35         790.0  3 years    A4       Individual
(228971,)
1    ChargedOff
2     FullyPaid
3     FullyPaid
4     FullyPaid
5     FullyPaid
Name: loan_status, dtype: object


### ダミー変数化

In [16]:
# 質的データをダミー変数化

# 予測する手助け項目
X_dum = pd.get_dummies(X)

# 予測対象項目をダミー変数化
target_dum = pd.get_dummies(target)

#データを確認する
print(X_dum.head())
print(target_dum.head())

# target_dumからFullyPaid列を削除する
target_dum = target_dum.drop(columns=['FullyPaid'])

# データを確認する
print(target_dum.head())


   interest_rate  credit_score  term_3 years  term_5 years  grade_A1  \
1          16.29         700.0             0             1         0   
2          21.98         670.0             0             1         0   
3           8.59         710.0             1             0         0   
4          13.99         680.0             1             0         0   
5           7.35         790.0             1             0         0   

   grade_A2  grade_A3  grade_A4  grade_A5  grade_B1  ...  grade_F3  grade_F4  \
1         0         0         0         0         0  ...         0         0   
2         0         0         0         0         0  ...         0         0   
3         0         0         0         1         0  ...         0         0   
4         0         0         0         0         0  ...         0         0   
5         0         0         1         0         0  ...         0         0   

   grade_F5  grade_G1  grade_G2  grade_G3  grade_G4  grade_G5  \
1         0         0

## モデル作成

In [17]:
from sklearn.model_selection import train_test_split

In [18]:
# 評価データと学習データに分割する
X_train,X_test,y_train,y_test = train_test_split(X_dum,target_dum,random_state=0,stratify=target_dum['ChargedOff'])

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(171728, 41)
(57243, 41)
(171728, 1)
(57243, 1)


### ロジスティック回帰モデルの学習

In [19]:
# ライブラリをインポートする
from sklearn.linear_model import LogisticRegression

In [28]:
# モデルを準備する
lr = LogisticRegression()

# モデルを学習
lr.fit(X_train,y_train)
print(y_train.head())

# 学習済みモデルで予測する
pred = lr.predict(X_test)

print(pred)


  y = column_or_1d(y, warn=True)


        ChargedOff
122098           0
159816           0
120362           1
235319           0
124493           0
[0 0 0 ... 0 0 0]


### f1_scoreの計算

In [21]:
# f1_scoreのインポート
from sklearn.metrics import f1_score

In [24]:
# 実測値y_test、予測値predを使ってf1_scoreを計算する
f_one = f1_score(y_test,pred)

# 評価結果の表示
print(f_one)

0.027490807214148136


### 混合行列の表示

In [29]:
# ライブラリをインポートする
from sklearn.metrics import confusion_matrix

In [30]:
# 実測値y_test,予測値predを使って混同行列を作成する
cm = confusion_matrix(y_test,pred)
print(cm)


[[45978   129]
 [10979   157]]


### 確率値の取得

In [31]:
# X_testに対する予測の確率値を算出する
pred_proba = lr.predict_proba(X_test)

# 算出した確率値をDataFrameに変換する
proba_df = pd.DataFrame(pred_proba)
print(proba_df.head())

          0         1
0  0.851500  0.148500
1  0.943967  0.056033
2  0.867731  0.132269
3  0.900587  0.099413
4  0.623500  0.376500
