## 【問題1】クロスバリデーション
事前学習期間では検証データをはじめに分割しておき、それに対して指標値を計算することで検証を行っていました。（ホールドアウト法）しかし、分割の仕方により精度は変化します。実践的には クロスバリデーション（交差検証） を行います。分割を複数回行い、それぞれに対して学習と検証を行う方法です。複数回の分割のためにscikit-learnにはKFoldクラスが用意されています。


事前学習期間の課題で作成したベースラインモデルに対してKFoldクラスによるクロスバリデーションを行うコードを作成し実行してください。

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html#sklearn.model_selection.KFold

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
%matplotlib inline
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold

from sklearn.metrics import accuracy_score # モデル評価用(正答率)
from sklearn.metrics import log_loss # モデル評価用(logloss)     
from sklearn.metrics import roc_auc_score # モデル評価用(auc)

## week4_session1で行ったもの

In [2]:
application_train = pd.read_csv('application_train.csv')
application_test = pd.read_csv('application_test.csv')

In [3]:
categorical_list = []
numerical_list = []
for i in application_train.columns.tolist():
    if application_train[i].dtype=='object':
        categorical_list.append(i)
    else:
        numerical_list.append(i)
print('Number of categorical features:', str(len(categorical_list)))
print('Number of numerical features:', str(len(numerical_list)))

Number of categorical features: 16
Number of numerical features: 106


In [4]:
categorical_list = []
numerical_list = []
for i in application_test.columns.tolist():
    if application_test[i].dtype=='object':
        categorical_list.append(i)
    else:
        numerical_list.append(i)
print('Number of categorical features:', str(len(categorical_list)))
print('Number of numerical features:', str(len(numerical_list)))

Number of categorical features: 16
Number of numerical features: 105


In [5]:
from sklearn.impute import SimpleImputer
# from sklearn.preprocessing import Imputer
application_train[numerical_list] = SimpleImputer(strategy='median').fit_transform(application_train[numerical_list])

In [6]:
application_train[numerical_list].isnull().sum().sum()

0

In [7]:
application_test[numerical_list] = SimpleImputer(strategy='median').fit_transform(application_test[numerical_list])

In [8]:
application_train = pd.get_dummies(application_train, drop_first=True)
print(application_train.shape)

(307511, 230)


In [9]:
application_train.isnull().sum().sum()

0

In [10]:
application_test = pd.get_dummies(application_test, drop_first=True)
print(application_test.shape)

(48744, 226)


In [11]:
import re
application_train = application_train.rename(columns = lambda x:re.sub('[^A-Za-z0-9_]+', '', x))

In [12]:
X = application_train.drop(['TARGET','CODE_GENDER_XNA', 'NAME_INCOME_TYPE_Maternityleave', 'NAME_FAMILY_STATUS_Unknown'], axis=1)
y = application_train.TARGET

In [13]:
# #irisデータで試してみたが出来ているようだ。

# from sklearn.datasets import load_iris
# iris = load_iris()
# X = pd.DataFrame(iris.data[50:, :3])
# y = pd.DataFrame(iris.target[50:])

# #クロスバリデーション　KFold
# kf = KFold(n_splits=4, shuffle=True, random_state=None)
# for idx_tr, idx_va in kf.split(X):
#     X_train, X_test = X.iloc[idx_tr], X.iloc[idx_va]
#     y_train, y_test = y.iloc[idx_tr], y.iloc[idx_va]

# from sklearn.preprocessing import StandardScaler
# sc = StandardScaler()
# X_train_std = sc.fit_transform(X_train)
# X_test_std = sc.transform(X_test)

# scores=[]

# from sklearn.linear_model import SGDClassifier
# sgdc = SGDClassifier(loss='log')
# sgdc.fit(X_train_std, y_train)
# Y_pred = sgdc.predict(X_test_std)

# from sklearn.metrics import accuracy_score
# score = accuracy_score(y_test, Y_pred)
# scores.append(score)
# print(np.mean(scores))

### 問題1スコア→AUC mean:0.7457961890328958
クロスバリデーション、ロジスティック回帰

In [30]:
import warnings
warnings.simplefilter('ignore')

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
from sklearn.linear_model import LogisticRegression # ロジスティック回帰
clf = LogisticRegression() #モデルの生成

#クロスバリデーション
kf = KFold(n_splits=5, shuffle=True, random_state=None)

scores = []

for idx_tr, idx_va in kf.split(X):
    X_train, X_test = X.iloc[idx_tr], X.iloc[idx_va]
    y_train, y_test = y.iloc[idx_tr], y.iloc[idx_va]
    X_train_std = sc.fit_transform(X_train)
    X_test_std = sc.transform(X_test)
    clf.fit(X_train_std, y_train)
    Y_pred = clf.predict_proba(X_test_std)[:, 1]
    score = roc_auc_score(y_test, Y_pred)
    scores.append(score)

print('AUC mean:', np.mean(scores))

AUC mean: 0.7454696893646198


## 【問題2】グリッドサーチ
これまで分類器のパラメータには触れず、デフォルトの設定を使用していました。パラメータの詳細は今後のSprintで学んでいくことになります。機械学習の前提として、パラメータは状況に応じて最適なものを選ぶ必要があります。最適なパラメータを探していくことを パラメータチューニング と呼びます。パラメータチューニングをある程度自動化する単純な方法としては グリッドサーチ があります。


scikit-learnのGridSearchCVを使い、グリッドサーチを行うコードを作成してください。そして、ベースラインモデルに対して何らかしらのパラメータチューニングを行なってください。どのパラメータをチューニングするかは、使用した手法の公式ドキュメントを参考にしてください。

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

GridSearchCVクラスには引数としてモデル、探索範囲、さらにクロスバリデーションを何分割で行うかを与えます。クロスバリデーションの機能も含まれているため、これを使用する場合はKFoldクラスを利用する必要はありません。

### メモ
元データが大きいので、:100でデータを区切った。parametersでも、二行あったのは一行でよかったみたい。cvっていうのは、クロスバリデーションのことで、n_jobsはどれくらい並行してジョブを実行するかということ。

In [28]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.transform(X_test)

parameters = [{'solver': ['liblinear', 'saga'], 'penalty':['l1', 'l2'], 'C': [0.1, 1, 10, 30]}]

#グリッドサーチ実行
classifier = GridSearchCV(LogisticRegression()
                          , parameters, cv =5,  n_jobs=-1)
classifier.fit(X_train_std[:1000], y_train[:1000])
#print("accuracy_score (train): ", classifier.score(X_train_std, y_train))
#print("accuracy_score (test): ", classifier.score(X_test_std, y_test))
#Y_pred = classifier.predict_proba(X_test_std)[:, 1]
#print('AUC_score(predict):', classifier.score(y_test, Y_pred))
print(classifier.best_estimator_) # ベストのパラメーターを持つ分類器

LogisticRegression(C=0.1, penalty='l1', solver='saga')


### パラメータを変更して【問題１】のを再計算 +0.0003

In [32]:
import warnings
warnings.simplefilter('ignore')

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
from sklearn.linear_model import LogisticRegression # ロジスティック回帰
clf = LogisticRegression(C=0.1, penalty='l1', solver='saga') #モデルの生成

#クロスバリデーション
kf = KFold(n_splits=5, shuffle=True, random_state=None)

scores = []

for idx_tr, idx_va in kf.split(X):
    X_train, X_test = X.iloc[idx_tr], X.iloc[idx_va]
    y_train, y_test = y.iloc[idx_tr], y.iloc[idx_va]
    X_train_std = sc.fit_transform(X_train)
    X_test_std = sc.transform(X_test)
    clf.fit(X_train_std, y_train)
    Y_pred = clf.predict_proba(X_test_std)[:, 1]
    score = roc_auc_score(y_test, Y_pred)
    scores.append(score)

print('AUC mean:', np.mean(scores))

AUC mean: 0.7431353718379154


## 【問題3】Kaggle Notebooksからの調査
KaggleのNotebooksから様々なアイデアを見つけ出して、列挙してください。

(これって後で見返した時にコードがすぐ出てくるような状況を作らないとだよな。URL貼って、どの位置にあるかっていうのも同時に記載するかな？？)

In [None]:
#数値とオブジェクトにタイプを分けてから、数値の方だけ中央値で欠損を補完する

categorical_list = []
numerical_list = []
for i in application_train.columns.tolist():
    if application_train[i].dtype=='object':
        categorical_list.append(i)
    else:
        numerical_list.append(i)
        
from sklearn.impute import SimpleImputer
sm = SimpleImputer(strategy='median')
# from sklearn.preprocessing import Imputer
application_train[numerical_list] = sm.fit_transform(application_train[numerical_list])

In [None]:
#オブジェクトデータを数値に変える(ダミー変数と呼ぶ)。
#drop_first=True は男性と女性で変数を分けずに、性別の男性0と女性1になるような分け方にするという意味

application_train = pd.get_dummies(application_train, drop_first=True)

In [None]:
# One-hot encoding for categorical columns with get_dummies
# get_dummiesを用いたカテゴリカルカラムのためのワンホットなエンコーディング

def one_hot_encoder(df, nan_as_category = True):
    original_columns = list(df.columns)
    categorical_columns = [col for col in df.columns if df[col].dtype == 'object']
    df = pd.get_dummies(df, columns= categorical_columns, dummy_na= nan_as_category)
    new_columns = [c for c in df.columns if c not in original_columns]
    return df, new_columns

one_hot_encoder(application_train)

In [None]:
#学習モデルのパラメータとデフォルト値を見る方法

import lightgbm as lgb
model = lgb.LGBMModel()
model.get_params()

In [None]:
#統合して意味のあるデータに変換している


df['DAYS_EMPLOYED'].replace(365243, np.nan, inplace= True)
    # Some simple new features (percentages)
df['DAYS_EMPLOYED_PERC'] = df['DAYS_EMPLOYED'] / df['DAYS_BIRTH']
df['INCOME_CREDIT_PERC'] = df['AMT_INCOME_TOTAL'] / df['AMT_CREDIT']
df['INCOME_PER_PERSON'] = df['AMT_INCOME_TOTAL'] / df['CNT_FAM_MEMBERS']
df['ANNUITY_INCOME_PERC'] = df['AMT_ANNUITY'] / df['AMT_INCOME_TOTAL']
df['PAYMENT_RATE'] = df['AMT_ANNUITY'] / df['AMT_CREDIT']

## 【問題4】高い汎化性能のモデル作成
問題3で見つけたアイデアと、独自のアイデアを組み合わせ高い汎化性能のモデル作りを進めてください。


その過程として、何を行うことで、クロスバリデーションの結果がどの程度変化したかを表にまとめてください。

In [123]:
application_train = pd.read_csv('application_train.csv')
application_test = pd.read_csv('application_test.csv')

In [124]:
application_train['DAYS_EMPLOYED'].replace(365243, np.nan, inplace= True)
    # Some simple new features (percentages)
application_train['DAYS_EMPLOYED_PERC'] = application_train['DAYS_EMPLOYED'] / application_train['DAYS_BIRTH']
application_train['INCOME_CREDIT_PERC'] = application_train['AMT_INCOME_TOTAL'] / application_train['AMT_CREDIT']
application_train['INCOME_PER_PERSON'] = application_train['AMT_INCOME_TOTAL'] / application_train['CNT_FAM_MEMBERS']
application_train['ANNUITY_INCOME_PERC'] = application_train['AMT_ANNUITY'] / application_train['AMT_INCOME_TOTAL']
application_train['PAYMENT_RATE'] = application_train['AMT_ANNUITY'] / application_train['AMT_CREDIT']

In [125]:
application_test['DAYS_EMPLOYED'].replace(365243, np.nan, inplace= True)
    # Some simple new features (percentages)
application_test['DAYS_EMPLOYED_PERC'] = application_test['DAYS_EMPLOYED'] / application_test['DAYS_BIRTH']
application_test['INCOME_CREDIT_PERC'] = application_test['AMT_INCOME_TOTAL'] / application_test['AMT_CREDIT']
application_test['INCOME_PER_PERSON'] = application_test['AMT_INCOME_TOTAL'] / application_test['CNT_FAM_MEMBERS']
application_test['ANNUITY_INCOME_PERC'] = application_test['AMT_ANNUITY'] / application_test['AMT_INCOME_TOTAL']
application_test['PAYMENT_RATE'] = application_test['AMT_ANNUITY'] / application_test['AMT_CREDIT']

In [126]:
categorical_list = []
numerical_list = []
for i in application_train.columns.tolist():
    if application_train[i].dtype=='object':
        categorical_list.append(i)
    else:
        numerical_list.append(i)
print('Number of categorical features:', str(len(categorical_list)))
print('Number of numerical features:', str(len(numerical_list)))

Number of categorical features: 16
Number of numerical features: 111


In [127]:
categorical_list = []
numerical_list = []
for i in application_test.columns.tolist():
    if application_test[i].dtype=='object':
        categorical_list.append(i)
    else:
        numerical_list.append(i)
print('Number of categorical features:', str(len(categorical_list)))
print('Number of numerical features:', str(len(numerical_list)))

Number of categorical features: 16
Number of numerical features: 110


In [99]:
from sklearn.impute import SimpleImputer
# from sklearn.preprocessing import Imputer
application_train[numerical_list] = SimpleImputer(strategy='median').fit_transform(application_train[numerical_list])


In [100]:
application_test[numerical_list] = SimpleImputer(strategy='median').fit_transform(application_test[numerical_list])

In [128]:
#application_train[numerical_list] = SimpleImputer(strategy='mean').fit_transform(application_train[numerical_list])

In [130]:
#application_test[numerical_list] = SimpleImputer(strategy='mean').fit_transform(application_test[numerical_list])


In [131]:
application_train = pd.get_dummies(application_train, drop_first=True)

In [132]:
application_test = pd.get_dummies(application_test, drop_first=True)

In [133]:
import re
application_train = application_train.rename(columns = lambda x:re.sub('[^A-Za-z0-9_]+', '', x))

In [134]:
X = application_train.drop(['TARGET','CODE_GENDER_XNA', 'NAME_INCOME_TYPE_Maternityleave', 'NAME_FAMILY_STATUS_Unknown'], axis=1)
y = application_train.TARGET

In [135]:
import lightgbm as lgb
from sklearn import datasets
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
pd.set_option('display.max_rows', 100)
from sklearn import metrics
import matplotlib.pyplot as plt
%matplotlib inline


kf = KFold(n_splits=5, shuffle=True, random_state=None)

scores = []
models =[]

for idx_tr, idx_va in kf.split(X):
    X_train, X_test = X.iloc[idx_tr], X.iloc[idx_va]
    y_train, y_test = y.iloc[idx_tr], y.iloc[idx_va]
    lgb_train = lgb.Dataset(X_train, y_train)
    lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)
    lgbm_params = {'objective': 'binary','metric': 'auc','verbosity': -1}
    model = lgb.train(lgbm_params, lgb_train, valid_sets=lgb_eval,verbose_eval=50,num_boost_round=1000, early_stopping_rounds=100)
    
    model.save_model('model.txt')
    y_pred = model.predict(X_test, num_iteration=model.best_iteration)
    models.append(model)

    bst = lgb.Booster(model_file='model.txt')
    ypred = bst.predict(X_test, num_iteration=bst.best_iteration)

    
    fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pred)
    scores.append(metrics.auc(fpr, tpr))

print('AUC mean:', np.mean(scores))
print(models)

Training until validation scores don't improve for 100 rounds
[50]	valid_0's auc: 0.760361
[100]	valid_0's auc: 0.763853
[150]	valid_0's auc: 0.764194
[200]	valid_0's auc: 0.764272
[250]	valid_0's auc: 0.76457
Early stopping, best iteration is:
[169]	valid_0's auc: 0.764818
Training until validation scores don't improve for 100 rounds
[50]	valid_0's auc: 0.7608
[100]	valid_0's auc: 0.763192
[150]	valid_0's auc: 0.763793
[200]	valid_0's auc: 0.763677
Early stopping, best iteration is:
[122]	valid_0's auc: 0.764421
Training until validation scores don't improve for 100 rounds
[50]	valid_0's auc: 0.761463
[100]	valid_0's auc: 0.764282
[150]	valid_0's auc: 0.764005
[200]	valid_0's auc: 0.763259
Early stopping, best iteration is:
[117]	valid_0's auc: 0.764461
Training until validation scores don't improve for 100 rounds
[50]	valid_0's auc: 0.759193
[100]	valid_0's auc: 0.763091
[150]	valid_0's auc: 0.763487
[200]	valid_0's auc: 0.763727
[250]	valid_0's auc: 0.763531
Early stopping, best ite

-　説明変数を独自でまとめるのを無くすと完全体(今回提出に使った前処理)よりも０．０１減る


- カテゴリデータの説明変数と文字列データに分ける


- 完全体から中央値で補完するのを無くす→0.00112下がる


- 完全体から中央値で補完するのを平均値に変える→0.0066下がる


- ダミー変数にする


- ロジスティック回帰で学習する　


- ランダムフォレストで学習する→0.2程下がる


- ロジスティック回帰からlightGBMに変更する→0.02上がる

## 【問題5】最終的なモデルの選定
最終的にこれは良いというモデルを選び、推定した結果をKaggleに提出してスコアを確認してください。どういったアイデアを取り入れ、どの程度のスコアになったかを記載してください。

**問題４で行ったことがアイディアです。**

In [138]:
best_model = models[0]

In [137]:
Y_pred = best_model.predict(application_test)
Y_pred = pd.DataFrame(Y_pred)
application_test['SK_ID_CURR'] = (application_test['SK_ID_CURR']).astype(int)
sub = pd.concat([application_test['SK_ID_CURR'], Y_pred.abs()], axis =1)
sub =  sub.rename(columns={0:'TARGET'})
sub.to_csv('home.csv', index= False)

![%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202021-02-03%2020.24.22.png](attachment:%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202021-02-03%2020.24.22.png)