### 機能要件
- 2値の分類（Classification）タスクを扱える
- カテゴリカル変数を指定するとone-hotエンコードを実行する
- モデル用データマートに施したのと同一データ前処理をスコア用データマートに対しても適用される
- モデル選択の評価指標を選択できる
- 複数アルゴリズムから指定の評価指標に従いベストモデルを選択できる
- 学習済みモデルを保存できる
- アルゴリズムランキングと性能評価指標が出力される
- 学習済みモデル（保存したモデル）を呼び出しスコア用データに対し予測確率を付与できる

## データの読み込み

- ### スコア用データが組み込まれたcsvファイル

In [1]:
# csvには読み込むcsvファイルのパスを指定して下さい
def read_data_contain_score(csv='./data/av_loan_u6lujuX_CVtuZ9i.csv'):
    import pandas as pd
    # csvファイルから読み込み
    df = pd.read_csv(csv, header=0)
    return df
    
df = read_data_contain_score()

- ###  学習用データとスコア用データで分割して渡される場合

In [2]:
# csvには読み込むcsvファイルのパスを指定して下さい
def read_data_not_contain_score(csv='./data/av_loan_u6lujuX_CVtuZ9i.csv', csv_test='./data/av_loan_test_Y3wMUE5_7gLdaTN.csv'):
    import pandas as pd
    
    # csvファイルから読み込み
    df = pd.read_csv(csv, header=0)
    # テストデータを型を訓練データに統一して読み込み
    df_score = pd.read_csv(csv_test, header=0, dtype=dict(df.dtypes))
    
    return df, df_score
    
df, df_score = read_data_not_contain_score()

- ### データの確認

In [3]:
def verify_data(df, df_score):
    import pandas as pd
    print('学習用データ')
    display(df.head())
    print('スコア用データ')
    display(df_score.head())
    # 欠損値データの合計数を確認
    display(pd.concat([df.isnull().sum(), df_score.isnull().sum()], axis=1, keys=['学習用データ','スコア用データ'], sort=False))
    # データ型確認
    print(f'shapeの確認:{df.shape},{df_score.shape}')
    print('データ型確認:')
    # concatで横に結合
    display(pd.concat([df.dtypes, df_score.dtypes], axis=1, keys=['学習用データ','スコア用データ'], sort=False))
    return df, df_score
    
df, df_score = verify_data(df, df_score)

学習用データ


Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y


スコア用データ


Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area
0,LP001015,Male,Yes,0,Graduate,No,5720,0.0,110.0,360.0,1.0,Urban
1,LP001022,Male,Yes,1,Graduate,No,3076,1500.0,126.0,360.0,1.0,Urban
2,LP001031,Male,Yes,2,Graduate,No,5000,1800.0,208.0,360.0,1.0,Urban
3,LP001035,Male,Yes,2,Graduate,No,2340,2546.0,100.0,360.0,,Urban
4,LP001051,Male,No,0,Not Graduate,No,3276,0.0,78.0,360.0,1.0,Urban


Unnamed: 0,学習用データ,スコア用データ
Loan_ID,0,0.0
Gender,13,11.0
Married,3,0.0
Dependents,15,15.0
Education,0,0.0
Self_Employed,32,20.0
ApplicantIncome,0,0.0
CoapplicantIncome,0,0.0
LoanAmount,22,5.0
Loan_Amount_Term,14,5.0


shapeの確認:(614, 13),(333, 12)
データ型確認:


Unnamed: 0,学習用データ,スコア用データ
Loan_ID,object,object
Gender,object,object
Married,object,object
Dependents,object,object
Education,object,object
Self_Employed,object,object
ApplicantIncome,int64,int64
CoapplicantIncome,float64,float64
LoanAmount,float64,float64
Loan_Amount_Term,float64,float64


メモ
    # 一番最後の列以外をXとする
    X = df.iloc[:,:-1]
    X_test = df_test.iloc[:,:-1]
    
    # 確認
    print('特徴量データXの確認:')
    display(X.head())
    print('特徴量データX_testの確認:')
    display(X_test.head())
    
    # 一番最後の列をyとする
    y = df.iloc[:,-1]
    y_test = df_test.iloc[:,-1]
    
    # 確認
    print('正解データyの確認:')
    display(y.head())
    print('正解データy_testの確認:')
    display(y_test.head())
    
    # shapeの確認
    print(f'X shape: {X.shape}')
    print(f'y shape: {y.shape}')
    print(f'X_test shape: {X_test.shape}')
    print(f'y_test shape: {y_test.shape}')

- ### 特徴量Xと正解データyに分割

In [4]:
import pandas as pd
def split_into_Xy(df, y_column='Loan_Status'):
    
    import pandas as pd
    # y_column以外を特徴量Xとする
    X = df.drop(y_column, axis=1)
    display(X.head())
    # y_columnを正解データyとする
    y = df.drop(X.columns, axis=1)
    display(y.head())
    return X, y

X, y = split_into_Xy(df, 'Loan_Status')

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban


Unnamed: 0,Loan_Status
0,Y
1,N
2,Y
3,Y
4,Y


## 前処理

- ### 不要なデータを削除

In [5]:
df = df.drop('Loan_ID', axis=1)
df_score = df_score.drop('Loan_ID', axis=1)

- ### 正解カラムを数値化

In [6]:
def binarization(y, column='Loan_Status', zero='Y', one='N'):
    
    import pandas as pd
    # dictで変換法則を指定
    class_mapping = {zero:0, one:1}
    # map関数はSeriesに対して効果があるためilocでSeries化して適応する
    y[column] = y[column].map(class_mapping)
    display(y.head())
    return y

y = binarization(y,'Loan_Status', 'Y', 'N')

Unnamed: 0,Loan_Status
0,0
1,1
2,0
3,0
4,0


- ### one-hotエンコーディング

In [7]:
df.select_dtypes(exclude=[int, float]).columns

Index(['Gender', 'Married', 'Dependents', 'Education', 'Self_Employed',
       'Property_Area', 'Loan_Status'],
      dtype='object')

In [8]:
# ダミー化の自動化
def dummy(df, column_dtypes='object'):
    
    columns = df.select_dtypes(exclude=[int, float]).columns
    # get_dummies()関数を利用してダミー化,dummy_na=Trueの引数を与える。
    df = pd.get_dummies(df, columns=columns, dummy_na=True, drop_first=True)

    display(data)

SyntaxError: non-default argument follows default argument (<ipython-input-8-732d1adf4495>, line 2)