## Preprocessing: one-hotエンコーディング・欠損値処理

one-hot encodingと欠損値処理を学ぶため、ローン審査結果データを用います。

In [None]:
# import sample data: Loan screening data for classification 
import pandas as pd

df = pd.read_csv('./data/av_loan_u6lujuX_CVtuZ9i.csv',header=0)
X = df.iloc[:,:-1]           # 最終列以前を特徴量X
X = X.drop('Loan_ID',axis=1) # 1列目はID情報のため特徴量から削除
y = df.iloc[:,-1]            # 最終列を正解データ

# check the shape
print('X shape: (%i,%i)' %X.shape)

# ローン審査でNOとなったサンプルを1（正例）へ変換
class_mapping = {'N':1, 'Y':0}
y = y.map(class_mapping)
print('--------------------')
print(y.value_counts())
X.join(y).head()

データフレームの表示列数を50に拡張するよう、オプション変更をしておきます。

In [None]:
pd.options.display.max_columns = 50

さて上記データを使って、以下のような前処理方法を学びます。
- <b>欠損値補完</b>：LoanAmountの1行目の欠損値をLoanAmount列の平均値で置き換える
- <b>one-hotエンコーディング</b>：Genderなどのカテゴリ変数を0/1のバイナリ変数に変換する

本講座では一連の前処理を、以下のような順番で統一します。
1. まず、<b>カテゴリ変数の欠損値</b>をone-hotエンコードをして解決し、
1. 次に、<b>数値変数の欠損値</b>を平均値で置き換え解決する。

それではone-hotエンコードの実施です。dummy_na=Trueとすると、欠損であったという情報も含めone-hot化されます。

In [None]:
ohe_columns = ['Dependents',
               'Gender',
               'Married',
               'Education',
               'Self_Employed',
               'Property_Area']

X_new = pd.get_dummies(X,
                       dummy_na=True,
                       columns=ohe_columns)

display(X_new.head())

上記まででカテゴリ変数の数量化と欠損値対応は終了です。<br>次に数値変数の欠損を平均値で置き換えます。

数値変数の欠損値置換処理の正常確認のため、LoanAmount列の基礎統計量を確認しておきます。平均値が146.412162であることを確認できます。

In [None]:
X_new.describe()

それでは、連続変数の欠損値の平均値補完の実行です。`sklearn.impute`モジュールの`SimpleImputer`クラスを読み込みます。SimpleImputerクラスのメソッドtransfomrを適用することで、LoanAmountの欠損値（1行目など）を平均値（146.412162）に置換できます。

In [None]:
from sklearn.impute import SimpleImputer

# インピュータークラスのインスタンス化と（列平均の）学習
imp = SimpleImputer()
imp.fit(X_new)

# 学習済みImputerの適用：各列の欠損値の置換
X_new_columns = X_new.columns.values
X_new = pd.DataFrame(imp.transform(X_new),columns=X_new_columns)

# 結果表示
display(X_new.head())

以上で、カテゴリ変数の数量化と欠損対応、数値変数の欠損値対応は終了です。もし特徴量の次元数（列数）が小さければ、そのままアルゴリズムに投入して構いません。ただし、実務では数百・数千次元を超えることがしばしばありますので、その際は以下の次元圧縮を行います。

## Preprocessing: 次元圧縮（RFE&PCA)

さて、特徴量が元の11次元が26次元まで増加しました。<br><b>ここではRFEを使って、予測に役立つと判断された上位10変数に絞り込むこととします。</b>

In [None]:
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier

# 特徴量因子の重要度を推定する分類器をRandomForestClassifierに設定
# 最終的に残す特徴量を10に設定
# 1回のstepで削除する次元数は5%ずつとした
selector = RFE(estimator=RandomForestClassifier(n_estimators=100,random_state=0),
               n_features_to_select=10,
               step=.05)
selector.fit(X_new,y)
print('Done normally')

RFEをfitすることで、26変数のうちどの変数を残すかが決定されました。<br><b>残された変数の確認は"support_"属性を呼び出すことで可能です。</b><br>Trueが採用された変数の場所を表しています。

In [None]:
print(selector.support_)

fitまでで残すべき変数を決めることができたので、実際にデータの絞り込みをします。<br>`SimpleImputer`クラスの`transform`メソッドで列の絞り込みができます。

In [None]:
# 26次元を10次元を圧縮
X_new_selected=selector.transform(X_new)
X_new_selected=pd.DataFrame(X_new_selected,
                            columns=X_new_columns[selector.support_])
print('X shape after RFE:', X_new_selected.shape)
print('---------------------------------------')
print(X_new_selected.dtypes)
X_new_selected.head()

RFEによる次元圧縮の実行例は以上で終了です。

最後に、PCAによる次元圧縮の方法を確認します。<br>X_new（RFE前の26次元）を対象にPCAで特徴抽出したい場合は、以下の通りです。

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import f1_score

# パイプラインにPCAを埋め込めば自動的に次元圧縮してくれる
clf = Pipeline([('scl', StandardScaler()),
                ('reduct', PCA(n_components=10,random_state=1)),
                ('clf', GradientBoostingClassifier(random_state=1))])

# 学習時に自動的にPCA処理が施される
clf.fit(X_new, y)
print('Normally done')

学習器clfの実態はパイプラインですから、<b>これを学習済みモデルとして保存しておけば、学習済みscl、学習済みreduct(PCA)、学習済みclf（モデル）の3つが学習状態で保存（永続化）されます</b>。

<b>[確認してみよう]</b> 学習済みモデルの永続化の方法をScikit-learnの公式ドキュメントで調査しよう。
- https://scikit-learn.org/stable/modules/model_persistence.html

<b>[確認してみよう]</b> 特徴量選択のクラスにRFECVがあります。RFEと何が違うかScikit-learnの公式ドキュメントで調べてみよう。
- https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html