#### 修了認定のための最終開発課題
### 自分用のAutomated Machine Learningを開発しよう!
#### 機能要件
- 2値の分類(Classification)タスクを扱える  
- カテゴリカル変数を指定するとone-hotエンコードを実行する  
- モデル用データマートに施したのと同一データ前処理をスコア用データマートに対しても適用される  
- モデル選択の評価指標を選択できる  
- 複数アルゴリズムから指定の評価指標に従いベストモデルを選択できる  
- 学習済みモデルを保存できる  
- アルゴリズムランキングと性能評価指標が出力される  
- 学習済みモデル(保存したモデル)を呼び出しスコア用データに対し予測確率を付与できる  

#### 開発課題認定プロセス(最終日にその場で実行・提出)
- 訓練用データと(正解データの無い)検証用データを配布します  
- データ形式は第1カラムがID、第2カラムがクラス変数、第3カラム以降が特徴ベクトルの構成です  
   (検証用データの第2カラムは全て空白)  
- クラス変数は0/1のバイナリ値で予測確率を知りたいクラスは”1”とする  
- ID(第1カラム)と予測確率(第2カラム)の2カラム構成の結果ファイルをCSV形式で提出(ヘッダーあり)してもらいます  

ロードしてくだ<第8回の予定>  
10分: 本日の進め方について  
35分: 最終課題コンペ＋アウトプット回収 〜20:15（5分間で提出）  
60分：技能チェック（合格70点）+回収 〜21:15（5分間で提出）  
  オープンブック＋オンライン検索OK  
  知識チェック：50問（範囲：全レクチャー）  
  実技チェック：15問（範囲：全レクチャー）  
10分：表彰＋優勝者の分析方法解説  
5分：運営より ※休憩は個人で自由に取って頂いて結構です。 ※提出物は終わり次第 @nakazawa宛にアップさい。  

### 1. モジュール類のインポート

[データ形式]
- 第1列：index（ID列）
- 第2列：left（1：退職、0：非退職の正解ラベル）
- 第3列以降：特徴量
- カテゴリ変数名：sales, salary
- ヘッダー項目（以下11項目、以下順番で構成）

[columns]
- 01.index
- 02.left (←予測対象、0/1のバイナリ値で予測確率を知りたいクラスは”1”)
- 03.satisfaction_level : 満足度　   (想定　段階評価のためone hot encodingに変換可能)
- 04.last_evaluation : 先期の評価　 (想定　段階評価のためone hot encodingに変換可能)
- 05.number_project : プロジェクトの数
- 06.average_montly_hours : 月々の時間の平均
- 07.time_spend_company : 所属年度
- 08.Work_accident : 業務中のアクシデント
- 09.promotion_last_5years : 過去5年間の昇進
- 10.sales : 販売(成績?) カテゴリ変数
- 11.salary : 給料　カテゴリ変数

### 全体の流れ
1. 定数の設定
2. モジュールのインポート
3. データセットの読み込み
4. EDAの実施(データを知る)
5. Preprocessing
  1. ohe-encoding
  2. 欠損値補完
  3. 次元圧縮、特徴量選択
6. 不均衡データへの対応
7. 学習
  1. モデル選定
  2. パラメータチューニング
8. スコアリングフェーズにおけるデータ処理
9. 提出用のデータ作成

### 1. 定数の設定

### 2. モジュール類のインポート

In [1]:
# データ解析のライブラリ
import numpy as np
import pandas as pd

# データ可視化のライブラリ

# Scikit-learn
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

# 学習手法
from sklearn.neighbors import KNeighborsClassifier    # KNeighborsClassifier
from sklearn.linear_model import LogisticRegression    # ロジスティック回帰
from sklearn.ensemble import RandomForestClassifier    # ランダムフォーレスト
from sklearn.tree import DecisionTreeClassifier    # 決定木
from sklearn.svm import SVC, LinearSVC     # サポートベクターマシーン
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.neural_network import MLPClassifier
import xgboost as xgb    # XGBoost
from xgboost import XGBClassifier

 # 指標の選択
from ipywidgets import interact,interactive,fixed,interact_manual
from IPython.display import display
import ipywidgets as widgets

### 3. データセットの読み込み

In [0]:
train_file = './data/final_hr_analysis_train.csv'
test_file = './data/final_hr_analysis_test.csv'

In [0]:
submit_file = 'data/submit_Tabuchi_'+str(time.time()) +'.csv'

In [0]:
ID_column = 'index'
ID_column_index = 1 
target_value = 'left'
target_value_index = 2

In [0]:
target_value = 'left'
# 除外リスト
reject_cols_from_train = ['index', target_value,]
reject_cols_from_test  =['index']

In [0]:
# カテゴリ変数をリストで設定
ohe_columns = ['Sales',
               'Salary,']

# カテゴリ変数をobject型で読み込むための準備
# 型を強制的にセット
# my_dtype = {'Sales':object,
#           'Salary':object}

my_dtype = {k: object  for k in ohe_columns}    

# 表示オプションの変更
pd.options.display.max_columns = 50

In [0]:
# csvファイルからの読み出し
dataset = pd.read_csv(train_file)

# 1列目はID情報のため特徴量から削除
X = pd.DataFrame(dataset).drop(columns=reject_cols_from_train, axis=1)

# pd.Series型。np.arrayとの違いは、"各要素にindexが明示的についている"
y = pd.Series(dataset[target_value])

# 形状の確認
# check the shape
print('----------------------------------------------------------------')
print('X shape: (%i,%i)' %X.shape)
print('----------------------------------------------------------------')
print(y.value_counts())
print('----------------------------------------------------------------')
print('y=0 means 非退職,　y=1 means left(退職):')
print('----------------------------------------------------------------')
X.join(y).head()

NameError: name 'pd' is not defined

In [0]:
X = pd.DataFrame(dataset).drop(columns=[target_value])
X = X.drop('index', axis = 1)    # 1列目はID情報のため特徴量から削除
y = pd.Series(target_value , name=target_value)
# pd.Series型。np.arrayとの違いは、"各要素にindexが明示的についている"

# 形状の確認
# check the shape
print('-----------------------------------')
print('X shape: (%i,%i)' %X.shape)
print('-----------------------------------')
display(X.join(y).head())

-----------------------------------
X shape: (891,9)
-----------------------------------


Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,sales,salary,left
0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,7.25,left
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,71.2833,
2,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,7.925,
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,53.1,
4,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,8.05,


### 4. EDAの実施

In [0]:
# 欠損値の確認
dataset.isnull().sum()

index                      0
left                       0
satisfaction_level         0
last_evaluation            0
number_project             0
average_montly_hours     177
time_spend_company         0
Work_accident              0
promotion_last_5years      0
sales                      0
salary                     0
dtype: int64

In [0]:
# 各データ型を表示
dataset.dtypes

index                      int64
left                       int64
satisfaction_level         int64
last_evaluation           object
number_project            object
average_montly_hours     float64
time_spend_company         int64
Work_accident              int64
promotion_last_5years     object
sales                    float64
salary                   float64
dtype: object

### 5. データセットの作成

#### カテゴリカル変数⇒one-hotエンコード  
選択したcolumnに対してone-hot encoding処理を行う

In [0]:
def one_hot_encoding(data, ohe_columns):
    X_ohe = pd.get_dummies(data,
                       dummy_na=True,
                       columns=ohe_columns)
    print('X_ohe shape:(%i,%i)' % X_ohe.shape)
    X_ohe.head()
    
one_hot_encoding(X, ohe_columns)

モデル用データの前処理：数値変数の欠損値対応

In [0]:
from sklearn.impute import SimpleImputer

imp = SimpleImputer()
imp.fit(X_ohe)

X_ohe_columns = X_ohe.columns.values
X_ohe = pd.DataFrame(imp.transform(X_ohe), columns=X_ohe_columns)

X_ohe.head()

モデル用データの前処理：次元圧縮（特徴量選択）  
RFEによる特徴量選択を実施します。

In [0]:
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier

selector = RFE(RandomForestClassifier(n_estimators=100, random_state=1),
               n_features_to_select=10,
               step=.05)

selector.fit(X_ohe,y)

X_fin = X_ohe.loc[:, X_ohe_columns[selector.support_]]
print('X_fin shape:(%i,%i)' % X_fin.shape)
X_fin.head()

#### columnの選択
(参考)
https://drillan.github.io/articles/jupyterbook_reject03a.html

In [0]:
def get_answer(x):
    return x

convert_column = get_answer(widgets.RadioButtons(options=dataset.columns.values))
display(convert_column)

RadioButtons(options=('index', 'left', 'satisfaction_level', 'last_evaluation', 'number_project', 'average_mon…

In [0]:
ohe_column = convert_column.value
print(ohe_column)

index


### 4. Pipelineの設定

In [0]:
# set pipelines for different algorithms
pipelines = {
    # knn
    'knn':
        Pipeline([('scl',StandardScaler()),
                  ('est',KNeighborsClassifier())]),
    # ロジスティック回帰
    'logistic':
        Pipeline([('scl',StandardScaler()),
                  ('est',LogisticRegression(random_state=1))]),
    'rsvc':
        Pipeline([('scl',StandardScaler()),
                  ('est',SVC(C=1.0, kernel='rbf', class_weight='balanced', random_state=1))]),
    'lsvc':
        Pipeline([('scl',StandardScaler()),
                  ('est',LinearSVC(C=1.0, class_weight='balanced', random_state=1))]),
    'tree':
        Pipeline([('scl',StandardScaler()),
                  ('est',DecisionTreeClassifier(random_state=1))]),
    'rf':
        Pipeline([('scl',StandardScaler()),
                  ('est',RandomForestClassifier(random_state=1))]),
    'gb':
        Pipeline([('scl',StandardScaler()),
                  ('est',GradientBoostingClassifier(random_state=1))]),
    'mlp':
        Pipeline([('scl',StandardScaler()),
                  ('est',MLPClassifier(hidden_layer_sizes=(3,3),
                                       max_iter=1000,
                                       random_state=1))]),
    'xgb':
        Pipeline([('scl',StandardScaler()),
                  ('est',MLPClassifier(hidden_layer_sizes=(3,3),
                                       max_iter=1000,
                                       random_state=1))]),
}

In [0]:
pipelines.keys()

dict_keys(['knn', 'logistic', 'rsvc', 'lsvc', 'tree', 'rf', 'gb', 'mlp', 'xgb'])

## 5. 学習、評価

In [0]:
# 学習、評価
scores = {}
for pipe_name, pipeline in pipelines.items():
    pipeline.fit(X_train, y_train)
    scores[(pipe_name,'train')] = accuracy_score(y_train, pipeline.predict(X_train))
    # scores[(pipe_name,'test')] = accuracy_score(y_test, pipeline.predict(X_test))

pd.Series(scores).unstack()

In [0]:
# Loan screening test data for classification 
df_s = pd.read_csv('./data/av_loan_test_Y3wMUE5_7gLdaTN.csv',
                   header=0,
                   dtype=my_dtype)    # my_dtypeを指定する

ID_s = df_s.iloc[:,[0]]            # 第0列はPK（Loan_ID）なのでIDとしてセット
X_s  = df_s.drop('Loan_ID',axis=1) # Loan_IDは特徴ベクトルから削除

### スコアリング処理(テストデータの前処理)

In [0]:
# csvファイルからの読み出し
test_dataset = pd.read_csv(test_file,
                          header=0,
                          dtype=my_dtype)

X_test = test_dataset.drop(columns=['index'], axis=1)
# 1列目はID情報のため特徴量から削除


# 形状の確認
# check the shape
print('-----------------------------------')
print('X_test shape: (%i,%i)' %X_test.shape)
print('-----------------------------------')

X_test.head()

-----------------------------------
X_test shape: (418,9)
-----------------------------------


Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,sales,salary
0,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [0]:
test = pd.DataFrame({'index':test_dataset['index']})
# indexを'index'列の値にする
test = test.set_index('index')
test.to_csv('test.csv')

### モデルの決定

In [0]:
models = get_answer(widgets.RadioButtons(options=pipelines.keys()))
display(models)

In [0]:
selected_model = models.value
print(selected_model)

In [0]:
pipelines[selected_model]

### 推論

In [0]:
model = pipelines[selected_model]
y_pred = model.predict(X_test)

In [0]:
y_pred = model.predict(X_test)

### 提出用CSVファイルへの書き出し

In [0]:
my_result = pd.Dataframe({'index':test_dataset['index'], 'left':y_pred})
my_resut = my_result.set_index('index')
my_result.to_csv('submit_tabuchi.csv')