# kaggleで遊ぼう

## 今回のお題：[kaggle - Shelter Animal Outcomes](https://www.kaggle.com/c/shelter-animal-outcomes)

# ４つの基本ステップ

1. 準備（データを落として来たり、ライブラリを読み込んだりする）
2. データ整形（予測に効きそうな特徴量をうまくデザインしながら、全ての情報を数値データに変換する）
3. 機械学習（交差検定を駆使してモデルごとに程よいハイパーパラメータを選び、最後にアンサンブル学習）
4. 結果提出（予測結果をCSVファイルに書き出して、kaggleに提出）

# ステップ１：準備

目的：データを用意し、ライブラリを読み込む

In [None]:
# ディレクトリ構成を揃える（input, output, code）
#!ls -la ..

In [None]:
# データ整形と可視化で必要となるライブラリを読み込む

# 数値計算用ライブラリ
<FILL_IN>

# データ解析用ライブラリ
<FILL_IN>

# 基本の描画ライブラリ（２つ）
<FILL_IN>
<FILL_IN>

In [None]:
# 便利な設定

# 図をipython notebook内で表示
<FILL_IN>

# ステップ２：データ整形

目的：データの特徴を理解し、機械学習ができる形に整形する

## データを読み込む

- `pd.read_csv()`を使うと良い

In [None]:
# データの読み込み
df_train = <FILL_IN>

In [None]:
df_test = <FILL_IN>

In [None]:
df_sub = <FILL_IN>

## データを眺める

#### データを眺めるときに使える関数
- `df.head()`, `df.tail()`
- `df.info()`
- `df.describe()`

In [None]:
<FILL_IN>

## データの結合

- 整形のため（特に欠損値を埋めるため）、トレーニングデータとテストデータを合わせる
- 注：本来であればトレーニングデータで得た知見だけを使い、トレーニングデータとテストデータの欠損値を埋めるべきだが、簡単のため今回はこうする

In [None]:
# 一応、AnimalIDとIDがユニークな値であることを確認

# トレーニングデータ
<FILL_IN>

In [None]:
# テストデータ
<FILL_IN>

In [None]:
# テストデータとの整合性を保つため、トレーニングデータのAnimalIDというカラム名をIDに変更する
<FILL_IN>

In [None]:
# IDというカラムをインデックスとする
<FILL_IN>

In [None]:
# 後でデータを分離しやすいよう、結合前にトレーニングデータとテストデータがわかるようなラベルを振っておく
df_train['_data'] = 'train'
df_test['_data'] = 'test'

In [None]:
# データセットを結合する
<FILL_IN>

In [None]:
# 一応、データの形をチェック
print df.shape
print df_train.shape
print df_test.shape

## 出力特徴量（従属変数）の整形

In [None]:
# 欠損値に関する情報を得る
<FILL_IN>

In [None]:
df_sub.head()

In [None]:
outcome_labels = ['Adoption', 'Died', 'Euthanasia', 'Return_to_owner', 'Transfer']
outcome2id = dict(zip(*[outcome_labels, np.arange(5)]))
outcome2id

In [None]:
# zip()の使用例
zip(*[['a', 'b'], [1, 2]])

In [None]:
# 最終的に予測するターゲット
df['OutcomeTypeId'] = df['OutcomeType'].map(outcome2id)

In [None]:
# 使わない変数はこのリストに保持
# 後で、df.drop(not_needed, axis=1, inplace=True) とすることで、いらない列を落とせる。
# 予測に使用する変数が増えて来たときに活躍する。
# 今回は簡単のため、OutcomeSubtypeは無視する。
not_needed = ['OutcomeType', 'OutcomeSubtype']

## 入力特徴量（独立変数）の整形

### AgeuponOutcome

In [None]:
not_needed.append('AgeuponOutcome')

### AnimalType

In [None]:
# 生データを眺める
<FILL_IN>

In [None]:
# 欠損値に関する情報を得る
<FILL_IN>

In [None]:
# 犬と猫の数を調べる
<FILL_IN>

In [None]:
# 犬と猫でどう違うのか見る
<FILL_IN>

In [None]:
# 　描画
<FILL_IN>

In [None]:
# 猫と犬、それぞれにおけるターゲットの割合を計算
<FILL_IN>

In [None]:
# 描画
<FILL_IN>

In [None]:
animal_type2id = {'Dog': 0, 'Cat': 1}
df['AnimalTypeId'] = df['AnimalType'].map(animal_type2id)

In [None]:
not_needed.append('AnimalType')

### Breed

In [None]:
not_needed.append('Breed')

### Color

In [None]:
not_needed.append('Color')

### DateTime

In [None]:
not_needed.append('DateTime')

### Name

In [None]:
# 欠損値について調べる
#<FILL_IN_LATER>

In [None]:
# 「名前が無い」ということは重要な特徴かもしれない
#<FILL_IN_LATER>

In [None]:
# 各要素の頻度を調べる
#<FILL_IN_LATER>

In [None]:
# 名前の頻度をNameCountという変数にする
#<FILL_IN_LATER>

In [None]:
# NameCountの欠損値を1で埋める
df['NameCount'] = <FILL_IN_LATER>

In [None]:
#df['NameCount'].hist()

In [None]:
# NameCountを対数変換したLogNameCountという変数を作る
#df['LogNameCount'] = <FILL_IN_LATER>

In [None]:
#df['LogNameCount'].hist()

In [None]:
# 名前の文字数。名前が無い場合は0とした。
#df['NameLength'] = df['Name'].fillna('').apply(lambda x: len(x))

In [None]:
# 名前と名前の文字数が一致しているか確認
#df[['Name', 'NameLength']].head(10)

In [None]:
not_needed.append('Name')

### SexuponOutcome

In [None]:
not_needed.append('SexuponOutcome')

## scikit-learn用にデータ変換

In [None]:
not_needed

In [None]:
#input_features = ['AnimalTypeId']
#input_features = ['AnimalTypeId', 'NameCount']
#input_features = ['AnimalTypeId', 'LogNameCount']
#input_features = ['AnimalTypeId', 'NameCount', 'LogNameCount']
#input_features = ['AnimalTypeId', 'NameCount', 'LogNameCount']
#input_features = ['AnimalTypeId', 'NameCount', 'LogNameCount', 'NameIsNull']
#input_features = ['AnimalTypeId', 'NameCount', 'LogNameCount', 'NameIsNull', 'NameLength']
output_feature = 'OutcomeTypeId'
input_features = df.columns.difference(not_needed + [output_feature, '_data'])

In [None]:
input_features

In [None]:
# トレーニングデータの入力特徴量を用意（２次元）
X_train = df.ix[df['_data'] == 'train', input_features].values.astype('float')
X_train.shape

In [None]:
# トレーニングデータの出力特徴量を用意（１次元）
# 1次元で用意するためには、Seriesから値を取り出せば良い。もしくはflatten()を使う
y_train = df.ix[df['_data'] == 'train', output_feature].values.astype('int')
y_train.shape

In [None]:
# テストデータの入力特徴量を用意（２次元）
X_test = df.ix[df['_data'] == 'test', input_features].values.astype('float')
X_test.shape

## スケーリング

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# StandardScalerオブジェクトを作成
scaler = <FILL_IN>

In [None]:
# トレーニングデータのデータでフィッティング
<FILL_IN>

In [None]:
# 通常バイナリデータはスケーリングの対象としないが、今回はざっくりと全入力変数をスケーリングしてしまう
X_train = <FILL_IN>
X_test = <FILL_IN>

In [None]:
print u"トレーニングデータ"
print X_train.mean(axis=0)
print X_train.std(axis=0)
print u"テストデータ"
print X_test.mean(axis=0)
print X_test.std(axis=0)

# ステップ３：機械学習

In [None]:
# モデルの読み込み
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression()

In [None]:
# 学習
<FILL_IN>

In [None]:
# テストデータの出力を予測
<FILL_IN>

# ステップ４：結果提出

In [None]:
# 予測結果をデータフレームに入れる
df_result = pd.DataFrame(y_test_pred, columns=outcome_labels, index=df_test.index)

In [None]:
# データフレームからsubmission01.csvに書き出し
<FILL_IN>

## （おまけ）しかし、毎回kaggleに投げるのは問題あり...

In [None]:
# 交差検定をサクッとやるためのモジュールを読み込む
<FILL_IN>

In [None]:
cv_scores = <FILL_IN>
print"{0:.3f} ({1:.3f})".format(cv_scores.mean(), cv_scores.std())

## （おまけ）他のモデルだとどうなるだろう？

In [None]:
# 予測モデルの読み込み

# 分類モデル（他にもいろいろある）
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier, ExtraTreesClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
#from xgboost import XGBClassifier # これだけ個別にインストールする必要あり

In [None]:
classifiers = [
    ('lr', LogisticRegression()), 
    ('knn', KNeighborsClassifier()),
    #('linear svc', SVC(kernel="linear")), # データ点が多いと計算に時間がかかるので今回は割愛
    #('rbf svc', SVC(gamma=2)), # データ点が多いと計算に時間がかかるので今回は割愛
    ('dt', DecisionTreeClassifier()),
    ('rf', RandomForestClassifier(random_state=42)),
    ('et', ExtraTreesClassifier()),
    ('ab', AdaBoostClassifier()),
    ('gbc', GradientBoostingClassifier()),
    ('gnb', GaussianNB()),
    ('lda', LinearDiscriminantAnalysis()),
    ('qda', QuadraticDiscriminantAnalysis()),
    #('xgb', XGBClassifier()) # これだけ個別にインストールする必要があるので今回は割愛
]

In [None]:
warnings.filterwarnings("ignore", category=UserWarning)

import time
results = {}
exec_times = {}

for name, model in classifiers:
    tic = time.time()
    if name in ['linear svc', 'rbf svc']:
        result = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')        
    else:
        result = cross_val_score(model, X_train, y_train, cv=5, scoring='log_loss')
    exec_time = time.time() - tic
    exec_times[name] = exec_time
    results[name] = result
    
    print("{0:.3f} ({1:.3f}): time {2:.2f}s, {3}".format(result.mean(), result.std(), exec_time, name))

In [None]:
warnings.filterwarnings("ignore", category=DeprecationWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

# 結果の描画を楽にするためpandasのデータフレームに結果を入れる
import pandas as pd

dfr = pd.DataFrame(results)

dfr[dfr.median().sort_values(ascending=True).index].boxplot(vert=False);

## （おまけ）特徴量の重要度を見たいときには？

In [None]:
model = GradientBoostingClassifier()
model.fit(X_train, y_train)
fi = model.feature_importances_
plt.barh(np.arange(len(fi)), fi);
plt.yticks(np.arange(len(fi))+0.4, input_features);

In [None]:
df0 = df[input_features.union(['_data'])]
df0 = df0[df0['_data'] == 'train']

In [None]:
df1 = pd.get_dummies(df_train['OutcomeType'])

In [None]:
df01 = df0.join(df1)

In [None]:
df01.drop('_data', inplace=True, axis=1)

In [None]:
fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(df01.corr(), ax=ax)

## （おまけ）ハイパーパラメータの選び方は？

- １次元: validation_curve
- 低次元: GridSearchCV
- 高次元: RandomizedSearchCV

In [None]:
# 交差検証
from sklearn.learning_curve import validation_curve

### GradientBoostingClassifier

In [None]:
param_name = 'max_depth'
#param_name = 'n_estimators'

param_range = {
    'max_depth': [1, 2, 3, 4, 5, 6, 7],
    'n_estimators': [10, 20, 40, 80, 160],
    #'n_estimators': [40, 60, 80, 100, 120, 140, 160],
}

fixed_params = {
#    'max_depth': 2
}

train_scores, valid_scores = validation_curve(GradientBoostingClassifier(**fixed_params), 
                                              X_train, y_train, 
                                              scoring='log_loss',
                                              cv = 3,
                                              param_name=param_name, 
                                              param_range=param_range[param_name], 
                                              n_jobs=-1)

In [None]:
train_scores

In [None]:
valid_scores

In [None]:
def plot_validation_curve(train_scores, valid_scores, param_range, semilogx=False):
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    valid_scores_mean = np.mean(valid_scores, axis=1)
    valid_scores_std = np.std(valid_scores, axis=1)

    if semilogx:
        plot = plt.semilogx
    else:
        plot = plt.plot
    
    plt.title("Validation Curve")
    plt.xlabel("Hyperparameter")
    plt.ylabel("Score")
    #plt.ylim(0.0, 1.1)
    plot(param_range, train_scores_mean, label="Training score", color="r")
    plt.fill_between(param_range, train_scores_mean - train_scores_std,
                     train_scores_mean + train_scores_std, alpha=0.2, color="r")
    plot(param_range, valid_scores_mean, label="Cross-validation score",
                 color="g")
    plt.fill_between(param_range, valid_scores_mean - valid_scores_std,
                     valid_scores_mean + valid_scores_std, alpha=0.2, color="g")
    plt.legend(loc="best")
    plt.show()

    print "Best parameter is {}".format(param_range[valid_scores_mean.argmax()])

In [None]:
plot_validation_curve(train_scores, valid_scores, 
                      param_range[param_name], semilogx=False);

In [None]:
cv_scores = cross_val_score(GradientBoostingClassifier(max_depth=5, n_estimators=32),
                            X_train, y_train, scoring='log_loss', cv=5, n_jobs=-1)
print"{0:.4f} ({1:.4f})".format(cv_scores.mean(), cv_scores.std())

### RandomForestClassifier

In [None]:
#param_name = 'max_depth'
param_name = 'n_estimators'

param_range = {
    #'max_depth': np.logspace(0, 8, base=2, num=9),
    'max_depth': [6, 7, 8, 9, 10, 11, 12],
    'n_estimators': np.logspace(2, 11, base=2, num=10).astype(int),
    #'n_estimators': [40, 60, 80, 100, 120, 140, 160],
}

fixed_params = {
    'max_depth': 10
}

train_scores, valid_scores = validation_curve(RandomForestClassifier(**fixed_params), 
                                              X_train, y_train, 
                                              scoring='log_loss',
                                              cv = 3,
                                              param_name=param_name, 
                                              param_range=param_range[param_name], 
                                              n_jobs=-1)

In [None]:
plot_validation_curve(train_scores, valid_scores, 
                      param_range[param_name], semilogx=True);

In [None]:
cv_scores = cross_val_score(RandomForestClassifier(max_depth=10, n_estimators=2048),
                            X_train, y_train, scoring='log_loss', cv=5, n_jobs=-1)
print"{0:.4f} ({1:.4f})".format(cv_scores.mean(), cv_scores.std())

## （おまけ）モデルのアベレージング

In [None]:
from sklearn.ensemble import VotingClassifier

In [None]:
estimators = []

# ハイパーパラメータは、モデルごとに交差検証して決める
#estimators.append(('lr', LogisticRegression(C=1)))
estimators.append(('gbc', GradientBoostingClassifier(n_estimators=32, max_depth=5)))
estimators.append(('rf', RandomForestClassifier(n_estimators=2048, max_depth=10)))
#estimators.append(('et', ExtraTreesClassifier(n_estimators=250, max_depth=12)))
#estimators.append(('xgb', XGBClassifier(n_estimators=32, max_depth=6, learning_rate=0.1, 
#                                        colsample_bytree=0.7, reg_alpha=0.0, reg_lambda=1.0, 
#                                        min_child_weight=6, subsample=1.0)))

In [None]:
model = VotingClassifier(estimators=estimators, voting='soft', weights=[1, 1]) 

In [None]:
model.estimators

In [None]:
# 各モデルの予測の相関関係をみる。相関関係の薄いモデルをVoting ensembleに入れる

pred_prob = {}
for model_name in model.named_estimators:
    curr_model = model.named_estimators[model_name]
    curr_model.fit(X_train, y_train)
    pred_prob[model_name]  = curr_model.predict_proba(X_test).flatten()#[:, 1]
    
df_pred = pd.DataFrame(pred_prob)
df_pred.corr()

In [None]:
results = cross_val_score(model, X_train, y_train, cv=5, scoring='log_loss', n_jobs=-1)
print("({0:.4f}) +/- ({1:.4f})".format(results.mean(), results.std()))

In [None]:
# いい感じに全てのモデルのハイパーパラメータが決まったら、全てのモデルをアンサンブル学習
model.fit(X_train, y_train)

In [None]:
# 予測
y_test_pred = model.predict_proba(X_test)

In [None]:
df_result = pd.DataFrame(y_test_pred, columns=outcome_labels, index=df_test.index)

In [None]:
df_result.to_csv("../output/submission02.csv")