# 実践課題
AI_STANDARD 機械学習講座の学習のアウトプットとして、実践的な課題を解いて行きましょう。kaggleというデータサイエンスのコンペティションサイトにある、Titanic号の乗客データを使用した課題です。

![](https://s3-ap-northeast-1.amazonaws.com/ai-std/titanic.png)




## データのダウンロード
データをダウンロードして、jupyterを起動しているディレクトリに保存して下さい。

 - <a href="https://s3-ap-northeast-1.amazonaws.com/ai-std/titanic_train.csv" download="train.csv">データ</a>

 ![](https://s3-ap-northeast-1.amazonaws.com/ai-std/kadai1-2.png)

### それでは解析を始めていきましょう

In [1]:
#モジュールをインポート(numpy, pandasをインポートしましょう)
import numpy as np
import pandas as pd


In [14]:
#trainデータをデータフレームの形で読み込んでdfという名前の変数に代入しましょう

df = pd.read_csv('train.csv')

## 前処理

[欠損値処理とエンコーディング - カテゴリデータの扱い](http://ai-std.com/show_ml/ml10.html#10.3-%E3%82%AB%E3%83%86%E3%82%B4%E3%83%AA%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E6%89%B1%E3%81%84) にあるように、カテゴリデータの前処理は､マッピングとダミー変数化があります。ここではマッピングを行いましょう。

### 問題1：dfの上から10行を表示した後、欠損値の数を確認してください

In [15]:
# 最初の10行を表示
df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [16]:
# 全体の欠損値の数を確認
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### 欠損値は、以下のような数値になります。
![](https://s3-ap-northeast-1.amazonaws.com/ai-std/t-1.png)

### 問題2：前処理を行なってください

- Sexをマッピングしてください
- Ageを補完する


#### Sexカラム
Sexカラムには**文字列**が入っているため、**数値データ**に直す必要があります。

詳しくは、[欠損値処理とエンコーディング](http://ai-std.com/show_ml/ml10.html)に書かれていますので、復習しながら課題を解いて行きましょう。

<img src="https://s3-ap-northeast-1.amazonaws.com/ai-std/t-2.png" width=700>

In [17]:
# Sexをマッピング male:0, female:1
sex_mapping={'male':0,'female':1}
df.Sex = df.Sex.map(sex_mapping)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,,S


#### Ageカラム
今回は簡単に欠損値を全体の平均値で補完しましょう。

In [18]:
#　Ageを補完する
df.Age = df.Age.fillna(df.Age.mean())
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",0,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",1,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",0,35.0,0,0,373450,8.05,,S


### 問題3：データフレームから説明変数と目的変数をアレイの形で取り出してください
- 説明変数　X：["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare"]
- 目的変数　y：["Survived"]

In [19]:
X = df.loc[:,["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare"]].values

In [33]:
y = df.loc[:,["Survived"]].values.reshape(-1)

### 問題4：ホールドアウト法によるデータの分割をしてください。

条件：テストデータの割合は3割、random_stateは0、変数は「X_train, X_test, y_train, y_test」を使用

In [34]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=0) #コンペはseed固定してなんぼ。

### 問題5：SVMを使用したモデルを作成してください
- モジュールのインポート
- インスタンスの作成
- モデルへのfit
- scoreの表示

In [35]:
# モジュールのインポート
from sklearn.svm import SVC

In [36]:
# インスタンスの作成
svc = SVC(C=1.0)

In [37]:
# モデルへのfit
svc.fit(X_train,y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [38]:
# scoreの表示
print('train:%.3f'%svc.score(X_train,y_train))
print('test:%.3f'%svc.score(X_test,y_test))

train:0.900
test:0.720


過学習っぽいなぁ

### 問題6：グリッドサーチをして最適なパラメーターを見つけ、スコアを算出してください

条件：パラメーターは以下を使用して下さい。

参考：[性能評価とチューニング](http://ai-std.com/show_ml/ml9.html)

In [39]:
param_grid = [
    {'C': [0.01, 0.1, 1], 'kernel': ['linear']}
]

In [40]:
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)

# グリッドサーチのインスタンスを生成
gs_svc = GridSearchCV(SVC(),param_grid,cv=skf)


In [41]:
# 教師データの型を修正(二重リストから一重のリストへ変換)
y_train = y_train.reshape((1,-1))[0]
y_test = y_test.reshape((1,-1))[0]

In [42]:
# fitさせる(実行には少し時間がかかります)
gs_svc.fit(X_train,y_train)

GridSearchCV(cv=StratifiedKFold(n_splits=5, random_state=0, shuffle=True),
       error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params={}, iid=True, n_jobs=1,
       param_grid=[{'C': [0.01, 0.1, 1], 'kernel': ['linear']}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

In [43]:
# 最適なパラメーターを表示
gs_svc.best_params_

{'C': 1, 'kernel': 'linear'}

In [44]:
# 最適なモデルでスコアを表示
gs_svc.best_score_

0.7881219903691814

#### ここまでで行なった解析はとても簡易的なもので、まだまだ精度を上げるための工夫ができます。
#### 余力のある人は別ファイルを作ってさらに工夫を凝らした解析を行ってみましょう！

Sampleでやったこと
- Ageの欠損値を平均で埋める
- SVM　with グリッドサーチ