# 機械学習

## 目次

- 項目の説明
- カテゴリー変数の扱い
- 欠損値の扱い

## Section2 データの解説

In [None]:
# matplotが使えるようにする

import matplotlib
%matplotlib inline

In [None]:
# データのロード

import pandas as pd

data = pd.read_csv("./data/titanic.csv")

### 2.1 項目の説明

In [None]:
# 先頭5行を表示

data.head()

- PassengerId – 乗客識別ユニークID
- Survived – 生存フラグ（0=死亡、1=生存）　←　これを予測する
- Pclass – チケットクラス（1st, 2nd, 3rd）
- Name – 乗客の名前
- Sex – 性別（male=男性、female＝女性）
- Age – 年齢
- SibSp – タイタニックに同乗している兄弟/配偶者の数
- Parch – タイタニックに同乗している親/子供の数
- Ticket – チケット番号
- Fare – 料金
- Cabin – 客室番号
- Embarked – タイタニックへ乗った港（C=Cherbourg, S=Southampton, Q=Queenstown）

In [None]:
# データのサイズを確認

data.shape

In [None]:
# データの欠損・型を確認

data.info()

In [None]:
def nullCountFig(df):
    null_val = df.isnull().sum()
    percent = 100 * df.isnull().sum()/len(df)
    counted_table = pd.concat([null_val, percent], axis=1)
    counted_figure = counted_table.rename(
        columns = {0 : '欠損数', 1 : '欠損率(%)'}
    )
    return counted_figure

nullCountFig(data)
    

### 2.2 カテゴリー変数の扱い

文字列のままでは基本的にモデルへ入力することができないため、代わりとなる数値に変換する必要があります。

一般的に文字列データは量的ではなく質的なデータなため、扱いにくい場合があります。

そこで、データを0又は1で表現したダミー変数に変換する処理を行います。この処理を **One-Hot エンコーディング** といいます。

In [None]:
# データの確認
print(data.Embarked.value_counts())

data_dummies = pd.get_dummies(data)
print("Features after get_dummies:\n", list(data_dummies.columns))

display(data_dummies.head())


### 2.3 欠損値の扱い

欠損には大きく3種類あります。

- 完全にランダムに欠損
- 観測データに依存する欠損（特定のデータのみ欠損）
- 欠損データに依存する欠損（そもそもデータとして収集されていない）

これらを考慮した上で、欠損値に対応する主な方針は4つです。

1. 欠損のある行、列を除外する
2. 何らかの値で埋める（単変量補完】
3. 何らかの値で埋める（多変量補完）
4. 欠損値を受け入れてくれるモデルを使う

#### 1. 欠損のある行、列を除外する

メリット：かんたん

デメリット：予測性能の低下を招きやすい

In [None]:
# 特定のデータを除外する
non_null_data1 = data.drop(['Age', 'Cabin', 'Embarked'], axis=1)
display(non_null_data1)

# 特定のデータを取り出す
non_null_data2 = data[['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'SibSp', 'Parch', 'Ticket', 'Fare']]
display(non_null_data2)

# 欠損値が一つでも含まれる列を除外する
non_null_data3 = data.dropna()
display(non_null_data3)

#### 2. 何らかの値で埋める（単変量補完）

メリット：かんたん

デメリット：欠損が多いと効果薄

In [None]:
# 共通の値（0）で埋める
simple_filled_data1 = data.fillna(0)
display(filled_data1)

# 平均値で埋める
## 平均値：.mean()
## 中央値：.median()
## 最瀕値：.mode()
simple_filled_data2 = data.fillna(data.mean())
display(filled_data2)

#### 3. 何らかの値で埋める（多変量補完）

メリット：予測精度が高くなりがち

デメリット：うまくいかなかった時、原因がわからないがち

#### 4. 欠損値を受け入れてくれるモデルを使う

メリット：予測精度が高くなりがち

デメリット：ちょっとめんどくさい