# Day3課題 - 鈴木雅彦

## 前置き

11/3(土)のDay3講義中に以下のことが決まった。
- 全員で精度を競いつつ、有効な手法を共有する
- 対象の課題は「Car Fuel Consumption」（回帰問題）で統一する
- 先頭10%をテストデータ、残りの90%を学習用データとする

鈴木はDay1,2課題にて「Kickstarter Projects」（分類問題）に取り組んでいたので１から取り組む。

## Pythonライブラリを読み込む

In [None]:
# データハンドリング
import numpy as np
import pandas as pd

# 可視化
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

# 前処理
from sklearn.preprocessing import MinMaxScaler # 正規化
from sklearn.preprocessing import StandardScaler # 標準化

# 汎化誤差検証
from sklearn.model_selection import train_test_split # ホールドアウト法
from sklearn.model_selection import KFold # 交差検証法

# 分類問題
from sklearn.linear_model import SGDClassifier # ロジスティック回帰
from sklearn.metrics import confusion_matrix # 結果の可視化
from sklearn.metrics import log_loss # 性能評価
from sklearn.metrics import accuracy_score # 性能評価
from sklearn.metrics import precision_score # 性能評価
from sklearn.metrics import recall_score # 性能評価

# 回帰問題


## データファイルを取得する

1. [Car Fuel Consumption | Kaggle](https://www.kaggle.com/anderas/car-consume)ページを開く

1. [DownloadAll](https://www.kaggle.com/anderas/car-consume/downloads/car-consume.zip/5) リンクからZIPをダウンロードする

1. ZIPを解答する
```
$ cd ~/Downloads
$ unzip car-consume.zip
```

1. データファイルを作業フォルダに配置する
```
$ cp ~/Downloads/measurements.csv ~/Desktop/ml_tokyo_8/git/data/
```

1. gitにpushしておく
```
$ git add data/measurements.csv 
$ git commit -m 'https://www.kaggle.com/anderas/car-consume'
$ git push
```

|型 |名称 |説明 |
|---|-----|----|
|# |distance        |距離 |
|# |consume       |消費量 |
|# |speed            |速度 |
|# |temp_inside   |車内温度 |
|# |temp_outside |社外温度 |
|A |specials         |特記事項 (ACとrainの内容と重複) |
|A |gas_type       |ガソリン種別 SP98:ハイオク, E10:バイオエタノール10％混合 |
|# |AC                |AC電源利用有無(？) |
|# |rain               |雨が降っていたかどうか |
|# |sun               |晴れていたかどうか |
|# |refill liters      |給油量 |
|A |refill gas        |給油ガソリン種別 |

In [None]:
# ファイルの確認
!pwd
!wc data/measurements.csv

## データファイルの読み込む

In [None]:
df = pd.read_csv('data/measurements.csv')

# データフレームの情報を表示する関数
# この後も何度か使うので関数として定義しておく
def show_dataframe_info(df):
    display(df.shape)
    display(df.index)
    display(pd.DataFrame({
        'name': df.columns,
        'dtypes': df.dtypes,
        'count': df.count(),
        'null': df.isnull().sum()
    }))
    df.head()

show_dataframe_info(df)

## 異常値と欠損値を補正する

In [None]:
# 数値の表記がおかしいので修正する

# 文字列型変更 → カンマをドットに置換 → フロート型に変換
f_comma2dot = lambda x: str(x).replace(',', '.')
for column in ['distance', 'consume', 'speed', 'temp_inside', 'temp_outside', 'AC', 'rain', 'sun', 'refill liters']:
    df[column] = df[column].apply(f_comma2dot).astype(float)

show_dataframe_info(df)

In [None]:
# temp_inside(車内温度)の欠損値をどうするか

# 直感的にはtemp_outside(社外温度)との相関が強そう
df.plot(x='temp_outside', y='temp_inside', kind='scatter')
plt.show()
display(df[['temp_outside', 'temp_inside']].corr())

# だが実はそうでもない。
# 線形回帰で求めてもそんなに精度は上がらなそう

# もし平均値で埋めるならこうかなーと思ったけど、
# df['temp_inside'] = df['temp_inside'].fillna(df['temp_inside'].mean())

# 実データを見ると同じような値が連続で並んでいる事に気が付いたのでfillを使う
df['temp_inside'] = df['temp_inside'].fillna(method='ffill')

show_dataframe_info(df)

In [None]:
# refill liters(給油量)は0で埋める
# この列はどうせconsume(消費量)と足し合わせて使うんだろうけど、
# 途中の計算処理でつまづくと面倒なので念のため処理しておく。
df['refill liters'] = df['refill liters'].fillna(0.0)

show_dataframe_info(df)

In [None]:
# refill gas(給油ガソリン種別)はgas_type(ガソリン種別)に準じる
# と思ったけどこの列は使わなそうだから放っておこう

In [None]:
# specials(特記事項)はgas_type(ガソリン種別)とrain(雨が降っていたかどうか)で説明されている
# この列は使わないから放っておこう

### 蛇足
- ある列の値を他の列の値を元に決定したい時、`df.apply(func, axis=1)` だと遅い。
- インデックス(index)に対してapply()を回して各列の辞書(to_dict)にアクセスすると500倍高速になる。
- [pandasで複数カラムを参照して高速に1行1行値を調整する際のメモ - Qiita](https://qiita.com/simonritchie/items/dd737a52cf32b662675c)

## 学習データとテストデータを分割

In [None]:
# 先頭10%をテストデータ、後半90%を学習データとして扱う
# あえてsklearn.model_selection.train_test_split()は使わない
test_size = 0.1
test_row_num = int(df.shape[0] * test_size) # 端数切り捨て int(x) = int(math.floor(x))
df_test = df.iloc[:test_row_num]
df_train = df.iloc[test_row_num:]