# 2章 エンドツーエンドの機械学習プロジェクト
以下に示すステップを通して機械学習プロジェクトを体験する．

1. 全体の構図をつかむ
1. データを手に入れる
1. 洞察を得るためにデータを見つけ出し可視化する
1. 機械学習アルゴリズムが処理しやすいようにデータを準備する
1. モデルを選択肢訓練する
1. モデルを微調整する
1. ソリューションをプレゼンテーションする
1. システム本番稼働


## 2.1 実際のデータの操作
無償で公開されているオープンデータセットは無数にあるが，この章では StatLib のカリフォルニアの住宅価格のデータセットを用いる．

<div align="center">
    <img src="./img/ch02/IMG_0131.jpg" title="StatLib のカリフォルニアの住宅価格" width="50%">
</div>

## 2.2 全体像をつかむ
StatLib のカリフォルニアの住宅価格のデータセットには，カリフォルニア州の各国勢調査細区分グループ（区域）の人工，収入の中央値，住宅価格の中央値などの指標が含まれる．
このデータから任意の区域の住宅価格の中央値を予測したい．

### 2.2.1 問題の枠組みを明らかにする
まず，何を目的に解析を行うかを明確にし，モデルの評価に用いる性能指標などを決定する必要がある．  
次に，現在のソリューションがあるのか，またあればどのようなものがあるのかを確認する．  
これらの情報を揃えた上で，システムの設計に取り掛かる．教師あり，教師なし，強化学習のいずれを使うか，分類なのか回帰なのか，それ以外のタスクなのか，バッチ学習を使うか，オンライン学習を使うかなどについて検討する．  
<br>
ここでは与えられたラベル付き訓練データに対して，複数の特徴量から値の予測を行うことから多変量回帰問題であると考えられる．また，システムに継続的なデータフローが届くわけではないうえ，データはメモリに十分収まる程度なので，バッチ学習で問題ないと考えられる．

### 2.2.2 性能指標を選択する
次に性能指標を検討する．回帰問題の典型的な性能指標は以下の平均二乗誤差（Root Mean Square Error: RMSE）である．

$$
    RMSE({\bf X}, h) = \sqrt{\frac{1}{m} \sum_{i=0}^m \left(h\left({\bf x}^{(i)}\right) - y^{(i)}\right)^2}
$$

平均絶対誤差（mean absolute error : MAE）を使う場合もある．MAE は平均絶対偏差（mean absolute deviation）とも呼ばれる．

$$
    MAE({\bf X}, h) = \frac{1}{m} \sum_{i=0}^m \left| h\left({\bf x}^{(i)}\right) - y^{(i)} \right|
$$

上記はどちらも2つのベクトルの距離を図る指標で，一般にノルム（norm）と呼ばれる．他にも様々なノルムがある．
- RMSE はユークリッドノルム（Euclidian norm）に対応し，$l_2$ノルムとも呼ばれ，$\Arrowvert \cdot \Arrowvert_2$ や $\Arrowvert \cdot \Arrowvert$ と記す
- MAE は $l_1$ ノルムに対応し，マンハッタンノルムとも呼ぶ
- 一般の $l_k$ ノルムは $\Arrowvert {\bf v} \Arrowvert_k = l_0\sqrt[n]{|v_0|^k+|v_1|^k+ \cdots +|v_n|^k}$ で定義される
（$l_0：ベクトルの非ゼロ要素の数，$$l_{\infty}$：ベクトルの絶対師の最大）
- のツムの数字が大きいほど，大きな値を重視し小さい値は無視する傾向が強くなる

### 2.2.3 前提条件をチェックする
最後に今まで検討してきた前提をリストアップし確認する．  
この段階で問題が見つかる場合も多く，そのような場合にはシステムの構成を見直すなどする．

## 2.3 データを手に入れる
### 2.3.1 ワークスペースを作る
Python をインストールし，必要なモジュールと Jupyter Notebook のセットアップを行う．

### 2.3.2 データをダウンロードする
必要なデータをダウンロードし CSV ファイルを取得するための関数を実装し，データのフェッチプロセスを自動化しておく．

In [2]:
import os
import tarfile
import pandas as pd
from six.moves import urllib

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

# データセットをダウンロードして CSV に展開する
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
    
# データセットの CSV を Pandas を使って読む
def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

fetch_housing_data()

### 2.3.3 データの構造をざっと見てみる


In [3]:
housing = load_housing_data()
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
