# 1. 機械学習の現状
機械学習は未来の夢物語ではなく，OCR（光学文字認識：Optical Character Recognition）やスパムフィルタなど現在でも広く使われている．
この章では何を以て機会が学習する（learn）のかということを概観し，基本的な概念と専門用語の紹介を行う．

## 1.1 機械学習とは何か
機械学習の少し広い定義には以下のようなものがある．
> 機械学習は明示的にプログラミングをせずにコンピュータに学習能力を与えるための学問分野である

さらに技術的には次のように定義される．
> コンピュータプログラムは経験EによってタスクTに対する測定指標Pで測定した性能が上がるとき，TについてEから学習すると言われる．

ここで，いくつかの専門用語を定義する．
- **訓練セット（training set）**  
システムが学習するために使うデータ例のこと
- **訓練インスタンス（training instance）/ 標本（sample）**  
訓練セットの個々のデータのこと
- **精度（accuracy）**  
分類タスクでよく使われる性能指標の1つ

## 1.2 なぜ機械学習を使うのか
従来の手法でスパムフィルタを作ろうとするとどうなるだろうか？

1. タイトルによく現れる語句や送信者名，メール本体などのパターンを見つける
2. 気づいたパターンごとに検出アルゴリズムを書き，メールにスパムフラグを立てる
3. うまくいくまで1と2を繰り返す

まとめると以下のような流れになる．

<img src="img/ch01/IMG_0139.jpg" width="50%">

この方法では，プログラムに複雑なルールの長いリストを含むものになるため，メンテナンスが大変になる．  
一方で，次のように機械学習の手法を使えば自動的にスパムの判別に使える語句を見つけられるため，プログラムは簡潔になりメンテナンスもしやすくなる．

<img src="img/ch01/IMG_0140.jpg" width="50%">

ここで,”4U”ではなく"For U"と書くようになったとすると，従来の手法では手作業で変更を追加しなければならない．
一方で，機械学習のアプローチでは，ユーザが"For U"を多く含んだメールにスパムフラグを立てれば，自動的にそのようなメールをスパムとして識別できるようになる．

<img src="img/ch01/IMG_0141.jpg" width="50%">

機械学習では従来のアプローチでは複雑になりすぎる問題や，アルゴリズムが確立されていない問題でも力を発揮する．  

時に機械学習は人間の学習の助けになることもある．
これまで知られていなかった相関関係や新しいトレンドが見つかることで，問題への理解が深まることも多い．
このように，機械学習の手法によって未知のパターンを見つけられることもあり，これを**データマイニング（data mining）**と呼ぶ．

<img src="img/ch01/IMG_0142.jpg" width="50%">

以上より，機械学習は次のような問題を得意とする．
- 手作業によるチューニングや，長大なリストが必要な問題
- 従来手法では良い結果が得られなかった複雑な問題
- 継続的にデータが変化する問題
- 複雑なシステムや大量のデータについての知見の獲得

## 1.3 機械学習システムのタイプ
一口に機械学習と言ってもそのタイプは多岐にわたる．ここでは，それらについて順番に見ていく．

### 1.3.1 教師あり／教師なし学習
まず，機械学習は訓練中に受ける人間の関与の程度で大きく4つのタイプ（教師あり学習・教師なし学習・半教師あり学習・強化学習）に分類できる．

#### 1.3.1.1 教師あり学習
教師あり学習（supervised learning）では，アルゴリズムに与える訓練データの中にラベル（label）と呼ばれる答えが含まれている．

<img src="img/ch01/IMG_0143.jpg" width="50%">

代表的なタスクとして**分類（classification）**が挙げられる．
また，**予測子（predictor）**と呼ばれる一連の**特徴量（feature）**から**ターゲット（target）**の数値を予測する**回帰（regression）**でも使われる．

<img src="img/ch01/IMG_0144.jpg" width="50%">

以降の章では以下のアルゴリズムを取り上げる．
- k近傍法
- 線形回帰
- ロジスティック回帰
- サポートベクターマシン（SVM）
- 決定木・ランダムフォレスト
- ニューラルネットワーク

#### 1.3.1.2 教師なし学習
教師なし学習（unsupervised learning）では訓練データにラベルはついていない．
ここで取り上げるアルゴリズムには以下の通り．
- クラスタリング
    - k平均
    - 階層型クラスタ分析（HCA）
    - EM（expectation maximization：期待値最大化）アルゴリズム
- 可視化と次元削減
    - PCA（principal component analysis：主成分分析）
    - カーネルPCA
    - LLE（locally-linear embedding：局所線形埋め込み）
    - t-SNE（t-distributed stochastic neighbor embedding：t分布型確率的近傍埋め込み法）
- 相関ルール学習
    - アプリオリ
    - eclat

教師なし学習のタスクの1つに**クラスタリング（clustering）**がある．
次のように，それぞれのインスタンスがどのグループに属するかを判定する
<img src="img/ch01/IMG_0145.jpg" width="50%">

<img src="img/ch01/IMG_0146.jpg" width="50%">

また，**可視化（visualization）**も教師なし学習の一例である．
このアルゴリズムでは，できる限りデータの構造を残そうとするので，データがどのような構造になっているのかが理解でき，予想外のパターンを見つけられることもある．

<img src="img/ch01/IMG_0147.jpg" width="50%">

可視化に関連して，情報をあまり失わないようにデータを単純化することを目標とする**次元削減（dimension reduction）**や，そのほかに**異常検知（anomaly detection）**も教師なし学習のタスクである．

<img src="img/ch01/IMG_0148.jpg" width="50%">

さらに，大量のデータから面白い関係を見つけ出す**相関ルール学習**もある．

#### 1.3.1.3 半教師あり学習
ラベルのないデータに対して，少数のラベル付きデータが含まれている場合，**半教師あり学習（semisupervised learning）**と呼ぶ．

<img src="img/ch01/IMG_0149.jpg" width="50%">

殆どの半教師あり学習は教師なし学習と教師あり学習のアルゴリズムを結合したものである．
例えば，DBN（deep belief network）はRBM（restricted Boltzmann machine：制限付きボルツマンマシン）という教師なしコンポーネントを積み上げたものになっており，逐次的にRBMを訓練してから教師あり学習でシステム全体を微調整する手法を取っている．

#### 1.3.1.4 強化学習
強化学習（reinforcement learning）は非常に特異な種類の学習アルゴリズムである．
**エージェント**（**agent**：学習システムのこと）は環境を観察し，行動を選択して実行することで**報酬（reward）**を得る．
エージェントは**方策（policy）**と呼ばれる最良の戦略を自分で学習し，時間とともに高い報酬を得るようになる．
方策は特定の状況に置かれたとき，エージェントが選ぶべき行動を決める．  
囲碁やロボットの歩行などに強化学習は使われている．

<img src="img/ch01/IMG_0150.jpg" width="50%">

### 1.3.2 バッチ学習とオンライン学習
#### 1.3.2.1 バッチ学習
**バッチ学習（batch learning）**では訓練時にすべてのデータを与えて学習を行う．
この処理には長い時間と大量の計算資源が必要なため，オフラインでシステムを訓練しておいて，本番稼働ではそれ以上学習をせずに運用する．
これを**オフライン学習（offline learning）**と呼ぶ．
バッチ学習で新しいデータについて学習させたい場合には，もとのデータに新しいものを加えた完全なデータセットで初めから学習し直さねければならない．
この場合，訓練に非常に時間がかかるため，データの更新頻度は低くならざるを得ない．
すると，変化の激しいデータに対応できないため，もっと機敏に変化に対応可能な手法が必要になる．
また，大量の計算資源を一括で処理する場合，非常に多くの計算資源が必要となり，金銭的コストが非常に高くなる．
さらに，データが大きすぎるとバッチ学習自体が実行できない場合もある．

#### 1.3.2.2 オンライン学習
**オンライン学習（online learning）**では1つずつ，または**ミニバッチ（mini-batch）**と呼ばれる小さなグループで逐次的にインスタンスデータを与えシステムを差分的に訓練させる．毎回の学習ステップは高速かつ低コストなので，システムにデータが届くとその場でデータの学習を済ませられる．

<img src="img/ch01/IMG_0151.jpg" width="50%">

オンライン学習は継続的なフロートしてデータを受け取り，素早く自律的に処理しなければならない場合や，計算資源が限られている場合に力を発揮する．1台のマシンのメモリに乗り切らないほど訓練データセットを使うシステム（**アウトオブコア：out-of-core**）でも使える．

<img src="img/ch01/IMG_0152.jpg" width="50%">

オンライン学習には，変化するデータにどれくらいの速さで対応するかを示す**学習速度（learning）**という指標がある．学習速度が速ければ変化に機敏に対応できるが，古いデータはすぐに忘れる傾向にある．一方で学習速度を小さくすることでシステムに慣性をもたせることができ，当たらああしいデータに含まれるノイズなどに影響を受けにくくなる．  
オフライン学習では不良なデータが与えられると，システムの性能が徐々に下がっていくため，システムをモニタリングして性能の低下を検知したらすぐに学習をオフにしたり，異常検出アルゴリズムなどで異常なデータを弾いたりすることを検討すべきである．

### 1.3.3 インスタンスベース学習とモデルベース学習
機械学習システムは**汎化（generalize）**の方法によっても分類できる．
機械学習のタスクの大半は予測であり，訓練データに対して高い性能を示すだけでなく，新しいインスタンスに対して高い性能を示すことが目標となる．

#### 1.3.3.1 インスタンスベース学習
**インスタンスベース学習（instance-based learning）**では，システムはデータ例を丸暗記し，新しいケースに対しては**類似度の尺度（measure of similarity）**を使って汎化を行う．

<img src="img/ch01/IMG_0153.jpg" width="50%">

#### 1.3.3.1 モデルベース学習
**モデルベース学習（model-based learning）**ではデータ例全体からモデルを構築し，そのモデルを使って予測する．

<img src="img/ch01/IMG_0154.jpg" width="50%">

**モデルパラメータ（model parameter）**を調整し，適切な値に設定しモデルを構築する．
このとき，そのモデルがどれだけ良いかを測定する**適応度関数（utility function）**や，どれだけ悪いかを測定する**コスト関数（cost function）**によってモデルの性能を評価してやる．
ここでは，1人あたりのGDPと暮らしへの満足度に関する線形回帰問題を例にとって，Pythonによる実装を行う.
これによって，以下のような線形モデルが得られる．

<img src="img/ch01/IMG_0157.jpg" width="50%">

モデルベース学習の手順をまとめると以下のようになる．
- データの検討
- モデルの選択
- 訓練データでモデルを訓練
- 新しいデータに対してモデルを適用し予測を行う（**推論：inference**）

## 1.4 機械学習が抱える難問
機械学習の訓練を妨げる要因として，「まずいデータ」と「まずいアルゴリズム」が挙げられる．

### 1.4.1 訓練データ例の品質の低さ
殆どの場合，ごく単純な問題でも数千個，画像認識や音声認識などの複雑なタスクでは数百万個のデータ例が必要になる．

### 1.4.2 現実を代表しているとは言えない訓練データ
汎化性能を上げるためには，訓練データが汎化対象の新データをよく代表するものでなければならない．
これは，モデルベース学習でもインスタンスベース学習でも同じである．
現実を代表していない訓練データを使うと正確な予測のできないモデルになってしまう．
一般に，データセットの選択は難しく，サンプル数が少なすぎると**サンプリングノイズ**の影響が大きくなるが，サンプル数を大きくしてもサンプリング方法に欠陥があると代表的なデータを集められない場合もある（**サンプリングバイアス**）．

### 1.4.3 品質の低いデータ
訓練データに誤りや外れ値，ノイズが多く含まれる場合，システムの性能が高くなる可能性は下がってしまう．
これを防ぐには訓練データのクリーンアップに時間をかけると良い．
データのクリーンアップでは次のようなことをする．

- 明らかな外れ値は除外するかマニュアルで修正する
- データの一部で特徴量が欠損している場合には以下のような対策を取る．
    - 欠損している特徴量を無視する
    - 欠損を含むインスタンスを無視する
    - 中央値などで欠損値を補う
    - 特徴量を持つ場合と持たない場合でモデルを訓練する

### 1.4.4 無関係な特徴量
無関係な特徴量が多すぎると学習が困難になる．
訓練のために適切な特徴量を揃えるプロセスは**特徴量エンジニアリング（feature engineering）**と呼ばれ，次の作業からなる．
- 特徴量選択（feature selection）  
既存の特徴量から訓練に最も役立つ特徴量を選択する
- 特徴量抽出（feature extraction）  
既存の特徴量を組み合わせて，より役立つ1つの特徴量を作る
- 新しいデータの収集による新しい特徴量の作成

### 1.4.5 訓練データの過学習
機械学習で訓練データに対しては高い性能を示すが，汎化がうまくできていない状態を**過学習（overfitting）**と呼ぶ．

<img src="img/ch01/IMG_0160.jpg" width="50%">

深層ニューラルネットワークのような複雑なモデルでは，データに含まれる微妙なパターンを見つけられるが，訓練データにノイズが多く含まれていたり，規模が小さすぎたりするとノイズからパターンを検知してしまう．  

モデルを単純化し過学習のリスクを軽減するため，モデルに制約を与えることを**正則化（regularization）**と呼ぶ．
汎化性能を上げるためには，データの完全な適合とモデルの単純性の間でうまくバランスを取る必要がある．  

学習中の正則家の度合いは，**ハイパーパラメータ（heperparameter）**によって制御する．
ハイパーパラメータは学習アルゴリズム自体の影響を受けず訓練前に設定される．
ハイパーパラメータの設定は訓練に大きな影響を与えるため，チューニングは機械学習システムの構築で重要な要素となる．

### 1.4.6 訓練データへの過小適合
過学習とは反対にモデルが単純すぎて汎化性能が得られないことを**過小適合（underfitting）**と呼ぶ．
これを防ぐには以下のような方法がある．
- パラメータを増やした強力なモデルを選択する
- 学習アルゴリズムに与える特徴量をもっと良いものにする
- モデルに対する制約を緩める

### 1.4.7 1歩さがって復習しよう
これまでに見てきたことを振り返る．

- 機械学習とは・・・明示的にコードにルールを示さなくてもデータから学習してうまくタスクをこなせるマシンを作ることである
- 機械学習の種類・・・教師あり/教師なし，バッチ/オンライン，インスタンスベース/モデルベースなど
- 機械学習の手順・・・データセットをつくり，モデルベースではパラメータのチューニングを行い，インスタンスベースではサンプルをそのままの形で学習し汎化能力を獲得する
- ゴミを入れてもゴミしか出てこない，モデルは複雑すぎても単純すぎても良くない 

## 1.5 テストと検証
汎化性能を確かめるには，実際に新しいデータを与えて試す必要がある．
集めたデータを**訓練セット（training set）**と**テストセット（test set）**に分割し，訓練セットでモデルを訓練してからテストセットでそのモデルをテストする．
新しいデータを与えたときの誤り率を**汎化誤差（generalization error）**，または**標本外誤差（out-of-sample error）**と呼ぶ．
訓練誤差は低いが汎化誤差が高い場合にはそのモデルは訓練データに過学習しているということになる．  

また，ハイパーパラメータのチューニングのために，同じテストセットで複数回，汎化誤差を測定すると，そのテストセットにとって最良のモデルとハイパーパラメータの調整を行っていることになる．すると，実際の運用で期待した性能が得られないことがある．
これを防ぐには，テストセットの他に**検証セット（validation set）**を用意しておいて，訓練セットを使って様々なハイパーパラメータを学習し，検証セットで最も高い性能を示したハイパーパラメータを選択すると良い．  

検証セットを取り分けておく代わりに，**交差検証（cross varidation）**を行うこともある．
これは，訓練セットを複数のサブセットに分割し，サブセットの別々の組み合わせで各モデルを学習し，残ったサブセットで検証するというものである．
モデルのタイプとハイパーパラメータを選択したら訓練セット全体でモデルの訓練を行う．

## 1.6 演習問題
1. 機械学習はどのように定義すればよいか？
1. 機械学習が力を発揮する問題のタイプを4つ挙げろ．
1. ラベル付きの訓練セットとは何か？
1. 教師あり学習の応用分野として特によく見られる2つは何か？
1. 教師なし学習がよく使われる4つの応用分野は何か？
1. 様々な未知の領域を探索するロボットで使える機械学習アルゴリズムのタイプはどのようなものか？
1. 顧客を複数の集団にセグメント化するためにはどのようなタイプのアルゴリズムを使うか？
1. スパム検出は，教師あり学習問題，教師なし学習問題のどちらとして構成すればよいか？
1. オンライン学習システムとは何か？
1. アウトオブコア学習とは何か？
1. 類似度の尺度を使って予測する学習アルゴリズムはどのようなタイプのものか？
1. モデルのパラメータと学習アルゴリズムのハイパーパラメータは何が違うのか？
1. モデルベースの学習アルゴリズムは何を探し求めるか？成功するために最もよく使われる戦略は何か？どのようにして予測するのか？
1. 機械学習が抱える大きな難問のうち4つを言えるか？
1. モデルが訓練データに対しては高い性能を発揮するのに，新しいインスタンスにはうまく汎化しない場合，何が起きているのか？3つの解決方法を言えるか？
1. テストセットとは何か？テストセットが必要なのはなぜか？
1. 検証セットの目的は何か？
1. テストセットを使ってハイパーパラメータを調整すると，どのような問題が起きるか？
1. 交差検証とは何か？検証セットよりも優れているのはなぜか？

