# 1. 機械学習の現状
機械学習は未来の夢物語ではなく，OCR（光学文字認識：Optical Character Recognition）やスパムフィルタなど現在でも広く使われている．
この章では何を以て機会が学習する（learn）のかということを概観し，基本的な概念と専門用語の紹介を行う．

## 1.1 機械学習とは何か
機械学習の少し広い定義には以下のようなものがある．
> 機械学習は明示的にプログラミングをせずにコンピュータに学習能力を与えるための学問分野である

さらに技術的には次のように定義される．
> コンピュータプログラムは経験EによってタスクTに対する測定指標Pで測定した性能が上がるとき，TについてEから学習すると言われる．

ここで，いくつかの専門用語を定義する．
- **訓練セット（training set）**  
システムが学習するために使うデータ例のこと
- **訓練インスタンス（training instance）/ 標本（sample）**  
訓練セットの個々のデータのこと
- **精度（accuracy）**  
分類タスクでよく使われる性能指標の1つ

## 1.2 なぜ機械学習を使うのか
従来の手法でスパムフィルタを作ろうとするとどうなるだろうか？

1. タイトルによく現れる語句や送信者名，メール本体などのパターンを見つける
2. 気づいたパターンごとに検出アルゴリズムを書き，メールにスパムフラグを立てる
3. うまくいくまで1と2を繰り返す

まとめると以下のような流れになる．

<img src="img/ch01/IMG_0139.jpg" width="50%">

この方法では，プログラムに複雑なルールの長いリストを含むものになるため，メンテナンスが大変になる．  
一方で，次のように機械学習の手法を使えば自動的にスパムの判別に使える語句を見つけられるため，プログラムは簡潔になりメンテナンスもしやすくなる．

<img src="img/ch01/IMG_0140.jpg" width="50%">

ここで,”4U”ではなく"For U"と書くようになったとすると，従来の手法では手作業で変更を追加しなければならない．
一方で，機械学習のアプローチでは，ユーザが"For U"を多く含んだメールにスパムフラグを立てれば，自動的にそのようなメールをスパムとして識別できるようになる．

<img src="img/ch01/IMG_0141.jpg" width="50%">

機械学習では従来のアプローチでは複雑になりすぎる問題や，アルゴリズムが確立されていない問題でも力を発揮する．  

時に機械学習は人間の学習の助けになることもある．
これまで知られていなかった相関関係や新しいトレンドが見つかることで，問題への理解が深まることも多い．
このように，機械学習の手法によって未知のパターンを見つけられることもあり，これを**データマイニング（data mining）**と呼ぶ．

<img src="img/ch01/IMG_0142.jpg" width="50%">

以上より，機械学習は次のような問題を得意とする．
- 手作業によるチューニングや，長大なリストが必要な問題
- 従来手法では良い結果が得られなかった複雑な問題
- 継続的にデータが変化する問題
- 複雑なシステムや大量のデータについての知見の獲得

## 1.3 機械学習システムのタイプ
一口に機械学習と言ってもそのタイプは多岐にわたる．ここでは，それらについて順番に見ていく

### 1.3.1 教師あり／教師なし学習
まず，機械学習は訓練中に受ける人間の関与の程度で大きく4つのタイプ（教師あり学習・教師なし学習・半教師あり学習・強化学習）に分類できる．

#### 1.3.1.1 教師あり学習
教師あり学習（supervised learning）では，アルゴリズムに与える訓練データの中にラベル（label）と呼ばれる答えが含まれている．

<img src="img/ch01/IMG_0143.jpg" width="50%">

代表的なタスクとして**分類（classification）**が挙げられる．
また，**予測子（predictor）**と呼ばれる一連の**特徴量（feature）**から**ターゲット（target）**の数値を予測する**回帰（regression）**でも使われる．

<img src="img/ch01/IMG_0144.jpg" width="50%">

以降の章では以下のアルゴリズムを取り上げる．
- k近傍法
- 線形回帰
- ロジスティック回帰
- サポートベクターマシン（SVM）
- 決定木・ランダムフォレスト
- ニューラルネットワーク

#### 1.3.1.2 教師なし学習
教師なし学習（unsupervised learning）では訓練データにラベルはついていない．
ここで取り上げるアルゴリズムには以下の通り．
- クラスタリング
    - k平均
    - 階層型クラスタ分析（HCA）
    - EM（expectation maximization：期待値最大化）アルゴリズム
- 可視化と次元削減
    - PCA（principal component analysis：主成分分析）
    - カーネルPCA
    - LLE（locally-linear embedding：局所線形埋め込み）
    - t-SNE（t-distributed stochastic neighbor embedding：t分布型確率的近傍埋め込み法）
- 相関ルール学習
    - アプリオリ
    - eclat

教師なし学習のタスクの1つに**クラスタリング（clustering）**がある．
次のように，それぞれのインスタンスがどのグループに属するかを判定する
<img src="img/ch01/IMG_0145.jpg" width="50%">

<img src="img/ch01/IMG_0146.jpg" width="50%">

また，**可視化（visualization）**も教師なし学習の一例である．
このアルゴリズムでは，できる限りデータの構造を残そうとするので，データがどのような構造になっているのかが理解でき，予想外のパターンを見つけられることもある．

<img src="img/ch01/IMG_0147.jpg" width="50%">

可視化に関連して，情報をあまり失わないようにデータを単純化することを目標とする**次元削減（dimension reduction）**や，そのほかに**異常検知（anomaly detection）**も教師なし学習のタスクである．

<img src="img/ch01/IMG_0148.jpg" width="50%">

さらに，大量のデータから面白い関係を見つけ出す**相関ルール学習**もある．

#### 1.3.1.3 半教師あり学習
ラベルのないデータに対して，少数のラベル付きデータが含まれている場合，**半教師あり学習（semisupervised learning）**と呼ぶ．

<img src="img/ch01/IMG_0149.jpg" width="50%">

殆どの半教師あり学習は教師なし学習と教師あり学習のアルゴリズムを結合したものである．
例えば，DBN（deep belief network）はRBM（restricted Boltzmann machine：制限付きボルツマンマシン）という教師なしコンポーネントを積み上げたものになっており，逐次的にRBMを訓練してから教師あり学習でシステム全体を微調整する手法を取っている．

#### 1.3.1.4 強化学習
強化学習（reinforcement learning）は非常に特異な種類の学習アルゴリズムである．
**エージェント**（**agent**：学習システムのこと）は環境を観察し，行動を選択して実行することで**報酬（reward）**を得る．
エージェントは**方策（policy）**と呼ばれる最良の戦略を自分で学習し，時間とともに高い報酬を得るようになる．
方策は特定の状況に置かれたとき，エージェントが選ぶべき行動を決める．  
囲碁やロボットの歩行などに強化学習は使われている．

<img src="img/ch01/IMG_0150.jpg" width="50%">

### 1.3.2 バッチ学習とオンライン学習
#### 1.3.2.1 バッチ学習
#### 1.3.2.2 オンライン学習

### 1.3.3 インスタンスベース学習とモデルベース学習
#### 1.3.3.1 インスタンスベース学習
#### 1.3.3.1 モデルベース学習

## 1.4 機械学習が抱える難問
### 1.4.1 訓練データ例の品質の低さ
### 1.4.2 現実を代表しているとは言えない訓練データ
### 1.4.3 品質の低いデータ
### 1.4.4 無関係な特徴量
### 1.4.5 訓練データの過学習
### 1.4.6 訓練データへの過小適合
### 1.4.7 1歩さがって復習しよう

## 1.5 テストと検証

## 1.6 演習問題