## 1　機械学習概論
機械学習によって解決される問題には，未知のデータの予測やデータの分類など様々なものがあります．
「どのように予測するか」，「どのように分類するか」といった問い達に対して，機械学習ではデータをたくさん用意してデータのパターンを分析することによって解答を与えます．

### 教師あり学習と教師なし学習
機械学習の手法は大きく3つに分けられます．<br>
* 教師あり学習：データの傾向から，未知のデータを予測する．
* 教師なし学習：データの構造を見つけ出す．
* 強化学習：試行錯誤をくり返し，より良い行動を学習する．

### 教師あり学習
次のような問題を考えてみましょう．<br>
<br>
『過去の顧客について年令，性別，商品を購入したかについて集計したデータがある．<br>
どのような年令，性別の人が商品を買ってくれるのか，傾向を分析し，新規の顧客が商品を買うかどうか予測を行いたい．』<br>
<br>
この問題のように，データの傾向から，未知のデータを正確に予測を行うことを目指す機械学習の手法を教師あり学習と言います．<br>
<br>
予測される対象を表す変数(今回は商品を購入したか)を目的変数，予測のために用いられる変数(今回は年令)を説明変数と言います．<br>
教師あり学習は，目的変数が量的か質的かで扱い方が異なります．量的のときは回帰問題，質的変数のときは分類問題と呼ばれます．<br>

### 教師なし学習
一方で，変数の値の予測を目的としない機械学習の手法も存在します．<br>
次のような問題を考えてみましょう．<br>
<br>
『ある学校では，数学の授業のクラス編成を考えている．各生徒の成績のデータをもとに，似たタイプの生徒を同じクラスに集めることで，授業の効果を高めたい．どの生徒を同じクラスに配置するべきか？』<br>
<br>
この問題では予測したい変数はなく，どの生徒が似ているか？という構造を問題にしています．<br>
これは教師なし学習の一つでクラスタリングと呼ばれる問題です．<br>
教師なし学習が扱う問題は他に次元圧縮などがあります．<br>

* **次元削減**：類似した変数をまとめる。
<center><img src = "dim_reduction.png" style="width:500px"></center>
* **クラスタリング**：類似したデータポイントをまとめる。
<center><img src = "clustering.png" style="width:500px"></center>

### ノーフリーランチ定理
最初に機械学習の一般論として極めて重要な定理を紹介しておきましょう。

**定理** どんなタスクに対しても万能な学習アルゴリズムは存在しない。

この定理を**ノー・フリーランチ定理**と言います。要は、タスクに応じて手法には適材適所があるのです。実際にタスクを解決する際には複数のアルゴリズムを勉強して試し、もっとも性能の良いモデルを選ぶことが重要です。例えば、以下の図は分類問題とそれに対する様々な学習アルゴリズムです。

<center><img src = "classification_plot.png" style="width:800px;"></center>

また、その時々で最も性能の良いモデルを選ぶためには、適切な**モデル評価**と**モデル選択**の方法を学ぶことが重要です。以下では、教師あり学習におけるモデル評価とモデル選択について概要を紹介しましょう。

### 過剰適合と過少適合
ひとまず、以下の実験を見てみましょう。
<center><img src = "overfit.png" style="width:300px;"></center>
実際には、３次式にノイズがついて発生した10個のデータであるにも関わらず、９次式の仮説を当てはめてしまったがために、手持ちのデータの上では損失が0になってしまっている様子です。教師あり学習の本来の意義は**未知のデータに対する予測**でしたが、これでは新しいデータに対しては予測の精度は悪くなってしまいます。

このように本来のデータの発生メカニズム（確率分布と言います）に比して複雑すぎる仮説を立ててしまうと、学習に用いたデータでの損失が小さいにも関わらず、未知のデータに対する損失が大きいという現象が起こることがあります。これを**過剰適合**と言います。

**演習**　一方で、逆に本来のデータの発生メカニズムやサンプルサイズに比して単純すぎる仮説を立ててしまうことにより、手持ちのデータに対する損失が小さくならないことがあります。これを**過少適合**と言います。
1. 過少適合が起こっているような状況を、過剰適合の時のようにグラフに表してください。
2. 過少適合は他に要因によっても起こりうることがあります。考えてみてください。

### モデル評価

過剰適合を勉強するなかでわかることは、学習時に損失が小さいモデルであっても、決して未知のデータに対して良い予測を返すとは限らないということです。また、そもそも学習時の損失が小さい場合も過少適合しているリスクがあるということを学びました。そこで、モデルを評価する場合には手元のデータを

* **訓練データ**：モデルの学習に用いるデータ
* **テストデータ**：学習したモデルの精度を評価するためのデータ

に分割し、それぞれでの精度をチェックすることが重要だとわかります。これは大雑把にいうと2種類の手法があり
* **hold-out検証**：以下のようにデータを分割し、１回精度を計算する。
<center><img src = "holdout.png" style="width:300px;"></center>
* **交差検証法**：以下のようにデータをK分割し、K回精度を計算する。例えば、下の図は5-fold cross validationと言われる手法です。
<center><img src = "crossval.png" style="width:500px;"></center>

が知られています。