# PRML 第1章 序論

---

## 概要

### 本章の目的

* 機械学習に共通する概念を説明する。
* 機械学習を理解するうえで必要な3つのツールについての導入を行う。
    * 確率論
    * 決定理論
    * 情報理論

### 目次

* 1.1 例：多項式曲線フィッティング
* 1.2 確率論
    * 1.2.1 確率密度
    * 1.2.2 期待値と分散
    * 1.2.3 ベイズ確率
    * 1.2.4 ガウス分布
    * 1.2.5 曲線フィッティング再訪
    * 1.2.6 ベイズ曲線フィッティング
* 1.3 モデル選択
* 1.4 次元の呪い
* 1.5 決定理論
    * 1.5.1 誤識別率の最小化
    * 1.5.2 期待損失の最小化
    * 1.5.3 棄却オプション
    * 1.5.4 推論と決定
    * 1.5.5 回帰のための損失関数
* 1.6 情報理論
    * 1.6.1 相対エントロピーと相互情報量

---

## 詳細

### 機械学習の構成要素

例として、手書き数字の認識を考える。

$\textbf{t} = \textbf{y}(\textbf{x})$

* 入力ベクトル $\textbf{x}$ : 手書き数字画像
* 目標ベクトル (target vector) $\textbf{t}$ : 手書き数字画像が表している数字
* モデル $\textbf{y}$ : 手書き数字画像 $\textbf{x}$ を入力すると、その手書き数字画像が表している数字 $\textbf{t}$ を返す関数

### 機械学習で使うデータ

* 訓練集合 (training set) : モデルのパラメータを調節するために使う事例の集合
    * 事例 : 1枚の手書き数字画像と、その手書き数字画像が表している数字
        * 入力ベクトル : 手書き数字画像
        * 目標ベクトル : 手書き数字画像が表している数字
* テスト集合 (test set) : 訓練集合とは別の、新たな事例の集合
    * 事例 : 1枚の手書き数字画像
        * 入力ベクトル : 手書き数字画像

### 機械学習の段階

* 前処理 (preprocessing) : もともとの入力変数を、新しい変数に変換すること
    * 特徴抽出 (feature extraction) : パターン認識が容易になるような前処理を施すこと
* 訓練 (training)、学習 (learning) : 訓練集合に基づいてモデルのパラメータを調節すること

この時点では明確に書かれていないが、訓練の定義から以下の3点が読み取れる。

* モデルはパラメータを持つ
* モデルのパラメータは訓練集合に基づいて調節する必要がある
* モデルには、パラメータ調節済みの「学習済みのモデル」と未調節の「未学習のモデル」の2種類が存在する

### 機械学習の種類

* 教師あり学習 (supervised learning) : 訓練集合が入力ベクトルと目標ベクトルで構成されているパターン認識の問題
    * クラス分類 (classification) : 入力ベクトルに対する出力がカテゴリである問題
    * 回帰 (regression) : 入力ベクトルに対する出力が連続値である問題
* 教師なし学習 (unsupervised learning) : 訓練集合が入力ベクトルのみで構成されているパターン認識の問題
    * クラスタリング (clustering) : 類似した事例のグループを見つける問題
    * 密度推定 (density estimation) : 入力空間におけるデータの分布を求める問題
    * 視覚化 (visualization) : データを視覚的に捉えられるようにする問題。高次元データを2～3次元に射影するなど
* 強化学習 (reinforcement learning) : ある状況下 (＝入力ベクトル) で報酬を最大化する行動 (目標ベクトル) を、試行錯誤を通じて見つける問題。<br>一般的には、探索と知識利用のトレードオフになる。
    * 探索 (exploration) : 新しい行動がどれくらい有効であるか試すこと
    * 知識利用 (exploitation) : 高い報酬が得られるとわかっている行動をとること

### 機械学習の課題

* 汎化 (generalization) : 訓練に使った事例とは異なる事例を正しく分類する能力。<br>訓練集合は入力されうる事例の一部に過ぎないので、それ以外の事例に対する分類能力は中心的な課題となる。

---

## 疑問点

### 用語の使い分け

はっきりと違いを定義していないが、文脈に応じて使い分けている (っぽい) 用語が複数ある。自分の理解は以下の通り。

* パターン認識 / 機械学習
    * パターン認識 : データに潜むパターンを見つけ出すこと (目的)
    * 機械学習 : モデルのパラメータをデータから適応的に調節すること (パターン認識を実現する手段、として使えるもの)
* パターン認識アルゴリズム / 学習アルゴリズム
    * パターン認識アルゴリズム : 読者の興味が「パターン認識」にある文脈で使う。モデリングの過程を解説しているときなど
    * 学習アルゴリズム : 読者の興味が「モデルのパラメータ調節」にある文脈で使う。学習方法を解説しているときなど
* パターン / 情報 / データ (DIKWモデルに近い？)
    * パターン : 事象の裏に潜む規則性
    * 情報 : パターンを見つけ出す役に立つもの
    * データ : 情報を数値や記号として表現したもの
* 入力ベクトル / 入力変数 / 特徴
    * 入力ベクトル : モデルの入力となるデータをベクトル形式で表現したもの
    * 入力変数 : モデルの入力となるデータ全般。入力ベクトルの要素を指すかもしれないし、行列などベクトル以外の入力を指すかもしれない
    * 特徴 : 入力変数がパターン認識に有用な情報を含んでいることを強調したいときに使う
* ○○事例 / ○○集合 / ○○集合のデータ点 / ○○データ
    * ○○事例 : 観測された事象
    * ○○集合 : 事例を集めたもの。データ点を集めたものを指すこともある
    * ○○集合のデータ点 : 観測された事象に対する確率変数の実測値
    * ○○データ : データ点でも集合でも構わない文脈で使う
* 関数 / モデル
    * 関数 : (いわゆる関数)
    * モデル : 関数のうち、入力ベクトルを受け取り目標ベクトルを返すもの
* 訓練 / 学習
    * 訓練 : 主語が人間。人間が機械を訓練する
    * 学習 : 主語が機械。機械が学習する