# 1. はじめに

本章では，近年機械学習が注目されている背景を紹介し，機械学習とは何かを明確にしたあと，本書で扱う機械学習の概要について説明します．

## 1.1 人工知能・機械学習・深層学習

人工知能・機械学習・深層学習の関係を図で示します．

<img src="images/01/1-1.png" width="70%"/>

### 人工知能

近年，日常生活やビジネスにおけるさまざまな場面で人工知能を活用した製品やサービスの開発が注目されています．
人工知能は，人と対話を行うアプリやロボット・自動運転・病気の診断の補助・高度な生産システムなどの中心的技術として位置付けられています．
人工知能はさまざまな立場から異なった定義がされていますが，本書では人工知能を「現在，人がおこなっている知的な判断を代わりに行う技術」と定義します．

人工知能技術は，探索・知識表現・推論・機械学習などを要素技術とします．

### 機械学習

機械学習の出番は，簡単には規則化できない複雑なデータが大量にあり，そこから得られる知見が有用であることが期待されるときです．このような大量のデータは，ビッグデータとよばれます．
ビッグデータの例としては，人々がブログやSNSに投稿する文章・画像・動画，スマートフォンなどに搭載されているセンサから収集される情報，オンラインショップやコンビニエンスストアの販売記録・IC乗車券の乗降記録など，多種多様なものが挙げられます．これらの大量・多様なデータから規則性を抽出したり，データを分類するモデルを獲得することで，購買記録からのお勧め商品提示のようなおなじみの機能の実現に加えて，不審者の行動パターンの検出や，インフルエンザの流行の予想など，これまでになかったサービスや機能を実現することもできます

<img src="images/01/1-2.png" width="70%"/>

### 深層学習

データから規則や知見を得る機械学習技術の中でも，とくに深層学習は，高い性能を実現する方法として近年注目を集めています．
深層学習は，一般に中間層を多くもつニューラルネットワークによって実装されています．

<img src="images/01/1-3.png" width="70%"/>

## 1.2 機械学習とは何か

機械学習で扱うのは，人手では規則を記述することが難しい問題です．
すなわち，解法が明確にはわかっていない問題であるといいかえることができます．
ここでは，機械学習で対象とする問題をタスクとよびます．
たとえば，人間は文字や音声の認識能力を学習によって身につけますが，どうやって認識を行っているかを説明することはできません．
人間の認識能力を何らかの手法でモデル化して，コンピュータでその能力を再現しようとする技術が，機械学習の一種であるパターン認識です．
ここでのアイディアは，明示的にその手順は記述できないけれども，データ（この場合は入力とその答え）は大量に用意することができるので，そのデータを使って人間の知的活動のモデルを作成しようというものです．
これ以降，機械学習のために用いるデータを学習データとよびます．

### 単語の定義

<dl>
  <dt>タスク</dt>
  <dd>機械学習で対象とする問題．一般に解法が明確にはわかっていない</dd>
  <dt>モデル</dt>
  <dd>規則や関数など</dd>
  <dt>学習データ</dt>
  <dd>モデルを構築するためのデータ．一般に入力とその答えからなる</dd>
</dl>

ここまでをまとめると，機械学習の基本的な定義は，アルゴリズムとして明示的に解法が与えられないタスクに対して，そのタスクを遂行するためのモデルを，学習データから構築すること，となります．

### 機械学習の定義
> アルゴリズムとして明示的に解法が与えられないタスクに対して，そのタスクを遂行するためのモデルを，学習データから構築すること

モデルをコンピュータプログラムとみなすと，学習するコンピュータプログラムとは，あるタスクにおいて，ある学習データによって，モデルの性能測定基準の値が向上することと定義できます。ここには，継続的な性能向上も含みます．

### 学習するコンピュータプログラムとは\[Mitchell 1997\]
* あるタスクにおいて
* ある学習データによって
* モデルの性能測定基準の値が向上すること


### 入出力に基づいた機械学習の定義
* 入力：特徴抽出処理の結果
* 出力：目的に応じたモデル

学習データも一見多様に見えますが，金額やセンサーからの入力のような「数値データ」，あるいは商品名や性別のような「カテゴリデータ」が並んだものであるとすると，数値データの並びからなるデータ，カテゴリデータの並びからなるデータ，それらが混合したデータというように整理して考えることができます．
観測対象から問題設定に適した情報を選んでデータ化する処理は，特徴抽出とよばれます．

<img src="images/01/1-4.png" width="70%"/>

機械学習の役割をこのように位置付けると，前ページの図中の「機械学習」としてまとめられた中身は，タスクの多様性によらず，目的とする規則・関数などのモデルを得るために，どのような学習データに対して，どのようなアルゴリズムを適用すればよいか，ということを決める学習問題と，その学習の結果得られたモデルを，新たに得られる入力に対して適用する実運用段階に分割して考えることができます．
ここでの対象は，主として図の学習問題と定義された部分ですが，いかに実運用の際によい性能を出すか，すなわち，学習段階では見たことのない入力に対して，いかによい結果を出力するかということを常に考えることになります．
この能力は，「学習データから，いかに一般化されたモデルが獲得されているか」ということになるので汎化能力といいます．

<img src="images/01/1-5.png" width="70%"/>

## 1.3 機械学習の分類

ここでは，学習データと出力を基準に機械学習の分類を試みます．
まず，学習データにおいて，正解が付いているか，いないかで大きく分類します．
学習データに正解が付いている場合の学習を教師あり学習，正解が付いていない場合の学習を教師なし学習とよびます．
また，少し曖昧な定義ですが，それらのいずれにも当てはまらない手法を中間的学習とよぶことにします

<img src="images/01/1-6.png" width="70%"/>

### 1.3.1 教師あり学習

教師あり学習では，正解の付いた学習データを用います．
学習データは，入力データに対応するベクトル$\boldsymbol{x}$と，正解情報$y$のペアからなります．
$$
\{(\boldsymbol{x}_i,y_i)\} \qquad i=1,..,N
$$

入力ベクトル$\boldsymbol{x}$は次元数$d$の固定長ベクトルであるとします．
$$
\boldsymbol{x}_i = (x_{i1},\dots,x_{id})^T
$$

特徴は，数値データあるいはカテゴリデータのいずれかです．
教師あり学習は，この学習データから，入力$\boldsymbol{x}$を正解$y$に写像する関数を学習することを目的とします．
また，正解情報$y$も，数値あるいはカテゴリのいずれかになります．
正解$y$がカテゴリの場合を識別問題，数値の場合を回帰問題とよびます．


#### 識別

識別は，入力をあらかじめ定められたクラスのいずれかに分類する問題です．
もっとも単純に考えると，識別問題はこの平面上で二つのクラスを分ける境界線を決めるという問題になります．
未知のデータが入力されたとき，この境界線のどちらにあるかを調べるだけで，属するクラスを解答できるので，このことによって，識別能力を身につけたとみなすことができます．
ここでbの結果とcの結果を比較してみましょう．
学習データに対する性能はcの方が高いのですが，未知のデータが入力されたときにどちらが正しい答えを出しそうか、すなわちどちらがより一般化された概念を獲得しているかという視点で評価するべきです。
これが識別問題です。

<img src="images/01/1-7.png" width="70%"/>

#### 回帰

回帰は，入力から予測される妥当な出力値を求める問題です．
回帰の単純な例として，入力を夏季の平均気温，出力をビールの売上高とした架空のデータを考えてみます．
bの結果は、平均気温が高くなれば売上高も高くなるという傾向を捉えていますが、ほとんどの点は直線上にありません。
一方、cの結果はすべての点が推定した曲線上にありますが、気温の少しの変化に対して売上が大きく変わるところがあります．
ここでも識別問題と同様に、未知のデータが入力されたときにどちらが正しい値となりそうか、すなわちどちらがより一般化された関係を獲得しているかという視点で評価します．
これが回帰問題です．

<img src="images/01/1-8.png" width="70%"/>

### 1.3.2 教師なし学習

教師なし学習では，学習に用いられるデータに正解情報が付いていません．
$$
\{(\boldsymbol{x}_i)\} \qquad i=1,..,N
$$

入力ベクトルxの次元数に関しては，教師あり学習の場合と同様に，d次元の固定長ベクトルで，各要素は数値あるいはカテゴリのいずれかの値をとると考えておきます．
$$
\boldsymbol{x}_i = (x_{i1},\dots,x_{id})^T
$$

教師なし学習は，入力データに潜む規則性を学習することを目的とします．
ここで着目すべき規則性としては，2通り考えられます．
一つめは，入力データ全体を支配する規則性で，これを学習によって推定する問題がモデル推定です．
もう一つは，入力データの部分集合内，あるいはデータの部分集合間に成り立つ規則性で，通常は多数のデータの中に埋もれて見えにくくなっているものです．
これを発見する問題がパターンマイニングです．



#### モデル推定

モデル推定は，入力データ中から何らかの共通点をもつデータをまとめることで，入力データを生じさせたクラスの存在や，そのパラメータを推定するものです．
観測されたデータは，もともと何らかのクラスに属していたものが，揺らぎを伴って生成されたものと考えます．その逆のプロセスをたどることができれば，データを生成したもととなったと推定されるクラスを見つけることができます．
このように，入力データ集合から適切なまとまりを作ることでクラスを推定する手法をクラスタリングとよびます．
一方，もともとのクラスは何らかのデータを生成する関数をもっていると仮定して，その関数のパラメータを入力データから推定する手法を密度推定とよびます

<img src="images/01/1-9.png" width="70%"/>

#### パターンマイニング

パターンマイニングは，データ中に何度も出現するパターンや，そのパターンに基づいた規則を発見する手法です．
スーパーマーケットなどで同時に購入される商品の組み合わせを発見するバスケット分析が代表的な応用例です．

<img src="images/01/1-10.png" width="70%"/>

また，売り上げデータを行列とみなし，行列分解によって規則性を抽出することもできます．
この規則性から，まだ値が埋まっていないけれども大きな値となることが予測できる場所を見つけることで，ユーザに商品を推薦する推薦システムが実現できます．

<img src="images/01/1-11.png" width="70%"/>


### 1.3.3 中間的学習

次に，これまでに説明した教師あり学習／教師なし学習に当てはまらない問題について説明します．
学習データが教師あり／教師なしの混在となっているものが半教師あり学習です．
また，与えられる正解が間接的で，教師あり／教師なしの中間的な状況となっているものが強化学習です．


#### 半教師あり学習

学習データに正解を与えるのは人間なので，正解付きのデータを作成するにはコストがかかります．
一方，正解なしのデータならば，容易にかつ大量に入手可能であるという状況があります．
このような状況で，正解付きデータから得られた識別器の性能を，正解なしデータを使って向上させる問題を半教師あり学習といいます．
基本的なアイディアは図のように正解なしデータの中から信頼できそうなものを正解付きと見なして繰り返し学習を行うものです．

<img src="images/01/1-12.png" width="70%"/>

#### 強化学習

もうひとつの中間的学習の例としてロボットが迷路を抜ける問題を考えます．
ロボットに対して，ゴールに着いたときだけ報酬を与えるという方法で，ロボットに試行錯誤を繰り返させながら，最終的に各状態における最適な出力を獲得させる学習手法を強化学習とよびます．
報酬を教師信号とみなすと，これは教師時々あり学習ということができます．

<img src="images/01/1-13.png" width="70%"/>

## 参考文献
* 谷口忠大. イラストで学ぶ人工知能概論. 講談社, 2014.
* Tom M. Mitchell. Machine Learning. Mcgraw-Hill, 1997.
* Peter Flach. Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press, 2010. 竹村彰通(監修, 翻訳): 機械学習─データを読み解くアルゴリズムの技法─, 朝倉書店, 2017.
* 荒木雅弘. マンガでわかる機械学習, オーム社, 2018.