<a href="https://colab.research.google.com/github/takatakamanbou/ML/blob/main/ex01noteA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ML ex01noteA

<img width=72 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/ML/ML-logo.png"> [この授業のウェブページ](https://www-tlab.math.ryukoku.ac.jp/wiki/?ML/2022)


----
## 機械学習とは
----

----
### 準備

Google Colab の Notebook では， Python というプログラミング言語のコードを動かして計算したりグラフを描いたりできます．
Python は，機械学習・人工知能やデータサイエンスの分野ではメジャーなプログラミング言語ですが，それを学ぶことはこの授業の守備範囲ではありません．以下の所々に現れるプログラムっぽい記述の内容は，理解できなくて構いません．

以下，コードセルを上から順に実行してながら読んでいってね．

In [None]:
# 準備あれこれ
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

# データを読み込む
dfGori = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/ML/gorigori.csv', header=0)
xmin, xmax = -5, 40
ymin, ymax = 0, 130

----
### 機械学習とは (1)

**機械学習** とは，人間のように自ら知識を獲得し経験に基づいて動作を変えるような機械／コンピュータ／アルゴリズムの実現を目指す研究分野またはその技術を指します．
人間が行なっているような知的な情報処理の仕組みを人工的に実現することを目指す **人工知能** (**Artificial Intelligence**, **AI**)
の一分野です．
現在では，人間の知的情報処理をまねるだけでなく，データの中から何らかの知識や法則性を自動的に見つけ出したり，データに基づいて何らかの判断を自動的に下したりするような情報処理全般を対象とするものとなっています．



以下に，機械学習の応用の例をあげます．いずれも，データを入力するとそこから何らかの情報を出力する処理となっています．

**例1**: 手書き数字の認識

- 入力: 手書き数字の画像
- 出力: 0, 1, 2, ..., 9 のいずれか


**例2**: 画像に写った動物をネコ/ペンギン/カピバラの3種類に分類する

- 入力: 様々な動物の写った画像
- 出力: ネコ，ペンギン，カピバラ，..., のいずれか（注）

<span style="font-size: 75%">
※注: 生きてる動物を出力する...わけではありません．3種が区別できるような情報（「ネコ」「ペンギン」「カピバラ」という文字列とか，0,1,2という数字とか）を出力します
</span>

**例3**: 電力使用量の予測

- 入力: 時々刻々変化する気温，湿度，電力使用量の数値
- 出力: 1時間後の電力使用量の数値

**例4**: 顔画像からの年齢推定

- 入力: 顔画像
- 出力: 年齢を表す数値


これらはいずれも，「何らかのデータ $\boldsymbol{x}$ を入力すると適当な値 $\boldsymbol{y}$ を出力する」という処理となっています．
以下の左の図は，この処理を行う仕組みを $f$ という記号で表したものです．右の方は，$f$ を関数として数式で表現したものです．

$$
\boldsymbol{y} \longleftarrow \fbox{$f$} \longleftarrow \boldsymbol{x} \qquad\qquad\qquad\qquad \boldsymbol{y} = f(\boldsymbol{x})
$$

機械学習とは何かを理解するため，以下ではこの仕組み $f$ が簡単な数式で表現できるような例を考えます．

----
### ゴリゴリ君 ― 気温からアイス売上数を予測する ―

「気温」と「アイス売上数」の数値を集めた以下のようなデータを考えます（次のセルを実行してね）．

In [None]:
dfGori

「気温」の単位は[度]（摂氏），アイス売上数の単位は[個]です．このようなデータを用いて「気温」から「アイス売上数」を予測する仕組みを作ることを考えてみましょう．

$$
\begin{aligned}
(アイス売上数) \longleftarrow \fbox{$f$} \longleftarrow (気温) 
\end{aligned}
$$

気温を $x$ [度]，アイス売上数を $y$ [個] として，この仕組みを次のような式で表してみます．

$$
\begin{aligned}
y = f(x) = ax+b
\end{aligned}
$$

この式には $a, b$ という二つの **変数** （**パラメータ**）があります．
これらを決めると，適当な気温の値 $x$ を入力して，アイス売上数（の予測値）$y$ を出力させることができます．
パラメータ $a, b$ の値を変えると，同じ $x$ の値でも得られる $y$ の値は変化します．

In [None]:
#@title a, b の値を適当に変えてこのセルを何度か実行し直してみよう
a = 1.5#@param　{type:"number"}
b = 35 #@param　{type:"number"}

X = dfGori['気温']
Y = dfGori['アイス売上数']

Xr = np.array([xmin, xmax])
Yest = a * Xr + b

fig, ax = plt.subplots(1, facecolor='white', figsize=(6, 4))
ax.scatter(X, Y)
ax.plot(Xr, Yest, color='red')
ax.set_xlim(xmin, xmax)
ax.set_ylim(0, 130)
plt.show()

for x in [10, 20, 30]:
    y = a*x+b
    print(f'気温 {x} 度のときのアイス売上数の予測値は {y:.1f} 個')

このように，パラメータの値を変化させるとそれに応じて出力（アイス売上数の予測値）も変化し，予測が良くなったり悪くなったりします．
うまく予測できるようにパラメータの値を手動で調節するのはなかなか難しそうです．ここではパラメータが二つしかない例を考えてますが，もっとたくさんあったら手動で調節するなんてほとんど無理かもしれません．最適なパラメータを自動で決められるとうれしいですね．


#### やってみよう

1. $(a, b)$ の値をいろいろ変えて上記のセルを実行し，結果を観察しよう．
1. $(a, b) = (2.4, 27)$ としたときの気温 10, 20, 30 度でのアイス売上数の予測値をノート等（紙媒体）にメモしておこう．

----
### 機械学習とは (2) ― 学習，教師あり学習，教師なし学習 ー

機械学習では，「何らかのデータ $\boldsymbol{x}$ を入力すると適当な値 $\boldsymbol{y}$ を出力する」仕組みとして，上記の説明のように調節可能な **変数** （**パラメータ**）を持ったものを用意します．
そして，入力に対して「望ましい出力」が得られるようにパラメータを調節することを考えます．
機械学習とは，このようなパラメータの調節をデータから自動的に行う方法に関する分野/技術と言うことができます．

機械学習において，望ましい出力が得られるようにパラメータを調節する過程を**学習**（learning, または **訓練** (training)）といい，その際に用いるデータを**学習データ**（learning data, 訓練データ(training data)）といいます．
学習の手法には様々なものがありますが，次の二つに大別することができます（注）．

**教師あり学習** (supervised learning): 個々の学習データが，「入力」とそれに対する「出力の正解」のペアとして与えられる．


**教師なし学習** (unsupervised learning): 学習データは入力のみで構成され，出力の正解は与えられない．




<span style="font-size: 75%">
※注: もう一つ，強化学習(reinforcement learning)というのもあるのですが，この授業では説明しません．
</span>

ゴリゴリ君は，教師あり学習の例です．
この問題では気温の値を入力するとアイス売上数の予測値を出力する仕組みを作ろうとしており，学習データは$(5.56, 8), (10.62, 38), (9.19	42)$ のように $(気温, アイス売上数)$ という数値のペアの形で与えられています．
ある気温のときのアイス売上数の値は，その気温での売上数予測の正解となっています．

----
### 回帰と識別


教師あり学習の問題は，出力の値がどのようなものであるかによって，次の二つに分けることができます．

**回帰** (regression): 出力として量的な値を扱う場合．

**識別** (classification, **分類**とも): 入力をあらかじめ定めたいくつかのグループに分ける問題．

「機械学習とは (1)」であげた例を教師あり学習の問題としてとらえると，次のように回帰／識別に分けられます．

**例1**: 手書き数字の認識 → 識別

- 入力: 手書き数字の画像
- 出力: 0, 1, 2, ..., 9 のいずれか

**例2**: 画像に写った動物を分類する → 識別

- 入力: 様々な動物の写った画像
- 出力: ネコ，ペンギン，カピバラ，..., のいずれか


**例3**: 電力使用量の予測 → 回帰

- 入力: 時々刻々変化する気温，湿度，電力使用量の数値
- 出力: 1時間後の電力使用量の数値

**例4**: 顔画像からの年齢推定 → 回帰

- 入力: 顔画像
- 出力: 年齢を表す数値