<a href="https://colab.research.google.com/github/kalz2q/mycolabnotebooks/blob/master/chainer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# メモ

Chainer のチュートリアルサイトが Open in Colab ボタンのあるサイトだったのでそこから拾い読み

https://colab.research.google.com/github/chainer/tutorials/

オンライン学習資料

- 数学の知識
- Python を用いたコーディングの基本
- 機械学習・ディープラーニングの基礎的な理論
- 画像認識や自然言語処理などに機械学習を応用する方法

1. `Open in Colab` から Colab へ移動
2. 自分のドライブへノートブックをコピーする
3. コードを実行しながら読んでいく

と言う手順が、本チュートリアルサイトのおすすめの利用方法

# Colab の便利なショートカット

| 説明                 | コマンド      |
| -------------------- | ------------- |
| Markdownモードへ変更 | Ctrl + M → M |
| Codeモードへ変更     | Ctrl + M → Y |
| セルの実行           | Shift + Enter |
| セルを上に追加       | Ctrl + M → A |
| セルを下に追加       | Ctrl + M → B |
| セルのコピー         | Ctrl + M → C |
| セルの貼り付け       | Ctrl + M → V |
| セルの消去           | Ctrl + M → D |
| コメントアウト       | Ctrl + /      |


# Python 入門


- 変数
- 制御構文
- 関数
- クラス

In [None]:
a = 1

In [None]:
b = 1.2

In [None]:
c = 'Chainer'

In [None]:
type(a)

int

In [None]:
type(b)

float

In [None]:
type(c)

str

Python では、`.` を含まない連続した数字を `int`、直前・直後も含め `.` が含まれる連続した数字を `float` だと自動的に解釈する。
例えば、`7` や `365` は `int` だが、`2.718`、`.25`、`10.` などは `float` になる。

実数の `0` は `0.0` とも `.0` とも `0.` とも書くことができる。

In [None]:
type(0)

int

In [None]:
type(0.)

float

In [None]:
type(.0)

float

Python 3 では、 `/` 記号を用いて除算を行う場合、除数（割る数）と被除数（割られる数）が整数であっても、計算結果として実数が返る。
計算結果として実数を返す除算のことを特に、**真の除算 (true division)** と言う。
一方、商（整数部分）を返すような除算演算子として、 `//` 記号が用意されている。 `/` 記号を 2 回、間を空けずに繰り返す。計算結果として商を返す除算のことを、 **切り捨て除算 (floor division)** と呼ぶ。


In [None]:
# 整数と整数で切り捨て除算 -> 結果は整数
3 // 2

1

In [None]:
# 整数と整数で切り捨て除算 -> 結果は整数
4 // 2

2

整数や実数と文字列の演算は基本的にエラーになる。

In [None]:
# a + c #=> TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [None]:
# str と int で乗算
c = 'Chainer'
c * 3

'ChainerChainerChainer'

上のコードは、`c` と言う文字列を `3` 回繰り返す、と言う意味になる。

`str` 同士は足し算を行うことができる。

In [None]:
name1 = 'Chainer'
name2 = 'チュートリアル'

name1 + name2

'Chainerチュートリアル'

整数と文字列を連結したいこともある。  
例えば、`1` と言う整数に、 `'番目'` と言う文字列を足して `'1番目'` と言う文字列を作りたいような場合には、型を変換する**キャスト (cast)** と言う操作をする必要がある。

何かを `int` にキャストしたい場合は `int()` と言う組み込み関数を使い、`str` にキャストしたい場合は `str()` と言う組み込み関数を使う。

In [None]:
type(str(1))

str

In [None]:
str(1) + '番目'

'1番目'

Python には、他にも幾つかの算術演算子が用意されている。

| 演算 | 記号 |
|------|------|
| 累乗 | `**` |
|  剰余　 | `%` |


In [None]:
# 累乗
2 ** 3

8

`%` を使って、`9` を `2` で割った余りを計算してみる。

In [None]:
# 剰余
9 % 2

1

比較演算子は、2 つの値の比較を行うための演算子である。

| 演算 | 記号 |
|------|------|
| 小なり | `<` |
| 大なり | `>` |
| 以下 | `<=` |
| 以上 | `>=` |
| 等しい | `==` |
| 等しくない | `!=` |


エスケープシーケンス

In [None]:
print('Hello\nWorld')

Hello
World


In [None]:
print('Hello\tWorld')

Hello	World


**文字列メソッド**

`str` 型の変数には、いくつか便利な機能がついている。

例えば、その変数が持つ全ての文字を小文字や大文字に変換する `lower()` や `upper()` といった機能がある。

型が持っている関数を**メソッド (method)** と呼ぶ。


In [None]:
name = 'Chainer'
name

'Chainer'

In [None]:
# すべてを小文字に変換
name.lower()

'chainer'

In [None]:
# すべてを大文字に変換
name.upper()

'CHAINER'

文字列メソッドの一つに、 `format()` がある。

これは、ある文字列の一部分に、あとから別な文字列を埋め込むために使用する。

対象の文字列には `{}` で予め値を埋め込みたい場所を指定しておく。

In [None]:
name = 'Chainer'

'{} チュートリアルへようこそ'.format(name)

'Chainer チュートリアルへようこそ'

In [None]:
name1 = 'Chainer'
name2 = 'チュートリアル'

'{} {}へようこそ'.format(name1, name2)

'Chainer チュートリアルへようこそ'

`format()` メソッドを用いると `int` 型 や `float` 型の変数を、`str` 型へ明示的にキャストすることなく文字列に埋め込むことができる。

In [None]:
version = 3.7

'Python {}'.format(version)

'Python 3.7'

**浮動小数点数がもつメソッド**

`int` 型の変数や、`float` 型の変数にも、その型の特徴に合わせた機能が、メソッドとして提供されている。

例えば、`float` 型の変数には、`as_integer_ratio()` と言うメソッドがあり、比がその浮動小数点数の値となるような整数の組を返す。

例えば、0.5 と言う値は、分数で表すと $\frac{1}{2}$ である。
これは、以下のようにして調べることができる。

In [None]:
0.5.as_integer_ratio()

(1, 2)

0.25 であれば、$\frac{1}{4}$ となる。

In [None]:
0.25.as_integer_ratio()

(1, 4)

In [None]:
type(0.25.as_integer_ratio())

tuple

**複合データ型**

以下の 3つの複合データ型がある。

- リスト (list)
- タプル (tuple)
- 辞書 (dictionary)

**リスト**

複数の変数を `,` （カンマ）区切りで並べ、それらの全体を `[ ]` で囲んだものを **リスト (list)** と言う。
リストに含まれる値を**要素**と呼び、整数の**インデックス** （要素番号）を使ってアクセスする。

In [None]:
# リスト型の変数を定義
numbers = [4, 5, 6, 7]

# 値の確認
print(numbers)

[4, 5, 6, 7]


In [None]:
# 型の確認
type(numbers)

list

`numbers` には 4 つの数値が入っており、**要素数** は 4 である。
リストの要素数は、リストの**長さ (length)** とも呼ばれ、組み込み関数の `len()` を用いて取得することができる。




In [None]:
# 要素数の確認
numbers = [4, 5, 6, 7]
print(len(numbers))
numbers.append(3)
print(len(numbers))

4
5


上のコードで len() と append() の使い方が違う。 len は組み込み関数で、append は list のメソッドだとよく説明されるが、言葉の使い方がなんとなく変じゃないか。 それでは len が関数で append が関数ではないように読めてしまう。 メソッドは型(クラス)が持っている関数で、関数と言う意味では同じである。

`dir(numbers)`

とするとリストの持っているメソッド(関数)がわかってその中に `__len__` と言うのがあるので、次のように使ってみると使える。  

歴史的な判断かもしれない。


In [None]:
numbers.__len__()

5

`dir()` とすると出てくる一覧に `__builtin__` と言うのがあるので調べてみる。

In [None]:
# dir(__builtin__) #=? 結構な数の組み込み関数があるのがわかる

In [None]:
# 実験
print(abs(-5))
print((-5).__abs__())

5
5


リストの各要素へアクセスする方法はいくつかある。
最も簡単な方法は bracket `[]` を使ってアクセスしたい要素番号を指定して、リストから値を取り出したり、その位置の値を書き換えたりする方法である。

先頭の要素のインデックス番号は `0` である。


In [None]:
# 先頭の要素にアクセス
numbers[0]

4

In [None]:
# 先頭から3番目の要素にアクセス
numbers[2]

6

In [None]:
# 2 番目の要素を書き換え
numbers[1] = 10

In [None]:
# 値の確認
numbers

[4, 10, 6, 7, 3]

また、インデックスに負の値を指定すると、末尾からの位置となる。
要素番号 `-1` で最後の要素を参照することができる。

In [None]:
# 末尾の要素にアクセス
numbers[-1]

3

In [None]:
# 末尾から3番目の要素にアクセス
numbers[-3]

6

次に、リストから一度に複数の要素を取り出す操作である**スライス (slice)** を紹介する。
`開始位置:終了位置` のようにコロン `:` を用いてインデックスを範囲指定し、複数の部分要素にアクセスする。
このスライスの処理は、この後の章でも多用するため、慣れておく。

例えば、先頭から 2 つの要素を取り出したい場合、以下のように指定する。

In [None]:
numbers[0:2]

[4, 10]

In [None]:
numbers

[4, 10, 6, 7, 3]

In [None]:
slice(0,2)

slice(0, 2, None)

In [None]:
numbers[slice(0,2)]

[4, 10]

`開始位置:終了位置` と指定することで、開始位置から**終了位置のひとつ手前**までの要素を抽出する。 
終了位置に指定したインデックスの値は含まれないことに注意する。

また、指定する開始番号が `0` である場合、以下のような略記がよく用いられる。

In [None]:
numbers[:2]

[4, 10]

このように、先頭のインデックスは省略することができる。
このような記法を使う場合は、終了位置を示す数字を**取り出したい要素の個数**と捉えて、**先頭から 2 つを取り出す**操作だと考えると分かりやすくなる。

同様に、ある位置からリストの末尾までを取り出す場合も、終了位置のインデックスを省略することができる。
例えば、2 個目の要素から最後までを取り出すには以下のようにする。

In [None]:
numbers[1:]

[10, 6, 7, 3]

この場合は、取り出される要素の個数は `len(numbers) - 1` 個となることに注意する。

以上から、`numbers[:2]` と `numbers[2:]` は、ちょうど 2 個目の要素を境に `numbers` の要素を 2 分割した前半部分と後半部分になっている。
ここで、インデックスが 2 の要素自体は**後半部に含まれる**と言うことに注意する。

また、開始位置も終了位置も省略した場合は、すべての要素が選択される。

In [None]:
numbers[:]

[4, 10, 6, 7, 3]

現状では、`numbers[:]` と `numbers` の結果が同じであるため、どのように使用するか疑問に思われるかも知れない。
しかし、後の章では NumPy と言うライブラリを用いてリストの中にリストが入ったような**多次元配列 (multidimensional array)** を扱っていく。

そして多次元配列を用いて行列を表す場合には、`0 列目のすべての値`を抽出するために `[:, 0]` のような記法を用いるケースが登場する。
これは Python 標準の機能ではないが、Python 標準のスライス表記を拡張したものになっている。

In [None]:
x = [[1,2],[3,4]]
x[:][0]

[1, 2]

リストは数値以外に、文字列を扱うこともでき、また複数の型を同一のリスト内に混在させることもできる。

In [None]:
# 文字列を格納したリスト
array = ['hello', 'world']
array

['hello', 'world']

In [None]:
len('hello')

5

In [None]:
# 複数の型が混在したリスト
array = [1, 1.2, 'Chainer']
array

[1, 1.2, 'Chainer']

リストにリストを代入することもできる。
また、Python 標準のリストでは入れ子になったリスト内の要素数がばらばらでも問題ない。

In [None]:
array = [[1, 1.2, 'Chainer', True], [3.2, 'Tutorial']]
array

[[1, 1.2, 'Chainer', True], [3.2, 'Tutorial']]

リストを使う際に頻出する操作として、**リストへの値の追加**がある。
リスト型には `append()` と言うメソッドが定義されており、これを用いてリストの末尾に新しい値を追加することができる。

上記の `array` に値を追加してみる。

In [None]:
# 末尾に 2.5 を追加
array.append(2.5)

In [None]:
# 値の確認
array

[[1, 1.2, 'Chainer', True], [3.2, 'Tutorial'], 2.5]

また、今後頻出する処理として、**空のリスト**を定義しておき、そこに後段の処理の中で適宜新たな要素を追加していくと言う使い方がある。

In [None]:
# 空のリストを定義
array = []

# 空のリストに要素を追加
array.append('Chainer')
array.append('チュートリアル')

array

['Chainer', 'チュートリアル']

# タプル

**タプル (tuple)** はリストと同様に複数の要素をまとめた型だが、リストとは異なる点として、定義した後に**中の要素を変更できない**と言う性質を持つ。

タプルの定義には丸括弧 parenthesis `( )`を用いる。

In [None]:
# タプルを定義
array = (4, 5, 6, 7)
array

(4, 5, 6, 7)

In [None]:
# 型の確認
type(array)

tuple

タプルの定義する際に `( )` を使用したため、要素へのアクセスも `( )` を使うように感じるかもしれないが、実際にはリストと同様 `[ ]` を使用する。

In [None]:
# 先頭の要素へアクセス
array[0]

4

In [None]:
# リストと同様、スライスも使用可能
array[:3]

(4, 5, 6)

先述の通り、タプルは各要素の値を変更することができない。
この性質は、定数項などプログラムの途中で書き換わってしまうことが望ましくないものをまとめて扱うのに便利である。

実際に、タプルの要素に値の書き換えを行うとエラーが発生する。

In [None]:
# array[0] = 10 #=> TypeError: 'tuple' object does not support item assignment

`tuple` のように中身が変更できない性質のことを**イミュータブル (immutable)**であると言う。反対に、`list` のように中身が変更できる性質のことを**ミュータブル (mutable)**であると言う

タプルも Chainer でデータセットを扱うときなどに頻出する型である。その性質と取り扱い方を覚えておく。

# 辞書

リストやタプルでは、複数の値をまとめて扱うことができた。

定期テストの結果をまとめることを考えてみよう。

例えば、数学 90 点、理科 75 点、英語 80 点だったと言う結果を `scores = [90, 75, 80]` とリストで表してみる。
しかし、これでは**何番目がどの教科の点数に対応するか**、一見して分かりにくい。

Python の `dict` 型は、**キー (key)** とそれに対応する**値 (value)** をセットにして格納することができる型であり、このようなときに便利である。

リストやタプルでは、各要素にアクセスする際に整数のインデックスを用いていたが、辞書ではキーでインデックス化されているため、整数や文字列など、色々なものを使って要素を指定することができる。

辞書は brace `{}` を用いて定義し、要素にアクセスする際には、リストやタプルと同様に `[ ]` を使用し、`[ ]` の中にキーを指定して対応する値を取り出す。

In [None]:
# 辞書を定義
scores = {'Math': 90, 'Science': 75, 'English': 80 }
scores

{'English': 80, 'Math': 90, 'Science': 75}

In [None]:
# key が Math の value にアクセス
scores['Math'] 

90

In [None]:
# key に日本語を使用することも可能
scores = {'数学': 90, '理科': 75, '英語': 80}
scores

{'数学': 90, '理科': 75, '英語': 80}

In [None]:
scores['数学']

90

他の人が定義した辞書に、**どのようなキーが存在するのか**を調べたいときがある。
辞書には、そのような場合に使える便利なメソッドがいくつか存在する。

- `keys()`: キーのリストを取得。`dict_keys` と言うリストと性質が似た型が返る
- `values()`: 値のリストを取得。`dict_values` と言うリストと性質が似た型が返る
- `items()`: 各要素の `(key, value)` のタプルが並んだリストを取得。`dict_items` と言うリストと性質が似た型が返る

In [None]:
# キーのリスト
scores.keys()

dict_keys(['数学', '理科', '英語'])

In [None]:
# 値のリスト
scores.values()

dict_values([90, 75, 80])

In [None]:
# (キー, 値)と言うタプルを要素とするリスト
scores.items()

dict_items([('数学', 90), ('理科', 75), ('英語', 80)])

`dict_keys`, `dict_values`, `dict_items` と新しい型が登場したが、これは辞書型特有の型であり厳密には標準のリストとは異なるが、リストと性質の似た型であると言う程度の認識で問題ない。

辞書に要素を追加する場合は、新しいキーを指定して値を代入する。

In [None]:
scores['国語'] = 85

In [None]:
scores

{'国語': 85, '数学': 90, '理科': 75, '英語': 80}

また、既に存在するキーを指定した場合には、値が上書きされる。

In [None]:
scores['数学'] = 95

In [None]:
scores

{'国語': 85, '数学': 95, '理科': 75, '英語': 80}

# いまここ

# 制御構文 control structure, control flow

複雑なプログラムを記述しようとすると、繰り返しの処理や、条件によって動作を変える処理が必要となる。
これらは**制御構文**を用いて記述する。

ここでは最も基本的な制御構文を 2 つ紹介する。

- 繰り返し (`for`, `while`)
- 条件分岐 (`if`)

Python の制御構文は、**ヘッダ (header)** と **ブロック (block)** と呼ばれる 2 つの部分で構成されている。
これらを合わせて **複合文 (compound statement)** と呼ぶ。


```
if 条件: # コロンが必要。 ヘッダー
    処理ブロック # インデントが必要。半角スペース4つ
```


上図に示すように、制御構文ではヘッダ行に `for` 文や `if-else` 句を記述し、行末に `:` 記号を書く。次に、ヘッダ行の条件で実行したい一連の処理文を、ブロックとしてその次の行以降に記述していく。その際、 **インデント (indent)** と呼ばれる空白文字を先頭に挿入することで、ブロックを表現する。同じ数の空白でインデントされた文がブロックとみなされる。

Python では、インデントとして**スペース 4 つ**を用いることが推奨されている。

&nbsp;

**繰り返し（for 文）**

同じ内容のメールを宛名だけ個別に変えて、1000 人に一斉送信したい場合など、繰り返す処理を記述する制御構文である `for` を使う。

```
for 変数名 in イテラブルオブジェクト: ヘッダー
    ブロック処理
```

**イテラブルオブジェクト (iterable object)** とは、反復可能オブジェクトのことであり、要素を一度に 1 つずつ返せるオブジェクトのことを指す。
`range()` と言う組み込み関数を使うと、引数に与えた整数の回数だけ順番に整数を返すイテラブルオブジェクトを作ることができる。
`range(5)` と書くと、0, 1, 2, 3, 4 と言う整数 5 つを順番に返すイテラブルオブジェクトになる。

このイテラブルオブジェクトとして、リストやタプルも指定することができる。

In [None]:
# 5回繰り返す
for i in range(5):
    print(i)

0
1
2
3
4


上記の例では、イテラブルオブジェクトが1 つずつ返す値を変数 `i` で受け取っている。

最初は `i = 0` から始まっている。

最後の値も、`5` ではなく `4` となっている。

このように、`range()` に 1 つの整数を与えた場合は、その整数 - 1 まで 0 から 1 つずつ増えていく整数を順番に返す。

In [None]:
# 繰り返し処理が終わった後の値の確認 => 今回の場合 4
i

4

Jupyter Notebook では変数名をコードセルの最後の行に書いて実行するとその変数に代入されている値を確認できたが、for 文の中のブロックでは明示的に `print()` を使う必要がある。
`print()` を用いないと、以下のように何も表示されない。

In [None]:
# 変数の値は表示されない
for i in range(5):
    i

for 文を使って、0 から始まって 1 ずつ大きくなっていく整数順番に取得し、これをリストのインデックスに利用すれば、リストの各要素に順番にアクセスすることができる。

In [None]:
names = ['佐藤', '鈴木', '高橋']

for i in range(3):
    print(names[i])

佐藤
鈴木
高橋


少し応用して、自動的に敬称をつけて表示してみる。

In [None]:
for i in range(3):
    print('{}さん'.format(names[i]))

佐藤さん
鈴木さん
高橋さん


上記のコードに関して、汎用性が低い点として、`range(3)` のように `3` と言う値を直接記述していることが挙げられる。

この `3` はリストの要素の数を意味しているが、リストの要素の数が変わると、このプログラムも書き換える必要があり、手間がかかったり、ミスが発生する原因となったりする。

リスト内の要素の数は、組み込み関数である `len()` を用いて取得できるため、これを使用した汎用性の高いプログラムに書き換えよう。

&nbsp;

In [None]:
len(names)

3

In [None]:
for i in range(len(names)):
    print('{}さん'.format(names[i]))

佐藤さん
鈴木さん
高橋さん


これでリストの要素数に依存しないプログラムにすることができた。

また、リスト自体をイテラブルオブジェクトとして指定することにより、リスト要素数の取得も `[]` でのインデックス番号の指定もせずに、より可読性の高いプログラムを書くことができる。

In [None]:
# リストをイテラブルオブジェクトに指定
for name in names:
    print('{}さん'.format(name))

佐藤さん
鈴木さん
高橋さん


リストをイテラブルオブジェクトとして指定した場合、要素番号を取得できないが、状況によっては要素番号を使用したいことがある。

そのような場合は、`enumerate()` と言う組み込み関数を使う。
これにイテラブルオブジェクトを渡すと、`(要素番号, 要素)` と言うタプルを 1 つずつ返すイテラブルオブジェクトになる。

In [None]:
# enumerate の使い方
for i, name in enumerate(names):
    message = '{}番目: {}さん'.format(i, name)
    print(message)

In [None]:
# 実験
print(list(enumerate(names)))

[(0, '佐藤'), (1, '鈴木'), (2, '高橋')]


`enumerate()` と同様、`for` 文と合わせてよく使う組み込み関数に `zip()` がある。

`zip()` は、複数のイテラブルオブジェクトを受け取り、その要素のペアを順番に返すイテラブルオブジェクトを作る。
このイテラブルオブジェクトは、渡されたイテラブルオブジェクトそれぞれの先頭の要素から順番に、タプルに束ねて返す。
このイテラブルオブジェクトの長さは、渡されたイテラブルオブジェクトのうち最も短い長さと一致する。

In [None]:
names = ['Python', 'Chainer']
versions = ['3.7', '5.3.0']
suffixes = ['!!', '!!', '?']

for name, version, suffix in zip(names, versions, suffixes):
    print('{} {} {}'.format(name, version, suffix))

#実験
print(list(zip(names, versions, suffixes)))

Python 3.7 !!
Chainer 5.3.0 !!
[('Python', '3.7', '!!'), ('Chainer', '5.3.0', '!!')]


`suffixes` の要素数は 3 だが、より短いイテラブルオブジェクトと共に `zip` に渡されたため、先頭から 2 つ目までしか値が取り出されていない。

**条件分岐（if 文）**

`if` は、指定した条件が `True` か `False` かによって、処理を変えるための制御構文である。
```
if 条件: # 条件が True であればブロック処理を実行。ヘッダー
    処理ブロック
elif 条件: # if の条件が False で追加の条件分岐(任意)。ヘッダー
    処理ブロック
else: # すべてが False の場合の条件分岐(任意)。ヘッダー
    処理ブロック
```

python の if は文であって、式ではない。

`elif` と `else` は任意であり、`elif` は 1 つだけでなく複数連ねることができる。

例えば、0 より大きいことを条件とした処理を書いてみる。

In [None]:
# if の条件を満たす場合
a = 1

if a > 0:
    print('0より大きい')
else:
    print('0以下')

0より大きい


In [None]:
# if の条件を満たさない場合
a = -1

if a > 0:
    print('0より大きい')
else:
    print('0以下')

0以下


また、`if` に対する条件以外の条件分岐を追加する場合は、下記のように `elif` を使う。

In [None]:
a = 0

if a > 0:    
    print('0より大きい')
elif a == 0:
    print('０')
else:
    print('0より小さい')

０


**繰り返し（while 文）**

繰り返し処理は、`for` 以外にも `while` を用いて記述することもできる。
`while` 文では、以下のように**ループを継続する条件**を指定する。
指定された条件文が `True` である限り、ブロックの部分に記述された処理が繰り返し実行される。

```
while 条件: # True であればブロック処理を実行。ヘッダー
    ブロック処理
```


`while` 文を使用した 3 回繰り返すプログラムは下記のとおりである。

In [None]:
count = 0

while count < 3:
    print(count)
    count += 1

0
1
2


ここで使われている `count` と言う変数は、ループの中身が何回実行されたかを数えるために使われている。
まず `0` で初期化し、ループ内の処理が一度行われるたびに `count` の値に 1 を足している。
この `count` を使った条件式を `while` 文に与えることで、ループを回したい回数を指定している。

一方、`while True` と指定すると、`True` は変数ではなく値なので、変更されることはなく、ループは無限に回り続ける。
`while` 文自体は無限ループの状態にしておき、ループの中で `if` 文を使って、ある条件が満たされた場合はループを中断する、と言う使い方ができる。
これには `break` 文が用いられる。

以下は、`break` 文を使って上のコードと同様に 3 回ループを回すコードである。

In [None]:
count = 0

while True:
    print(count)
    count += 1
    
    if count == 3:
        break

0
1
2


`count` の値が 3 と等しいかどうかが毎回チェックされ、等しくなっていれば `break` 文が実行されて `while` ループが終了する。

`while` 文を使って、指定された条件を満たして**いない**間ループを繰り返すと言う処理も書くことができる。`while` 文自体の使い方は同じだが、条件を反転して与えることで、与えた条件が `False` である間繰り返されるようにすることができる。

これには、ブール値を反転する `not` を用いる。
`not True` は `False` を返し、`not False` は `True` を返す。

In [None]:
not True

False

In [None]:
not False

True

In [None]:
not 1 == 2

True

このように、`not` はあとに続くブール値を反転する。
これを用いて、`count` が 3 **ではない**限りループを繰り返すと言うコードを `while` 文を使って書いてみよう。

In [None]:
count = 0

while not count == 3:
    print(count)
    count += 1

0
1
2


**関数**

何かひとまとまりの処理を書いた際には、その処理のためのコードをまとめて、プログラム全体の色々な箇所から再利用できるようにしておくと、便利な場合がある。
ここでは、処理をひとまとめにする方法の一つとして**関数 (function)** を定義する方法を紹介する。

**関数を定義する**



```
def 関数名 (引数1,2,...): ヘッダー
    処理ブロック
```

例えば、**受け取った値を 2 倍して表示する関数**を作ってみよう。

関数を定義するには、まず名前を決める必要がある。
今回は `double()` と言う名前の関数を定義してみる。

関数も制御構文と同じく**ヘッダー**と**ブロック**を持っている。

In [None]:
# 関数 double() の定義
def double(x):
    print(2 * x)

**関数は定義されただけでは実行されない。**
定義した関数を使用するためには、定義を行うコードとは別に、実行を行うコードが必要である。

In [None]:
# 関数 double() の定義
def double(x):
    print(2 * x)
# 関数の実行
double(3)

6


In [None]:
double(5)

10


In [None]:
double(1.5)

3.0


`double(x)` における `x` のように、関数に渡される変数や値のことを**引数 (argument, ひきすう)** と言う。
上の例は、名前が `double` で、1つの引数 `x` をとり、`2 * x` と言う計算を行い、その結果を表示している。

**複数の引数をとる関数**

複数の引数をとる関数を定義する場合は、関数名に続く `()` の中に、カンマ `,` 区切りで引数名を並べる。

例えば、引数を 2 つとり、足し算を行う関数 `add()` を作ってみよう。

In [None]:
# 関数の定義
def add(a, b):
    print(a + b)

In [None]:
# 関数の実行
add(1, 2)

3


In [None]:
add(3, 2.5)

5.5


In [None]:
add(1, -5)

-4


今回の `double()` や `add()` は定義を行い自作した関数だが、Python には予め多くの関数が定義されている。
そのような関数を**組み込み関数 (built-in function)** と呼ぶ。
すでに使用している `print()` や `len()`, `range()` などが、これに該当する。
組み込み関数の一覧は[こちら](https://docs.python.org/ja/3/library/functions.html)で確認することができる。


colab 環境で `dir(__builtin__)` でも確認できる



**引数をとらない関数**

引数をとらない関数を定義する場合でも、関数名の後に `()` を加える必要がある。

例えば、実行するとメッセージを表示する関数を定義して、実行してみる。

In [None]:
# 引数のない関数の定義
def hello():
    print('Chainerチュートリアルにようこそ')

In [None]:
# 引数のない関数の実行
hello()

Chainerチュートリアルにようこそ


**引数のデフォルト値**

引数には、あらかじめ値を与えておくことができる。

これは、引数をとる関数を定義する際に、何も引数に値が渡されなかったときにどのような値がその引数に渡されたことにするかをあらかじめ決めておける機能で、その値のことを**デフォルト値**と呼ぶ。

例えば、上の `hello()` と言う関数に、`message` と言う引数をもたせ、そこにデフォルト値を設定しておく。

In [None]:
def hello(message='Chainerチュートリアルにようこそ'):
    print(message)

この関数は引数に何も与えずに呼び出すと、「Chainerチュートリアルにようこそ」と言うメッセージを表示し、引数に別な値が渡されると、その値を表示する。

In [None]:
hello()

Chainerチュートリアルにようこそ


In [None]:
hello('Welcome to Chainer tutorial')

Welcome to Chainer tutorial


デフォルト値が与えられていない引数は、関数呼び出しの際に必ず何らかの値が渡される必要があるが、デフォルト値を持つ場合は、何も指定しなくても関数を呼び出すことができるようになる。

**返り値のある関数**

上で定義した足し算を行う関数 `add()` では、計算結果を表示するだけで、計算結果を呼び出し元に戻していない。
そのため、このままでは計算結果を関数の外から利用することができない。

そこで、`add()` 関数の末尾に `return` 文を追加して、計算結果を呼び出し元に返すように変更してみる。

In [None]:
# 返り値のある関数の定義
def add(a, b):
    return a + b

このように、呼び出し元に返したい値を `return` に続いて書くと、その値が `add()` 関数を呼び出したところへ戻される。
`return` で返される値のことを**返り値 (return value)** と言う。

以下に、計算結果を `result` と言う変数に格納し、表示する例を示す。

In [None]:
result = add(1, 3)

result

4

計算結果が `result` に格納されているので、この結果を用いてさらに別の処理を行うことができる。

In [None]:
result = add(1, 3)

result_doubled = result * 2

result_doubled

8

また、返り値は「呼び出し元」に返されると書いた。
この「呼び出し元」と言うのは、関数を呼び出す部分のことで、上のコードは `add(1, 3)` の部分が `4` と言う結果の値になり、それが左辺の `result` に代入されている。

これを用いると、例えば「2 と 3 を足した結果と、1 と 3 を足した結果を、掛け合わせる」と言う計算が、以下のように書ける。

In [None]:
add(2, 3) * add(1, 3)

20

**変数のスコープ**

関数の中で定義した変数は基本的には関数の外では利用できない。
例えば、以下の例を見てみよう。

In [None]:
a = 1

# 関数の内部で a に 2 を代入
def change():
    a = 2
    
change()

a

1

関数の外で `a = 1` と初期化した変数と同じ名前の変数に対して、`change()` 関数の内部で `a = 2` と言う代入を行っているにもかかわらず、`change()` 関数の実行後にも関数の外側では `a` の値は 1 のままになっている。
**関数の外側で定義された変数** `a` **に、関数内部での処理が影響していないことがわかる。**

なぜこうなるかと言うと、関数の中で変数に値が代入されるとき、その変数はその関数の**スコープ (scope)** でだけ有効な**ローカル変数**になり、関数の外にある同じ名前の変数とは別のものを指すようになるためである。
スコープとは、その変数が参照可能な範囲のことである。
上の例では、`a = 2` の代入を行った時点で`change()` 関数のスコープに `a` と言う変数が作られ、`change()` 関数の中からは `a` といえばこれを指すようになる。関数から抜けると、`a` は 1 を値に持つ外側の変数を指すようになる。

ただし、代入を行わずに、参照するだけであれば、関数の内側から外側で定義された変数を利用することができる。

In [None]:
a = 1

def change():
    print('From inside:', a)
    
change()

print('From outside:', a)

From inside: 1
From outside: 1


この場合は、`change()` 関数のスコープには `a` と言う変数は作られないので、関数の中で `a` といえば外側で定義された変数を指す。

関数の外で定義された変数は**グローバル変数**と呼ばれる。
グローバル変数は、特に特別な記述を要せず参照することはできるが、関数の中で**代入**を行う場合は、`global` 文を使って、代入先をグローバル変数とする宣言を行う必要がある。

In [None]:
a = 1

def change():
    global a  # a をグローバル変数である宣言
    a = 2       # グローバル変数への代入

# 関数の実行
change()

# 結果の確認 <- a の値が上書きされている
a

2

`global a` と言う行を `change()` 関数内で `a` と言う変数を使用する前に追加すると、その行以降は `a` と言う変数への代入も関数の外側で定義されたグローバル変数の `a` に対して行われる。

# クラス

**オブジェクト指向プログラミング (object-oriented programming)** の特徴の一つである**クラス (class)** は、**オブジェクト (object)** を生成するための設計図にあたるものである。

クラスから作成された実体のことを**インスタンス (instance)** または**オブジェクト (object)** とも呼び、**クラスから実体を作成する**と言う操作のことを**インスタンス化 (instantiation)** と呼ぶ。

**クラスの定義**

それでは、家の設計図を表す `House` と言うクラスを定義してみる。

`House` クラスには、インスタンス化されたあとに、各インスタンス、すなわち誰か特定の人の家ごとに異なる値を持つ、`name_plate` と言う変数を持たせてみる。

`name_plate` と言う変数には、個別の家の表札に表示するための文字列が与えられるが、クラスを定義する際には「`name_plate` と言う変数を持つことができる」ようにしておくだけでよく、**実際にその変数に何か具体的な値を与える必要はない。**

クラスは、**設計図**であればよく、具体的な値を持たせなくてもよいためである。

具体的な値は、個別の家を作成するとき、すなわちインスタンス化の際に与え、各インスタンスが `name_plate` と言う値に自分の家の表札の名前を保持するようにする。

このような、インスタンスに属している変数を**属性 (attribute)** と呼ぶ。同様に、インスタンスから呼び出すことができる関数のことを**メソッド (method)** と呼ぶ。

クラスは、以下のような構文を使って定義する。

具体的には、以下のようになる。
```
class クラス名: ヘッダー
    def メソッド名(引数1, ...): ヘッダー
        ブロック処理
```

In [None]:
# クラスの定義
class House:
    # __init__() メソッドの定義
    def __init__(self, name):
        self.name_plate = name

ここで、`__init__()` と言う名前のメソッドが `House` クラスの中に定義されている。
メソッドの名前は自由に名付けることができるが、いくつか特別な意味を持つメソッド名が予め決められている。
`__init__()` はそういったメソッドの一つで、**インスタンス化する際に自動的に呼ばれるメソッド**である。

`House` クラスの `__init__()` は、`name` と言う引数をとり、これを `self.name_plate` と言う変数に代入している。
この `self` と言うのは、クラスがインスタンス化されたあと、作成されたインスタンス自身を参照するのに用いられる。
これを使って、`self.name_plate = name` とすることで、作成された個別のインスタンスに属する変数 `self.name_plate` へ、引数に渡された `name` が持つ値を代入することができる。
`self` が指すものは、各インスタンスから見た「自分自身」なので、各インスタンスごとに異なる。
これによって、`self.name_plate` は各インスタンスに紐付いた別々の値を持つものとなる。

メソッドは、インスタンスから呼び出されるとき自動的に第一引数にそのインスタンスへの参照を渡す。
そのため、メソッドの第一引数は `self` とし、渡されてくる自分自身への参照を受け取るようにしている。
ただし、呼び出す際には**そのインスタンスを引数に指定する必要はない。**
以下に具体例を示し、再度このことを確認する。

それでは、上で定義した `House` クラスのインスタンスを作成してみる。
クラスのインスタンス化には、クラス名のあとに `()` を追加して、クラスを呼び出すような記法を使う。
この際、関数を呼び出すときと同様にして、`()` に引数を渡すことができる。
その引数は、`__init__()` メソッドに渡される。

In [None]:
my_house = House('Chainer')

`House` と言うクラスの `__init__()` メソッドに、`'Chainer'` と言う文字列を渡している。
`my_house` が、`House` クラスから作成されたインスタンスである。
ここで、クラス定義では `__init__()` メソッドは `self` と `name` と言う 2 つの引数をとっていたが、呼び出しの際には `'Chainer'` と言う一つの引数しか与えていない。
この `'Chainer'` と言う文字列は、1 つ目の引数であるにも関わらず、`__init__()` メソッドの定義では 2 つ目の引数であった `name` に渡される。
前述のように、**メソッドは、インスタンスから呼び出されるとき自動的に第一引数にそのインスタンスへの参照を渡す**ためである。
この自動的に渡される自身への参照は、呼び出しの際には明示的に指定しない。
また、かならず 1 つ目の引数に自動的に渡されるため、呼び出し時に明示的に与えられた引数は 2 つ目以降の引数に渡されたものとして取り扱われる。

それでは次に、このクラスに `hello()` と言うメソッドを追加し、呼び出すと誰の家であるかを表示すると言う機能を実装してみる。

In [None]:
# クラスの定義
class House:

    # __init__() の定義
    def __init__(self, name):
        self.name_plate = name

    # メソッドの定義
    def hello(self):
        print('{}の家である。'.format(self.name_plate))

それでは、2 つのインスタンスを作成して、それぞれから `hello()` メソッドを呼び出してみる。

In [None]:
sato = House('佐藤')
suzuki = House('スズキ')

sato.hello()   # 実行の際には hello() の引数にある self は無視
suzuki.hello() # 実行の際には hello() の引数にある self は無視

佐藤の家である。
スズキの家である。


`sato` と言うインスタンスの `name_plate` 属性には、`'佐藤'` と言う文字列が格納されている。  
`suzuki` と言うインスタンスの `name_plate` 属性には、`'スズキ'` と言う文字列が格納されている。  
それぞれのインスタンスから呼び出された `hello()` メソッドは、`self.name_plate` に格納された別々の値を `print()` を用いて表示している。

このように、同じ機能を持つが、インスタンスによって保持するデータが異なったり、一部の動作が異なったりするようなケースを扱うのにクラスを利用する。
Python の `int` 型、`float` 型、`str` 型…などは、実際には `int` クラス、`float` クラス、`str` クラスであり、それらの中では個別の変数（インスタンス）がどのような値になるかには関係なく、同じ型であれば共通して持っている機能が定義されている。
`5` や `0.3` や `'Chainer'` などは、それぞれ `int` クラスのインスタンス、`float` クラスのインスタンス、`str` クラスのインスタンスである。

以上から、クラスを定義すると言うのは、**新しい型を作る**と言うことでもあると分かる。

# 継承

あるクラスを定義したら、その一部の機能を変更したり、新しい機能を付け足したりしたくなることがある。
これを実現する機能が**継承 (inheritance)** である。
例えば、`Link` と言うクラスを定義し、そのクラスを継承した `Chain` と言う新しいクラスを作ってみよう。
まず、`Link` クラスを定義する。

In [None]:
class Link:

    def __init__(self):
        self.a = 1
        self.b = 2

この `Link` と言うクラスは、インスタンス化を行う際には 1 つも引数をとらないが、属性として `a` と `b` の 2 つの変数を保持し、それぞれには `__init__()` メソッドで 1 と 2 と言う値が代入される。
このクラスのインスタンスを作成してみる。

In [None]:
l = Link()

l.a

1

In [None]:
l.b

2

`l` と言う `Link` クラスのインスタンスが持つ 2 つの属性を表示している。
インスタンス化を行った際に `__init__()` メソッドの中で代入していた値が、表示されている。

次に、このクラスを**継承**する、`Chain` と言うクラスを定義してみる。
継承を行う場合は、クラス定義の際にクラス名に続けて `()` を書き、その中にベースにしたいクラスの名前を書く。
`()` の中に書かれたクラスのことを、定義されるクラスの**親クラス**と言う。
それに対し、`()` の中に書かれたクラスからみると、定義されるクラスは**子クラス**と呼ばれる。
親から子へ機能が受け継がれるためである。

In [None]:
class Chain(Link):
    
    def sum(self):
        return self.a + self.b

`Chain` クラスは `__init__()` メソッドの定義を持ちない。
`__init__()` メソッドが定義されていない場合、親クラスの `__init__()`  メソッドが自動的に呼び出される。
そのため、`Chain` クラスでは一見何も属性を定義していないように見えるが、インスタンス化を行うと親クラスである `Link` の `__init__()`  メソッドが自動的に実行され、`a`、`b` と言う属性が定義される。
以下のコードで確認してみる。

In [None]:
# Chain クラスをインスタンス化
c = Chain()

c.a

1

In [None]:
c.b

2

`Chain` クラスの `sum()` メソッドでは、この親クラスの `__init__()`  メソッドで定義されている 2 つの属性を足し合わせて返している。
今作成したインスタンスから、この `sum()` メソッドを呼び出してみる。

In [None]:
# sum メソッドを実行
c.sum()

3

このように、**親クラスを継承し、親クラスに無かった新しい機能が追加された、新しいクラスを定義することができる。**

それでは、この `Chain` と言うクラスにも `__init__()`  メソッドを定義して、新しい属性 `c` を定義し、`sum()` メソッドでは親クラスの `a`、`b` と言う属性とこの新たな `c` と言う属性の 3 つの和を返すように変更してみる。

In [None]:
class Chain(Link):

    def __init__(self):
        self.c = 5  # self.c を新たに追加
    
    def sum(self):
        return self.a + self.b + self.c

# インスタンス化
C = Chain()

In [None]:
# error
# C.sum()

エラーが出た。

**エラーメッセージを読む。**

> AttributeError: 'Chain' object has no attribute 'a'

`'Chain'` と言うオブジェクトは、`'a'` と言う名前の属性を持っていない、と言われている。
`a` と言う属性は、`Chain` の親クラスである `Link` の `__init__()`  メソッドで定義されている。
そのため、`Chain` クラスをインスタンス化する際に、親クラスである `Link` の `__init__()`  メソッドが呼ばれているのであれば、このエラーは起こらないはずである。
なぜエラーとなってしまったのだろうか。

それは、`Chain` クラスにも `__init__()` メソッドを定義したため、親クラスである `Link` の `__init__()`  メソッドが上書きされてしまい、実行されなかったためである。
しかし、親クラスの `__init__()`  メソッドを明示的に呼ぶことで、これは解決できる。

それには、`super()` と言う組み込み関数を用いる。
これを用いると、子クラスから親クラスを参照することができる。

In [None]:
class Chain(Link):

    def __init__(self):
        # 親クラスの `__init__()` メソッドを呼び出す
        super().__init__()
        
        # self.c を新たに追加
        self.c = 5
    
    def sum(self):
        return self.a + self.b + self.c

# インスタンス化
c = Chain()

In [None]:
c.sum()

8

今回はエラーが起きない。
`Link` クラスの `__init__()`  メソッドの冒頭で、まず親クラスの `__init__()`  メソッドを実行し、`a`、`b` と言う属性を定義しているためである。

あるクラスを継承して作られたクラスを、さらに継承して別のクラスを定義することもできる。

In [None]:
class MyNetwork(Chain):
    
    def mul(self):
        return self.a * self.b * self.c

`MyNetwork` クラスは、`Link` クラスを継承した `Chain` クラスをさらに継承したクラスで、`a`、`b`、`c` と言う 3 つの属性を掛け合わせた結果を返す `mul()` と言うメソッドを持つ。

このクラスのインスタンスを作成し、`mul()` を実行してみる。

In [None]:
net = MyNetwork()

net.mul()

10

$1 \times 2 \times 5 = 10$ が返ってきた。

以上で、Python の基本についての解説を終了する。
Python には他にもここでは紹介されていない多くの特徴や機能がある。
さらに詳しく学びたい方は、[Pythonチュートリアル](https://docs.python.org/ja/3/tutorial/index.html) などを参照する。

# 機械学習に使われる数学

次章より 3 つの章にわたって、ディープラーニングを含む機械学習に必要な数学のうち、基礎的なものとして「微分」「線形代数」「確率統計」の 3 つについて、要点を絞り、簡潔に紹介していく。

その前に、本章では**機械学習 (machine learning)** の考え方について大枠を掴み、どの部分でそれぞれの項目が登場するかを把握しておく。

**機械学習とは**

機械学習は、与えられたデータから、未知のデータに対しても当てはまる規則やパターンを抽出したり、それらを元に未知のデータを分類したり、予測したりする手法を研究する学術領域である。
機械学習は様々な技術に応用されており、例えば画像認識、音声認識、文書分類、医療診断、迷惑メール検知、商品推薦など、幅広い分野で重要な役割を果たしている。


**教師あり学習の考え方**

機械学習の代表的な問題設定として、**教師あり学習 (supervised learning)** というものがある。
これは、問題に対して予め答えを用意しておき、予想された答えと実際の答えの違いが小さくなるように訓練を行う方法である。

もう少し具体的に教師あり学習の考え方を説明してみる。
例えば、以下の図のような赤い点の集まりがあったとする。

![data points](https://github.com/chainer/tutorials/blob/master/ja/images/01/01_data_points.png?raw=1)

この図は、横軸が $x$ 軸、縦軸が $t$ 軸となっている。
この赤い点の 1 つ 1 つは、$x$ と $t$ の値の組を表している。
図から、$x = 0$ 付近では $t$ も $0$ 付近の値をとることが多いようだ。
また、$x = 200$ 付近では、$t$ は $40$ 前後の値をとっているように見える。
それでは、$x = -200$ のとき、$t$ はどのような値をとるだろうか。

このように、与えられたデータから関係性を予想し、未知のデータに対しても筋の良い見通しを立てることが、教師あり学習の代表的な目標の 1 つである。


**直線による近似**

次に、以下のような直線の方程式を考えてみる。

$$
f(x) = wx + b
\tag{2.1}
\label{line}
$$

![line](https://github.com/chainer/tutorials/blob/master/ja/images/01/01_line.png?raw=1)

これは、1 つの入力 $x$ を与えると 1 つの出力を返す関数 $f$ を表していて、この関数は傾き $w$ と切片 $b$ の **2 つのパラメータで特徴づけられている。**
上の図は、$w = 0.5$、$b = 50$ の場合を表している。
ここで、初めの図にあった赤い点の集まりに見られる $x$ と $t$ の関係を、うまく式 $\eqref{line}$ の直線によって近似することを考えてみる。

この直線をそのまま赤い点の集まりの上におくと、以下のようになる。

![line and data points](https://github.com/chainer/tutorials/blob/master/ja/images/01/01_line_and_data_points.png?raw=1)

あまりうまく $x$ と $t$ の関係を表しているようには見えない。

式 $\eqref{line}$ で表される直線は、$w$ と $b$ が決まると、どのような直線になるかが決定される。
つまり、この $w$ と $b$ の値をうまく決定して、赤い点の集まりにできるだけ沿うような直線を見つけることができれば、新しい $x$ が与えられたときに、$t$ の値がどのような値になりそうかを予測することができそうである。
このとき、未知のデータに対しても精度良く予測が行えることを**汎化性能 (generalizability)** が高いと言う。

また、パラメータ $w$ と $b$ によって特徴づけられた直線の式  $\eqref{line}$ のような、パラメータを使って何らかの計算を行うことで、与えられたデータの特徴や関係性を表すものを、以降簡単に**モデル (model)** と呼ぶことにする（[注釈1](#note1)）。

それでは、$x$ と $t$ の関係をよく表すモデルのパラメータ $w$ と $b$ は、どうやって決定すればよいのだろうか。
先程のように、人が赤い点の集まりを目で見て $x$ と $t$ の関係に当たりをつけ、最適な $w$ と $b$ の値を人手で探り当てるのは、赤い点がもし 3 次元空間や、4 次元、5 次元…といった人間には想像することが難しい高次元空間に散らばっていたら、目で見ることもできないため、困難になる。
そこで、コンピュータにこれらの赤い点のデータを与えて、自動的に最適な $w$ と $b$ を探させようというのが、機械学習で行われる代表的な処理のひとつである。



**目的関数**

コンピュータに良いパラメータを自動的に見つけてもらうためには、**何が良いパラメータなのか**という指標を定義する必要がある。
そのような指標を表す関数を**目的関数 (objective function)** と呼ぶ。

ここで、上の直線の例に戻って考えてみる。
まず、式 $\eqref{line}$ にある $x$ を与えると、$w$ と $b$ を使って $wx + b$ という計算が行われる。
その結果を $y$ と表すことにする。
ここで、$x$ を**入力変数 (input variable)**、$y$ を**出力変数 (output variable)** と呼ぶ。
今、上図の赤い点の集まりから 1 点を選び出し、その $x$ 座標の値を式 $\eqref{line}$ に与えたとする。
このとき、式 $\eqref{line}$ に与えられた具体的な $x$ の値を、**入力値 (input value)** と呼ぶ。
そして、パラメータ $w$ と $b$ を用いて計算を行った結果得られる具体的な $y$ の値を、**予測値 (predicted value)** と呼ぶ。
このとき、直線の式ではなく、実際の赤い点の持つ $t$ の値は、この式が予測したい目標の値なので、**目標値 (target value)** と呼ぶ。

目的関数は多くの場合、モデルの予測値と目標値を受け取って、その間の差異を測って返すような関数である。
差異は小さければ小さいほどモデルの予測が当たっていることを意味するため、この場合は目的関数の値を最小にするパラメータを見つけ出すのが目的になる。



**二乗誤差関数**

目的関数の具体例を挙げる。
例えば、適当に赤い点を 1 つ選び、その $x$ 座標が $100$ で、 $t$ 座標が $40$ だったとする。
この値を、$x_1 = 100, t_1 = 40$ のようにおいてみる。
そして、別な点も取り出してきて、同じように座標値 $(x, t)$ を $(x_2, t_2)$ と書くことにする。
同様にして、200 個赤い点を取り出してきたとすると、200 個の $x$ の値 $x_1, x_2, \dots, x_{200}$ と $t_1, t_2, \dots, t_{200}$ が得られる。  

この $x_1, x_2, \dots, x_{200}$ から $t_1, t_2, \dots, t_{200}$ を予測するのが目標だった。  
つまり、$x_1, x_2, \dots, x_{200}$ が入力値、$t_1, t_2, \dots, t_{200}$ が目標値である。

そして、この 200 個の $x$ の値全てに対して、式 $\eqref{line}$ による予測値 $y$ を計算した結果、$y_1, y_2, \dots, y_{200}$ が得られたとする。

このとき、これらの予測値の正確さを、対応する目標値との間の**差の二乗**によって測るのが、**二乗誤差関数 (squared error function)** と呼ばれるものである。

具体的には、$n$ 個目の予測値を $y_n$、目標値を $t_n$ とすると、以下のような関数である。

$$
\mathcal{l} = (t_n - y_n)^2
$$

これは、$n$ 個目のデータに対する予測値と目標値の差異を表している。
しかし、ある 1 つのデータに対してだけ予測がうまくいっていたとしても、それ以外のデータに対して全くうまく予測できないのであれば、そのモデルが新しい値に対して正確な予測を行うことは困難であると考えられる。
そこで、200 個のデータ全てに渡って、この二乗誤差を足し合わせ、データ数の 200 で割って平均をとったものを考える。

$$
L = \frac{1}{200} \sum_{n=1}^{200} (t_n - y_n)^2
$$

$\sum$ という記号は、**総和**を表す。
上の式は、$(t_n - y_n)^2$ の値を、$n = 1$ から順番に $n = 2, n = 3, \dots, n = 200$ まで計算していき、全てを足し合わせ、$200$ で割る、ということを意味する。

これは、**平均二乗誤差 (mean squared error)** と呼ばれ、連続値を予測する回帰問題などでよく用いられる代表的な目的関数の 1 つである。
この関数は、予測値と目標値がすべての $n$ において完全に一致するときだけ $0$ になり、それ以外では必ず正の値をとる。
よって、この目的関数の値を最小にする $w$ と $b$ が、求めたい最適なパラメータである。
「良いパラメータとは何か」が定量的に定義できたので、次はコンピュータに解を探索させる方法を考える。



**目的関数の最適化**

ある関数を最小にする入力変数の値を求めることを最適化と言う。この最適化をコンピュータで自動的に行うには、どうすれば良いのだろうか。
例えば、以下のような関数があるとする。
横軸が入力の値、縦軸が出力の値である。

![quadric](https://github.com/chainer/tutorials/blob/master/ja/images/01/01_quadric.png?raw=1)

このとき、関数に適当な値をまず入力してみて、得られた値を使ってその値が小さくなりそうな方向に入力を少し動かす、ということを繰り返し行って、関数が最小値をとる入力値を探索する、という方法がある。



**機械学習で使われる数学**

このような最適化を行うのに必要になるのが**微分 (differential)** の知識である。
なぜなら、「入力をどちらに動かせば出力が小さな値になりそうか」ということを知るためには、対象の関数を微分する必要があるからである。詳細は次章で説明する。

また、初めにあげた赤い点の集まりに最もよく沿うような直線を求める問題では、1 つの値を入力して 1 つの値が出力される関数を考えていたが、複数の値を同時に扱いたいときに必要になるのが、**線形代数 (linear algebra)** の知識である。

さらに、赤い点がもし本当は直線上にぴったり沿うようなデータであったのに、観測時に何らかの理由でノイズが乗ってしまったがために直線の周辺にばらついて出てきているのだとしたら、そのノイズがどの程度の範囲で値のズレを発生させるものなのか、見当をつけておきたくなるかも知れない。
そういったときに必要になるのが、**確率(probability)・統計 (statistics)** の知識である。

この 3 つについて、機械学習の学習に必要となる最低限の知識に絞って以降の 3 章で解説を行う。

それでは、次章はまず微分についてである。

<hr />


# いまここ

# 微分の基礎



**微分と関数最小化の関係**

前章で微分が目的関数の最小化に役立つと紹介した。本節ではまず具体例を用いてそのことを直感的に理解する。
例として、下図のような下向きにくぼんだ形をした関数がどこで最小値をとるかを探す問題を考える。


![微分1](https://github.com/chainer/tutorials/blob/master/ja/images/03/03_02.png?raw=1)

適当な点 $\theta_{1}$ でこの関数のグラフに接する直線（**接線**）を考える（[注釈1](#note1)）。
仮にこの接線の傾きが $+3$ 、すなわち正の値であったとしよう。この時、接線は右に進むほど高さが上がり，逆に左に進むほど高さが下がる。
$\theta_{1}$ の周辺では、関数のグラフと接線は非常に近く、両者はほとんど見分けることができない。
すると、関数も接線と同じように $\theta_{1}$ 右に進むと増加し，左に進むと減少していることがわかる。

![微分2](https://github.com/chainer/tutorials/blob/master/ja/images/03/03_03.png?raw=1)

次に、グラフ上の別の点 $\theta_{2}$ においてこのグラフに接する接線を考える。
今度は接線の傾きが $-1$ であるとする。傾きが負のため、接線は右肩下がりの直線である。
グラフは接線と非常に近いため、グラフも $\theta_{2}$ の周辺では、同じように右肩下がりであるとわかる。

![微分3](https://github.com/chainer/tutorials/blob/master/ja/images/03/03_03_02.png?raw=1)

最後にちょうどグラフの谷となっている点 $\theta_{3}$ を考える。
図を見て分かる通り、関数はこの点で最小値を取る。
一方、点 $\theta_{3}$ でグラフに接する接線は水平、すなわち**傾きが0**である。

これまでの観察をまとめると、接線の傾きと関数の振る舞いには次の関係があることがわかる。

- ある点で接する接線の傾きが正ならば、その点の近くでグラフは右肩上がり（= 左に進むと高さが下がる）
- ある点で接する接線の傾きが負ならば、その点の近くでグラフは右肩下がり（= 右に進むと高さが下がる）
- 関数が最小値をとる点に接する接線の傾きは $0$ である

つまり、関数の最小値をとる点を求める問題では、接線の傾きが $0$ となる点が答えの候補（[注釈2](#note2)）となることがわかる。
本章で説明するように、**微分を用いると接線の傾きを計算することができる**。
このことから、微分が関数の最小化問題に有用なツールであることがわかる。

以降では、微分の定義と微分に関する公式を紹介する。さらに、入力が多変数の関数での微分（偏微分）についても解説する。

## 2 点間を通る直線の傾き

接線の傾きと微分の関係を調べるため、まずは2点を通る直線の傾きを求める問題を考える。

![2点間を通る直線](https://github.com/chainer/tutorials/blob/master/ja/images/03/03_04.png?raw=1)

直線の傾きは 「$y$ （縦方向）の増加量 / $x$ （横方向）の増加量」で計算できるので、上図の直線の傾き $a$ は、

$$
a = \dfrac{f(x_{2}) - f(x_{1})}{x_{2}-x_{1}}
$$

で求められる。

## 接線の傾き

上図での点 $x_1$ における接線の傾きを求めるために、もう一方の点 $x_2$ を $x_1$ に近づけていく。ただし、 $x_1$ と $x_2$ が完全に同じになってしまうと、$x$ 方向、 $y$ 方向の増加量がどちらも $0$ になってしまうため、傾きは $0/0$ で計算することができない。
そこで 2 点は異なる点でありつつ、 $x_2$ を限りなく $x_1$ に近づけていった時、直線の傾きがどのように振る舞うかを見る必要がある。これを数式的に表現するには、**極限**の考えが必要になる。

極限では、変数がある値に限りなく近づくとき、その変数によって記述される関数がどのような値に近づくかを考える。
関数 $f$ に対し、$h$ という変数を $a$ に近づけていったときの $f(h)$ が近づく値を $\lim$ という記号を用いて

$$
\displaystyle \lim _{h\rightarrow a} f(h)
$$

と書く。例えば、 $h$ を限りなく $0$ に近づけた時に、 $3h$ も限りなく $0$ に近づいていく。
従って

$$
\displaystyle \lim _{h\rightarrow 0} 3h=0
$$

である。もっと一般に $n$ を自然数、 $c$ を定数として、

$$
\displaystyle \lim _{h\rightarrow a} c h^n=c a^n
$$

が成立する。これだけ見ると単に関数 $\lim _{h\rightarrow a} f(h)$ は $h$ に $a$ を代入した値 $f(a)$ のように思えるかも知れません。しかし、今考えている直線の傾きの場合、そのような代入操作を行うと先程のように $0/0$ の形が現れてしまうため、単純な代入では極限を求めることはできない。
極限の計算方法は後ほど詳しく解説する。

それでは、下図のある点 $x$ における接線の傾き $a$ を求めていこう。

![1点での接線](https://github.com/chainer/tutorials/blob/master/ja/images/03/03_05.png?raw=1)

2点を通る直線の傾きの式と極限を組み合わせて、接線の傾きを求めることができる。

![1点での接線2](https://github.com/chainer/tutorials/blob/master/ja/images/03/03_06.png?raw=1)

はじめに、 $x$ から $h$ だけ離れた点 $x + h$ を考え、2点を通る直線の傾きを求めてみる。
次に $h$ を $0$ に限りなく近づけていけば、1点 $x$ で接する接線を考えることができる。
これを式でみると

$$
\begin{aligned}
a
&= \lim_{h \rightarrow 0} \frac{f(x + h) - f(x)}{(x + h) - x} \\
&= \lim_{h \rightarrow 0} \frac{f(x + h) - f(x)}{h} \\
\end{aligned}
$$

となる。よく見るとこの式は $x$ を決めるごとにある1つの値を定めている、すなわちこの式は $x$ の関数である（$h$ は $h\to 0$ の極限を取っているので $h$ の関数にはなっていないことに注意する）。
この式を $f$ の **導関数 (derivative)**と呼び、 $f'(x)$ と書く。すなわち、

$$
f'(x)= \lim_{h \rightarrow 0} \frac{f(x + h) - f(x)}{h}
$$

である。導関数を求めることを**微分(differentiation)**すると言う。
記号の使い方として、 $f'(x)$ を

$$
\frac{d}{dx}f (x)
$$
または
$$
\frac{df}{dx} (x)
$$

と書いても構いません。
この $d$ という記号は増分をとる操作を表しており、例えば $dx$ は $x$ の変化量を表す。
この記法は煩雑であるが、$x, y$ など変数が複数ある場合、 どの変数で微分しているかが明確になるため、表現を正確にすることができる。

## 微分の公式

ある関数の導関数を計算するには、導関数の定義通りに計算するのが最も愚直な方法である．
しかし、これから紹介する種々の公式を組み合わせることで、わざわざ定義に戻らなくても、複雑な関数の導関数を計算できる。
以下では、 $c$ は定数、 $x$ は変数を表す。

まずはじめに、以下の 3 つの公式を紹介する。

$$
\begin{align}
\left( c\right)^{'} &= 0 \\
\left( x\right)^{'} &= 1\\
\left( x^{2}\right)^{'} &= 2x
\end{align}
$$

1つ目の左辺は定数関数 $f(x) = c$ を $x$ で微分した導関数を表している。
定数関数のグラフを書くと $x$ 軸に平行になるため、どの点で接線を引いてもその傾きは $0$である（グラフと接線は同一の直線となる）。これは導関数は 0 であることを意味する。これが 1 つ目の式の図形的な理解である。
同様に2つ目の公式は 「$y=x$ のグラフではどの点で接線を引いても傾きが1」であることを意味する（この場合もグラフと接線は同一の直線である）。
極限の扱いに慣れるために、3番目の公式を証明しよう。導関数の定義から左辺は

$$
\displaystyle \lim _{h\to 0} \frac{(x+h)^2 - x^2}{(x+h) - x}
$$
である。これは

$$
\begin{align}
\lim _{h\to 0} \frac{(x+h)^2 - x^2}{(x+h) - x} = \lim _{h\to 0} \frac{2xh + h^2}{h} = \lim _{h\to 0} (2x + h)
\end{align}
$$

と計算できる。ここで $h\to 0$ 、すなわち $h$ を限りなく $0$ に近づけると、 $2x + h$ は $2x$ に限りなく近づいていく。従って、 $\left( x^{2}\right)^{'} = 2x$ が導かれた。

以下の公式も頻繁に利用する。

$$
\begin{align}
\left( x^{n} \right)^{'} &= nx^{n-1} \\
\left( e^{ax} \right)^{'} &= ae^{ax}
\end{align}
$$

ここで、$a$ は定数、 $e$ は**自然対数の底**、もしくは **ネイピア数** と呼ばれる特別な定数で、およそ $2.71828\cdots$ である。 $1$ つ目の公式で $n=1, 2$とすると、本節の最初に紹介した $x$, $x^2$ の微分の公式に帰着されることに注意する。
$e^{ax}$ は $\exp(ax)$ のように表記されることがよくある。その表記を用いると最後の公式は

$$
\bigl( \exp(ax) \bigr)^{'} = a\exp(ax)
$$

とも書ける。

## 線形性

微分は**線形性**という性質を持っている。
それがどのような性質なのか、具体例を挙げて見ていこう。
微分には線形性という性質によって、

$$
(3x)' = 3 \times (x)'
$$

のように定数項を微分の演算の外側に出すことができる。
また、

$$
\left( 3x^{2} + 4x - 5 \right)' = \left( 3x^{2} \right)' + \left( 4x \right)' - \left( 5 \right)' 
$$

のように、加算や減算はそれぞれ項ごとに独立に微分の演算を行うことができる。
この 2 つの特性を合わせて線形性と呼ぶ。

もう少し微分の計算を練習してみよう。

$$
\begin{aligned}
\left( 3x^{2} + 4x + 5 \right)' &= \left( 3x^{2} \right)' + \left( 4x \right)' - \left( 5 \right)' \\ 
&= 3 \times \left( x^{2} \right)' + 4 \times \left( x \right)' - 5 \times \left( 1 \right)' \\ 
&= 3 \times 2x + 4 \times 1 - 5 \times 0  \\ 
&= 6x + 4 
\end{aligned}
$$

この線形性に関しては、下記のように公式としてまとめることができる。

$$
\begin{align}
\left( cf(x) \right)^{'} &= c f'(x) \\
\left( f(x) + g(x) \right)^{'} &= f^{'}(x) + g^{'}(x) \\
\end{align}
$$


2 つの関数の積の形で書かれている関数に関しては次の公式が成り立つ。

$$
\bigl( f(x) g(x) \bigr)^{'} = f^{'}(x)g(x) + f(x)g^{'}(x)
$$

関数 $f$ の導関数と関数 $g$ の導関数がわかれば、関数 $fg$ を計算できることがわかる。

## 合成関数の微分

関数 $y = f(x)$ と $z = g(y)$ の**合成**とは $f$ を適用したあとに $g$ を適用する関数、すなわち $z  = g(f(x))$ のことを指す。
ディープラーニングで用いるニューラルネットワークは、層を何層も重ねて複雑な関数を表現する。各々の層を 1 つの関数とみなすと、ニューラルネットワークは多くの関数（層）を合成した**合成関数**と見ることができる。
合成関数の微分を考える時には次に紹介する公式（合成関数の微分の公式）が有用である。
この公式は**連鎖律 (chain rule)** とも呼ばれている。
連鎖律は合成関数を微分を簡単に計算するための公式というだけではなく、ニューラルネットワークの訓練方法である誤差逆伝播法を理解する上で本質的な役割を果たす。

簡単な例として、

$$
\left\{ (3x + 4)^{2} \right\}'
$$

を計算することを考える。
この式は、 $3x+4$ という内側の部分と $(\cdot)^{2}$ という外側の部分で構成されている。
この式を $(9x^2 + 24x + 16)'$ のように展開してから微分を計算しても良いのだが、3乗や4乗とべき数が増えると式を展開するのが大変になる。
ここで役に立つ考え方が合成関数の微分である。
合成関数の微分は、内側の微分と外側の微分をそれぞれ行い、その結果をかけ合わせることで求めることができる。
外側の微分の際には関数の引数を入力とみなし、その入力についての微分を計算する。

それでは、具体的にこの $(3x+4)^2$ という関数の微分を考えてみる。
まず内側の関数を $u = (3x+4)$ とおいて、

$$
\left\{ (3x + 4)^{2} \right\}' = (u^{2})'
$$

と見る。ここで、 $(\cdot)'$ をもう少し厳密に考える必要が出てくる。
今変数は $x$, $u$ の2つあるため、 $(\cdot)'$ という表記では、 $x$ で微分しているのか $u$ で微分しているのかの区別がつかない。
そこで、多少複雑に見えるが、先程紹介した $d$ を使った記法を用いて微分する変数を明示する。

合成関数の微分を公式としてまとめると次のようになる。

$$
\frac{d}{dx} f(g(x)) = \frac{df(u)}{du}\frac{du}{dx}
$$

ここで $u = g(x)$ である。

公式を見るよりも実際の適用例を見た方が理解しやすいかも知れません。
合成関数の微分の公式を用いて、先程の $(3x+4)^2$ の微分を計算すると次のようになる。
2行目で合成関数の微分の公式を利用していることに注目する。

$$
\begin{aligned}
\left\{ (3x + 4)^{2} \right\}' &= \frac{d}{dx} \left\{ (3x + 4)^{2} \right\} \\
&= \frac{du}{dx} \frac{d}{du} (u^2) \\
&= \frac{d}{dx} (3x + 4) \cdot \frac{d}{du} (u^{2}) \\ 
&= 3 \cdot 2u   \\ 
&= 6u = 6(3x + 4) = 18x + 24 \\ 
\end{aligned}
$$

気になる人は、 $(3x + 4)^2$ を展開してから各項を微分した場合と結果が一致していることを確かめてみる。

## 偏微分

機械学習では、1つの入力変数 $x$ から出力変数 $y$ を予測するケースは稀であり、多くの場合、複数の入力変数 $x_1, x_2, \dots, x_M$ を用いて $y$ を予測する**多変数関数**が扱われる。
例えば、家賃を予測する場合、部屋の広さだけではなく、駅からの距離や周辺の犯罪発生率なども同時に考慮した方がより正確に予測ができると期待される。
複数の入力 $x_1, x_2, \dots, x_M$ をとる関数 $f(x_1, x_2, \dots, x_M)$ を多変数関数と呼ぶ。
この多変数関数において、ある入力 $x_m$ にのみ注目して微分することを **偏微分** とよび、

$$
\frac{\partial}{\partial x_{m}} f(x_1, x_2, \dots, x_M)
$$

と表す。微分を意味する記号が、 $d$ から $\partial$ に変わっている。こうすると、 $\frac{\partial}{\partial x_m}$ は $x_m$ 以外を定数と考え、 $x_m$ にのみ着目して微分を行うという意味となる（[注釈3](#note3)）。

以下の例で具体的な計算の流れを確認しよう。

$$
\begin{aligned}
\frac{\partial}{\partial x_1}
\left( 3x_1+4x_2 \right)
&= \frac{\partial}{\partial x_1}
\left( 3x_1 \right) + \frac{\partial}{\partial x_1} \left( 4x_2 \right) \\
&= 3 \times \frac{\partial}{\partial x_1} \left( x_1 \right) + 4 \times \frac{\partial}{\partial x_1} x_2 \\
&= 3 \times 1 + 4 \times 0 \\
&= 3
\end{aligned}
$$

偏微分でも微分と同じ公式を適用できる。今回のケースでは、 $x_1$ にだけ着目しており、 $x_2$ は定数として扱かっている。そのため、上式の 2 行目から 3 行目で $x_2$ を $x_1$ で偏微分した値を $0$ としている（定数の微分は $0$ であったことを思い出す）。

<hr />

<div class="alert alert-info">
**注釈 1**

ここで考えている関数のグラフでは、グラフ上のどの点を取ってもその点で接する接線がただ1本だけ引ける状況を考えている。例えば関数のグラフが谷の部分で「尖った」形をしていると，谷の底で複数の接線が引けてしまう。ここではそのようなケースは考えず、関数のグラフは図のような「滑らか」なカーブになっている場合をイメージする。 

[▲上へ戻る](#ref_note1)
</div>

<div class="alert alert-info">
**注釈 2**

今は関数のグラフの「谷」を考えたが、「山」でも同様に接線の傾きが $0$ となるため、ある点での接線の傾きが $0$ だからと言って、必ずしも関数がその点で最小値をとるとは限りません。

[▲上へ戻る](#ref_note2)
</div>

<div class="alert alert-info">
**注釈 3**

入力変数が他の入力変数と独立でない場合は定数と考えることはできない。しかし本資料ではそのようなケースは出てこない。

[▲上へ戻る](#ref_note3)
</div>