# 本日の課題　2⃣<br><br>Lesson structure

---

<b>⓵</b>今回の訓練データを確認しよう<br>- Let's check out the training data to be used<br>

---

<b>⓶</b>画像の成り立ちについて<br>- What are images made of<br>

---

<b>⓷</b>AIのインプットとアウトプットについて<br>- What should the inputs and the outputs of the AI be<br>

---

<b>⓸</b>手書き数字の画像分類AIを作ってみよう<br>- Let's create an image classification AI for handwritten digits<br>

<b>STEP 1</b><br>モデルのインプットとアウトプットの数を入力しよう<br>- Let's insert the number of inputs and outputs used by the model<br>

<b>STEP 2</b><br>正確度が訓練を通して上がっていくことを確認しよう<br>- Let's check if the model's accuracy is increasing through training<br>

<b>STEP 3（難しい）</b><br>AIの訓練について<br>- How training works in AI<br>

<b>STEP 4</b><br>自分で数字を書いてモデルの機能を確認<br>- Try out the model by writing your own digits<br>

---

<b>⓹（難しい）</b><br>AIの基盤、ニューラルネットワークについて<br>- Introduction to neural networks, the building blocks of AI<br>

---

## <b>⓵</b>今回の訓練データを確認しよう<br>- Let's check out the training data to be used

In [None]:
from torchvision import datasets, transforms
import torch.utils.data as data_utils
from matplotlib import pyplot as plt

transform = transforms.Compose(
    [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]
)

train_dataset = datasets.MNIST(
    "datasets", download=True, train=True, transform=transform
)

test_dataset = datasets.MNIST(
    "datasets", download=True, train=False, transform=transform
)

fig, ax = plt.subplots(5, 10, figsize=(10, 5))
for x1 in range(5):
    for x2 in range(10):
        number_index = (train_dataset.targets == x2).nonzero(as_tuple=True)[0][x1]
        ax[x1][x2].imshow(train_dataset[number_index][0][0], cmap='gray')
        ax[x1][x2].set_xticks([])
        ax[x1][x2].set_yticks([])
plt.tight_layout()

今から、上記のような手書きの０～９までの数字をAIを使って分類していく。今回は、AIの仕組みと訓練について解説しながらモデルを作っていきましょう。

As shown above, our dataset consists of handwritten digits from 0 to 9. In our final part of the lesson today, we will be creating an image classification model to classify the images shown above, and through it learn the inner workings of AI models.

## <b>⓶</b>画像の成り立ちについて<br>- What are images made of

画像というものはたくさんのピクセル（小さい点のこと）で作られていて、長方形か正方形になるように組み合わされている。ピクセルは、一つ一つに数値が与えられていて数値が高いほど明るくなり、低いほど暗くなる。次は、今から使う数字の画像がどのようなピクセルで作られているのかを見ていきましょう。

Images consists of many pixels, which are very tiny dots, layed out to form a rectangle or a square. Each pixel can be represented as a value, based on how bright or dark it is. Now, let's take a look at how our numbers look like in terms of pixels. 

In [None]:
import seaborn as sns
import numpy as np

plt.figure(figsize=(12, 10))

sns.heatmap(
    (train_dataset[0][0][0].detach().numpy() + 1) / 2,
    linewidth=.5, cmap="gray",
    xticklabels=False, yticklabels=False, 
    square=True, annot=True, fmt=".1f"
)

plt.show()

上記の表示から、数字の画像は　２８×２８　ピクセルで作られていることがわかる。この情報は次のステップで使うため、覚えておいてください。

Now we can tell, with simple multiplication, that our image has 28 × 28 pixels. Remember this as we will need this number for our next step.

## <b>⓷</b>AIのインプットとアウトプットについて<br>- What should the inputs and the outputs of the AI be

![g11799.png](attachment:12143460-af6d-4017-9c7d-5f5071113934.png)

仮にAIモデルの中身を無視するとしたら、モデルのインプット（入力）とアウトプット（出力）の二つについて考えることになる。<br>
このモデルのインプットは【１】_______ であり、【２】_______ 個の数値が入る。<br>
このモデルのアウトプットは【３】_______ であり、【４】_______ 個の数値が入る。

If we disregard what goes on inside of the AI model, we are left to think of only 2 things, the input and the output. <br>
The input will be the 【１】_______ and it consists of 【２】_______ values. <br>
The output will be the 【３】_______ and it consists of 【４】_______ values. <br>

【１＆３】<br>
　A - 数字の画像 / image <br>
　B - AIモデル / AI model <br>
　C - 各数字の確率 / probabilities of each number <br>

【２＆４】<br>
　A - １０ <br>
　B - ７８４ <br>
　C - ２８ <br>

<details>
    <summary><b>答え / Answers</b></summary>
    １) A <br> ２) B <br> ３) C <br> ４) A <br> 
</details> 

## <b>⓸</b>手書き数字の画像分類AIを作ってみよう<br>- Let's create an image classification AI for handwritten digits

### <b>STEP 1</b><br>モデルのインプットとアウトプットの数を入力しよう<br>- Let's insert the number of inputs and outputs used by the model

コードの部分「  # <<<」の左側に当てはまる数値を入力しましょう。

Type the numbers accordingly into the code, on the left side of "  # <<<"

In [None]:
from torch import nn

input_size =   # <<<
output_size =  # <<<

model = nn.Sequential(
    nn.Flatten(),
    nn.Linear(input_size, 20),
    nn.ReLU(),
    nn.Linear(20, output_size),
    nn.Softmax(dim=1)
)

### <b>STEP 2</b><br>正確度が訓練を通して上がっていくことを確認しよう<br>- Let's check if the model's accuracy is increasing through training

In [None]:
import torch.utils.data as data_utils
from utils import train


train(
    model,
    data_utils.Subset(train_dataset, range(10000)), 
    data_utils.Subset(test_dataset, range(1000)), 
    20
)

下のリンクを開いて訓練の進捗を確認してみよう<br>
<a href="http://localhost:6006/?darkMode=true#scalars&_smoothingWeight=0">正確度グラフを見てみよう</a>

Open the link below to view the model's training progress. <br>
<a href="http://localhost:6006/?darkMode=true#scalars&_smoothingWeight=0">Check out the training accuracy graph</a>

### <b>STEP 3（難しい）</b><br>AIの訓練について<br>- How training works in AI

AIの訓練では、多くの場合、最低二つの段階に分けられている。今回使っているデータは「訓練段階」と「テスト段階」に分けられているため、この段階が何を意味するのかを説明していく。
<table>
    <tr>
        <th style='border: 1px solid;'>段階</th>
        <th style='border: 1px solid;'>データセット</th>
        <th style='border: 1px solid;'>行動</th>
        <th style='border: 1px solid;'>目的</th>
    </tr><tr>
        <td style='border: 1px solid;'>
            訓練段階
        </td><td style='border: 1px solid;'>
            訓練データはたくさん必要であり、今回は１００００枚の訓練データが用意されている。
        </td><td style='border: 1px solid;'>
            モデルは訓練データに予測値をつけ、自分で答え合わせをする。回答と予測が異なった場合、間違えから学習する。
        </td><td style='border: 1px solid;'>
            モデルの正確度を上げること
        </td>
    </tr><tr>
        <td style='border: 1px solid;'>
            テスト段階
        </td><td style='border: 1px solid;'>
            訓練データと比べて、テストデータは少なく、今回は１０００枚のテストデータが用意されている。
        </td><td style='border: 1px solid;'>
            モデルはテストデータに予測値をつけるが、答えはモデルに明かさず、こちら側で正確度を記録する。
        </td><td style='border: 1px solid;'>
            モデルの正確度を測ること
        </td>
    </tr>
</table>
AIモデルが訓練する際、以下のようにデータをループしていき、正確度が一定を満たしたとき、あるいは一定のエポック（巡目）を終えたときに訓練が終了する。
<table>
    <tr>
        <th style='border: 1px solid;' colspan='2'>エポック１</th>
        <th style='border: 1px solid;' rowspan='2'>→</th>
        <th style='border: 1px solid;' colspan='2'>エポック２</th>
        <th style='border: 1px solid;' rowspan='2'>→</th>
        <th style='border: 1px solid;' colspan='2'>エポック３</th>
        <th style='border: 1px solid;' rowspan='2'>・・・</th>
    </tr><tr>
        <td style='border: 1px solid;'>訓練段階<br>正確度を上げる</td>
        <td style='border: 1px solid;'>テスト段階<br>正確度を測定</td>
        <td style='border: 1px solid;'>訓練段階<br>正確度を上げる</td>
        <td style='border: 1px solid;'>テスト段階<br>正確度を測定</td>
        <td style='border: 1px solid;'>訓練段階<br>正確度を上げる</td>
        <td style='border: 1px solid;'>テスト段階<br>正確度を測定</td>
    </tr>
</table>
<b>では、なぜ両方の目的を一段階で満たせないのだろうか？</b><br>
全てのデータから学習して、そのデータから正確度を求めると、「ずる」することができるからです。<br>
AIは訓練データを完璧に予測することができても、テストデータの予測に失敗することがあり、これを「オーバーフィッティング」と言います。<br>
だからこそ、テストデータを用いることでこの現象を監視するのが重要です。

Most AI training goes through a minimum of 2 phases, the training phase and the testing phase. As our dataset being used consists of these two, we will be finding out what they mean in the following table.
<table>
    <tr>
        <th style='border: 1px solid;'>Phases</th>
        <th style='border: 1px solid;'>Dataset</th>
        <th style='border: 1px solid;'>Actions taken</th>
        <th style='border: 1px solid;'>Main goal</th>
    </tr><tr>
        <td style='border: 1px solid;'>
            Training phase
        </td><td style='border: 1px solid;'>
            A lot. In our case, we are using 10,000 images for our training dataset.
        </td><td style='border: 1px solid;'>
            The model goes through the dataset by first making a prediction. It sees the answers later and learns from it's mistake if it gets them wrong.
        </td><td style='border: 1px solid;'>
            Increase the accuracy of the AI model
        </td>
    </tr><tr>
        <td style='border: 1px solid;'>
            Testing phase
        </td><td style='border: 1px solid;'>
            Much less in comparison to the training dataset. In our case, we are using 1,000 images for our testing dataset.
        </td><td style='border: 1px solid;'>
            The model goes through the dataset by making a prediction. However, the answers will not be revealed to the model. Instead, the accuracy of the model will be revealed to us.
        </td><td style='border: 1px solid;'>
            Measure the accuracy of the AI model
        </td>
    </tr>
</table>
As the AI model trains, it loops through the dataset as shown below, and gets stopped when an ideal accuracy is reached, or when a certain number of epochs are done.
<table>
    <tr>
        <th style='border: 1px solid;' colspan='2'>Epoch 1</th>
        <th style='border: 1px solid;' rowspan='2'>→</th>
        <th style='border: 1px solid;' colspan='2'>Epoch 2</th>
        <th style='border: 1px solid;' rowspan='2'>→</th>
        <th style='border: 1px solid;' colspan='2'>Epoch 3</th>
        <th style='border: 1px solid;' rowspan='2'>・・・</th>
    </tr><tr>
        <td style='border: 1px solid;'>Training phase<br>Increase accuracy</td>
        <td style='border: 1px solid;'>Testing phase<br>Measure accuracy</td>
        <td style='border: 1px solid;'>Training phase<br>Increase accuracy</td>
        <td style='border: 1px solid;'>Testing phase<br>Measure accuracy</td>
        <td style='border: 1px solid;'>Training phase<br>Increase accuracy</td>
        <td style='border: 1px solid;'>Testing phase<br>Measure accuracy</td>
    </tr>
</table>
<b>But why can we not achieve both goals within a single phase?</b><br>
That's because the AI will "cheat" by memorizing the answers if we were to measure the accuracy using images that have already been shown. <br>
AI models have the tendency to score almost perfectly in the training dataset but horribly in the test dataset, which is known as overfitting. <br>
Thus, our test phase is meant to monitor this phenomenon. 

![train_test.png](attachment:cc6b14fc-6789-43ea-add2-73ac2b0d49bd.png)

今回のAIの訓練は二段階に分かれており、「訓練」と「テスト」と名づけられている。<br>
訓練用の画像データは多くの場合、テスト用の画像と比べて枚数が【１】_____ 、訓練段階の目的は正確度の【２】_____ とされる。<br>
その一方で、テストの段階では【３】_____ が目的だ。<br>
そして、AIの訓練を二段階に分ける主な理由は、正確度を【３】するためにはAI【４】_____ データが必要だからだ。

Training of our AI model consists of 2 phases, the training phase and the testing phase. <br>
The training phase generally consists of【１】_____ data in comparison to our testing phase, and our main goal for this phase is to【２】_____ the accuracy. <br>
On the other hand, the goal of the testing phase is to【３】_____ the accuracy. <br>
Separating these 2 phases is important because we can only【３】the accuracy of the AI with data that the AI【４】_____ .

【１】<br>
　A - 少なく / less <br>
　B - 同じで / the same amount of <br>
　C - 多く / more <br>

【２＆３】<br>
　A - 安定 / stabilize <br>
　B - 向上 / increase <br>
　C - 測定 / measure <br>

【４】<br>
　A - と合性がよい / is compatible with <br>
　B - が見たことない / has not seen before <br>
　C - が見たことある / has seen before <br>

<details>
    <summary><b>答え / Answers</b></summary>
    １) C <br> ２) B <br> ３) C <br> ４) B <br> 
</details> 

### <b>STEP 4</b><br>自分で数字を書いてモデルの機能を確認<br>- Try out the model by writing your own digits

In [None]:
from utils import MnistApp

app = MnistApp(model, transform)
app.root.call('wm', 'attributes', '.', '-topmost', '1')
app.root.mainloop()

AIはちゃんとあなたの手書の数字を分類できたでしょうか？<br>
できなかった場合、何が原因で、どんな改善策があるのか考えていきましょう。

Did the AI successfully predict what you have written? <br>
If not let's think about what could be the cause of bad performance, and what steps we can take to improve our AI model.

## <b>⓹（難しい）</b><br>AIの基盤、ニューラルネットワークについて<br>- Introduction to neural networks, the building blocks of AI

---
ニューラルネットワークは<b>シナプス</b>と<b>ニューロン</b>で作られており、シナプスは線、ニューロンは丸として表される。ニューロン１が数値を受け取ったとき、シナプスを通してニューロン２へ数値を送り込む仕組みになっている。

Neural networks are built by synapses and neurons, where synapses are often represented as lines, neurons as circles. When a neuron receives a number, it passes it to the next neuron through the synapse.

![caption](lesson_image/neuron_synapse.gif)

---
一つ一つのシナプスには重みがあり、上記の例のように数値がそのまま次のニューロンへ送られることはあまりない。重みは通過する数値に掛け算をし、つぎのニューロンへと数値を送り込む仕組みになっている。AIの中で、この重みの数値が学習され、最終的にはAIの出力に影響する。

Though in our example above the number is directly passed, it is often not the case as each synapse has a weight on it. The weight performs a multiplication on each value that passes through it. The value of the weight is the learnt parameter of the model, which means that the values of the weight changes to influence what the AI outputs.

![weights.gif](attachment:95567763-7cc7-4981-9a9b-e20e482a52b3.gif)

---
下の例のように、一つのニューロンからは大抵いくつものニューロンへの道が伸びている。

There are often multiple neurons linked from a single neuron, as shown in the example below. 

![one_to_many.gif](attachment:9f4ea5f9-aea5-454c-894f-15152abd5cf0.gif)

---
そして、その逆もあり、いくつものニューロンから一つのニューロンへの道が伸びていることもある。複数のニューロンが一つのニューロンに繋がるとき、重みを掛けられた数値の和をとる。

The opposite is also true, where multiple neurons are linked to a single neuron. When the connections converge into one, all the weighted values will be summed into one.

![many_to_one.gif](attachment:3479774a-092d-46c0-9a65-f04fbc0d4fc5.gif)

--- 
以上のようにニューロンの繋がりから、AIはより複雑な計算を行うことができるようになります。

With these connections are combined with each other, the neural network can perform more complex calculations.

![compute.gif](attachment:de081b1f-6cfa-42eb-8f47-ae3c771c7aa2.gif)

最後に、このニューラルネットワークのアウトプットを計算してみましょう。

Finally, let's try and predict the output of this neural network.

![nn.png](attachment:c5a27b5b-ec57-4370-aa99-d092fb68719d.png)

<details>
    <summary><b>答え / Answers</b></summary>
    -14
</details> 