<a href="https://colab.research.google.com/github/PuChan-HCI/myweb/blob/main/easy-tutorial/Dummies01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch で学ぶ！やさしい Deep Learning

Deep Learning は数学が難しそうという理由で敬遠されがちですが、最近はフレームワークの発達により難しい数学がわからなくてもできるようになってきています。
本書では PyTorch を使って、Deep Learning の基礎を学びます。
初めてでも大丈夫、数学が苦手でも大丈夫、そんな本を目指します。

元記事：https://zenn.dev/seelog/books/easy_deep_learning

## はじめに

この本では "難しい数学がわからなくてもできる Deep Learning" を目指します。
以下のような方に向いています。

*   Deep Learning に興味があるが、数学が難しそうで手を出せなかった人
*   軽い気持ちで Deep Learning をやってみたい人
*   なんか流行ってるものが好きな人

以下の方には向いていません

* ブラックボックスな Deep Learning の深淵を知りたい人
* Deep Learning の数学的な背景を知りたい人
* Deep Learning のプロ
* 数式はともかく、グラフですら数学アレルギーが出てしまう人

## Deep Learning とは？

### AIと何が違う？
Deep Learning の類語として、よく以下のようなものを聞くと思います。

* 人工知能(AI)
* 機械学習
* 深層学習
* ニューラルネットワーク

これらは意味的に近いところにあると思いがちです。
人工知能の作り方のひとつのアプローチとして機械学習があります。
機械学習を行う技法の中に深層学習、つまり Deep Learning があります。
そして Deep Learning はニューラルネットワークをいい感じに組み合わせて構成されます。

このような関係になっています。
機械学習を行う技法は他に、例えばサポートベクターマシン(Support Vector Machine, SVM)や決定木(Decision Tree)などがあります。



### "Deep" とは？

Deep Learning という言葉の "Deep" とは、ニューラルネットワークの層が深く、たくさんあるよ、という意味の "Deep" です。一般に単層のニューラルネットワークより、多層のニューラルネットワークの方が良い精度が出ます。

<img src="https://storage.googleapis.com/zenn-user-upload/e62f4d09ce6e-20230202.png" width="70%">

この理由はある程度はっきりしていて、単純に多層になると内部に存在するパラメータの数が増えて、より表現力が上がり、より複雑な関係を表現できるようになるからです。
パラメータとは、学習の過程で変化する値、あるいは値の集合のことです。上記の図の○の中にパラメータがあると思ってください。○は各々異なるパラメータを持つことができます。
ということは、より多く、そして深いほど、より複雑な表現力を持つということです。

ヒトも進化の過程で脳味噌が大きくなって、つまりニューロンが増えて、より複雑な思考力を持つようになったのと同じようなものです。

何層からが "Deep" なのか、これは多分人によって違うと思います。
一般的には 3 層以上が "Deep" と言われていますが、明確な定義みたいなものはないと思います。(個人の感想です。)

### 何ができるのか？

Deep Learning では何ができるのでしょうか？
ざっくり言うと、非線形な問題の答えを予測することができます。

非線形な問題とは、線形な問題とは逆に、線形な関係を持たない問題のことです。
と言ってもしっくりこないと思うので図で説明します。



### 線形、非線形について
以下のような分布のデータを想像してみましょう。

<img src="https://storage.googleapis.com/zenn-user-upload/a2749b2c2c9b-20230202.png" width="80%">


この△のデータと○のデータをうまく分ける直線を考えてみてください。
直感でいいです。

だいたいこんな感じの直線が考えられると思います。

<img src="https://storage.googleapis.com/zenn-user-upload/d9d7f984d4d7-20230202.png" width="80%">

△および○の最も近いデータと直線との距離が最も大きくなるような直線を考えています。
このような直線だと、まだ知らない未知の△や○のデータがやってきても、うまい具合に分類できそうですね。
ちなみに例えば SVM という技法を用いると、このような典型的な境界が得られます。

直線を引くことで、△と○のデータをうまく分けることができました。
そう、これが線形な問題を解くということです。

では、以下のような分布のデータを考えてみましょう。

<img src="https://storage.googleapis.com/zenn-user-upload/d9d7f984d4d7-20230202.png" width="80%">

このようなデータをうまく分ける境界はどうでしょうか？
直感的に、直線で分けることはできないように思います。

このようなデータをこのままうまく分ける直線は存在しません。

私は人間ですので、何となくこんな感じか？と楕円で境界を引きました。

<img src="https://storage.googleapis.com/zenn-user-upload/f74ca5c39eb2-20230202.png" width="80%">



### なぜ Deep Learning を使うのか？
ざっくり言うと、Deep Learning でうまくモデリングしてデータを用意して学習をさせると精度が出るからです。
それはそう、という感じのお話ですね。

その強力さはどこから来るのか、実は正確にはわかっていません。

なんかうまくいくから、というのはやや気持ち悪さがあるかもしれませんが、なんかうまくいくから、なんかうまくいくのです。

よく人間の脳神経細胞(ニューロン)を模倣した構造をしているからうまくいく、のような説明がされますが、実際のところ本当にそうなのかはわかっていません。(そして全然ニューロンを模倣できていないぞ、という説もあります。)

<img src="https://storage.googleapis.com/zenn-user-upload/15d0907adb37-20230202.png" width="80%">

## PyTorchの基本

### PyTorch
この章では Deep Learning の構造や学習がどうなっているのかを説明するよりも前に、まず PyTorch の基本的な使い方を学びます。
PyTorch は Python 用の機械学習ライブラリです。有名な Python 数値計算ライブラリに NumPy がありますが、PyTorch も NumPy とよく似たインターフェースをしています。
さらに PyTorch は GPU を使った高速な計算ができるように設計されています。

### テンソル(Tensor)
テンソルという言葉を聞いたことはありますか？
Tensorflow の Tensor と同じです。

行列あるいはベクトル、スカラーという言葉は聞いたことがありますか？ありますね？
テンソルはその行列やベクトルの考え方をより拡張させたものです。
0階のテンソルがスカラー、1階のテンソルがベクトル、2階のテンソルが行列に相当します。
3階のテンソルは行列の集まり、4階のテンソルは3階のテンソルの集まりというように、階数が増えるごとに次元が増えていきます。

<img src="https://storage.googleapis.com/zenn-user-upload/f6eb949a1a52-20230202.png" width="80%">

ぐえ〜〜となりそうですが、待ってください。プログラムを組んだことがある方なら、このような概念と既に出会ったことがあるはずです。


In [None]:
scalar = 3  # ただの量(1つの次元を持たない数字)

vector = [3, 1, 2]  # 1次元の配列？

matrix = [  # 2次元の配列？
  [2, 9, 4],
  [7, 5, 3],
  [6, 1, 8],
]

tensor = [  # 3次元の配列？
  [
    [2, 9, 4],
    [7, 5, 3],
    [6, 1, 8],
  ],
  [
    [2, 9, 4],
    [7, 5, 3],
    [6, 1, 8],
  ],
  [
    [2, 9, 4],
    [7, 5, 3],
    [6, 1, 8],
  ],
]

プログラミングに馴染みのある方であれば、テンソルを多次元配列と捉えることで理解しやすくなると思います。

### テンソルの "Shape"
概念を理解していただいたところで、数え方について確認をします。
例えば以下のような行列を想定しましょう。
これはまだ数式じゃない、ただの数の集まりなのでセーフ。

$$
\begin{pmatrix}
2 & 9 \\
7 & 5 \\
6 & 1 \\
\end{pmatrix}
$$

このような行列は 3×2 の行列です。3×2 というのは、行が3つ、列が2つあるという意味です。

このような𝑛×𝑚のような表現を Shape と呼びます。

行列は2階のテンソルとみなせるのでした。では3階のテンソルの場合はどうでしょうか？

例えば2×3×のテンソルは、2×3の行列が4つあると考えることができるので、以下のような形が思い浮かびそうです。

<img src="https://storage.googleapis.com/zenn-user-upload/5d27e5aadf4a-20230202.png" width="50%">

でもちょっと待って下さい。2つの3×4行列があるとも考えられそうです。(なんかこういう考え方しちゃだめって小学校で教えられそう)

<img src="https://storage.googleapis.com/zenn-user-upload/b8d409dbf88a-20230202.png" width="50%">

3階以上のテンソルの形を図示する場合の解釈は少し難しいです。
PyTorch ではどのように表現されているのか、実際に見てみましょう。


In [None]:
import torch

# まずは 2x3x4 = 24 個の数字を持つベクトルを作成
vector = torch.tensor([i for i in range(24)])

# このベクトルを 2x3x4 の順番でテンソルに変換
tensor_pattern = vector.view(2, 3, 4)
print(tensor_pattern)

Python に慣れていない方は [i for i in range(24)] という書き方に戸惑うかもしれません。これは Python の**リスト内包表記**と呼ばれるもので、以下と同じ意味です。

In [None]:
vector = []
for i in range(24):
  vector.append(i)

つまり 0~23 の数字を持つベクトルを作成しているということです。
リスト内包表記は Python ではよく使われるので、覚えておくと便利です。

次に tensor_pattern = vector.view(2, 3, 4) という行を見てみましょう。view() というメソッドは、テンソルの形を変換するためのメソッドです。引数には、変換後のテンソルの形を渡せばよいです。

今回は view(2, 3, 4) という引数を渡しているので、順に考えると
2×3×4のテンソルに変換されます。

では結果を見てみましょう。

In [None]:
tensor(
[[[ 0,  1,  2,  3],
  [ 4,  5,  6,  7],
  [ 8,  9, 10, 11]],

 [[12, 13, 14, 15],
  [16, 17, 18, 19],
  [20, 21, 22, 23]]]
)

このように3×4の行列が2つある、という形になっています。
というわけで後者の扱い方である、2つの3×4行列があるという解釈がこの世界ではされていそうです。算数の先生大激怒です。