# [オンライン開催]PyTorchで学ぶ深層学習入門第1回


## Section1. 深層学習(Deep Learning: ディープラーニング)について
昨今話題となっている、[openAI](https://openai.com/)が開発する文章生成言語モデル [GPT(Generative Pre-trained Transfomer)](https://aiacademy.jp/media/?p=1016) と呼ばれるシリーズでも深層学習の技術が使われています。手法やアルゴリズムは多種多様にあるものの、共通することは
『機械が自動でタスクを行うための複雑で非線形なプロセスを、効果的に近似できるアルゴリズムや手法』である
といえます。

深層学習がもたらした、『革命』があります。  

<img src="https://drive.google.com/uc?export=view&id=1Ld4zik5S6-3cPtLG_yoRz0VRwxnpVNV8" width=100%>

2000年代から2010年代前半、多くのシステムは特徴量エンジニアリングに強く依存する機械学習システムとなっていました（います。）  

特徴量とは入力データを変換したものです。分類問題などのアルゴリズムを使用して訓練に使用していない新規のサンプルデータを、正確に予測するために大切なプロセスとなります。  
的確な特徴量エンジニアリングを実施できれば、その後のプロセスにある機械学習アルゴリズムが、より正確にタスクをこなすことができるようになります。  

一方で、深層学習は、課題を解くために生の入力データからそのような特徴量を自動で見つけ出します。  
深層学習には特徴量エンジニアリングが必要ではない、ということではなく場合によってタスクによって事前に知識を与える必要があります。ただし、深層学習の、ニューラルネットワークの最大の強みは大量のデータに基づいて有益な特徴量表現を、自動で抽出することが可能であることです。  

深層学習エンジニアが行う作業としては、この有益な特徴量を作る特徴量エンジニアリングを行う作業ではなく、訓練データから自律的に有益な特徴量表現が抽出できるようにニューラルネットワークを構築することが主な作業となります。  

さまざまなニュースや事例にある通り、このように自動で作成された特徴量は、ヒトが作成した特徴量よりも優れており、世界に破壊的なイノベーションやインパクトを与えたテクノロジーと同様に、深層学習が持つ特徴量生成能力が、世界に大きな変化を与えることとなりました。

[人工知能の未来- ディープラーニングの先にあるもの東京大学 松尾 豊](https://www.soumu.go.jp/main_content/000400435.pdf)


### 1-1. 機械学習の目的と分類

**機械学習 (machine learning)**は、人工知能研究の1分野として「人間の学習能力や認知・判別能力を計算機上で再現する」ことを目的としています。

より直接的には、機械学習では**データに潜む構造・パターンを捉える**ことが大きな目標となります。

この大目標の下、データの扱い方によって機械学習は次の3つに分類されます。

<ol>
    <li><strong>教師あり学習 (supervised learning)</strong>
    <ol>データは入力と出力からなり、中に潜む入出力関係をモデル化して捉えることで、新しい入力に対して出力を予測することができます。</ol>
    <ol>出力が離散値なら分類、連続値なら回帰と区別することもあります。</ol>
    </li>
    <li><strong>教師なし学習 (unsupervised learning)</strong>
    <ol>データには入出力の区別はなく、データ自身の生成構造や分布をモデル化して捉えることで、データの性質を知る上での参考となります。</ol>
    </li>
    <li><strong>強化学習 (reinforcement learning)</strong>
    <ol>データは状態・行動・報酬からなり、これらの対応関係をモデル化して捉えることで、報酬を最大化するような行動を特定できます。</ol>
    </li>
</ol>

<img src="https://drive.google.com/uc?export=view&id=1pxSYncNhjrHkA4lig3zmD-VeOEgQlLiA" width = 100%>



### 1-2. 機械学習のプロセス

機械学習を実際に行う際のプロセスを大枠でとらえると、

<ol>
    <li><strong>使用するモデルを仮定（モデル構築、モデルパラメータの設定）</strong>
    <ol>パターンを捉えるための"型"がモデルです。よってモデルの良し悪し（データの持つ構造に対して適切か）が結果に大きく影響します。</ol>
    </li>
    <li><strong>モデルがパターンを見つけられるように学習させる（学習）</strong>
    <ol>モデルにデータを流し込み、パターンを抽出します。</ol>
    </li>
    <li><strong>モデルの性能評価や利用</strong>
    <ol>様々なモデルから最も"良い"モデルを選択したいので、性能評価を行います。またモデルを利用して予測や次元削減などを行います。</ol>
    </li>
</ol>

というステップによって行うことになります。

<img src="https://drive.google.com/uc?export=view&id=1Cx99bMpXv532SFc2xDFafu-2FsLdd22P" width=100%>

### 1-3. 機械学習モデルと深層学習

機械学習で用いるモデルについては様々な選択肢があります。

データの集合を扱うため、統計学の知見を活かした統計モデルも頻繁に用いられてきました。

といっても、統計学的な発想だけではなく、人間の脳の構造に着目したモデルといった神経生理学的な発想によるモデルも存在しています。

その代表例が、**多層パーセプトロン(Multi Layer Perceptron; MLP)**です。

MLPでは下図のような**ニューロン (neuron)**と呼ばれる、ヒトの神経細胞の働きを模したモデルが最小単位となっています。

<img src="https://drive.google.com/uc?export=view&id=1KQvGFejOzj2x0f351bdMuwllfrPGX3gu" width=33%>

このニューロンを1単位として、層状に積み重ねることでヒトの神経細胞群の働きを模したモデルが、MLPです。

（一般に1つの神経細胞は、複数の神経細胞から信号を受け取り、それらを総合して自ら信号を他の神経細胞に送出します）

2層のMLPのモデルを表したものが下図です。（一般に入力層はカウントしません）

<img src="https://drive.google.com/uc?export=view&id=1CRsm19M9YM-4UYNr_wq6URpGg2pcJJKt" width=70%>

出典:https://zero2one.jp/ai-word/multi-layer-perceptron/

**深層学習 (deep leaning)**とは、この隠れ層（中間層）を複数に増やし、全体として3層以上の多層にしたMLPモデルを用いた機械学習のことを指しています。

### 1-4. まずは何も考えずに実行してみましょう

PyTorch には、データを操作するための2つの基本的なクラスメソッドがあります: `torch.utils.data.DataLoader`と`torch.utils.data.Dataset`  
Datasetサンプルとそれに対応するラベルを格納し、`DataLoaderiterable` でDatasetをWrap(ラップ)します。

In [None]:
import torch # Pytorchのライブラリをインポート
from torch import nn # ニューラル・ネット
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

In [None]:
# FashionMNISTの訓練データをダウンロードする
training_data = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
)

# FashionMNISTのテストデータをダウンロードする
test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor(),
)

In [None]:
# バッチサイズ
batch_size = 64

# DataLoaderに、訓練データとテストデータを、バッチサイズ64として渡す
train_dataloader = DataLoader(training_data, batch_size=batch_size)
test_dataloader = DataLoader(test_data, batch_size=batch_size)

for X, y in test_dataloader:
    print(f"Shape of X [N, C, H, W]: {X.shape}")
    print(f"Shape of y: {y.shape} {y.dtype}")
    break

Shape of X [N, C, H, W]: torch.Size([64, 1, 28, 28])
Shape of y: torch.Size([64]) torch.int64


In [None]:
# CPUまたはGPUで学習させるためのクラスを作成.
device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
print(f"Using {device} device")

# MLPっぽいモデルを定義する
class NeuralNetwork(nn.Module):
    def __init__(self):
        super().__init__()
        self.flatten = nn.Flatten()
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28*28, 512),
            nn.ReLU(),
            nn.Linear(512, 512),
            nn.ReLU(),
            nn.Linear(512, 10)
        )

    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits

model = NeuralNetwork().to(device)
print(model)

Using cpu device
NeuralNetwork(
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (linear_relu_stack): Sequential(
    (0): Linear(in_features=784, out_features=512, bias=True)
    (1): ReLU()
    (2): Linear(in_features=512, out_features=512, bias=True)
    (3): ReLU()
    (4): Linear(in_features=512, out_features=10, bias=True)
  )
)


**モデル パラメーターの最適化**  
モデルをトレーニングするには、損失関数 とオプティマイザが必要なので、それらを設定します

In [None]:
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)

In [None]:
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    model.train()
    for batch, (X, y) in enumerate(dataloader):
        X, y = X.to(device), y.to(device)

        # 実測値と予測値の差を計算
        pred = model(X)
        loss = loss_fn(pred, y)

        # 誤差逆伝播法
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if batch % 100 == 0:
            loss, current = loss.item(), (batch + 1) * len(X)
            print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]")

モデルが学習していることを確認するために、テストデータに対してモデルのパフォーマンスをチェックさせます

In [None]:
def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)
    num_batches = len(dataloader)
    model.eval()
    test_loss, correct = 0, 0
    with torch.no_grad():
        for X, y in dataloader:
            X, y = X.to(device), y.to(device)
            pred = model(X)
            test_loss += loss_fn(pred, y).item()
            correct += (pred.argmax(1) == y).type(torch.float).sum().item()
    test_loss /= num_batches
    correct /= size
    print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

訓練プロセスでは、反復学習 (エポック) で定義された回数分、訓練が実行されます。  
各エポック中に、モデルはパラメーターを学習して、より良い予測を行います。各エポックでのモデルの精度と損失を出力させます

In [None]:
epochs = 5
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------------")
    train(train_dataloader, model, loss_fn, optimizer)
    test(test_dataloader, model, loss_fn)
print("Done!")

Epoch 1
-------------------------------
loss: 2.307320  [   64/60000]
loss: 2.287009  [ 6464/60000]
loss: 2.269516  [12864/60000]
loss: 2.262248  [19264/60000]
loss: 2.245931  [25664/60000]
loss: 2.227395  [32064/60000]
loss: 2.225846  [38464/60000]
loss: 2.190965  [44864/60000]
loss: 2.182965  [51264/60000]
loss: 2.162464  [57664/60000]
Test Error: 
 Accuracy: 50.1%, Avg loss: 2.147441 

Epoch 2
-------------------------------
loss: 2.156337  [   64/60000]
loss: 2.142998  [ 6464/60000]
loss: 2.086422  [12864/60000]
loss: 2.102398  [19264/60000]
loss: 2.058031  [25664/60000]
loss: 2.007477  [32064/60000]
loss: 2.022661  [38464/60000]
loss: 1.939172  [44864/60000]
loss: 1.936882  [51264/60000]
loss: 1.885067  [57664/60000]
Test Error: 
 Accuracy: 57.5%, Avg loss: 1.868828 

Epoch 3
-------------------------------
loss: 1.898804  [   64/60000]
loss: 1.871154  [ 6464/60000]
loss: 1.752955  [12864/60000]
loss: 1.792706  [19264/60000]
loss: 1.700365  [25664/60000]
loss: 1.651381  [32064/600

In [None]:
torch.save(model.state_dict(), "model.pth")
print("Saved PyTorch Model State to model.pth")

Saved PyTorch Model State to model.pth


In [None]:
model = NeuralNetwork()
model.load_state_dict(torch.load("model.pth"))

<All keys matched successfully>

In [None]:
classes = [
    "T-shirt/top",
    "Trouser",
    "Pullover",
    "Dress",
    "Coat",
    "Sandal",
    "Shirt",
    "Sneaker",
    "Bag",
    "Ankle boot",
]

model.eval()
x, y = test_data[0][0], test_data[0][1]
with torch.no_grad():
    pred = model(x)
    predicted, actual = classes[pred[0].argmax(0)], classes[y]
    print(f'Predicted: "{predicted}", Actual: "{actual}"')

Predicted: "Ankle boot", Actual: "Ankle boot"


## Section2. ところでPyTorchって何？

### 2-1. 深層学習フレームワーク: PyTorch
<img src="https://drive.google.com/uc?export=view&id=1pmy4t5Jmi0kvgqJKwo_1g2vVcQcnOkMC" width = 33%>

PyTorchは、深層学習に関連するプロジェクトの構築を容易にしてくれるライブラリの１つとなります。Pythonをベースとした科学計算ライブラリで、PyTorchは以下に示す2つの機能を使用したいユーザーを対象としています。

*   Numpyベースの演算の代わりに、GPUを用いた高速な演算の実施が可能
*   高い柔軟性と実行速度を有したディープラーニングのプラットフォームを提供してくれる

<img src="https://drive.google.com/uc?export=view&id=1MwytQkeYhNC0QI1iMsMthZm8CmfTaLyn" width = 80%>  
出展: [PyTorch Deep Learning Framework: Speed + Usability](https://syncedreview.com/2019/12/16/pytorch-deep-learning-framework-speed-usability/)  
  

**もう少し詳しく説明すると...**

類似する深層学習フレームワークであるCaffe、TensorflowおよびTheanoがありますが、これらフレームワークは高速なコンピューティングパフォーマンスを提供してくれるものの、ユーザーにとっては使いやすさと柔軟性が扱いづらいフレームワークであり、よりユーザーにとって使いやすい深層学習フレームワークとして、2016年に開発リリースされたのがPyTorchです。  
  
主に Facebook AI によって開発され、PyTorch開発者であるAdam Paszke、Sam Gross、Soumith Chintala、Gregory Chananおよび他17人の研究者や開発者が携わっているそう。

PyTorch の革新的なパフォーマンスは、主に次の5つの戦略によって達成されました。

*   PyTorchコアは、テンソルデータ構造、CPU および GPU 演算子、基本的な並列処理、および微分の演算を実装するために使用される。最も集中的な演算処理はコアによって処理されるため、効率的な C++ プログラミング言語で記述してパフォーマンスを向上させることができます。
*   制御とデータフローは、厳密に分離されています。制御フローは Python ですが、最適化された C++ コードがホストCPU上で実行されます。
*   メモリ割当について、独自アルゴリズムによりCUDAメモリのキャッシュを段階的に構築し、それを後の割り当てに再割り当てすることで、CUDA API (GPUを深層学習用のタスク演算に置き換えるソフトウェア)の重複利用を防ぎます。
*   Torch.multiprocessing を使用すると、ユーザーは複数の GPUで高度な並列プログラムを実装できます。
*   参照カウントスキームは、各テンソルの使用回数をモニタリングします。カウントがゼロになると、基になるメモリがすぐに解放されます。


<img src="https://drive.google.com/uc?export=view&id=1uoW7j526sT4RueS5fmpXoYcDl9BbCwja" width = 100%>  
出展: [PyTorch: An Imperative Style, High-Performance Deep Learning Library](https://arxiv.org/pdf/1912.01703.pdf)








## 3. Tensor（テンソル, テンサー）

### 3-1. テンソルって何？
多次元の配列として表現できるようなもの。
画像であれ、テキストであれ、入力データはベクトルに変換されます。  
その際に、１次元なシーケンスな配列から、２次元の配列、３次元の配列...と不動小数点を含む基本的なデータ構造としてテンソルという概念があります。  
数学や物理学、工学を学んでいる人にとっては、テンソルと聞くと空間、参照系（モード）、それら写像や変換をイメージするかと思いますが、これら数学的なテンソルと若干異なる概念として、深層学習の実装では扱われます。深層学習におけるテンソルとは、ベクトルや行列を任意の次元数に一般化したものを指します。  
  
<img src="https://drive.google.com/uc?export=view&id=1uTyvQUa4MLzX8UR_QqfuBFu11VZ3PqH-" width = 67%>  
出展: [Lesson 3　NumPyによる数学計算と、数学用語の「テンソル」](https://atmarkit.itmedia.co.jp/ait/articles/1902/08/news156.html)

In [None]:
%matplotlib inline

In [None]:
from __future__ import print_function
import torch

【注意】

初期化されていない行列が宣言・作成されても、実際に使用されるまで明確な値は保有していません。

宣言時にメモリ上の割り当てられた適当な値が初期値として入っています。




初期化されていない、3×5行列を生成してみましょう：



In [None]:
x = torch.empty(5, 3)
print(x)

tensor([[4.2866e-36, 0.0000e+00, 3.3631e-44],
        [0.0000e+00,        nan, 6.4460e-44],
        [1.1578e+27, 1.1362e+30, 7.1547e+22],
        [4.5828e+30, 1.2121e+04, 7.1846e+22],
        [9.2198e-39, 7.0374e+22, 1.4359e-36]])


次に、乱数によって初期化された3x5行列を生成してみましょう:



In [None]:
x = torch.rand(5, 3)
print(x)

tensor([[0.8021, 0.2195, 0.3325],
        [0.1211, 0.7894, 0.2683],
        [0.9716, 0.6030, 0.3051],
        [0.1340, 0.8415, 0.5174],
        [0.0918, 0.8619, 0.8378]])


long型の数値0で初期化された行列を生成する場合は次の通りです。



In [None]:
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


直接、数値を指定して行列を生成することもできます。



In [None]:
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


その他に、すでにあるtensorをもとに、新しくtensorを生成することもできます。

本メソッドで生成したテンソルは、テンソルの特性（例えばデータ型：dtypeなど）を、もとのtensorから引き継ぎます（ユーザーが値や特性を直接上書きしない限り）。

In [None]:
x = x.new_ones(5, 3, dtype=torch.double)      # new_* methods take in sizes
print(x)

x = torch.randn_like(x, dtype=torch.float)    # override dtype!
print(x)                                      # result has the same size

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-0.5457, -0.4552, -2.0920],
        [-0.6641,  0.9266, -0.6764],
        [-0.7897, -1.8249, -0.0382],
        [ 0.3420, -0.8151,  0.2744],
        [ 1.0132, -1.1335, -0.6098]])


テンソルサイズ（size）≒テンソルの形、を求めてみます。



In [None]:
print(x.size())

torch.Size([5, 3])


【メモ】

``torch.Size``はタプルとなっているため、Pythonの通常のタプルと同様の操作が可能です。

**テンソルの操作（変形・変換等）**


PyTorchにはテンソルに対する操作（変形・変換等）が多く用意されています。

ここで、tensorを操作（変形・変換等）する追加の例を紹介します。



補足: 用例1

In [None]:
y = torch.rand(5, 3)
print(x + y)

tensor([[ 0.2193, -0.1546, -2.0828],
        [ 0.1319,  1.4161, -0.4847],
        [-0.5198, -0.9983,  0.3438],
        [ 0.4004, -0.6043,  0.5200],
        [ 1.4458, -1.1206,  0.2682]])


補足: 用例2



In [None]:
print(torch.add(x, y))

tensor([[ 0.2193, -0.1546, -2.0828],
        [ 0.1319,  1.4161, -0.4847],
        [-0.5198, -0.9983,  0.3438],
        [ 0.4004, -0.6043,  0.5200],
        [ 1.4458, -1.1206,  0.2682]])


補足: 出力先を引数で指定 



In [None]:
result = torch.empty(5, 3)
torch.add(x, y, out=result)
print(result)

tensor([[ 0.2193, -0.1546, -2.0828],
        [ 0.1319,  1.4161, -0.4847],
        [-0.5198, -0.9983,  0.3438],
        [ 0.4004, -0.6043,  0.5200],
        [ 1.4458, -1.1206,  0.2682]])


補足：テンソルそのものの変更（in-place：インプレース処理）



In [None]:
# adds x to y
y.add_(x)
print(y)

tensor([[-0.8722, -1.0651, -6.2668],
        [-1.1964,  3.2693, -1.8376],
        [-2.0993, -4.6481,  0.2674],
        [ 1.0844, -2.2345,  1.0687],
        [ 3.4721, -3.3877, -0.9513]])


【メモ】

メソッド名の後に``_``をつけることで、変数の内容を出力結果で置き換えることができます。

例えば、``y.add_(x)``の場合xとyの値を加算した結果はyに上書きして、格納されます。

NumPyと同様、インデクシングやスライシングを行うことも可能です。

In [None]:
print(x[:, 1])

tensor([-0.4552,  0.9266, -1.8249, -0.8151, -1.1335])


リサイズ: tensorの形を変えたい場合は ``torch.view``を使用してください:



In [None]:
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8)  #  -1を指定すると他に設定した次元の値から自動で計算
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


``.item()``を使用すると、要素を1つしか持たないtensorから、中身の数値だけを取り出すことができます。


In [None]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([0.1095])
0.10949039459228516


**参考:**

PyTorchでは、転置、インデックシング、スライシング、演算処理、線形代数、乱数生成などの100を超える機能が提供されています。

詳しくは[こちらのページ](https://pytorch.org/docs/stable/torch.html)をご覧ください。

### 3-2. NumPyとの接続

PyTorchではTorch TensorからNumPy Arrayへの変換やその逆を簡単に行うことできます。

（Torch TensorがCPU上にある場合）Torch TensorとNumPy Arrayはメモリ上の同じ領域に配置され、変換することができます。



#### 3-2-1. Torch Tensorから NumPy Arrayへの変換



In [None]:
a = torch.ones(5)
print(a)

tensor([1., 1., 1., 1., 1.])


In [None]:
b = a.numpy()
print(b)

[1. 1. 1. 1. 1.]


メモリを共有しているため、Torch Tensorの値がNumPy Arrayにも反映されることが分かります。



In [None]:
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


#### 3-2-2. NumPy ArrayからTorch Tensorへの変換



In [None]:
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


CharTensorを除き、CPU上のすべてのTensorはNumPyへの変換、およびその逆（NumpyからTensor）に対応しています。


### 3-3. CUDA Tensors（CUDA テンソル）
------------

tensorは ``.to`` メソッドを使用することであらゆるデバイス上のメモリへと移動させることができます。

In [None]:
# let us run this cell only if CUDA is available
# We will use ``torch.device`` objects to move tensors in and out of GPU
if torch.cuda.is_available():
    device = torch.device("cuda")          # a CUDA device object
    y = torch.ones_like(x, device=device)  # directly create a tensor on GPU
    x = x.to(device)                       # or just use strings ``.to("cuda")``
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # ``.to`` can also change dtype together!


# 日本語訳注：
# tensor([1.8299], device='cuda:0')
# tensor([1.8299], dtype=torch.float64)
# のような出力（値は変わります）がセルのあとに表示されれば、GPUでのCUDAでのテンソル計算が成功しています。
# もし、何も表示されなければ、Google ColaroboratoryがGPU使用モードになっていないので、
# 下のセルの説明を読んで、GPUを使用可能な状態にしてみてください。

tensor([1.1095], device='cuda:0')
tensor([1.1095], dtype=torch.float64)
