# Deep learning met PyTorch
## IPynb tutorial documentatie
Main source: https://www.youtube.com/playlist?list=PLZbbT5o_s2xrfNyHZsM6ufI0iZENK9xgG
De eerste twee videos zijn niet heel interessant en leggen vooral achtergrond info uit over PyTorch en de cursus. De derde video legt uit hoe je pytorch installeerd. Dit is wel belangrijk, maar zeker niet moeilijk.

In [2]:
import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.version.cuda)

1.0.1
False
9.0


Het bovenstaande geeft aan welke versies geïnstalleerd zijn en of ze bruikbaar zijn. In mijn geval heb ik torch versie 1.0.1 en geen toegang tot cuda. Dit komt omdat ik geen NVIDEA GPU heb. Heb je dit wel, dan zou hier `True` moeten staan, mits cuda is geïnstalleerd met versie 9.0.

De reden dat vaak wordt gewerkt met GPU's komt vanwege de grote hoeveelheid cores. Mijn computer heeft 4 cores op de CPU, maar een GPU kan er 100 hebben. Berekeningen die parallel uitgevoerd kunnen worden kunnen verdeeld worden over meerdere cores. Parallelen berekeningen zijn berekeningen die onafhankelijk van elkaar zijn. Een laag bereken van een neural network wordt ook wel *embarisangly paralel* genoemd. <br> <br>
Wanneer een taak simpel en klein is, gaat het gebruik van een GPU niet uitmaken. Omdat alles standaard op de CPU draait, is memory sharing nodig. Hiervoor moet je data gestuurd worden naar een plek waar alle GPUs bij kunnen. Deze transfer kost veel tijd en kan er voor zorgen dat je simpele taken met GPUs langzamer zijn.

In [9]:
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.hidden = nn.Linear(5, 10) # input = (input, output)
        self.output = nn.Linear(10, 3) # input = (output previous, output nodes)
        pass
    
    def forward(self, input):
        out = self.hidden(input)
        out = torch.sigmoid(out)
        out = self.output(out)
        return out
    

In [10]:
model = Net()
x = torch.randn(5)
output = model.forward(x)
print(output)

tensor([-0.1130,  0.2135, -0.0989], grad_fn=<AddBackward0>)


# Data terminologie
## Verduidelijking van termen die veel gebruikt worden met neural networks
Vaak zijn er verschillen in terminologie binnen verschillende disciplines. Zo worden er binnen computer science en wiskunde verschillende termen gebruikt voor hetzelfde concept. Een voorbeeld is:

|Computer Science|Wiskunde|index|
|-------|----|--|
|number| scalar|0|
|array| vector|1|
|2d-array| matrix|2|
|nd-array| nd-tensor|n|

Voortaan gaan we alleen maar gebruik maken van tensors. Aangezeien nd-tensor de overkoepelende term is, kan je een matrix ook zien als een 2d-tensor en een scalar als een 0d-tensor. Voor versimpeling geldt: het aantal indices die je nodig hebt om een element uit de tensor te halen is gelijk aan `n`. Dit heet ook wel *rank*. Zie dit als voorbeeld:

In [10]:
scalar = 4 # kan niet op geïndexeerd worden: rank = 0

vector = [1, 1, 1, 1, 2, 3, 1, 4, 9, 1, 8, 27]
vector[1] # indexeer met 1 index: rank = 1

matrix = [[1, 1, 1],
          [1, 2, 3],
          [1, 4, 9],
          [1, 8, 27]]
matrix[2][1] # indexeer met 2 indexen: rank = 2
print(scalar, vector[7], matrix[2][1])

4 4 4


Wanneer rank $\gt 1$ kan je praten over *Axes* en *Length of Axes*. Met axes praat je over een specifieke dimensie.<br>
`matrix[0] <- axis 1`<br>
`matrix[1] <- axis 1`<br>
`matrix[2] <- axis 1`<br>
`matrix[3] <- axis 1`<br>
Length of axis 1 = 4 <br>
<br>
`matrix[0][0] <- axis 2`<br>
`matrix[0][1] <- axis 2`<br>
`matrix[0][2] <- axis 2`<br>
<br>
`matrix[1][0] <- axis 2`<br>
`matrix[1][1] <- axis 2`<br>
`matrix[1][2] <- axis 2`<br>
<br>
`matrix[2][0] <- axis 2`<br>
`matrix[2][1] <- axis 2`<br>
`matrix[2][2] <- axis 2`<br>
<br>
`matrix[3][0] <- axis 2`<br>
`matrix[3][1] <- axis 2`<br>
`matrix[3][2] <- axis 2`<br>
Length of axis 2 = 3

De elementen van de laatste axis zijn altijd scalars (of 0d-tensors). Dit kan je generaliseren tot:<br> Axis $k$ bij een nd-tensor bestaat uit ($n-k$)d-tensors.

Door de lengte van alle axes te lezen wordt de *shape* van de tensor achterhaald. Dit is hoe groot de tensor is. In ons geval is `matrix`:
- een 2d-tensor
- met rank = 2
- axis 1 heeft een lengte van 4
- axis 2 heeft een lengte van 3
- de shape is (4, 3)

In [12]:
import torch
t = torch.tensor(matrix)
print(t)
print(type(t))
print(t.shape)
print("rank =", len(t.shape))

tensor([[ 1,  1,  1],
        [ 1,  2,  3],
        [ 1,  4,  9],
        [ 1,  8, 27]])
<class 'torch.Tensor'>
torch.Size([4, 3])
rank = 2


Vanuit de shape van een tensor zijn alle bovenliggende termen te achterhalen. In deep learning wordt vaak gewerkt met het *reshapen* van een tensor. Niet alleen veranderd dat hoe de tensor er uit ziet, maar daarmee ook de rank en length of axis. Een belangrijke voorwaarde voor reshapen is dat het product van de shape moet hetzelfde blijven. `t` bevat $4\times3=12$ elementen. De mogelijke opties voor reshapen zijn:
- $1\times12 = 12$
- $12\times1 = 12$
- $6\times2 = 12$
- $2\times6 = 12$ 
- $3\times4=12$

In [16]:
t.reshape(1, 12), t.reshape(1, 12).shape

(tensor([[ 1,  1,  1,  1,  2,  3,  1,  4,  9,  1,  8, 27]]),
 torch.Size([1, 12]))