In [17]:
from __future__ import print_function
import argparse
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.optim.lr_scheduler import StepLR

In [31]:
class Perceptron(nn.Module):
    def __init__(self):
        super(Perceptron, self).__init__()
        self.fc1 = nn.Linear(10, 10)
    def forward(self, x):
        x = self.fc1(x)
        return x

Ce perceptron calcul la fonction  $f: x \rightarrow a\times x + b$

In [32]:
net = Perceptron()
print(net)

Perceptron(
  (fc1): Linear(in_features=10, out_features=10, bias=True)
)


In [33]:
class MultiLayeredPerceptron(nn.Module):
    def __init__(self): 
        super(MultiLayeredPerceptron, self).__init__()
        self.fc1 = nn.Linear(100, 50)
        self.fc2 = nn.Linear(50, 25)
        self.fc3 = nn.Linear(25, 5)
    def forward(self, x):
        x = self.fc1(x)
        x = self.fc2(x)
        x = self.fc3(x)
        return x

In [34]:
net = MultiLayeredPerceptron()
print(net)

MultiLayeredPerceptron(
  (fc1): Linear(in_features=100, out_features=50, bias=True)
  (fc2): Linear(in_features=50, out_features=25, bias=True)
  (fc3): Linear(in_features=25, out_features=5, bias=True)
)


Ce réseau calcul une fonction un poil plus compliquée que précédemment. 
Soit $f_{1} : x \rightarrow w_{1}*x$, $f_{2} : x \rightarrow w_{2}*x$,$f_{1} : x \rightarrow w_{2}*x$, alors le réseau calcul $f_{3}(f_{2}(f_{1}(x)))$

In [37]:
class NonLinearMultiLayeredPerceptron(nn.Module):
    def __init__(self): 
        super(NonLinearMultiLayeredPerceptron, self).__init__()
        self.fc1 = nn.Linear(50, 100)
        self.fc2 = nn.Linear(100, 500)
        self.fc3 = nn.Linear(500, 10)
        self.loss = nn.CrossEntropyLoss()
    def forward(self, x):
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.tanh(x)
        x = self.fc3(x)
        x = F.softmax(x)
        return x
    

In [38]:
net = NonLinearMultiLayeredPerceptron()
print(net)

NonLinearMultiLayeredPerceptron(
  (fc1): Linear(in_features=100, out_features=50, bias=True)
  (fc2): Linear(in_features=50, out_features=25, bias=True)
  (fc3): Linear(in_features=25, out_features=2, bias=True)
)


On a un neurone par output puisqu'un neurone ne donne qu'une seule valeur, l'image par sa fonction. La fonction *softmax* permet d'apprendre très vite grâce à son fort gradient. Permettant d'éviter la disparition du gradient. De plus la fonction *max* n'est pas dérivable. De plus le softmax permet d'obtenir une probabilité pour chacune des valeurs contrairement au max. De plus le softmax permet d'amplifier les valeurs élevée en écrasant les valeurs les plus faibles sans pour autant les détruire. Pour ne pas que ça explose on va normaliser, on obtien donc une fonction de probabilité en sortie. 
 - dérivable
 - amplifie les valeurs élevées


L'architecture ne fais pas tout! LOSS ! L'entropie croisée mesure la dissimilarité. Faible quand les distribution sont proches, élevées quand les distributions sont éloignées. Plus de sens ici en terme statistique.
On calcul la perte d'information fait par notre model sur les données. 
Théorème d'approximation universelle. Les couches cachées ne servents à rien... Une seule couche cachée pour approcher n'importe quelle fonction. Taille de cette couche? Exponentielle par rapoort au nombre de couches qu'on veut utiliser. 

> Conséquence : augmentation égale du nb de paramètre, augmenter le nb de couches plutôt que d'augmenter la taille d'une couche intermédiaire

Avoir un nombre de paramètre raisonable par rapport au nombre de données. Les conv permettent de garder la même puissance d'analyse de donnée.

- Idée cléf de la convolution : conv enter noyau et image en entrée. On peut le voir comme un partage des paramètre. On le balaye sur toute l'image. On va pouvoir apprendre à détecter des chatons en haut et en bas à droite. 

Le detecteur élémentaire de forme, est appris en utilisant les infos partout ou elle s'active. On ne peut pas le faire avec une couche dense, elle ne regarde que de façon globale. 