# Espacio de modelos (Creando arquitectura de una red en pytorch)

In [1]:
import torch
import torch.nn as nn     #torch.nn:  de neural Networks

A continuación se define ula arquitectura de la red neuronal con sus respectivos parámetros:

In [2]:
class DummyNet(nn.Module):
    def __init__(self):
        super(DummyNet, self).__init__()
        self.conv1 = nn.Conv2d(3,9,3)       # definiendo 1ra capa con sus hipermarámetros
        self.relu = nn.ReLU(True)
        self.fc = nn.Linear(225,10)
        
    def forward(self,x):
        x=self.relu(self.conv1(x))
        x=x.view(-1, 225)
        x=self.fc(x)
        return x

Istanciando dos veces la red neuronal

In [3]:
net1 = DummyNet()
net2 = DummyNet()

In [4]:
net1.named_parameters() == net2.named_parameters()

False

In [5]:
x = torch.randn((1,3,7,7))      # Creando un tensor
(net1(x),net2(x))

(tensor([[-0.2703, -0.2947, -0.1105,  0.1949, -0.2533, -0.0081,  0.2028, -0.0045,
           0.0465, -0.1289]], grad_fn=<AddmmBackward>),
 tensor([[-0.1962, -0.2891, -0.1813,  0.3774,  0.2757,  0.0572,  0.1824, -0.1019,
          -0.0566,  0.2119]], grad_fn=<AddmmBackward>))

Se puede observar que los resultados anteriores son distintos. Considerando que la red tiene solo dos capas, se procede a calcular la cantidad de parámetros en la red. 

In [6]:
from operator import mul
import functools

n=0
for t in list(net1.parameters()):
    n += functools.reduce(mul, t.size(), 1)
n

2512

$$H= \{f_{p}, p \in R^{2512} \}$$

* Para cada arquitectura se tienn valores diferentes de los parámetros, es decir que cada variacion de hiperparámetros se tiene un $\{ f_p\}$ diferente. El algoritmo de optimización lo que hace es buscar los valores $p$ de tal forma que sea mínima la perdida (sea mímina la comparacion entre las predicciones con el labels).

* Se dice que entre más grande es el espacio de modelos, decimos que tiene más capacidad.

* Mientras más capacidad, más potencial de aprender pero más dificil de enseñar.

* Una red profunda actual perfectamente puede llegar a 1Millon de parámetros.

## Funciones de pérdida

#### Least squared error

$$MSE=\frac{1}{2} (y-z)^2$$

In [7]:
MSE = torch.nn.MSELoss()

#### Logistic loss

$$NLL = log(1+exp(-yz))$$

In [8]:
NLL = torch.nn.NLLLoss()

#### Hinge loss

$$BCE = max(0, 1-yz)$$

In [9]:
BCE = torch.nn.BCELoss()

#### Cross-entropy

$$CE =-[ylog(z) + (1-y)log(1-z) ] $$

In [10]:
CE = torch.nn.CrossEntropyLoss()