# ¿Qué es Pytorch?
#### PyTorch es una librería enfocada en herramientas clave para machine learning y deep learning. Ofrece funciones que trabajan con computación de tensores, gráficos no estáticos, bases de redes neuronales y entrenamiento de algoritmos ![](image6.png)

### ![image.png](attachment:image.png)

# Importamos librerías

In [1]:
import torch
import torch.nn as nn

# Redes neuronales: 
#### Dentro del área de trabajo relacionada con las inteligencias artificiales, existe el machine learning, el cual consta del arte de la ciencia que permite a las computadoras actuar según diseños y algoritmos programados, este contiene un subcampo llamado deep learning donde los algoritmos están inspirados en funciones y estructuras cerebrales; de aquí salen las redes neurales. El principio más importante de una red neuronal incluye una colección de elementos básicos, esto es,  neurona o perceptrón artificial. Esta incluye, varios inputs básicos como x1, x2...xn que produce un output si la suma es más grande que el potencial de activación.
#### Aquí tenemos la representación esquemática de una muestra de neurona: ![](image1.png)
#### El output generado puede considerarse como la suma ponderada con potencial de activación o inclinación ![](image2.png)
#### La arquitectura típica de una red neuronal se describe de la siguiente forma: ![](image3.png) ![](image7.png) 
#### Las capas entre el input y el output se denominan capas ocultas, y la densidad y el tipo de conexiones entre capas se llama configuración. Por ejemplo, una configuración completamente conectada tiene todas sus neuronas de la capa L conectadas a aquellas de L+1. Para una localización más pronunciada, podemos conectarnos a un único vecindario local, por ejemplo, nueve neuronas, a la siguiente capa

In [2]:
# Definimos el tamaño de las capas input, ocultas y output, además del tamaño del lote respectivamente
n_in, n_h, n_out, batch_size = 10, 5, 1, 10

In [6]:
# Creamos un input cualquiera y tensores objetivos (data)
x = torch.randn(batch_size, n_in) #torch.randn retorna un tensor rellenado con números aleatorios 
                                  #de una distribución normal standard 
y = torch.tensor([[1.0], [0.0], [0.0], [1.0], [1.0], [1.0], [0.0], [0.0], [1.0], [1.0]])
#torch.tensor es una matriz multidimensional que contiene elementos de un solo tipo de datos.
print(x)
print(y)

tensor([[ 0.8629,  0.7304, -0.0852,  0.4659,  0.3666, -1.4840,  2.1019,  0.2853,
          1.9460,  0.5451],
        [ 0.2316, -0.0148, -0.0957, -2.8388, -0.7016,  0.6653,  0.3815, -0.2282,
          2.0470,  0.0661],
        [-1.0870, -0.1423, -0.7441,  0.9471, -0.9528,  0.5454,  0.6459, -0.2989,
         -0.3276, -0.9105],
        [-1.0904, -0.7291,  0.7832, -0.7996,  0.7677, -0.5922,  0.4263, -1.2921,
          1.0923,  0.2803],
        [-0.4355,  0.5335, -2.0316,  1.2235, -1.3456,  0.0972,  0.6118, -0.5768,
         -0.6178, -1.5826],
        [-0.2183, -0.6476, -0.4356,  0.9680, -0.3774,  0.6973,  0.0071,  0.2724,
          0.1933,  0.8397],
        [ 0.4593, -0.8569, -1.8213,  0.2784,  0.1326, -1.2044,  0.0473,  0.4172,
          0.4375,  0.5561],
        [ 0.9634,  0.8865,  0.9241, -1.0515,  1.7277,  0.2894,  0.3726, -1.2086,
          0.2176, -0.7089],
        [ 0.1925,  1.4574,  0.9364,  0.6668, -0.2945,  0.0534, -0.4441,  0.2755,
         -0.2886,  1.6875],
        [ 0.2111, -

#### Un tensor se puede definir como una lista de listas, donde su notación es muy parecida a la notación matricial con una T mayuscula representando al tensor, y varias letras t minúsculas con enteros subíndices, representando valores escalares dentro del tensor ![](image4.png)

In [4]:
# Creamos un modelo
model = nn.Sequential(nn.Linear(n_in, n_h),
nn.ReLU(),
nn.Linear(n_h, n_out),
nn.Sigmoid())


#### nn.Sequential=es para implementar rápidamente módulos secuenciales de forma que no sea necesario escribir la definición de avance
#### nn.Linear=aplica una transformación lineal al input
#### nn.ReLU= aplica la funcion unitaria lineal rectificada del tipo ReLU(x)=max(0,x) ![](image9.png)
#### nn.Sigmoid=genera una función sigmoidal (función logarítmica) ![](image8.png)

In [7]:
#construimos la función de perdida
criterion = torch.nn.MSELoss() 
# Construimos el optimizador (SGD en este caso)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

#### torch.nn.MSEloss= crea un 'criterion' (gradiente computado a partir de una funcion de perdida) que calcula el error cuadratico medio entre cada elemento de un input 'x' y un target 'y'.
#### SGD es el método básico de optimización de redes neuronales y otros algoritmos de machine learning. El paso de actualización de pesos está definido como sigue: ![](image10.png) En este caso, el learning rate es fijo, es decir, no cambia nunca durante el entrenamiento
#### Las redes neuronales son algoritmos paramétricos. Ello quiere decir que modelan el problema con base a unos parámetros, también conocidos como pesos, correspondientes a una representación matemática interna. Las redes suelen tener una matriz de “pesos” entre cada par de capas.
#### Entonces, lo que un optimizador hace es, obviamente, optimizar los valores de los parámetros para reducir el error cometido por la red. El proceso mediante el cual se hace esto se conoce como “backpropagation”.
#### El optimizador más básico posible lo que hace es actualizar los valores de los parámetros, equitativamente, con base al learning rate. Es necesario destacar que dicha actualización toma en cuenta la derivada de la matriz de parámetros, ya que esta nos da una medición del error cometido por la red.
#### El "forward pass" se refiere al proceso de cálculo, valores de las capas de salida a partir de los datos de entrada. Atraviesa todas las neuronas desde la primera hasta la última capa.

#### Se calcula una función de pérdida a partir de los valores de salida.

#### Y luego "backward pass" se refiere al proceso de contar cambios en los pesos (aprendizaje de facto), utilizando un algoritmo de descenso de gradiente (o similar). El cálculo se realiza desde la última capa, hacia atrás hasta la primera capa.

#### El pase hacia atrás y hacia adelante forman juntos una "iteración" .
#### Una época (epoch) significa entrenar la red neuronal con todos los datos de entrenamiento durante un ciclo. En una época, utilizamos todos los datos exactamente una vez.

In [10]:
# Descenso del gradiente
for epoch in range(50):
 # Forward pass: Calcular y predecido tras pasar x al modelo 
 y_pred = model(x)
 # Calcular e printear perdida
 loss = criterion(y_pred, y)
 print('epoch: ', epoch,' loss: ', loss.item())
 # Gradientes de ceros, para hacer un backward pass, y actualizar los pesos
 optimizer.zero_grad()
 # hacer un backward pass (backpropagation)
 loss.backward()
 # Actualizamos los parámetros
 optimizer.step()

epoch:  0  loss:  0.21820273995399475
epoch:  1  loss:  0.21814167499542236
epoch:  2  loss:  0.2180856168270111
epoch:  3  loss:  0.2180238664150238
epoch:  4  loss:  0.21796436607837677
epoch:  5  loss:  0.21790644526481628
epoch:  6  loss:  0.2178465574979782
epoch:  7  loss:  0.21778631210327148
epoch:  8  loss:  0.21772639453411102
epoch:  9  loss:  0.21766774356365204
epoch:  10  loss:  0.21760812401771545
epoch:  11  loss:  0.2175453156232834
epoch:  12  loss:  0.2174886018037796
epoch:  13  loss:  0.21742704510688782
epoch:  14  loss:  0.2173672914505005
epoch:  15  loss:  0.2173052281141281
epoch:  16  loss:  0.2172466516494751
epoch:  17  loss:  0.21718625724315643
epoch:  18  loss:  0.21712426841259003
epoch:  19  loss:  0.21706371009349823
epoch:  20  loss:  0.21700474619865417
epoch:  21  loss:  0.2169424593448639
epoch:  22  loss:  0.21688160300254822
epoch:  23  loss:  0.2168201208114624
epoch:  24  loss:  0.21676146984100342
epoch:  25  loss:  0.21669773757457733
epoch: