In [1]:
import torch

# Neural Networks

* El uso de funciones de activacion no lineares como la diferencia clave entre modelos lineales
* Los diferentes tipos de funciones de activacion
* El modulo `nn` de PyTorch que contiene los bloques para construir NNs
* Resolver un problema simple de un _fit_ lineal con una NN

## Neuronas artificiales

* Neural networks: entidades matematicas capaces de representar funciones complicadas a traves de una composicion de funciones mas simples.
* Originalmente inspiradas por la forma en la que funciona nuestro cerebro.
* El bloque de construccion basico es una neurona:
    * Esencialmente una transformacion linear del input (e.g. multiplicacion del input por un numero, el _weight_, y la suma de una constante, el _bias_.
    * Seguido por la aplicacion de una funcion no lineal (referida como la funcion de activacion)
    * $o = f(w x + b)$
    * x es nuestro input, w el _weight_ y b el _bias_. $f$ es la funcion de activacion.
    * x puede ser un escalar o un vector de valores, w puede ser un escalar o una matriz, mientras que b es un escalar o un vector.
* La expresion $o = f(w x + b)$ es una capa de neuronas, ya que representa varias neuronas a traves de los _weights_ y _bias_ multidimensionales

$x_1 = f(w_0 x_0 + b_0)$

$x_2 = f(w_1 x_1 + b_1)$

$...$

$y = f(w_n x_n + b_n)$

### **dibujos**

## Funciones de activacion

* Nuestro modelo anterior ya tenia una operacion lineal. Eso era el modelo entero.
* El rol de la funcion de activacion es concentrar los _outputs_ de la operacion lineal precedente a un rango dado.
* Si queremos asignar un _score_ al output del modelo necesitamos limitar el rango de numeros posibles para ese _score_
    * `float32`
    * $\sum wx + b$

### Que opciones tenemos?

* Una opcion seria ponerle un limite a los valores del _output_.
    * Cualquier cosa debajo de cero seria cero
    * cualquier cosa arriba de 10 seria 10
    * `torch.nn.Hardtanh`

In [3]:
import math

math.tanh(-2.2) # camion

-0.9757431300314515

In [4]:
math.tanh(0.1) # oso

0.09966799462495582

In [5]:
math.tanh(2.5) # perro

0.9866142981514303

![Funciones de activacion](../assets/activaciones.png)

* Hay muchas funciones de activacion.
* Por definicion, las funciones de activacion:
    * Son no lineales. Aplicaciones repetidas de $wx+b$ sin una funcion de activacion resultan en una polinomial. La no linealidad permite a la red aproximar funciones mas complejas.
    * Son diferenciables, para poder calcular las gradientes a traves de ellas. Discontinuidades de punto como en `Hatdtanh` o `ReLU` son validas.
* Sin esto, las redes caen a ser polinomiales complicadas o dificiles de entrenar.
* Adicionalmente, las funciones:
    * Tienen al menos un rango sensible, donde cambios no triviales en el input resultan en cambio no trivial correspondiente en el output
    * Tienen al menos un rango no sensible (o saturado), donde cambios al input resultan en poco o ningun cambio en el output.
* Por utlimo, las fuciones de activacion tienen al menos una de estas:
    * Un limite inferior que se aproxima (o se encuentra) mientras el input tiende a negativo infinito.
    * Un limite superior similar pero inverso para positivo infinito.
* Dado lo que sabemos de como funciona back-propagation
    * Sabemos que los errores se van a propagar hacia atras a traves de la activacion de manera mas efectiva cuando los inputs se encuentran dentro del rango de respuesta.
    * Por otro lado, los errores no van a afectar a las neuornas para cuales el _input_ esta saturado debido a que la gradiente estara cercana a cero.

### En conclusion

* En una red hecha de unidades lineales + activaciones, cuando recibe diferentes _inputs_:
    * diferentes unidades van a responder en diferentes rangos para los mismos inputs
    * los errores asociados a esos inputs van a afectar a las neuronas operancio en el rango sensible, dejando a las otras unidades mas o menos igual en el proceso de aprendizaje. 
* Juntar muchas operaciones lineales + unidades de activacion en paralelo y apilandolas una sobre otra nos provee un objeto matematico capaz de aproximar funciones complicadas. 
* Diferentes combinaciones de unidades van a responder a inputs en diferentes rangos
    * Esos parametros son relativamente faciles de optimizar a traves de SGD

## Aprendizaje para Neural Networks

* Una red entrenada exitosamente, a traves de los valores de sus _weights_ y _biases_, va a capturar la estructura inherente de la data.
* Esta estrcutura se captura en la forma de representaciones numericas significativas que funcionan de forma correcta para data que no ha visto anteriormente.
* Los NNs nos proveen la habilidad de aproximar fenomenos altamente no lineales sin tener que tener un modelo explicito.
    * En vez empezamos con un model generico, no entrenado y lo especializamos a una tarea al proveerle:
        * un set de inputs
        * un set de outputs
        * una _loss function_ desde la cual puede realizar el back-propagation
    * Especializar un modelo generico a una tarea especifica, usando ejemplos es a lo que nos referimos por _aprendizaje_
    * El modelo no se construyo con esa tarea especifica en mente. No codificamos en el modelo reglas que describen como funciona la tarea.
    
    
* Para nuestro modelo del termometro asumimos que las temperaturas se median de forma lineal.
    * En esa suposicion implicitamente codificamos reglas para nuestra tarea: especificamos la forma de nuestra funcion input/output.
    * No hubiesemos podido aproximar nada mas que no fueran puntos al rededor de una linea.
* Mientras la dimensionalidad de un problema crece y las relaciones entre inputs/outputs se complican, asumir la forma de la funcion probablemente no va a funcionar.
* De cierta forma estamos renunciando la interpretabilidad por la posibilidad de solucionar problemas mas complejos.

## El modulo `nn` de PyTorch

* Vamos a reemplazar nuestro modelo lineal por un NN.
* PyTorch tiene un submodulo entero dedicado a NNs llamado `torch.nn`
* Contiene los bloques necesarios para construir todo tipo de arquitecturas de NNs.
* Esos bloques se llaman _modules_ en PyTorch (en otros frameworks se llaman _layers_)
* Un modulo de PyTorch es una clase de Python que deriva de la clase base `nn.Module`.
    * Un modulo puede tener una o mas instancias de `Parameter` como atributos
    * Estos son tensores cuyos valores son optimizados durante el proceso de entrenamiento ($w$ y $b$)
    * Un modulo tambien puede tener uno o mas submodulos (subclases de `nn.Module` como atributos) y va a poder llevar un registro de sus `Parameter`s de igual forma

### Dibujo graficas computacionales separadas

In [8]:
import torch.nn as nn

linear_model = nn.Linear(1, 1)
linear_model(val_t_un)

NameError: name 'val_t_un' is not defined

Todas las subclases de `nn.Module` tienen un metodo `call` definido. Esto permite crear una instancia de `nn.Linear` y llamarla como si fuera una funcion.

Llamar una instancia de `nn.Module` con un conjunto de argumetnos termina llamando un metodo llamado `forward` con esos mismos argumentos

### Implementacion de `Module.call`

(simplificado para claridad)

In [9]:
def __call__(self, *input, **kwargs):
    for hook in self._forward_pre_hooks.values():
        hook(self, input)
        
    result = self.forward(*input, **kwargs)
    
    for hook in self._forward_hooks.values():
        hook_result = hook(self, input, result)
        # ...
        
    for hook in self._backward_hooks.values():
        # ...
        
    return result

IndentationError: expected an indented block (<ipython-input-9-8b8724e9a76a>, line 14)

### De regreso al modelo lineal

In [30]:
import torch.nn as nn

linear_model = nn.Linear(1, 1)
linear_model(val_t_un)

tensor([[2.8318],
        [4.7422]], grad_fn=<AddmmBackward>)

`nn.Linear` acepta tres argumentos:
* el numero de input features: size del input = 1
* numero de output features: size del outpu = 1
* si incluye un bias o no (por default es `True`)

In [None]:
linear_model.weight

In [None]:
linear_model.bias

In [None]:
x = torch.ones(1)
linear_model(x)

* Nuestro modelo toma un input y produce un output
* `nn.Module` y sus subclases estan diseniados para hacer eso sobre multiples muestras al mismo tiempo
* Para acomodar multiples muestras los modulos esperan que la dimension 0 del input sea el numero de muestras en un _batch_
* Cualquier module en `nn` esta hecho para producir outputs para un _batch_ de multiples inputs al mismo tiempo.
* B x Nin
    * B es el tamanio del _batch_
    * Nin el numero de input features

In [None]:
x = torch.ones(10, 1)
linear_model(x)

Para un dataset de imagenes:
* BxCxHxW

In [None]:
t_c.size()

In [13]:
t_c = [0.5, 14.0, 15.0, 28.0, 11.0, 8.0, 3.0, -4.0, 6.0, 13.0, 21.0] # Temperatura en grados celsios
t_u = [35.7, 55.9, 58.2, 81.9, 56.3, 48.9, 33.9, 21.8, 48.4, 60.4, 68.4] # Unidades desconocidas
t_c = torch.tensor(t_c).unsqueeze(1) # Agregamos una dimension para tener B x N_inputs
t_u = torch.tensor(t_u).unsqueeze(1) # Agregamos una dimension para tener B x N_inputs

n_samples = t_u.shape[0]
n_val = int(0.2 * n_samples)

shuffled_indices = torch.randperm(n_samples)

train_indices = shuffled_indices[:-n_val]
val_indices = shuffled_indices[-n_val:]

train_t_u = t_u[train_indices]
train_t_c = t_c[train_indices]

val_t_u = t_u[val_indices]
val_t_c = t_c[val_indices]

train_t_un = 0.1 * train_t_u
val_t_un = 0.1 * val_t_u

In [31]:
import torch.nn as nn
import torch.optim as optim


params_old = torch.tensor([1.0, 0.0], requires_grad=True)
learning_rate_old = 1e-1
optimizer_old = optim.Adam([params], lr=learning_rate)


linear_model = nn.Linear(1, 1)
optimizer = optim.SGD(
    linear_model.parameters(), # reemplazamos [params] con este metodo 
    lr=1e-2)

NameError: name 'params' is not defined

In [15]:
linear_model.parameters()

<generator object Module.parameters at 0x0000026FF9552840>

In [16]:
list(linear_model.parameters())

[Parameter containing:
 tensor([[-0.7044]], requires_grad=True), Parameter containing:
 tensor([-0.1855], requires_grad=True)]

In [17]:
def training_loop(model, n_epochs, optimizer, loss_fn, train_x, val_x, train_y, val_y):
    for epoch in range(1, n_epochs + 1):
        train_t_p = model(train_x) # ya no tenemos que pasar los params
        train_loss = loss_fn(train_t_p, train_y)
        
        with torch.no_grad(): # todos los args requires_grad=False
            val_t_p = model(val_x)
            val_loss = loss_fn(val_t_p, val_y)
        
        optimizer.zero_grad()
        train_loss.backward()
        optimizer.step()
        
        if epoch == 1 or epoch % 1000 == 0:
            print(f"Epoch {epoch}, Training loss {train_loss}, Validation loss {val_loss}")

In [18]:
linear_model = nn.Linear(1, 1)
optimizer = optim.SGD(linear_model.parameters(), lr=1e-2)

training_loop(
    n_epochs=3000,
    optimizer=optimizer,
    model=linear_model,
    loss_fn=nn.MSELoss(), # Ya no estamos usando nuestra loss function hecha a mano
    train_x = train_t_un,
    val_x = val_t_un,
    train_y = train_t_c,
    val_y = val_t_c)

print()
print(linear_model.weight)
print(linear_model.bias)

Epoch 1, Training loss 181.68565368652344, Validation loss 69.4239501953125
Epoch 1000, Training loss 3.5213000774383545, Validation loss 7.0065484046936035
Epoch 2000, Training loss 2.748034715652466, Validation loss 4.985044956207275
Epoch 3000, Training loss 2.7254738807678223, Validation loss 4.728755950927734

Parameter containing:
tensor([[5.3265]], requires_grad=True)
Parameter containing:
tensor([-16.6941], requires_grad=True)


## Finalmente un Neural Network

* Ultimo paso: reemplazar nuestro modelo lineal
* No va a ser mejor
* Lo unico que vamos a cambiar va a ser el modelo
* Un simple NN:
    * Una capa lineal
    * Activacion
    * "hidden layers"

In [19]:
seq_model = nn.Sequential(
                nn.Linear(1, 13), # El 13 es arbitrario
                nn.Tanh(),
                nn.Linear(13, 1) # Este 13 debe hacer match con el primero
            )

seq_model

Sequential(
  (0): Linear(in_features=1, out_features=13, bias=True)
  (1): Tanh()
  (2): Linear(in_features=13, out_features=1, bias=True)
)

* El resultado final es un modelo que toma los inputs esperados por el primer modulo (_layer_)
* Pasa los outputs intermedios al resto de los modulos
* Produce un output retornado por el ultimo modulo

In [32]:
[param.size() for param in seq_model.parameters()]

[torch.Size([13, 1]), torch.Size([13]), torch.Size([1, 13]), torch.Size([1])]

* Estos son los parametros que el optimizador va a recibir
* Al llamar `backward()` todos los parametros se van a llenar con su `grad`
* El optimizador va a actualizar el valor de `grad` durante `optimizer.step()`

In [33]:
for name, param in seq_model.named_parameters():
    print(name, param.size())

0.weight torch.Size([13, 1])
0.bias torch.Size([13])
2.weight torch.Size([1, 13])
2.bias torch.Size([1])


In [22]:
from collections import OrderedDict

named_seq_model = nn.Sequential(OrderedDict([
        ('hidden_linear', nn.Linear(1, 8)),
        ('hidden_activation', nn.Tanh()),
        ('output_linear', nn.Linear(8, 1))
]))

seq_model

Sequential(
  (0): Linear(in_features=1, out_features=13, bias=True)
  (1): Tanh()
  (2): Linear(in_features=13, out_features=1, bias=True)
)

In [23]:
for name, param in named_seq_model.named_parameters():
    print(name, param.size())

hidden_linear.weight torch.Size([8, 1])
hidden_linear.bias torch.Size([8])
output_linear.weight torch.Size([1, 8])
output_linear.bias torch.Size([1])


In [24]:
named_seq_model.output_linear.bias

Parameter containing:
tensor([0.1299], requires_grad=True)

Util para inspeccionar parametros o sus gradientes.

In [25]:
optimizer = optim.SGD(seq_model.parameters(), lr=1e-3)

training_loop(
    n_epochs=5000,
    optimizer=optimizer,
    model=seq_model,
    loss_fn=nn.MSELoss(), # Ya no estamos usando nuestra loss function hecha a mano
    train_x = train_t_un,
    val_x = val_t_un,
    train_y = train_t_c,
    val_y = val_t_c)

print('output', seq_model(val_t_un))
print('answer', val_t_c)
print('hidden', seq_model.hidden_linear.weight.grad)

Epoch 1, Training loss 208.18772888183594, Validation loss 83.814697265625
Epoch 1000, Training loss 3.8366997241973877, Validation loss 4.554821491241455
Epoch 2000, Training loss 2.791919708251953, Validation loss 1.495053768157959
Epoch 3000, Training loss 1.7354196310043335, Validation loss 2.7989323139190674
Epoch 4000, Training loss 1.6313438415527344, Validation loss 2.9179413318634033
Epoch 5000, Training loss 1.5320508480072021, Validation loss 3.2044100761413574
output tensor([[ 2.1565],
        [15.9460]], grad_fn=<AddmmBackward>)
answer tensor([[ 0.5000],
        [13.0000]])


AttributeError: 'Sequential' object has no attribute 'hidden_linear'

Tambien podemos evaluar el modelo en toda la data y ver que tan diferente es de una linea:

In [34]:
from matplotlib import pyplot as plt

t_range = torch.arange(20., 90.).unsqueeze(1)

fig = plt.figure(dpi=600)
plt.xlabel("Fahrenheit")
plt.ylabel("Celsius")
plt.plot(t_u.numpy(), t_c.numpy(), 'o')
plt.plot(t_range.numpy(), seq_model(0.1 * t_range).detach().numpy(), 'c-')
plt.plot(t_u.numpy(), seq_model(0.1 * t_u).detach().numpy(), 'kx')
plt.show()

<Figure size 3840x2880 with 1 Axes>

## Subclassing nn.Module

* sublcassing `nn.Module` nos da mucha mas flexibilidad.
* La interface especifica que como minimo debemos definir un metodo `forward` para la subclase
    * `forward` toma el input al model y regresa el output
* Si usamos las operaciones de `torch`, `autograd` se encarga de hacer el `backward` pass de forma automatica

* Normalmente vamos a definir los submodulos que usamos en el metodo `forward` en el constructor
    * Esto permite que sean llamados en `forward` y que puedan mantener sus parametros a durante la existencia de nuestro modulo

In [26]:
class SubclassModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.hidden_linear = nn.Linear(1, 13)
        self.hidden_activation = nn.Tanh()
        self.output_linear = nn.Linear(13, 1)

        
    def forward(self, input):
        hidden_t = self.hidden_linear(input)
        activated_t = self.hidden_activation(hidden_t)
        #activated_t = self.hidden_activation(hidden_t) if random.random() > 0.5 else hidden_t
        output_t = self.output_linear(activated_t)

        return output_t

    
subclass_model = SubclassModel()
subclass_model

SubclassModel(
  (hidden_linear): Linear(in_features=1, out_features=13, bias=True)
  (hidden_activation): Tanh()
  (output_linear): Linear(in_features=13, out_features=1, bias=True)
)

* Nos permite manipular los outputs de forma directa  y transformarlo en un tensor BxN
* Dejamos la dimension de batch como -1 ya que no sabemos cuantos inputs van a venir por batch

* Asignar una instancia de `nn.Module` a un atributo en un `nn.Module` registra el modulo como un submodulo.
* Permite a `Net` acceso a los `parameters` de sus submodulos sin necesidad de hacerlo manualmente

In [27]:
numel_list = [p.numel() for p in subclass_model.parameters()]
sum(numel_list), numel_list

(40, [13, 13, 13, 1])

**Lo que paso**

* `parameters()` investiga todos los submodulos asignados como atributos del constructor y llama `parameters` de forma recursiva.
* Al accesar su atributo `grad`, el cual va a ser llenado por el `autograd`, el optimizador va a saber como cambiar los parametros para minimizar el _loss_

In [28]:
for type_str, model in [('seq', seq_model), ('named_seq', named_seq_model), ('subclass', subclass_model)]:
    print(type_str)
    for name_str, param in model.named_parameters():
        print("{:21} {:19} {}".format(name_str, str(param.shape), param.numel()))

    print()

seq
0.weight              torch.Size([13, 1]) 13
0.bias                torch.Size([13])    13
2.weight              torch.Size([1, 13]) 13
2.bias                torch.Size([1])     1

named_seq
hidden_linear.weight  torch.Size([8, 1])  8
hidden_linear.bias    torch.Size([8])     8
output_linear.weight  torch.Size([1, 8])  8
output_linear.bias    torch.Size([1])     1

subclass
hidden_linear.weight  torch.Size([13, 1]) 13
hidden_linear.bias    torch.Size([13])    13
output_linear.weight  torch.Size([1, 13]) 13
output_linear.bias    torch.Size([1])     1



In [29]:
class SubclassFunctionalModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.hidden_linear = nn.Linear(1, 14)
        self.output_linear = nn.Linear(14, 1)

        
    def forward(self, input):
        hidden_t = self.hidden_linear(input)
        activated_t = torch.tanh(hidden_t)
        output_t = self.output_linear(activated_t)

        return output_t


func_model = SubclassFunctionalModel()
func_model

SubclassFunctionalModel(
  (hidden_linear): Linear(in_features=1, out_features=14, bias=True)
  (output_linear): Linear(in_features=14, out_features=1, bias=True)
)

## Ejercicios

* Experimenten con el numero de neuronas en el modelo al igual que el learning rate.
    * Que cambios resultan en un output mas lineal del modelo?
    * Pueden hacer que el modelo haga un overfit obvio de la data?
    
* Cargen la [data de vinos blancos](https://archive.ics.uci.edu/ml/datasets/wine+quality) y creen un modelo con el numero apropiado de inputs
    * Cuanto tarda en entrenar comparado al dataset que hemos estado usando?
    * Pueden explicar que factores contribuyen a los tiempos de entrenamiento?
    * Pueden hacer que el _loss_ disminuya?
    * Intenten graficar la data

In [38]:
seq_model = nn.Sequential(
                nn.Linear(1, 3), # El 13 es arbitrario
                nn.Tanh(),
                nn.Linear(3, 1) # Este 13 debe hacer match con el primero
            )

optimizer = optim.SGD(seq_model.parameters(), lr=1e-5)

training_loop(
    n_epochs=5000,
    optimizer=optimizer,
    model=seq_model,
    loss_fn=nn.MSELoss(), # Ya no estamos usando nuestra loss function hecha a mano
    train_x = train_t_un,
    val_x = val_t_un,
    train_y = train_t_c,
    val_y = val_t_c)

Epoch 1, Training loss 236.01341247558594, Validation loss 100.09624481201172
Epoch 1000, Training loss 209.72579956054688, Validation loss 84.43618774414062
Epoch 2000, Training loss 191.0543975830078, Validation loss 73.62203216552734
Epoch 3000, Training loss 175.98362731933594, Validation loss 65.41678619384766
Epoch 4000, Training loss 161.8820037841797, Validation loss 58.13094711303711
Epoch 5000, Training loss 149.08676147460938, Validation loss 51.984920501708984


In [41]:
seq_model = nn.Sequential(
                nn.Linear(1, 7), # El 13 es arbitrario
                nn.Tanh(),
                nn.Linear(7, 1) # Este 13 debe hacer match con el primero
            )

optimizer = optim.SGD(seq_model.parameters(), lr=1e-4)

training_loop(
    n_epochs=5000,
    optimizer=optimizer,
    model=seq_model,
    loss_fn=nn.MSELoss(), # Ya no estamos usando nuestra loss function hecha a mano
    train_x = train_t_un,
    val_x = val_t_un,
    train_y = train_t_c,
    val_y = val_t_c)

Epoch 1, Training loss 191.3069610595703, Validation loss 73.87039184570312
Epoch 1000, Training loss 70.83070373535156, Validation loss 34.170345306396484
Epoch 2000, Training loss 40.78306198120117, Validation loss 18.920591354370117
Epoch 3000, Training loss 25.78692054748535, Validation loss 11.215924263000488
Epoch 4000, Training loss 17.530498504638672, Validation loss 6.7094855308532715
Epoch 5000, Training loss 13.156546592712402, Validation loss 4.894273281097412


In [69]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [64]:
df = pd.read_csv("winequality-white.csv", sep=";")
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [65]:
corr = df.corr()
corr

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
fixed acidity,1.0,-0.022697,0.289181,0.089021,0.023086,-0.049396,0.09107,0.265331,-0.425858,-0.017143,-0.120881,-0.113663
volatile acidity,-0.022697,1.0,-0.149472,0.064286,0.070512,-0.097012,0.089261,0.027114,-0.031915,-0.035728,0.067718,-0.194723
citric acid,0.289181,-0.149472,1.0,0.094212,0.114364,0.094077,0.121131,0.149503,-0.163748,0.062331,-0.075729,-0.009209
residual sugar,0.089021,0.064286,0.094212,1.0,0.088685,0.299098,0.401439,0.838966,-0.194133,-0.026664,-0.450631,-0.097577
chlorides,0.023086,0.070512,0.114364,0.088685,1.0,0.101392,0.19891,0.257211,-0.090439,0.016763,-0.360189,-0.209934
free sulfur dioxide,-0.049396,-0.097012,0.094077,0.299098,0.101392,1.0,0.615501,0.29421,-0.000618,0.059217,-0.250104,0.008158
total sulfur dioxide,0.09107,0.089261,0.121131,0.401439,0.19891,0.615501,1.0,0.529881,0.002321,0.134562,-0.448892,-0.174737
density,0.265331,0.027114,0.149503,0.838966,0.257211,0.29421,0.529881,1.0,-0.093591,0.074493,-0.780138,-0.307123
pH,-0.425858,-0.031915,-0.163748,-0.194133,-0.090439,-0.000618,0.002321,-0.093591,1.0,0.155951,0.121432,0.099427
sulphates,-0.017143,-0.035728,0.062331,-0.026664,0.016763,0.059217,0.134562,0.074493,0.155951,1.0,-0.017433,0.053678


In [80]:
X = df['residual sugar']
y = df['density']

In [81]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

In [82]:
X_train = np.array(X_train)
X_test = np.array(X_test)
y_train = np.array(y_train)
y_test = np.array(y_test)

X_train = torch.tensor(X_train).unsqueeze(1)
X_test = torch.tensor(X_test).unsqueeze(1)
y_train = torch.tensor(y_train).unsqueeze(1)
y_test = torch.tensor(y_test).unsqueeze(1)

In [83]:
seq_model = nn.Sequential(
                nn.Linear(1, 7), 
                nn.Tanh(),
                nn.Linear(7, 1) 
            )

optimizer = optim.SGD(seq_model.parameters(), lr=1e-4)

training_loop(
    n_epochs=5000,
    optimizer=optimizer,
    model=seq_model,
    loss_fn=nn.MSELoss(), 
    train_x = X_train.float(),
    val_x = X_test.float(),
    train_y = y_train.float(),
    val_y = y_test.float())

Epoch 1, Training loss 1.2188410758972168, Validation loss 1.2255860567092896
Epoch 1000, Training loss 0.1352592408657074, Validation loss 0.13732923567295074
Epoch 2000, Training loss 0.04941604658961296, Validation loss 0.049583472311496735
Epoch 3000, Training loss 0.03478197753429413, Validation loss 0.03463069722056389
Epoch 4000, Training loss 0.027955850586295128, Validation loss 0.027814671397209167
Epoch 5000, Training loss 0.02335743047297001, Validation loss 0.023266686126589775


Las variables utilizadas fueron "residual sugar" para poder predecir la densidad de los vinos. Con diferencia a la data que estabamos utilizando el loss disminuye bastante debido a la alta relacion que tienen las variables.