# Modelos Simples como Neuronas

La idea de este Notebook es mostrar una introducción al entrenamiento de redes neuronales usando modelos simples como la regresión lineal y logística. Veremos cómo estos modelos pueden ser pensados como "neuronas" (componentes básicos de una red neuronal densa) y cubriremos conceptos que definen cómo se entrenarán estos modelos.

In [None]:
!git clone https://github.com/JuanCruzC97/ml-stuff.git

In [None]:
cd ml-stuff/intro-deep-learning

In [1]:
# Librerías para el manejo de los datos.
import numpy as np
import pandas as pd

# Librerías para visualización.
import plotly.express as px
#import plotly.graph_objects as go

# Funciones propias.
from utils.datasets import make_regression_dataset

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


# Regresión

En esta primera parte cubrimos un problema muy simple de regresión (predicción de una variable continua). Usaremos una única variable explicativa. Comenzamos generando el dataset que utilizaremos en esta etapa. Se trata de un set de datos sencillo, con una variable explicativa `X` y una variable respuesta `y` continua.

## Dataset

Generamos y exploramos un poco el dataset de regresión.

In [25]:
# Generamos los datasets de entrenamiento y evaluación.
train = make_regression_dataset(n_samples=100, noise=1.25, random_state=42)
test = make_regression_dataset(n_samples=30, noise=1.25, random_state=65)

In [26]:
# Vemos algunos valores de la variable explicativa y la respuesta.
train.head()

Unnamed: 0,X,y
0,-1.003679,-2.201476
1,3.605714,5.68287
2,1.855952,5.638039
3,0.789268,0.695674
4,-2.751851,-1.445551


In [4]:
# También podemos ver algunos estadísticos de ambas variables.
train.describe()

Unnamed: 0,X,y
count,100.0,100.0
mean,-0.238554,0.735758
std,2.379915,5.072909
min,-3.955823,-7.721371
25%,-2.454394,-3.565644
50%,-0.28686,0.153311
75%,1.841625,5.294558
max,3.895095,10.601734


In [27]:
px.scatter(data_frame=train,
           x="X",
           y="y",
           color_discrete_sequence=["#3d5a80"],
           height=500,
           width=800,
           template="plotly_white")

## Modelo Lineal

Por la forma de los datos visualizados podemos darnos cuenta que un modelo lineal simple con la variable `x` tendrá un ajuste pobre, vemos que hay una relación entre la variable `y` y la variable `x` pero esta relación es no es lineal.

$$ y = f(x) + \tilde{\epsilon} \qquad \text{ donde f() es no lineal} $$

El modelo de regresión lineal simple sigue la siguiente expresión, donde $w_0$ y $w_1$ son los parámetros del modelo. Los valores óptimos de estos parámetros debemos encontrarlos, de manera que lleguemos a los valores para los cuales el modelo realice la mejor predicción de la respuesta `y` en función de `x`.

$$\hat{y} = w_0 + w_1 * x$$

¿Cómo conseguimos los mejores valores para los parámetros del modelo? Para eso necesitamos una forma de medir la diferencia entre el valor observado de $y$ para cada $x$ y el valor de predicción del modelo $\hat{y}$ para los $x$ correspondientes. La métrica que usamos para medir esta diferencia es conocida como Suma de Errores Cuadráticos, básicamente, la sumatoria de los residuos elevados al cuadrado para todas las observaciones que tenemos.

$$S = \sum{(y-\hat{y})^2} \implies S = \sum{(y- w_0 + w_1*x)^2} $$

Vemos que la función que mide cuán bueno es el modelo en la predicción tiene como componentes a $y$ y $x$ que son los datos conocidos (observaciones) y también a los parámetros del modelo, por lo que la nuestra función de error depende de los parámetros del modelo $S = f(w_0, w_1)$, por lo que encontrar los valores de los parámetros (también llamados *weights*) óptimos para predecir $\hat{y}$ es un problema de optimización donde buscamos encontrar los valores de $w_0$ y $w_1$ que minimicen $S$.

$${\displaystyle \min _{w_0,w_1}\;S} = \sum{(y- w_0 + w_1*x)^2}$$

Gracias a Carl Friedrich Gauss tenemos el método de los cuadrados mínimos, con el que obtenemos los valores óptimos de los coeficientes $w_0$ y $w_1$ que se ajustan a los datos dados.

In [37]:
# Importamos la función del modelo lineal.
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [34]:
# Iniciamos el modelo.
linear_model_sk = LinearRegression()

# Entrenamos el modelo con los datos de train.
linear_model_sk.fit(X=train[["X"]],
                    y=train["y"])

LinearRegression()

Obtenemos el valor óptimo de los parámetros del modelo lineal simple para 

In [35]:
print(f'Pendiente: {round(linear_model_sk.coef_[0], 2)}')
print(f'Intercepto: {round(linear_model_sk.intercept_, 2)}')

Pendiente: 1.03
Intercepto: 1.94


In [40]:
train["y_preds1"] = linear_model_sk.predict(train[["X"]])
test["y_preds1"] = linear_model_sk.predict(test[["X"]])

print(f'Error Absoluto Promedio {round(mean_absolute_error(train["y"], train["y_preds1"]), 2)}')
print(f'Error Absoluto Promedio {round(mean_absolute_error(test["y"], test["y_preds1"]), 2)}')

Error Absoluto Promedio 2.02
Error Absoluto Promedio 1.84


In [43]:
plot = px.scatter(data_frame=train,
                  x = "X",
                  y = ["y", "y_preds1"],
                  color_discrete_sequence=["#3d5a80", "#ff6700"],
                  height=500,
                  width=800,
                  template ="plotly_white")

plot.show()

## Regresión Lineal como Neurona

En esta sección la idea es armar el mismo modelo que armamos previamente (regresión lineal simple) pero usando la librería `Keras` (desarrollada por Google para programar redes neuronales). Podemos pensar que este es el modelo más simple que podemos armar con esta librería, una regresión lineal sería una red neuronal de una única neurona (no tiene mucho de red).

El modelo recibe el input `x` (incluimos otro input igual a uno que irá multiplicado por el intercepto $w_0$). Dentro de nuestra unidad o neurona se lleva a cabo la operación $F(x)$ que da como resultado la predicción del modelo $\hat{y}$. Multiplicamos cada input por su parámetro y sumamos toda la expresión.

$$F(x) = w_1*x + w_0*1 = w_1*x + w_0 = \hat{y}$$

![Modelo Lineal](assets/linear.jpg)

Esta es una manera diferente de pensar el mismo modelo que habíamos armado y que puede ayudar un poco para entender cómo se formarán las redes neuronales más complejas.

Además de crear el mismo modelo que creamos previamente vamos a entrenarlo, es decir, obtener los parámetros óptimos $w_0$ y $w_1$ que minimizan la diferencia entre la respuesta observada y la predicha. Este proceso lo realizamos usando el método de los cuadrados mínimos, pero ahora vamos a hacerlo de manera diferente. Vamos a entrenar este modelo 



In [56]:
import tensorflow as tf
from tensorflow import keras

from utils.datasets import get_fit_data, get_training_preds

In [137]:
LOSS = "mean_squared_error"
BATCH_SIZE = 20
EPOCHS = 25
LR = 0.01

In [138]:
# Iniciamos los parámetros aleatorios.
keras.backend.clear_session()
tf.random.set_seed(123)
initial_weights = keras.initializers.RandomNormal(0, 0.05, 123)

# Definimos una capa de input y una capa de output.
inputs = keras.Input(shape=(1,))
outputs = keras.layers.Dense(1, kernel_initializer=initial_weights)(inputs)

# Construimos el modelo uniendo capas.
model1_keras = keras.Model(inputs, outputs)

# Compilamos el modelo eligiendo la función a optimizar y el método de optimización.
model1_keras.compile(optimizer=keras.optimizers.SGD(learning_rate=LR), loss=LOSS)

# Entrenamos el modelo.
fit_history = model1_keras.fit(x=train[["X"]], y=train["y"], batch_size=BATCH_SIZE, epochs=EPOCHS, shuffle=True)

Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


In [139]:
model1_keras.summary()
keras.utils.plot_model(model1_keras)

Model: "model_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_3 (InputLayer)        [(None, 1)]               0         
                                                                 
 dense_2 (Dense)             (None, 1)                 2         
                                                                 
Total params: 2
Trainable params: 2
Non-trainable params: 0
_________________________________________________________________
You must install pydot (`pip install pydot`) and install graphviz (see instructions at https://graphviz.gitlab.io/download/) for plot_model to work.


In [106]:
print(f"Parámetros del modelo Lineal {[linear_model_sk.coef_[0], linear_model_sk.intercept_]}")

Parámetros del modelo Lineal [1.026409914187006, 1.9426174913286312]


In [140]:
model1_keras.get_weights()

[array([[1.0167941]], dtype=float32), array([1.7801245], dtype=float32)]

In [141]:
train["y_preds2"] = model1_keras.predict(train[["X"]], verbose=0)
test["y_preds2"] = model1_keras.predict(test[["X"]], verbose=0)

print(f'Error Absoluto Promedio {round(mean_absolute_error(train["y"], train["y_preds2"]), 2)}')
print(f'Error Absoluto Promedio {round(mean_absolute_error(test["y"], test["y_preds2"]), 2)}')

Error Absoluto Promedio 2.05
Error Absoluto Promedio 1.82


In [142]:
fit_data = get_fit_data(fit_history, 'mse')

px.line(fit_data, 
        x=fit_data.index, 
        y="mse",
        color_discrete_sequence=["#3d5a80"],
        height=500,
        width=800,
        template="plotly_white")

### Entrenamiento

Interesante, probar:
* loss = "mae"
* batch size = 1
* batch size = 100
* learning rate = 0.1
* learning rate = 0.001


In [126]:
LOSS = "mse"
BATCH_SIZE = 20
EPOCHS = 30
LR = 0.01

tf.random.set_seed(123)
initial_weights = keras.initializers.RandomNormal(0, 0.25, 123)

inputs = keras.Input(shape=(1,))
outputs = keras.layers.Dense(1, kernel_initializer=initial_weights)(inputs)

model1 = keras.Model(inputs, outputs)

model1.compile(optimizer=keras.optimizers.SGD(learning_rate=LR), loss=LOSS)

df_weights, df_preds = get_training_preds(train, model1, BATCH_SIZE, EPOCHS)

In [127]:
px.scatter(data_frame=df_preds,
           x="X",
           y=["y", "y_pred"],
           animation_frame="epoch",
           color_discrete_sequence=["#3d5a80", "#ff6700"],
           height=500,
           width=800,
           template="plotly_white").show()

px.line(df_weights, 
        x=df_weights.index, 
        y="loss",
        color_discrete_sequence=["#3d5a80"],
        height=500,
        width=800,
        template="plotly_white")

In [128]:
LOSS = "mse"
BATCH_SIZE = 20
EPOCHS = 25
LR = 0.25

tf.random.set_seed(123)
initial_weights = keras.initializers.RandomNormal(0, 0.25, 123)

inputs = keras.Input(shape=(1,))
hidden = keras.layers.Dense(8, activation="sigmoid")(inputs)
outputs = keras.layers.Dense(1)(hidden)

model1 = keras.Model(inputs, outputs)

model1.compile(optimizer=keras.optimizers.Adam(learning_rate=LR), loss=LOSS)

df_weights, df_preds = get_training_preds(train, model1, BATCH_SIZE, EPOCHS)

px.scatter(data_frame=df_preds,
           x="X",
           y=["y", "y_pred"],
           animation_frame="epoch",
           color_discrete_sequence=["#3d5a80", "#ff6700"],
           height=500,
           width=800,
           template="plotly_white").show()

px.line(df_weights, 
        x=df_weights.index, 
        y="loss",
        color_discrete_sequence=["#3d5a80"],
        height=500,
        width=800,
        template="plotly_white").show()

## Featuring Engineering

In [None]:
plot = px.scatter(data_frame=train,
                  x = "X",
                  y = train["y"] - train["y_preds1"],
                  #color=color,
                  #color_continuous_scale="viridis", 
                  color_discrete_sequence=["#3d5a80"],
                  height=500,
                  width=800,
                  template ="plotly_white")

#plot.add_traces()

plot.show()

In [None]:
train["sin_X1"] = np.sin(train["X1"])

linear_model_sk = LinearRegression()

linear_model_sk.fit(X=train[["X1", "sin_X1"]],
                    y=train["y"])

# Old

In [None]:
px.histogram(train, "X1", nbins=20, height=600, width=600, template="plotly_white")

In [None]:
px.scatter_3d(data_frame=train,
              x="X1",
              y="X2",
              z="y",
              color="y",
              color_continuous_scale="viridis",
              height=700,
              width=600,
              template="plotly_white")



px.scatter(data_frame=train,
           x = "X2",
           y = "y",
           color="y",
           color_continuous_scale="viridis",
           height=500,
           width=800,
           template ="plotly_white").show()

px.scatter(data_frame=train,
           x = "X1",
           y = "X2",
           color = "y",
           color_continuous_scale="viridis",
           height=500,
           width=800,
           template ="plotly_white").show()