<a href="https://colab.research.google.com/github/maxfloresv/FM849/blob/feat%2Fadd-class-11/20261/tutorials/11_lr_nlr.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# FM849 - Programaci√≥n Cient√≠fica para Proyectos de Inteligencia Artificial (IA)

üë®‚Äçüè´ **Profesores de c√°tedra**

- M√°ximo Flores Valenzuela ($\texttt{mflores@dcc.uchile.cl}$).
- H√©ctor Jim√©nez Orellana ($\texttt{hector.jimenezor@gmail.com}$).

## Regresi√≥n lineal

En la [clase 10](https://github.com/maxfloresv/FM849/blob/master/20261/10_lr_regularization.pdf) ya vimos los fundamentos de los modelos de regresi√≥n lineal: su formulaci√≥n, sus supuestos, aplicaciones, etc. En este tutorial, veremos un ejemplo poniendo las "manos en la masa".

## Pre√°mbulo

La siguiente es una configuraci√≥n para cambiar el estilo de todos los gr√°ficos. S√≥lo influye desde un punto de vista est√©tico.

In [None]:
import plotly.io as pio

pio.templates["cmu"] = pio.templates["plotly_white"]
pio.templates["cmu"]["layout"]["font"]["family"] = "CMU Sans Serif"
pio.templates["cmu"]["layout"]["font"]["size"] = 20
pio.templates["cmu"]["layout"]["title"] = {
  "x": 0.5,
  "xanchor": "center"
}
pio.templates["cmu"]["layout"].update(
  xaxis=dict(
    showgrid=False,
    zeroline=False,
    showline=True,
    linewidth=1,
    linecolor="black",
    ticks="outside",
    ticklen=8
  ),
  yaxis=dict(
    showgrid=False,
    zeroline=False,
    showline=True,
    linewidth=1,
    linecolor="black",
    ticks="outside",
    ticklen=8
  )
)

pio.templates["cmu"].layout.font.color = "black"
pio.templates["cmu"].layout.xaxis.color = "black"
pio.templates["cmu"].layout.yaxis.color = "black"

pio.templates.default = "cmu"

## üë®‚Äçü¶≤ El caso del humano gigante

En este caso, buscaremos modelar la altura de las personas en funci√≥n de su edad. Para ello, ocuparemos datos sobre el crecimiento de personas entre $2$ y $25$ a√±os. Los datos se encuentran anotados en la siguiente celda de c√≥digo.

In [None]:
import numpy as np

edad = np.array([2, 5, 8, 10, 12, 14, 16, 18, 20, 25])
altura = np.array([87, 110, 127, 138, 150, 160, 170, 175, 176, 177])

Para explorar los datos, visualicemos c√≥mo se ve la altura en funci√≥n de la edad.

In [None]:
import plotly.express as px

fig = px.scatter(
    x=edad,
    y=altura,
    title='Altura de personas en funci√≥n de la edad'
  )
fig.update_layout(
    xaxis_title='Edad [a√±os]',
    yaxis_title='Altura [cm]',
    width=800
  )
fig.show()

Ya podemos ver un peque√±o problema que la regresi√≥n lineal no puede capturar: el cuerpo humano, biol√≥gicamente, tiene un l√≠mite de crecimiento. Para notar esto, reflexionen sobre la siguiente pregunta: **si se sigue la misma l√≠nea de crecimiento de la infancia, en casos normales, ¬øcu√°nto deber√≠amos medir a los 60 a√±os?**

Justamente esta noci√≥n de "l√≠nea de crecimiento" est√° alineada con el modelamiento de un fen√≥meno mediante una recta. Las rectas, al menos, si son crecientes, no vuelven a decrecer.

### Entrenando modelos de regresi√≥n

Consideremos un modelo de regresi√≥n lineal cualquiera, es decir, una variable objetivo $y$ y regresores $x_1, \dots, x_n$ con coeficientes $\beta_0, \beta_1, \dots, \beta_n$. Sabemos que este modelo se escribe como sigue:
$$
  y = \underbrace{\beta_0}_\text{intercepto} + \sum_{i=1}^n \underbrace{\beta_i \cdot x_i}_{\text{efecto de } x_i} + \underbrace{\varepsilon}_\text{residuo (error)}
$$

El objetivo es encontrar los par√°metros $\beta_0$ y $\beta_1, \dots, \beta_n$ que reflejan el efecto que tiene cada variable predictora sobre la variable a predecir.

De las c√°tedras anteriores, ya sabemos que existen formas de calcular los coeficientes con una f√≥rmula matem√°tica, **s√≥lo en el caso de regresi√≥n lineal**. Esto lo tiene implementado la clase `LinearRegression` de la librer√≠a `sklearn.linear_model`. Para entrenar (o ajustar) un modelo, s√≥lo necesitamos pasarle $X$ (variables predictoras) e $y$ (variable a predecir).

En este caso, como la variable predictora es una s√≥la (`edad`), el ajuste se realiza instanciando a la clase (`lr = LinearRegression()`) y usando su m√©todo `fit(X, y)` (`lr.fit(X, y)`, equivalente a `lr.fit(edad.reshape(-1, 1), altura)` en nuestro caso).

> ‚ùó **Importante**: En vez de s√≥lo `edad`, debemos usar `edad.reshape(-1, 1)`, que significa "toma la lista de edades y d√©jalas en una columna (el segundo `1`) en vez de una s√≥la fila". El `-1` se ocupa cuando no queremos especificar el n√∫mero de filas, pero que se creen tantas como valores hayan (en este caso, una fila por cada edad que tenemos).

- Lo que hace la instanciaci√≥n `lr = LinearRegression()` es crear una copia de la clase que ya implementa la regresi√≥n lineal para poder usar sus m√©todos.

- Lo que hace el `fit` es tomar los datos ($X, y$) para calcular los coeficientes $\beta_0, \beta_1, \dots, \beta_n$, que es el objetivo de la regresi√≥n lineal.

- Para revisar los coeficientes despu√©s de que el modelo fue ajustado, hay que usar `lr.intercept_` (intercepto $\beta_0$) y `lr.coef_` (coeficientes $\beta_1, \dots, \beta_n$; habr√°n tantos como variables predictoras hayan).

In [None]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(edad.reshape(-1, 1), altura)

print("Intercepto:", lr.intercept_)
print("Coeficientes asociados a variables:", lr.coef_)

Intercepto: 92.88169642857142
Coeficientes asociados a variables: [4.16294643]


Ac√°, s√≥lo tenemos una variable, as√≠ que el modelo se puede escribir como $y = 92\text{,}882 + 4\text{,}163 \cdot x$, donde $y$ es la altura y $x$ la edad.

Con esto, confirmamos las sospechas que ten√≠amos sobre el mal ajuste que tendr√≠a un modelo de regresi√≥n lineal, a menos que el dominio de $x$ (posibles valores que puede tomar) sea acotado. Notemos que para $x = 60$ a√±os, tendremos una altura de $y = 342\text{,}662 \text{ [cm]}$, lo que no tiene sentido.

*Todos los valores de este √≠tem fueron aproximados a la mil√©sima*.

## Realizando predicciones

Ya sabemos con qu√© datos fue entrenado nuestro modelo. Ahora, queremos hacer predicciones sobre datos nuevos. Para ello, se debe usar el m√©todo `predict(X)` (en nuestro caso, `lr.predict(nuevas_edades)`). Este m√©todo ya no recibe la variable objetivo $y$, porque es lo que queremos predecir a partir de las variables predictoras $X$.

La idea es que las nuevas edades no incluyan edades que el modelo ya conoce (las cuales est√°n en `edad`), porque queremos probar qu√© tan bueno es su poder de generalizaci√≥n. Esta es la separaci√≥n intuitiva entre el conjunto de entrenamiento y el de prueba.

Primero, recordemos qu√© edades ten√≠amos.

In [None]:
edad

array([ 2,  5,  8, 10, 12, 14, 16, 18, 20, 25])

Notemos que la edad $15$ no est√° en los datos de entrenamiento. Veamos qu√© predice el modelo para dicha edad. Como es una s√≥la, debemos usar la notaci√≥n de tabla (o matriz) `[[15]]`, porque el m√©todo `predict` espera entradas en dos dimensiones, y una fila (p. ej., `[15]`) s√≥lo tiene una dimensi√≥n.

In [None]:
nuevas_edades = [[15], [17]]
pred = lr.predict(nuevas_edades)

pred

array([155.32589286, 163.65178571])

De todas formas, no pasa nada malo si ponemos edades que el modelo ya conoce del conjunto de entrenamiento. Solamente las m√©tricas, si queremos evaluar la calidad del ajuste (que lo veremos m√°s adelante), son menos confiables. Sin embargo, esto nos puede servir para entender comportamientos locales.

In [None]:
nuevas_edades = [[14], [15], [16]]
pred = lr.predict(nuevas_edades)

pred

array([151.16294643, 155.32589286, 159.48883929])

Podemos ver que la predicci√≥n para $x = 15$ es la semisuma (o el promedio) entre las predicciones para las edades $x = 14$ y $x = 16$. Esto es as√≠ porque estamos modelando una recta, y las rectas tienen pendiente constante. El modelo entonces est√° entregando valores esperados, si dejamos de lado el contexto del problema.

## Graficando los residuos

La mayor√≠a de las veces, para un an√°lisis m√°s completo, nos interesa visualizar los residuos del modelo, es decir, qu√© tan malo fue el ajuste para cada valor de edad del cual se posee informaci√≥n. En este an√°lisis, se puede partir con el conjunto de entrenamiento y, posteriormente, revisar el conjunto de prueba (si est√°n etiquetados, porque necesitamos la respuesta).

In [None]:
import plotly.graph_objects as go

predicciones = lr.predict(edad.reshape(-1, 1))
residuos = altura - predicciones

fig = go.Figure(data=[go.Bar(x=edad, y=residuos)])
fig.add_shape(
    type="line",
    x0=min(edad), y0=0, x1=max(edad), y1=0,
    line=dict(color="Black", width=1, dash="dash")
)
fig.update_layout(
    title="Errores del modelo de regresi√≥n lineal",
    yaxis_title="Diferencia [cm]",
    xaxis_title="Edad [a√±os]",
    width=800
)
fig.show()

Podemos ver que este modelo tiene residuos grandes en magnitud ($\pm 15$), lo que indica que no sobreajust√≥ a los datos de entrenamiento. Adem√°s, podemos observar que los errores no tienen una forma aleatoria como ser√≠a esperado, sino que tienen una forma de "U" invertida. Esto indica que el fen√≥meno requiere una componente **no lineal** para ser modelado.

Nosotros conocemos c√≥mo var√≠an las alturas en funci√≥n de la edad. Sabemos que hay un l√≠mite biol√≥gico a partir del cual el crecimiento se estanca. Esto, matem√°ticamente, lo podemos modelar con la siguiente funci√≥n:

$$
h(t) = h_\text{m√°x} \cdot \left(1 - e^{-k t}\right)
$$

donde $h(t)$ es la altura en funci√≥n de la edad ($t$), $h_\text{m√°x}$ es la altura m√°xima que se puede alcanzar, y $k$ la tasa de crecimiento (qu√© tan r√°pido alcanzamos esa altura m√°xima). Los par√°metros a aprender son $h_\text{m√°x}$ y $k$.

Este modelo tambi√©n tiene falencias. Por ejemplo, asume que todos los individuos tienen la misma altura m√°xima $h_\text{m√°x}$ y tasa de crecimiento $k$, lo que sabemos que es falso. Esta hip√≥tesis la tenemos que imponer porque no tenemos m√°s variables que est√©n prediciendo la altura, as√≠ que es netamente por falta de informaci√≥n.

Si tuvi√©semos el efecto del sexo en la altura (que sabemos que es una variable influyente), podr√≠amos modelar $h(t)$ de una forma m√°s precisa. Hay otras variables que tambi√©n podr√≠amos incluir, como el pa√≠s de nacimiento, alimentaci√≥n, etc.

Entendiendo que corresponde a una simplificaci√≥n que busca mejorar la regresi√≥n lineal, implement√©moslo en c√≥digo. Para ello, necesitamos seguir los siguientes pasos:

1. Definir la funci√≥n de modelamiento. En nuestro caso, ya sabemos que es $f(t) = h_\text{m√°x} \cdot \left(1 - e^{-kt}\right)$. Esto se guarda en la funci√≥n `crecimiento` (pueden ponerle el nombre que ustedes quieran, pero deben ser consistentes).

2. Usar la funci√≥n `curve_fit` de `scipy.optimize`, definiendo los siguientes hiperpar√°metros en orden: funci√≥n de modelamiento (en nuestro caso, `crecimiento_simple`), variables predictoras ($X$; en nuestro caso, `edad`), variable objetivo ($y$; en nuestro caso, `altura`) y el paso inicial de la exploraci√≥n, recordando que en los modelos de regresi√≥n no lineal se ocupan t√©cnicas de aproximaci√≥n (`p0=[h_max_inicial, k_inicial]`, en nuestro caso, `[180, 0.1]`). Este √∫ltimo hiperpar√°metro **debe tener el mismo orden** que fue definido en la funci√≥n de modelamiento. En nuestro caso, va primero `h_max`, y despu√©s `k`. Si lo cambi√°ramos de orden, tambi√©n deber√≠amos hacerlo en `p0`.

3. Extraer de la llamada a la funci√≥n `curve_fit` lo que nos interesa. Esta funci√≥n devuelve los par√°metros √≥ptimos (que llamamos `parametros`) y los errores de predicci√≥n (que llamamos `_`, porque no los usaremos: esto es una convenci√≥n).


In [None]:
from scipy.optimize import curve_fit

def crecimiento_simple(t, h_max, k):
  """
  Esta funci√≥n modela el crecimiento tal y como lo hicimos arriba.
  """
  return h_max * (1 - np.exp(-k * t))

parametros, _ = curve_fit(crecimiento_simple, edad, altura, p0=[180, 0.1])

Este modelo ya est√° entrenado con los mismos datos que usamos para entrenar el modelo de regresi√≥n lineal, as√≠ que usaremos nuevamente $x=15$ para generar una predicci√≥n. En este caso, ya no es necesario usar una tabla de dos dimensiones (formato `[[15]]` que usamos en la regresi√≥n lineal), porque se trata de otra librer√≠a menos exigente con el formato.

In [None]:
pred_no_lineal = crecimiento_simple(15, *parametros)
pred_no_lineal

np.float64(164.7429153869142)

Podemos notar que este valor se aleja casi $10 \text{ [cm]}$ de lo predicho por la regresi√≥n lineal. Grafiquemos los residuos.

In [None]:
predicciones = crecimiento_simple(edad, *parametros)
residuos = altura - predicciones

fig = go.Figure(data=[go.Bar(x=edad, y=residuos)])
fig.add_shape(
    type="line",
    x0=min(edad), y0=0, x1=max(edad), y1=0,
    line=dict(color="Black", width=1, dash="dash")
)
fig.update_layout(
    title="Errores del modelo de regresi√≥n no lineal",
    yaxis_title="Diferencia [cm]",
    xaxis_title="Edad [a√±os]",
    width=800
)
fig.show()

De todas formas, existe un problema. Los errores parecen tener un comportamiento m√°s err√°tico para edades mayores que $5$, pero al inicio tiene un error inaceptable (casi $30 \text{ [cm]}$). Esto pasa porque con la f√≥rmula anterior, estamos asumiendo que las alturas parten de $0 \text{ [cm]}$, lo que no es as√≠. Podemos probar a√±adiendo un par√°metro $h_\text{base}$ que modele la altura basal de las personas, dejando la funci√≥n como sigue:

$$
h(t) = h_\text{base} + \left(h_\text{m√°x} - h_\text{base}\right) \cdot \left(1 - e^{-kt}\right)
$$

Esto deber√≠a corregir el efecto de partir con una altura poco realista. $h_\text{base}$ es un nuevo par√°metro que el modelo deber√° aprender. Probemos con esta nueva formulaci√≥n, indicando `p0=[50, 180, 0.1]`.

In [None]:
def crecimiento_con_h_base(t, h_base, h_max, k):
  """
  Esta funci√≥n modela el crecimiento con la f√≥rmula actualizada.
  """
  return h_base + (h_max - h_base) * (1 - np.exp(-k * t))

parametros, _ = curve_fit(crecimiento_con_h_base, edad, altura, p0=[50, 180, 0.1])

Generemos el gr√°fico de los residuos nuevamente, para revisar c√≥mo esto afect√≥ a la soluci√≥n.

In [None]:
predicciones = crecimiento_con_h_base(edad, *parametros)
residuos = altura - predicciones

fig = go.Figure(data=[go.Bar(x=edad, y=residuos)])
fig.add_shape(
    type="line",
    x0=min(edad), y0=0, x1=max(edad), y1=0,
    line=dict(color="Black", width=1, dash="dash")
)
fig.update_layout(
    title="Errores del modelo de regresi√≥n no lineal con altura basal",
    yaxis_title="Diferencia [cm]",
    xaxis_title="Edad [a√±os]",
    width=800
)
fig.show()

Este modelo es mucho mejor que los dos anteriores. Hemos logrado mejorarlo y con justificaciones claras.

Para finalizar, visualicemos en un gr√°fico un resumen del trabajo que hemos realizado.

In [None]:
edades_a_comparar = np.linspace(0, 60, 100)

pred_lin = lr.predict(edades_a_comparar.reshape(-1, 1))

parametros, _ = curve_fit(
  crecimiento_simple,
  edad,
  altura,
  p0=[180, 0.1]
)
pred_no_lin_simple = crecimiento_simple(edades_a_comparar, *parametros)

parametros, _ = curve_fit(
  crecimiento_con_h_base,
  edad,
  altura,
  p0=[50, 180, 0.1]
)
pred_no_lin_con_hbase = crecimiento_con_h_base(edades_a_comparar, *parametros)

fig = go.Figure()

fig.add_trace(go.Scatter(
  x=edad,
  y=altura,
  mode='markers',
  name='Datos reales',
  marker=dict(color='black', size=8)
))

fig.add_trace(go.Scatter(
  x=edades_a_comparar,
  y=pred_lin,
  mode='lines',
  name='Lineal',
  line=dict(color='red', dash='dash')
))

fig.add_trace(go.Scatter(
  x=edades_a_comparar,
  y=pred_no_lin_simple,
  mode='lines',
  name='No lineal sin altura base',
  line=dict(color='orange', width=2)
))

fig.add_trace(go.Scatter(
  x=edades_a_comparar,
  y=pred_no_lin_con_hbase,
  mode='lines',
  name='No lineal con altura base',
  line=dict(color='green', width=3)
))

h_max_con_hbase = parametros[1]
fig.add_trace(go.Scatter(
  x=[min(edades_a_comparar), max(edades_a_comparar)],
  y=[h_max_con_hbase, h_max_con_hbase],
  mode='lines',
  name=f'Altura m√°xima con altura base',
  line=dict(color='gray', dash='dot')
))

fig.update_layout(
  title="Predicci√≥n de altura en el futuro",
  xaxis_title="Edad [a√±os]",
  yaxis_title="Altura [cm]",
  width=800,
  height=600,
  legend=dict(
      x=0.01,
      y=0.99,
      xanchor='left',
      yanchor='top',
      bordercolor='Black',
      borderwidth=1,
      font=dict(size=16)
  )
)

fig.show()

Ac√°, se pueden confirmar varias afirmaciones que hicimos a lo largo del estudio.