In [None]:
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from matplotlib import pyplot as plt

# Algoritmos de Regresión

**¿Qué es una regresión y para qué sirve?**   

Es una herramienta estadística que nos permite entender cómo y en qué medida se relaciona una variable con otra.

**Ejemplos reales:**   
- Cálculo de gastos a final de mes
- Predicción del consumo de electricidad del próximo día
- Estimación del máximo ritmo cardíaco de una persona

## Regresión lineal

### La regresión lineal en tu vida

Todos utilizamos la regresión lineal simple en nuestro día a día.  

**Por ejemplo**, vas al supermercado a comprar pollo que cuesta 5 €/Kg. Solo necesitas 400 gramos (0.4 Kg.) y quieres saber cuánto te va a costar. **¿Cómo lo calcularías?**

![meme calculo](../data/img/math-meme.gif)

#### Solución

**Regla de tres**

![regla de tres](../data/img/formula-regla-de-3-img1.png)

$x = 5 * 0.4 / 1 = 2 $

In [None]:
5*0.4/1

### Ecuación de la recta

$Y = m * X + n $

Siendo:   
$ Y = variable 1 $  
$ X = variable 2 $  
$ m = pendiente $   
$ n = ordenada $

**Por ejemplo**   

En verano, cuanto más calor hace más helados como. Digamos quiero predecir cuantos helados voy a comer un día de verano. Para ello he medido durante dos días la temperatura que hacía y cuantos helados me he comido:
- Día 1: Hacía 30 grados y me he comido 3 helados
- Día 2: Hacía 33 grados y me he comido 5 helados

Con esta información y asumiendo que la relación entre las dos variables (temperatura y nº de helados que me he comido) es lineal, debería poder calcular cuántos helados voy a consimir al día siguiente mirando la temperatura del día siguiente. Pero primero, necesitamos averiguar cual es la ecuación de la recta de este caso:

Siendo:   
$ X_{1} = 30 $   $ Y_{1} = 3 $   
$ X_{2} = 33 $   $ Y_{2} = 5 $

Sustituimos en la ecuación de la recta:   
$ 3 = m*30 + n => 3 - 30*m = n $   
$ 5 = m*3 + n => 5 = m*33 + 3 - 30m => 2 = 3m => m=2/3 $   
$ 3 - 30*m = n => n = 3 - 30*2/3 => n = -17 $

La ecuación de la recta es:   
$ Y = 2/3 * X - 17 $

#### Pregunta
He mirado el tiempo de mañana y dice que hará 42 grados. ¿Cuántos helados me comeré según lo anterior?

#### Solución

$ Y = 2/3 * 42 - 17 $

In [None]:
2/3 * 42 - 17

### Regresión lineal simple

Imagina que además de ti, tus amigos también han recoigdo datos de cuantos helados se han comido otros días. ¿Qué pasa entonces?

Pongamos que los datos son los siguientes.

Yo:
- Día 1: Hacía 30 grados y me he comido 3 helados
- Día 2: Hacía 33 grados y me he comido 5 helados

Amigo 1:
- Día 1: Hacía 29 grados y me he comido 1 helados
- Día 2: Hacía 35 grados y me he comido 4 helados
- 
Amigo 2:
- Día 1: Hacía 32 grados y me he comido 6 helados
- Día 2: Hacía 38 grados y me he comido 15 helados

#### Pensad un momento, ¿cómo lo haríais?

Si has llegado a la conclusión de que con la ecuación de la recta no podéis resolverlo, estás en lo correcto. Vamos a ver porqué es imposible que haya una recta que que se ajuste a estos 3 pares de datos.

In [None]:
# Definimos los datos en arrays
temperaturas = np.array([30, 33, 29, 35, 32, 38])
helados = np.array([3, 5, 1, 4, 6, 15])

# Graficamos los datos en un scatter plot
fig = px.scatter(x=temperaturas, y=helados, opacity=0.65)
fig.show()

### Mínimos cuadrados

Cuando tenemos varios puntos para los que no existe una recta que los una a todos, pero aún así queremos obtener la recta que se queda más cerca de todos, necesitamos ajustarla lo mejor posible.

De forma visual haríamos algo tal que así:

<details>
  <summary>Click para abrir</summary>

![OLS fit](../data/img/visual_OLS.gif)

</details>

Para resolver esto matemáticamente, existe un método llamado Mínimos Cuadrados (Ordinary Least Squares) el cual podemos ejecutar en la librería scikit-learn como Linear Regression.

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
# Creamos el modelo de regresión lineal y lo "ajustamos" (fit) a nuestros datos
model = LinearRegression()
model.fit(temperaturas.reshape(-1, 1), helados)

# Predecimos cuantos helados nos comeremos según la temperatura
model.predict(np.array([36]).reshape(-1, 1))


In [None]:
# Graficamos la recta del la regresión lineal que hemos entrenado
x_range = np.linspace(temperaturas.min(), temperaturas.max(), 100)
y_range = model.predict(x_range.reshape(-1, 1))

fig = px.scatter(x=temperaturas, y=helados, opacity=0.65)
fig.add_traces(go.Scatter(x=x_range, y=y_range, name='Mejor recta posible'))
fig.show()

Como veis en el gráfico, este ajuste (habitualmente fit en inglés) no es perfecto e introduce un error (también llamado residuo) en las predicciones de los datos.

### Errores en las regresiones

El error de una regresión indica como de bien o mal se ajusta la regresión a los datos reales. Sin errores, no tendríamos una forma matemática de evaluar los modelos.

In [None]:
helados_predichos = model.predict(temperaturas.reshape(-1, 1))
error_simple = helados - helados_predichos
print(error_simple)

In [None]:
# Graficamos la recta del la regresión lineal que hemos entrenado prediciendo varios valores en el rango del gráfico
x_range = np.linspace(temperaturas.min(), temperaturas.max(), 100)
y_range = model.predict(x_range.reshape(-1, 1))

fig = px.scatter(x=temperaturas, y=helados, opacity=0.65, error_y=[0,0,0,0,0,0], error_y_minus=error_simple)
fig.add_traces(go.Scatter(x=x_range, y=y_range, name='Mejor recta posible'))
fig.show()

In [None]:
error_simple_medio = error_simple.mean()
error_simple_medio

In [None]:
error_absoluto_medio = np.abs(error_simple).mean()
error_absoluto_medio

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error

In [None]:
helados - model.predict(temperaturas.reshape(-1, 1))

In [None]:
print(f"mean_absolute_error:\n{mean_absolute_error(helados, helados_predichos)}\n")
print(f"mean_squared_error:\n{mean_squared_error(helados, helados_predichos)}\n")
print(f"mean_absolute_percentage_error:\n{mean_absolute_percentage_error(helados, helados_predichos)}\n")

### Regresión lineal multiple
Cuando el problema a resolver depende de más de una variable necesitamos generalizar la ecuación de la recta para poder predecir en base a distintas variables.

$Y = m_{1} * X_{1} + m_{2} * X_{2} + m_{3} * X_{3}... + n $

In [None]:
# Y
print(helados)
# X
print(temperaturas)

In [None]:
peso = [78, 78, 65, 65, 90, 90]
hizo_ejercicio = [0, 0, 0, 1, 0, 1]

In [None]:
variables = list(zip(temperaturas, peso, hizo_ejercicio))
variables

In [None]:
multi_lin_model = LinearRegression()
multi_lin_model.fit(variables, helados)

In [None]:
# Predecimos cuantos helados nos comeremos según la temperatura
multi_lin_model.predict([(36, 80, 1)])

In [None]:
mean_absolute_error(helados, multi_lin_model.predict(variables))

## Arboles de decisión

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn import tree

In [None]:
tree_model = DecisionTreeRegressor(random_state=42)
# tree_model = DecisionTreeRegressor(random_state=42, max_depth=3)
# tree_model = DecisionTreeRegressor(random_state=42, max_depth=3, max_leaf_nodes=2)
tree_model = tree_model.fit(variables, helados)

In [None]:
fig = plt.figure(figsize=(25,20))
tree.plot_tree(tree_model, feature_names=["temperatura", "peso", "hizo_ejercicio"], filled=True)
plt.show()

In [None]:
mean_absolute_error(helados, tree_model.predict(variables))

## Modelos "Ensemble"

> Un modelo "ensemble" es un método que combina las predicciones de múltiples modelos individuales para mejorar la robustez y precisión de las predicciones. 

Existen distintos tipos de modelo ensemble en función de cómo se "ensamblan" esos modelos individuales. Los dos más importantes son:
- Bagging (Bootstrap Aggregating)
- Boosting

![Bagging vs. Boosting](../data/img/bagging_boosting.jpeg)

### Bagging

#### Random Forest
1. Divide los datos en N conjusntos de datos aleatoriamente mezclados y pudiendo repetir muestras
2. Ajusta un arbol de decisión a cada conjunto
3. Promedia el resultado obtenido por cada arbol

![Random Forest](../data/img/random-forest_bootstrapping.png)

In [None]:
from sklearn.ensemble import RandomForestRegressor

In [None]:
random_forest_model = RandomForestRegressor(random_state=42, n_estimators=100)
# random_forest_model = RandomForestRegressor(random_state=42, n_estimators=1, bootstrap=False)
# random_forest_model = RandomForestRegressor(random_state=42, n_estimators=100, max_depth=3, max_leaf_nodes=2)
random_forest_model = random_forest_model.fit(variables, helados)

In [None]:
mean_absolute_error(helados, random_forest_model.predict(variables))

In [None]:
fig = plt.figure(figsize=(25,20))
tree.plot_tree(random_forest_model.estimators_[0], feature_names=["temperatura", "peso", "hizo_ejercicio"], filled=True)
plt.show()

### Boosting

#### Gradient Boosting
1. Coge todo el dataset y ajusta un primer árbol de decisión
2. Se calcula el target (Y) y también los errores (residuos)
3. Ajusta un segundo arbol de decisión pero en lugar de ajustarlo al target (Y) lo ajustamos a los errores del anterior paso
4. Se repite el paso 3 N veces
5. De todos los arboles ajustados, del segundo al último arbol, se coge el error predicho, se multiplica por el leanring_rate y se suma a la predicción inicial.

![Bagging vs. Boosting](../data/img/gradient_boost.webp)

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

In [None]:
# gradient_boost_model = GradientBoostingRegressor(random_state=42, n_estimators=100, learning_rate=0.1)
gradient_boost_model = GradientBoostingRegressor(random_state=42, n_estimators=1, subsample=1, criterion="squared_error", learning_rate=1, max_depth=None)
# gradient_boost_model = GradientBoostingRegressor(random_state=42, n_estimators=100, max_depth=3, max_leaf_nodes=2)
gradient_boost_model = gradient_boost_model.fit(variables, helados)

In [None]:
mean_absolute_error(helados, gradient_boost_model.predict(variables))

In [None]:
fig = plt.figure(figsize=(25,20))
tree.plot_tree(gradient_boost_model.estimators_[0][0], feature_names=["temperatura", "peso", "hizo_ejercicio"], filled=True)
plt.show()

## Conclusión
Resumen y comparación de los distintos modelos

**Regresión lineal**
- Ajuste muy rápido incluso en datasets grandes
- Muy fácilmente interpretable
- Dificil ajuste a distribuciones no lineales de datos
- Poder predictivo muy limitado
- Imposible overfitting (sobreajuste)

**Bagging (Random Forest)**
- Tiempo de ajuste crece con el volumen de datos y según los parámetros
- Interpretable aunque muy tedioso cuando escala
- Ajusta bien distribuciones no lineales de datos 
- Gran poder predictivo
- Bastante resistente a overfiting

**Boosting (Gradient Boost)**
- El tiempo de ajuste crece con el volumen de datos y según los parámetros
- Interpretable aunque muy tedioso cuando escala
- Ajusta bien distribuciones no lineales de datos 
- Poder predictivo muy alto
- Propenso a overfitting


**Extra:**
El Gradient Boosting ha sido una de las técnicas más populares de la última decada y se han desarrollado distintas implementaciones que mejoran la original en distintos aspectos:
- Aceleración del ajuste con distintas técnicas
- Mejora de poder de predicción
- Mayor resistencia a overfitting
  
Actualmente estos modelos son los mejores a la hora de predecir datos tabulares. Algunos de estos son:
- eXtreme Gradient Boosting (XGBoost)
- LightGBM
- CatBoost (Categorical Boosting)