# Clase 19 - Regresión Lineal

## Regresión


La regresión es un problema de aprendizaje supervisado que consiste en generar modelos que sean capaces de asignar un valor real (target) a un conjunto de observaciones (atributos).


Uno de los ejemplos más clásicos (que incluso usamos al comienzo del curso) es, dados los atributos de una vivienda, construir modelos que permitan asignarle un precio de forma automatizada. 



## Regresión Lineal

Sea un conjunto de ejemplos etiquetados (i.e., vectores de $D$ características con sus respectivos targets)
$\{(\mathbf{x}^{(i)}, y^{(i)}) \}_{i=1}^{N}$ respectivamente y con N la cantidad de ejemplos. $x_j^{(i)}$ con $j = 1, \dots, D$ es el vector de características que describe al ejemplo $i$


Una Regresión Lineal consiste en la construcción de un modelo $f_{w,b} = wx + b$ orientado a predecir el target usando una combinación lineal de las características de cada ejemplo de la forma: 

$$f_{\mathbf{w}, b}(x) = \mathbf{wx} + b$$

$$f_{\mathbf{w}, b}(x) = w_{0} x_0 + w_1 x_1 + \dots + w_n x_n$$

En donde $\mathbf{w}$ es el vector de parámetros de tamaño $D$ (que define una pendiente en un hiperplano) y $b$ el intercepto. 
En este caso, se dice que el modelo construido $f_{\mathbf{w}, b}$ está *parametrizado* por $\mathbf{w}$ y $b$.

$f_{\mathbf{w}, b}(x)$ también se le denomina $\hat{y_i}$, el cuál es simplemente el valor predicho por el modelo.


Cada posible combinación de los parámetros generará una regresión distinta. Por ende, la idea es encontrar el conjunto de parámetros que más se ajusten a los datos.


In [None]:
import pandas as pd
import plotly.express as px

df = pd.read_csv('https://raw.githubusercontent.com/maranedah/MDS7202/main/clases/Clase%2019%20-%20Regresi%C3%B3n%20Lineal/resources/auto-mpg.csv')
fig = px.scatter(
    df,
    x='displacement',
    y='mpg',
    template='plotly_white',
    color='mpg',
    hover_name='car name',
    trendline='ols', # este parámetro permite calcular rápidamente la regresión sobre x e y.
    title=
    "Cilindrada de Distintos Automóviles con Respecto a su Rendimiento (mpg)<br>"
    "<sub>La linea representa una regresión lineal calculada sobre ambas variables.</sub>"
)
fig.show()


Para encontrar una buena configuración de parámetros, intentaremos minimizar la siguiente expresión: 


$$\text{Mean Squared Error (MSE)} = \frac{1}{N}\sum_{i=1\dots n} (y_i - f_{\mathbf{w}, b} (x_i))^2 = \frac{1}{N}\sum_{i=1\dots n} (y_i - \hat{y_i})^2$$



En terminos prácticos, MSE es una medida que penaliza que tan mal predice el modelo. Para esto, promedia los cuadrados de la diferencias entre los valores predichos y los valores reales. 

<div align='center'>
<br>
<img src='https://i.ibb.co/jRJ0xxh/mse.png' width=600 />
<br>
    Fuente: <a href='https://vitalflux.com/mean-square-error-r-squared-which-one-to-use/'>Mean Squared Error or R-Squared – Which one to use?</a>.  
</div>
    


En general, las expresiones (como MSE) que buscan maximizar/minimizar valores se les conoce como **función objetivo/función de costo**, mientras que $(f_{\mathbf{w}, b} (x_i) - y_i)^2$ se le denomina **función de pérdida**, la cual se define como el costo/penalización de predecir mal un ejemplo $x_i$.



### Entrenamiento del Modelo

El entrenamiento de los modelos basados en funciones de costo consiste en encontrar los parámetros que permitan reducir al máximo el valor que toma dicha función. En el caso de la regresión lineal, es posible encontrar una expresión analítica (i.e., una fórmula) que permite minimizar la función de costo: Minimos cuadrados.
En este caso, solo veremos el cálculo para una regresión con solo un atributo.

$$\text{Mean Squared Error (MSE)} = \frac{1}{n}\sum_{i=1}^n (y_i - x_i w - b)^2$$



La idea principal detrás de este método es calcular la derivada de MSE sobre cada parámetro ($w$ y $b$) y luego igualar a 0. 

$$\frac{\partial  MSE}{\partial  w} = 0 \leftrightarrow  -2 \sum_{i=1}^{n} (y_i - x_i w - b) x_i = 0$$
$$\frac{\partial  MSE}{\partial b} = 0 \leftrightarrow  -2 \sum_{i=1}^{n} (y_i - x_i w - b) = 0$$


Las ecuaciones anteriores nos permiten calcular $w$ y $b$ un sistema de ecuaciones. Luego de bastantes operaciones algebraicas: 


$$w = \frac{\sum_{i=0}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=0}^{n}(x_i - \bar{x})^2 }$$

$$b = \bar{y} - w\bar{x}$$

Noten que para $w$, la expresión del dividendo es muy similar al cálculo de una correlación entre los atributos y la variable a predecir.
Por otra parte, el divisor es muy similar al cálculo de la varianza de $x$.

In [None]:
# cálculo a mano!

x = df['displacement']
y = df['mpg']

w = sum((x - x.mean()) * (y - y.mean())) / sum((x - x.mean())**2)
b = y.mean() - w * x.mean()

In [None]:
print(f'f(x) = {round(w, 3)}x + {round(b, 3)}')

In [None]:
fig = px.scatter(
    df,
    x='displacement',
    y='mpg',
    template='plotly_white',
    color='mpg',
    hover_name='car name',
    trendline='ols', # este parámetro permite calcular rápidamente la regresión sobre x e y.
    title=
    "Cilindrada de Distintos Automóviles con Respecto a su Rendimiento (mpg)<br>"
    "<sub>La linea representa una regresión lineal calculada sobre ambas variables.</sub>"
)
fig.show()


## Métricas de Rendimiento de Regresión


### Mean Squared Error 

Una de las principales opciones es utilizar la misma función de costo con la cuál se entrena una Regresión Lineal. Sin embargo, esta cuenta con métricas similares que intentan cuantificar el error de la misma manera:


#### RMSE - Root Mean Squared Error

Esta variante consiste en calcular la raíz cuadrada de MSE. La idea principal de esta métrica es que el error sea interpretable ya que queda con la unidad que se está prediciendo. 

 $$RMSE = \sqrt{\frac{1}{N}\sum_{i=1\dots n} (y_i - \hat{y_i})^2}$$
 
 
#### MAE - Mean Absolute Error

Esta variante no calcula el error de forma cuadrática, si no que lo hace simplemente con un valor absoluto

 $$MAE = \frac{1}{N}\sum_{i=1\dots n} |y_i - \hat{y_i}|$$
 
 

#### MAE - Median Absolute Error

Esta variante, muy similar a la anterior, calcula la mediana en vez de la media de las diferencias.

 $$MedAE = median(|y_1 - \hat{y_1}|, \dots, |y_n - \hat{y_n}|)$$
 
La particularidad de esta formulación es que, a diferencia de la anterior, es resistente a outliers gracias al su cálculo basado en la media.

### Coeficiente de Determinación R²

El Coeficiente de Determinación R² es un puntaje que representa la proporción de varianza de los valores predichos por el modelo con respecto a la los target reales.


$$R^2 (y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y_i})^2}{\sum_{i=1}^n (y_i - \bar{y})^2}$$

En donde $y_i$ es el valor real del target de un ejemplo $x_i$, $\hat{y_i}$ es el valor predicho por el modelo y $\bar{y}$ es la media de los targets reales ($\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i$).
$\sum_{i=1}^{n} (y_i - \hat{y_i})^2$ también se conoce como suma de cuadrática de los residuos.


<div align='center'>
<br>
<img src='https://i.ibb.co/w7WkR0Q/r2.png' width=600 />
<br>
<div> 
    Coeficiente de Determinación en <a href='https://en.wikipedia.org/wiki/Coefficient_of_determination'>Wikipedia (Inglés)</a>.
    <br>
En esta infografía, se explica el R² como 1 menos la suma del area los cuadrados azules dividida por la suma de los cuadrados rojos.
    
<br>    
</div>
    
<br>

Puede ser útil pensar que lo que se está comparando es un modelo baseline que siempre predice la media (el de la izquierda) con respecto a un modelo entrenado. Luego, la proporción indica que tanto mejora el modelo entrenado con respecto al baseline. 


El mejor puntaje posible es 1 (los mejores están cercanos a este) y este puede ser negativo (con modelos extremadamente malos).
    
    
---

### Auto-mpg dataset

Para ejemplicar una Regresión Lineal, usaremos el dataset [Auto-mpg dataset](https://www.kaggle.com/uciml/autompg-dataset), el cual, dado distintas características de autos antiguos, intenta predecir el consumo de galones por milla (miles per gallon, mpg)

![Auto-mpg dataset](https://storage.googleapis.com/kaggle-datasets-images/1489/2667/d7895dcd2db5e0cfda19c3edc2f2d410/dataset-cover.jpg)

<div align='center'>
Fuente: Competencia en Kaggle.
</div>


Son 398 autos. Los atributos que los describen son:

    - mpg: continuous
    - cylinders: multi-valued discrete
    - displacement: continuous
    - horsepower: continuous
    - weight: continuous
    - acceleration: continuous
    - model year: multi-valued discrete
    - origin: multi-valued discrete
    - car name: string (unique for each instance)

In [None]:
import pandas as pd
import plotly.express as px

df = pd.read_csv('https://raw.githubusercontent.com/maranedah/MDS7202/main/clases/Clase%2019%20-%20Regresi%C3%B3n%20Lineal/resources/auto-mpg.csv')
df = df.dropna()
df

In [None]:
px.scatter_matrix(df.drop(columns=['car name', 'origin']),
                  title='Scatter Matrix mpg Dataset',
                  height=800,
                  template='plotly_white',
                  color='mpg',
                  color_continuous_scale='Viridis',
                  hover_name='mpg',
                 ).update_traces(diagonal_visible=False, showupperhalf=False)

In [None]:
features = df.drop(columns=['car name', 'mpg'])
target = df['mpg']

features.columns

En el caso de usar todos los atributos, cada observación $\mathbf{x_i}$ estará compuesta por `'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin'` y etiquetada con el target a predecir `mpg` (millas por galón). Al igual que en la clasificación, para entrenar el modelo se separa el dataset en entrenamiento y prueba.



In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test  = train_test_split(
    features, target, shuffle=True, train_size=0.3, random_state=33
)

In [None]:
X_train.head(3)

In [None]:
y_train.head(3)

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, OrdinalEncoder

preprocessing = ColumnTransformer(
    [
        ("standard", StandardScaler(), ["displacement", "weight", "acceleration"]),
        ("ohe", OneHotEncoder(drop='first'), ["origin"]),
        ("ordinal", OrdinalEncoder(), ["cylinders", "model year"]),
    ]
)

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression

pipe = Pipeline([('preprocesamiento', preprocessing),
                 ('regresor', LinearRegression())])

In [None]:
pipe.fit(X_train, y_train)

In [None]:
y_pred = pipe.predict(X_test)

In [None]:
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error, median_absolute_error

def evaluate(y_test, y_pred):

    print('MSE:', mean_squared_error(y_test, y_pred), '\n')
    print('RMSE:', mean_squared_error(y_test, y_pred, squared=False))
    print('MAE:', mean_absolute_error(y_test, y_pred))
    print('MedAE:', median_absolute_error(y_test, y_pred), '\n')
    print('R²:', r2_score(y_test, y_pred))
    
    
evaluate(y_test, y_pred)

In [None]:
print('Coeficientes de la Regresión (w_i) por Atributo:\n\n', pipe[-1].coef_.round(3))

In [None]:
pipe[-1].intercept_ 

### Regularización

Regularización es un conjunto de técnicas que fuerzan a la regresión a generar modelos no tan complejos y así evitar el overfitting.

<div align='center'>
<img src='https://i.ibb.co/kHySW6g/tipos-fit.png' width=800/>
</div>

La idea por detrás es simple: para crear modelos regularizados se agregan distintas penalizaciones a la función objetivo (MSE). Estas penalizaciones aumentan el valor de MSE a medida que el modelo se hace más complejo (i.e., a medida que los parámetros $w_i$ se hacen más grandes).

Las penalizaciones más comunes consisten en agregar a MSE el cálculo de una norma

- **L2** sobre los parámetros, también conocida como *Rigde*,  
- **L1** sobre los parámetros, también conocida como *Lasso*
- **Elastic-Net**, la cuál es una combinación de las anteriores.


La idea fundamental de esto es que ningún parámetro sea mucho más grande que el resto. Al penalizar los parámetros grandes, este tipo de técnicas forzará que todos los $w_i$ sean los más cercanos a 0.


#### Ridge 

Como dijimos anteriormente, Ridge agrega una penalización L2 sobre la función objetivo:

$$MSE = \frac{1}{N}\sum_{i=1\dots n} (y_i - f_{\mathbf{w}, b} (x_i))^2  + \alpha ||w||^2$$ 

en donde $||w||$ es la norma se define como $||w||^2 = \sum_{i=1}^D (w_i)^2$ y $\alpha$ es un hiperparámetro que controla la importancia de la regularización. 

Mientras menor sea $\alpha$, menor efecto tendrá la regularización. Por otra parte, mientras mayor sea, es más posible que la regresión no sea capaz de aprender lo suficientemente bien, lo que puede llevar a un *underfitting*

L2 en general tiende a dar mejores resultados que una regresión normal cuando hay muchos atributos.

In [None]:
from sklearn.linear_model import Ridge

rigde_pipe = Pipeline([('preprocesamiento', preprocessing) , 
                       ('regresor', Ridge())])
rigde_pipe.fit(X_train, y_train)

ridge_y_pred = rigde_pipe.predict(X_test)

evaluate(y_test, ridge_y_pred)


#### Lasso

Por otra parte, Lasso agrega una penalización L1 sobre la función objetivo:


$$MSE = \frac{1}{N}\sum_{i=1\dots n} (y_i - f_{\mathbf{w}, b} (x_i))^2  + \alpha |w|$$ 

en donde $|w|$ es la suma de los valores absolutos de los parámetros y se define como $|w| = \sum_{i=1}^D |w_i|$ y $\alpha$ es un hiperparámetro que controla la importancia de la regularización. 

Al igual que el caso anterior, mientras menor sea $\alpha$, menor efecto tendrá la regularización. Por otra parte, mientras mayor sea, es más posible que la regresión no sea capaz de aprender lo suficientemente bien, lo que puede llevar a un *underfitting*

Lasso produce modelos sparse, es decir, modelos que muchos de las pendientes de los atributos es igual a 0.
En términos prácticos, produce una selección de atributos al conservar solo los atributos más relevantes para predecir.
Esto permite tener interpretabilidad del modelo al saber cuales son las variables conservadas y cuales son las descartadas.

In [None]:
from sklearn.linear_model import Lasso

lasso_pipe = Pipeline([('preprocesamiento', preprocessing) , 
                       ('regresor', Lasso(alpha=0.1))])

lasso_pipe.fit(X_train, y_train)

lasso_y_pred = lasso_pipe.predict(X_test)
evaluate(y_test, lasso_y_pred)

In [None]:
print('Coeficientes de la regresión (w_i) usando Lasso por Atributo:\n\n', lasso_pipe[-1].coef_.round(3))

https://www.youtube.com/watch?v=Xm2C_gTAl8c

#### Elastic-Net

Por último, Elastic-Net combina ambas penalizaciones utilizando un coeficiente $\rho$ que las pondera.


$$MSE = \frac{1}{N}\sum_{i=1\dots n} (y_i - f_{\mathbf{w}, b} (x_i))^2  + \alpha \rho |w| + (1-\rho) \alpha ||w||_2$$ 

In [None]:
from sklearn.linear_model import ElasticNet

en_pipe = Pipeline([('preprocesamiento', preprocessing) ,
                    ('regresor', ElasticNet(alpha=0.01))])
en_pipe.fit(X_train, y_train)

en_y_pred = en_pipe.predict(X_test)

evaluate(y_test, en_y_pred)

### Otros Modelos


Scikit-learn implementa una gran variedad de [modelos lineales](https://scikit-learn.org/stable/modules/linear_model.html#multi-task-elastic-net) que mejoran la regresión lineal simple. Entre estos podemos encontrar:

- [Bayesian Regression](https://scikit-learn.org/stable/modules/linear_model.html#bayesian-regression) por ejemplo, el cual en el entrenamiento del modelo se estiman los parámetros de la regularización L2.
- [Logistic Regression](https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression) la cual adapta una regresión para poder clasificar, todo a través de adaptar la regresión para calcular una probabilidad de que un ejemplo pertenezca a cierta clase (usando la función sigmoidal).
- Etc...