![EncabezadoIN.JPG](attachment:EncabezadoIN.JPG)

## Tarea de Regresión

Con este cuaderno volvemos a la rama de aprendizaje supervisado, trabajando ahora con una variable objetivo continua. Para esto, vamos a utilizar regresiones lineales que, como vimos en clase, nos permiten predecir una variable continua utilizando otras variables numéricas en los datos.

## Caso

SpotiAlpes quiere desarrollar una herramienta que permita predecir que tan *bailable* es una canción. Esta característica quiere utilizarse para realizar listas de reproducción automáticas y recomendar mejores canciones a sus usuarios. Aunque en el pasado esta variable era extraída por expertos, debido al volumen de nuevas canciones que recibe la empresa, es necesario encontrar una forma de hacer esto de forma automática. Usted ha sido contratado para desarrollar un modelo que asigne automáticamente la *bailabilidad* de una canción según los otros valores disponibles.

A usted se le entregará un conjunto con valores históricos etiquetados y otro reciente sin etiquetar. Se pretende que usted use el modelo para etiquetar los datos recientes.

## 1. Carga de librerías necesarias para implementación

In [None]:
seed = 161
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Composicion de pipelines
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import MinMaxScaler

# Regresion lineal
from sklearn.linear_model import LinearRegression

# Importar/ Exportar modelos
from joblib import dump, load

# Metricas
from sklearn.metrics import mean_squared_error as mse

# q-q plots
import scipy.stats as stats

## 2. Cargar y limpieza de los datos

In [None]:
# Se cargan los datos. 
df_original = pd.read_csv('data/PrepTracksRegresionHistoricos.csv')
df_tracks = df_original.copy()
print(df_tracks.shape)
df_tracks.head(5)

In [None]:
df_recent = pd.read_csv('data/PrepTracksRegresionRecientes.csv')
print(df_recent.shape)
df_recent.head(5)

## 3. Perfilamiento y Entendimiento de los Datos 

Para las regresiones lineales, es necesario trabajar con variables numéricas. En este caso vamos unicamente a seleccionarlas, pero recuerde que existen técnicas para convertir variables categóricas a numéricas que también funcionan en este contexto

In [None]:
df_num = df_tracks.select_dtypes(['number']).copy()
df_num.describe()

In [None]:
# Eliminamos los registros que tienen la variable objetivo nula
df_tracks = df_tracks.dropna(subset = ['danceability'])

### 3.1 Búsqueda de relaciones entre variables (diagramas de dispersión)

Buscamos cuales de las columnas tienen una *relacion* con danceability

In [None]:
sns.pairplot(df_num, height=3, y_vars = 'danceability', x_vars = df_num.columns[0:5], kind='scatter')
sns.pairplot(df_num, height=3, y_vars = 'danceability', x_vars = df_num.columns[5:10], kind='scatter')
sns.pairplot(df_num, height=3, y_vars = 'danceability', x_vars = df_num.columns[10:], kind='scatter')


De las graficas anteriores vemos que unos buenos candidatos son:
* energy
* loudness
* acousticness
* valence

### 3.2 Búsqueda de relaciones entre variables (Matriz de correlaciones)

Buscamos cuales de las columnas tienen una *relacion* con danceability pero ahora usando correlaciones

In [None]:
f = plt.figure(figsize=(19, 15))
plt.matshow(df_num.corr(), fignum=f.number, cmap = 'seismic')
plt.xticks(range(df_num.select_dtypes(['number']).shape[1]), df_num.select_dtypes(['number']).columns, fontsize=14, rotation=45)
plt.yticks(range(df_num.select_dtypes(['number']).shape[1]), df_num.select_dtypes(['number']).columns, fontsize=14)
cb = plt.colorbar()
_ = cb.ax.tick_params(labelsize=14)


Este método arroja valores similares

## 4.Regresión Básica
Realizamos una regresión básica y luego la utilizamos para asignar la columna *danceability* de los datos recientes.

Se quiere generar un unico modelo que podamos exportar y que pueda ser usado en producción para asignar nuevos valores

In [None]:
# Preprocesamiento
# Se usa un transformador para seleccionar unicamente las columnas que se quieren usar
selected_cols = ['energy','loudness','acousticness','valence']

pre = [('initial',ColumnTransformer([("selector", 'passthrough',selected_cols)])),]


In [None]:
# Modelo
model = [('model', LinearRegression())]

In [None]:
# Decalra el pipeline
pipeline = Pipeline(pre+model)

In [None]:
# Extraemos las variables explicativas y objetivo para entrenar
X = df_tracks.drop('danceability', axis = 1)
y = df_tracks['danceability']

pipeline = pipeline.fit(X,y)

In [None]:
# Visualizamos la regresion lineal en cada dimension
f, axs = plt.subplots(1, len(selected_cols), sharey=True, figsize = (12,4))

for i in range(len(selected_cols)):

    pos_col = i
    col = selected_cols[pos_col]

    # Variable x
    x = X[col]
    # Pendiente
    m = pipeline['model'].coef_[pos_col]
    # Interceto
    b = pipeline['model'].intercept_

    axs[i].plot(x, y, 'o', alpha = 0.1)
    axs[i].plot(x, x*m + b)
    axs[i].set_title(col)


## 5. Exportar e Importar el Modelo 

In [None]:
# Usamos la lbreria joblib
filename = 'pipeline.joblib'
# Se guarda
dump(pipeline, filename) 

In [None]:
# Se lee
p2 = load(filename)
p2

In [None]:
# Clasificamos los datos recientes
df_recent['danceability'] = p2.predict(df_recent)

In [None]:
sns.histplot(df_recent['danceability'])

## 6. Coeficientes

Los coeficientes de la regresión nos pueden dar información sobre la relación entre las variables observadas y la variable objetivo.

**Recuerde** La validez de estos coeficientes depende de que se cumplan correctamente las suposiciones de una regresión lineal.

In [None]:
pipeline['model'].coef_

In [None]:
# En DataFrame
pd.DataFrame({'columns':selected_cols, 'coef':pipeline['model'].coef_})

Note que **NO** hemos transformado las variables observadas. ¿Que sucede con los coeficientes si las columnas no se encuentran todas en la misma escala?

**Ejercicio**:  
Agregue un transformador a la parte de preprocesamiento del pipeline para reescalar todas las columnas para que se encuentren entre 0 y 1.

Ayuda: puede usar la clase *MinMaxScaler* de *sklearn.preprocessing*.


In [None]:
# TODO


In [None]:
# Vuelve a imprimir los coeficientes
pd.DataFrame({'columns':selected_cols, 'coef':pipeline['model'].coef_})


¿Qué cambió?

## 7. Métricas de un Modelo

### 7.1 Coeficiente de Determinación $R^2$

La primera métrica que tenemos es el coeficiente de determinación ($R^2$). Este valor indica que porcentaje de la varianza en la variable objetivo se puede explicar con las variables observadas. Este se define como:
$$ R^2 =  1 - \frac{\sum_{i=1}^{n} (y_i - f_i)^2}{\sum_{i=1}^{n} (y_i - \hat{y})^2}$$

donde $y_i$ es el elemento $i$ de la varaible objetivo, $f_i$ el elemento i de los valores predecidos y:

$$ \hat{y} = \frac{1}{n} \sum_{i=1}^{n} y_{i} $$

In [None]:
p2.score(X,y)

¿Cómo podemos interpretar este valor?

### 7.2 Root-Mean-Square Error (RMSE) 
La segunda medida es la raiz del error cuadrático medio, definido como:

$$ RSME = \sqrt{\frac{\sum_{i=1}^{n} (y_i - f_i)^2}{n}} $$

In [None]:
y_true = y
y_predicted = p2.predict(X)

# Note que hay que sacarle la raiz al valor
np.sqrt(mse(y_true, y_predicted))

¿Cómo podemos interpretar este valor?

## 8. Supuestos de la Regresión Lineal

### 8.1 Colinealidad
Es necesario que las columnas utilizadas no tengan (o tengan muy poca) colinealidad. La forma mas sencilla de hacer esto es con la matriz de correlación

In [None]:
df_temp = df_tracks[selected_cols]


f = plt.figure(figsize=(5, 5))
plt.matshow(df_temp.corr(), fignum=f.number, cmap = 'seismic')
plt.xticks(range(df_temp.select_dtypes(['number']).shape[1]), df_temp.select_dtypes(['number']).columns, fontsize=14, rotation=45)
plt.yticks(range(df_temp.select_dtypes(['number']).shape[1]), df_temp.select_dtypes(['number']).columns, fontsize=14)
cb = plt.colorbar()
_ = cb.ax.tick_params(labelsize=14)

Vemos que existe una alta colinealidad entre *energy*, *loudness* y *acousticness*.

**Ejercicio:**  
Revisar que sucede con el $R^2$ al utilizar unicamente una de las tres columnas con alta colinealidad. ¿Cuál de las columnas es mejor si se usa individualmente?¿Qué ventajas tiene una regresión con pocas variables explicativas? 

In [None]:
# TODO

### 8.2 Linealidad
Es necesario que la relación entre cada variable explicativa y la varable objetivo sea lineal. Muchas veces la mejor forma de ahcer esto es visualmente:
![lineal.png](attachment:lineal.png)

In [None]:
sns.pairplot(df_tracks, height=3, aspect = 2, y_vars = 'danceability', x_vars = ['energy','valence'], kind='scatter', plot_kws = {'alpha':0.1})

¿Será que energy y danceability tienen una relación no lineal?

In [None]:
# Revisamos

# Creamos la variable
X = df_tracks[['energy']].copy()
X['energy_2'] = X['energy']**2

# columna
col = 'energy_2'

pre = [('initial',ColumnTransformer([("selector", 'passthrough',[col])])),
       ('imputer', SimpleImputer(missing_values=np.nan, strategy='median')),
       ('scaler', MinMaxScaler())]

model = [('model', LinearRegression())]

p_temp = Pipeline(pre+model)

p_temp = p_temp.fit(X,y)

print(f"{col}: {p_temp.score(X,y)}")

### 8.3 Normalidad en los Errores

Otra suposición de la regresión lineal es que los errores tienen una distribución normal. Para esto se puede usar:
* Grafico de dispersión entre los errores y el valor predicto
* Grafico Q-Q

**Dispersión**
![dist.png](attachment:dist.png)

**Q-Q Plots**
![dist2.png](attachment:dist2.png)

Veamos a ver como se ven estos graficos sobre nuestros datos

In [None]:
X = df_tracks.drop('danceability', axis = 1)
y = df_tracks['danceability']

# Calculamos los errores
errors = (p2.predict(X) - y).values

fig, axes = plt.subplots(1, 2, figsize = (12,4))

# Dispersión
sns.scatterplot(x = p2.predict(X), y = errors, alpha = 0.1, ax = axes[0])

# q-q plot
_ = stats.probplot(errors, dist="norm", plot=axes[1])

Una buena estrategia para esto es buscar valores atipicos en la variable objetivo y removerlos del conjunto de entreno.

In [None]:
# Diagrama de caja
fig=plt.figure(figsize=(12,4))
ax = sns.boxplot(data= df_tracks[['danceability']], orient="h")

**Ejercicio**:  
Elimine los valores atipicos superiores en la variable objetivo y genere un nuevo estimador que utilice las columnas: *energy* y *valence*. Guarde el estimador en una variable llamda *p3*.

In [None]:
# TODO

In [None]:

# Calculamos los errores
errors = (p3.predict(X) - y).values

fig, axes = plt.subplots(1, 2, figsize = (12,4))

# Dispersión
sns.scatterplot(x = p3.predict(X), y = errors, alpha = 0.1, ax = axes[0])

# q-q plot
_ = stats.probplot(errors, dist="norm", plot=axes[1])

### 8.4 Varianza Constante (Homocedasticidad)

Esta suposición exige que la varianza en los errores se mantenga constante a medida que varia la variable objetivo. Al igual que otras suposiciones anteriores, la mejor forma de identificar esto es visualmente, graficando la variable objetivo contra los errores. 

![variance.png](attachment:variance.png)

In [None]:
# Visualizamos nuestros datos
sns.scatterplot(data  = df_clean, x = 'danceability', y = errors, alpha = 0.1)

Una mala grafica puede indicar que se necesita una transformación, o que hace falta una variable extra.

**Ejercicio**:  
Cree un nuevo estimador que incorpore transformaciones polinomiales de las variables de entrada. Es decir, que incluya por ejemplo *energy* al cuadrado, *valence* al cuadrado y *energy* por *valence*. Llame este nuevo estimador *p4*. Recuerde entrenarlo con los datos sin valores atipicos *df_clean*

Ayuda: puede usar la clase *PolynomialFeatures* de *sklearn.preprocessing*.

In [None]:
# TODO

In [None]:
# Revisamos las graficas

# Calculamos los errores
errors = (p4.predict(X) - y).values

fig, axes = plt.subplots(1, 3, figsize = (14,4))

# Dispersión
sns.scatterplot(x = p4.predict(X), y = errors, alpha = 0.1, ax = axes[0])

# q-q plot
_ = stats.probplot(errors, dist="norm", plot=axes[1])

sns.scatterplot(data  = df_clean, x = 'danceability', y = errors, alpha = 0.1, ax = axes[2])

## 9 Final
Usamos el último estimador (el mejor) para clasificar los datos recientes

In [None]:
df_recent.drop('danceability', axis = 1, inplace = True)
df_recent['danceability'] = p4.predict(df_recent)
sns.histplot(df_recent['danceability'])