# Regresión lineal

Importamos las librerías que vamos a utilizar

In [1]:
import numpy as np #operaciones matriciales y con vectores
import pandas as pd #tratamiento de datos
import matplotlib.pyplot as plt #gráficos
from sklearn import datasets, linear_model #datasets y modelos de aprendizaje automático (ML)
from sklearn.model_selection import train_test_split #metodo de particionamiento de datasets para evaluación
from sklearn.metrics import mean_squared_error, r2_score
import seaborn as sns

from scipy import stats #para poder hacer cálculos científicos --> valores p
import statsmodels.api as sm

## Preparación de los datos

Vamos a cargar en un **dataframe** de ***pandas*** un dataset muy utilizado para explicar conceptos de aprendizaje del repositorio de Machine Learning alojado en la Universidad De California en Irvine (UCI), que contiene información acerca de automóviles y su rendimiento en millas por galón (MPG).

In [2]:
data = pd.read_csv("http://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data-original",
                   delim_whitespace = True, header=None,
                   names = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration',
                            'model', 'origin', 'car_name'])
print(data.shape)
data.head()

(406, 9)


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model,origin,car_name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0,buick skylark 320
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0,plymouth satellite
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0,amc rebel sst
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0,ford torino


Hay 406 registros con 9 variables.
Vamos a analizar si hay problemas de datos con respecto a valores faltantes y outliers

In [None]:
data.describe().transpose()

Al parecer a primera vista no hay outliers, pero si hay valores faltantes (columna count no es de 406 para todas las variables).

Además podemos ver que las escalas de las variables son bastante disparejas, con los valores de peso que van de 1600 a 5100, y los de los cilindros de 3 a 8. Es necesario reescalar los datos para otorgarle la misma importancia a cada variable dentro del modelo.

### Vamos a ver que variables tienen valores faltantes

In [None]:
data.info()

In [None]:
print(pd.isnull(data).any(0)) #el 0 implica cualquier columna, si quisieramos las filas utilizamos 1
print("Las columnas que tienen valores faltantes son: ",pd.isnull(data).any(0).to_numpy().nonzero()[0])
print("y corresponden a: ", data.columns[pd.isnull(data).any(0).to_numpy().nonzero()[0]])

Tanto mpg como horsepower tienen valores faltantes, pero no son muchos.
Hay al menos 8 registros con valores faltantes.

Podemos encontrar los índices de las filas con los valores faltantes y eliminarlos del dataset.
También podemos directamente eliminarlos con un comando de pandas.
Vamos a hacer las dos operaciones.

Encontramos entonces los índices con registros incompletos.

In [None]:
indices = pd.isnull(data).any(1).to_numpy().nonzero()[0]
print("Hay {} registros incompletos: ".format(len(indices)), indices)

In [None]:
data2 = data.drop(indices)
print("Datos originales: ", data.shape)
print("Datos limpios y completos: ", data2.shape)
print("Se eliminaron {} registos".format(data.shape[0] - data2.shape[0]))

También lo podemos hacer directamente con **dropna**

In [None]:
data2 = data.dropna()
print("Datos originales: ", data.shape)
print("Datos limpios y completos: ", data2.shape)
print("Se eliminaron {} registos".format(data.shape[0] - data2.shape[0]))

In [None]:
data = data2

## Aprendizaje del modelo de regresión

Vamos a ignorar por ahora el hecho de que las variables no siguen la misma escala. Más adelante nos ocuparemos de ese problema.

Vamos a crear un modelo de regresión lineal que permita obtener *mpg* a partir de algunas (5 de ellas) de las demás variables independientes del dataset

In [None]:
indep_vars = ['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration']
dep_vars = ['mpg']

In [None]:
indep_data = data[indep_vars]
dep_data = data[dep_vars]

Tenemos un dataframe con los datos de las variables independientes y otro con los de la variable dependiente.

Vamos ahora a partir cada dataframe en 2 de manera aleatoria: 67% de los datos se utilizarán para aprender el modelo, y 33 para evaluarlo.

In [None]:
train_x, test_x, train_y, test_y = train_test_split(indep_data, dep_data, test_size=0.33, random_state=42)

In [None]:
print(train_x.shape)
print(train_y.shape)
print(test_x.shape)
print(test_y.shape)

Ya tenemos todos los datos preparados para lanzar el modelo de regresión lineal a partir de los datos de entrenamiento.
Lanzamos el método **fit** que se encarga de encontrar la mejor línea de ajuste, y consultamos los diferentes coeficientes encontrados para las variables independientes.

In [None]:
regr = linear_model.LinearRegression(normalize=True)
regr.fit(train_x, train_y)

Se estableció que se va a utilizar un modelo de regresión lineal, que por defecto incluye un coeficiente para la intercepción con la ordenada en el origen, y especificamos que deseamos normalizar los datos de las variables predictivas.

In [None]:
for var, coef in zip(indep_vars, np.squeeze(regr.coef_)):
    print("{}: {}".format(var, coef))
print("intercepción: {}".format(np.squeeze(regr.intercept_)))

## Predicción

Vamos a predecir la variable dependiente ajustada según el modelo para los datos de entrenamiento y para los datos de test

In [None]:
train_y_pred = regr.predict(train_x)
test_y_pred = regr.predict(test_x)
print(train_y_pred.shape)
print(test_y_pred.shape)

Veamos como nos va con las métricas de bondad de ajuste

In [None]:
print("MSE (train): %.4f" % mean_squared_error(train_y, train_y_pred))
print("MSE (test) : %.4f" % mean_squared_error(test_y, test_y_pred))
print('R2  (train): %.4f' % r2_score(train_y, train_y_pred))
print('R2  (test) : %.4f' % r2_score(test_y, test_y_pred))

Encontramos que la predicción con los datos de entrenamiento nos da mejores resultados que con los datos de aprendizaje: por un lado el MSE es menor y por otro lado el R2 es mayor con el training set.

Esto muestra que utilizar el mismo set de datos con el que se entrenó al modelo para evaluarlo causa una subestimación del error del modelo.

scikit-learn no ofrece el cálculo del R2 ajustado (viva Python!), por lo que lo calculamos a mano:

In [None]:
r2_aj_train = 1 - (1-r2_score(train_y, train_y_pred))*(len(train_y)-1) / (len(train_y) - train_x.shape[1] - 1)
print('R2 adj (train): %.4f' %r2_aj_train)
r2_aj_test = 1 - (1-r2_score(test_y, test_y_pred))*(len(test_y)-1) / (len(test_y) - test_x.shape[1] - 1)
print('R2 adj (train): %.4f' %r2_aj_test)

El valor del R2 ajustado corrige el valor del R2 con respecto a la complejidad dada por el número de variables independientes utilizadas, y permite comparar modelos de diferente número de predictores.

## Análisis de los coeficientes 

In [None]:
indep_vars

Para poder establecer la significancia de los coeficientes, es necesario realizar pruebas de hipótesis de los coeficientes de cada variable predictiva, comparándolos contra 0.

El problema es que **scikit-learn** no realiza estas pruebas, y no incluye muchas de las métricas (como el R2 ajustado), y hay que utilizar el package **statsmodel** (viva Python!).


Este proceso es bastante complicado, por lo que es a veces mejor conocer cómo obtener los valores p directamente, por lo que usamos el package **statsmodels**. Este paquete requiere adicionar una constante inicial a los datos predictores (correspondiente al valor del intercepto).

In [None]:
train_x2 = sm.add_constant(train_x)
print(train_x2.head())

In [None]:
modeloStats = sm.OLS(train_y, train_x2)
results = modeloStats.fit();
#Consultamos la calidad del modelo a partir de sus estadísticas
results.summary()

Encontramos que los parámetros cylinders, displacement y acceleration no son para nada significativos en el modelo.

También podemos ver que puede que haya problemas de multicolinearidad, como lo establece la 2a advertencia. Vamos a analizar la correlación entre las variables incluidas en el modelo.

In [None]:
# Calculamos la matriz de correlaciones
corr = train_x.join(train_y).corr()
corr

In [None]:
## Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(220, 10, as_cmap=True)

sns.heatmap(corr, cmap=cmap, vmax=.3, center=0,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})

Encontramos que *aceleration* está bastante correlacionada con las primeras cuatro variables independientes. Podríamos eliminarla y correr el modelo otra vez, pero vamos a preferir seguir un proceso más organizado de forward stepwise.

## Escogencia de variables usando forward stepwise

Empezamos por escoger como primera variable *weight*, pues es la que tiene la correlación más importante con *mpg*.

In [None]:
train_x2 = train_x[['weight']]
train_x2 = sm.add_constant(train_x2)
modeloStats = sm.OLS(train_y, train_x2)
results = modeloStats.fit();
print(results.rsquared_adj)

Partimos entonces de un modelo que solo incluyendo la variable *weight* obtiene un R2 ajustado de 0.703. Vamos a continuar la búsqueda del mejor modelo siguiendo el heurístico de forward stepwise.

**<span style="color:red">Taller:</span>** 
<span style="color:red">Buscar un mejor modelo intentando diferentes combinaciones de variables predictivas:</span>
- <span style="color:red">Utilizar el R2 Ajustado como criterio de evaluación.</span>
- <span style="color:red">Agregar las variables predictivas que mejor explican la variable dependiente MPG de manera iterativa utilizando la técnica de **forward stepwise** regression.</span>

In [None]:
...
...
...
... TODO
...
...

## Escogencia de variables usando backward stepwise

Empezamos por escoger todas la variables para crear un modelo inicial.

In [None]:
train_x3 = train_x[['weight', 'cylinders', 'displacement', 'horsepower', 'acceleration']]
train_x3 = sm.add_constant(train_x3)
modeloStats = sm.OLS(train_y, train_x3)
results = modeloStats.fit();
print(results.rsquared_adj)

Partimos entonces de un modelo que incluye todas las variables, y que obtiene un R2 ajustado de 0.727. Vamos a continuar la búsqueda del mejor modelo siguiendo el heurístico de backward stepwise.

**<span style="color:red">Taller:</span>** 
<span style="color:red">Buscar un mejor modelo intentando diferentes combinaciones de variables predictivas:</span>
- <span style="color:red">Utilizar el R2 Ajustado como criterio de evaluación.</span>
- <span style="color:red">Eliminar las variables predictivas que impiden obtener un mejor modelos al agregar ruido, utilizando la técnica de **backward stepwise** regression.</span>
</span>

In [None]:
...
...
...
... TODO
...
...