# Regression

In [None]:
import pandas as pd
import numpy as np
import os
from sklearn import datasets, linear_model
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
from sklearn import preprocessing
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.float_format', lambda x: '%.3f' % x)


df = pd.read_csv(os.getcwd() + "\\data\\2008_small.csv",index_col = 0)

Construiremos una regresión simple con dos variables que claramente están relacionadas

In [None]:
df = df.dropna(subset = ["ArrDelay"]) # Elimiar NAs basándose en columnas de interés
df = df.sample(n = 100000)
df = df.drop(columns = ["Year", "Cancelled", "Diverted"])
Y = df["ArrDelay"]
X = df[["DepDelay"]]

In [None]:
df.head()

In [None]:
df.isna().sum()

In [None]:
df.corr()

In [None]:
df.columns

In [None]:
df.head().style.background_gradient(cmap='coolwarm')

In [None]:
df.corr().style.background_gradient(cmap='coolwarm')

Ajustamos el modelo general, que no requiere parámetros

In [None]:
regr = linear_model.LinearRegression() # Creas el modelo vacío
regr.fit(X, Y) # Aprende de los datos
Y_pred = regr.predict(X) # Usamos el modelo para generar predicciones 

In [None]:
Y

In [None]:
Y

In [None]:
Y_pred

Visualizamos los datos, a la vez que mostramos la recta de regresión (predicciones)

In [None]:
plt.scatter(X[0:10000],Y[0:10000],color = "black")
plt.plot(X[0:10000].values,Y_pred[0:10000],color="Blue")
plt.show()

In [None]:
sns.lmplot(x="DepDelay", y="ArrDelay", data = df, height=6)

Mostramos los coeficientes del modelo, y la métrica $R^2$, que indica un porcentaje de relación

In [None]:
print("Pendiente: ",regr.coef_) # Cuanto crece Y, por cada unidad de X
print("Intercept", regr.intercept_) #Punto de corte
print("R cuadrado: ",r2_score(Y, Y_pred)) # % de variabilidad de Y, explicado por X  (Bondad de ajuste)

# Y = Intercept + Pendiente * X

El 86 % de la variabilidad del retraso de llegada, viene explicado por el retraso de salida

Retraso de llegada = 1.018 * retraso de salida - 1.91 min

In [None]:
retraso salida: 10
retraso llegada: 1.018 * 10 - 1.91

Flojo < 0.3

Moderado < 0.7

Intenso >= 0.7

In [None]:
df[["ArrDelay", "DepDelay"]].corr().loc["ArrDelay","DepDelay"] ** 2

## Ejercicios

In [None]:
import seaborn as sns
dfCorr = df.corr()
filteredDf = dfCorr[((dfCorr >= .5) | (dfCorr <= -.5)) & (dfCorr !=1.000)]
filteredDf = filteredDf.dropna(how="all")
filteredDf = filteredDf.T.dropna(how="all")
plt.figure(figsize=(30,10))
sns.heatmap(filteredDf, annot=True, cmap="Reds")
plt.show()

1. Ajusta varios modelos lineales simples entre pares de variables que consideres relacionadas, escribiendo la ecuación correspondiente y mostrando el gráfico

2. Haz una evaluación de los modelos

3. (Difícil!!) Usando bucle(s), cruza todas las variables numéricas entre ellas, y muestra cuáles son los modelos más potentes

4. Representa gráficamente el error del modelo, cómo lo haríamos?

### Regresión Múltiple

El modelo de regresión realmente potente es el que considera muchas variables simultaneamente, no solamente una

In [None]:
df[["DepDelay","AirTime", "Distance", "TaxiIn", "TaxiOut"]].corr()

In [None]:
Y = df["ArrDelay"]
X = df[["DepDelay","AirTime","TaxiIn","TaxiOut"]]

regr = linear_model.LinearRegression()
regr.fit(X, Y) 
Y_pred = regr.predict(X) 

print("Pendiente: ",regr.coef_) #Cuanto se incrementa Y, por cada incremento de X, MANTENIENDO LAS DEMÁS VARIABLES CONSTANTES
print("Intercept", regr.intercept_) 
print("R cuadrado: ",r2_score(Y, Y_pred)) 

In [None]:
X = df[['AirTime','Distance','TaxiIn','TaxiOut']] 

df["DayOfWeek"] = df["DayOfWeek"].apply(str)

dummies = pd.get_dummies(data=df[['DayOfWeek']]) # Podemos añadirle Origin y Dest
X = pd.concat([X, dummies],axis=1)

In [None]:
X

In [None]:
regr = linear_model.LinearRegression()
regr.fit(X, Y)

print("Coeficientes: ",regr.coef_) # Cuanto crece Y, por cada unidad de X, manteniendo el resto de variables constantes
print("Intercept", regr.intercept_)
Y_pred = regr.predict(X)
print("R cuadrado: ",r2_score(Y, Y_pred))

In [None]:
X = df[['AirTime','Distance','TaxiIn','TaxiOut']] 

df["Month"] = df["Month"].apply(str)
df["DayofMonth"] = df["DayofMonth"].apply(str)
df["DayOfWeek"] = df["DayOfWeek"].apply(str)

dummies = pd.get_dummies(data=df[['Month', 'DayofMonth', 'DayOfWeek']]) # Podemos añadirle Origin y Dest
X = dummies.add(X,fill_value=0)

In [None]:
X

In [None]:
X.columns

In [None]:
regr = linear_model.LinearRegression()
regr.fit(X, Y)

print("Coeficientes: ",regr.coef_) # Cuanto crece Y, por cada unidad de X, manteniendo el resto de variables constantes
print("Intercept", regr.intercept_)
Y_pred = regr.predict(X)
print("R cuadrado: ",r2_score(Y, Y_pred))

¿Qué pasa cuando añadimos la variable más explicativa...?

In [None]:
X = X.add(df[["DepDelay"]],fill_value=0)

In [None]:
regr = linear_model.LinearRegression()
regr.fit(X, Y)

# print("Coeficientes: ",regr.coef_)
Y_pred = regr.predict(X)
print("R cuadrado: ",r2_score(Y, Y_pred))

In [None]:
print("Intercept", regr.intercept_)

In [None]:
print("Coeficientes: ",regr.coef_)

In [None]:
Y_pred

In [None]:
Y

### Ejercicios

1. Ajusta el modelo de regresión lineal simple con los datos de iris, intentando predecir la longitud del petalo

2. Mejora el modelo anterior usando todas las variables, incluida la especie

In [None]:
sns.lmplot(data=df,x = "sepal_length" ,y = "petal_length")

In [None]:
sns.lmplot(data=df,x = "sepal_length" ,y = "petal_length", hue = "species")

In [None]:
sns.lmplot(data=df[df.species == "setosa"],x = "sepal_length" ,y = "petal_length")

3. Ajusta un modelo de regresión (múltiple o simple) para cada una de las especies. Cuál funciona mejor?!
Te atreves a hacerlo con un bucle?

(EXTRA) 3.1 Convierte este código a función para usarlo con cualquier dataframe

4. El modelo de regresión lineal está fuertemente relacionado con la correlación entre columnas. Crea una matriz de correlaciones que muestre qué columnas tienen más relación entre ellas

# Validación interna y externa de los modelos

#### Diferencia principal
- Con la validación interna *hacemos trampas*, ya que evaluamos el modelo con los mismos datos con el que lo hemos entrenado.
- Con la validación externa, usamos unos datos para entrenar el modelo, y otros distintos para evaluarlo. Es mucho mejor, ya que el modelo "no conoce" los datos con los que va a ser evaluado

In [None]:
from sklearn.model_selection import train_test_split

df = pd.read_csv(os.getcwd() + "\\data\\2008.csv")
df = df.dropna(subset = ["ArrDelay"])
df = df.sample(frac=1).head(100000)

In [None]:
X = df[['AirTime','Distance','TaxiIn','TaxiOut']]  # Añadirle el DepDelay es hacer un poco de trampa, ya que hay mucha correlación...
# dummies = pd.get_dummies(data=df[['Month', 'DayofMonth', 'DayOfWeek']])
# X = dummies.add(X,fill_value=0)

Y = df['ArrDelay']

Creación del conjunto training y el conjunto test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=.2, random_state=1)

Evaluación interna

In [None]:
modelo = linear_model.LinearRegression()
modelo.fit(X_train, y_train)
prediccionesINTERNA = modelo.predict(X_train)
print("R2: ",r2_score(y_train, prediccionesINTERNA))

Evaluación externa

In [None]:
prediccionesEXTERNA = modelo.predict(X_test)
print("R2: ",r2_score(y_test, prediccionesEXTERNA))

PASO FINAL

In [None]:
regr = linear_model.LinearRegression()
regr.fit(X, Y)

### Enriquecer los modelos

Juntamos algunas de las nuevas variables que hemos aprendido a generar

In [None]:
from sklearn import preprocessing
from sklearn.preprocessing import PolynomialFeatures

# Columnas básicas
df = pd.read_csv(os.getcwd() + "\\data\\2008_small.csv",nrows = 5e5)
df = df.dropna(subset = ["ArrDelay"])
df = df[df.AirTime > 0]

df = df.sample(frac=1)

X = df[['AirTime','Distance','TaxiIn','TaxiOut']]

X.head()

In [None]:
# Cálculo de polinomios

poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

X = pd.DataFrame(X_poly, columns = poly.get_feature_names(input_features=X.columns))

X.head()

In [None]:
# Generar Columnas de interés

X["VelocidadMedia"] = X["Distance"] / X["AirTime"] * 60
X["logAirTime"] = np.log(X["AirTime"])
df["Weekends"] = False
df["Weekends"][df.DayOfWeek.isin([6,7])] = True
# df["Ruta"] = df["Origin"] + "-" + df["Dest"]

X.head()

In [None]:
# Añadir columnas dummies

X["Month"] = df["Month"].apply(str).reset_index(drop = True)
X["DayofMonth"] = df["DayofMonth"].apply(str).reset_index(drop = True)
X["DayOfWeek"] = df["DayOfWeek"].apply(str).reset_index(drop = True)
X["Origin"] = df["Origin"]
X["Dest"] = df["Dest"]
X["UniqueCarrier"] = df['UniqueCarrier']
# X["Ruta"] = df["Ruta"]

dummies = pd.get_dummies(data=X[['Month', 'DayofMonth', 'DayOfWeek',"Origin","Dest",'UniqueCarrier']])


X = X.drop(columns = ['Month','DayOfWeek',"DayofMonth","Origin","1","Dest",'UniqueCarrier']) # No podemos mantener columnas tipo string

X.head()

A veces volver a juntar dataframes puede dar algunos problemas, así que podemos solucionarlo con

In [None]:
for col in dummies.columns:
    X[col] = dummies[col]

In [None]:
X.head()

#### Ajuste Final del modelo

Ajustamos el modelo de regresión ampliado

In [None]:
Y = df['ArrDelay']

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=.2, random_state=2)

regr = linear_model.LinearRegression()
regr.fit(X_train, y_train)

prediccionesINTERNA = regr.predict(X_train)
print("R2 INTERNA: ",r2_score(y_train, prediccionesINTERNA))

prediccionesEXTERNA = regr.predict(X_test)
print("R2 EXTERNA: ",r2_score(y_test, prediccionesEXTERNA))

### Ejercicio final

Intenta aplicar algunos de los apartados que hemos visto en este ejemplo sobre los datos iris (o otro dataset de tu elección). Es especialmente importante la parte de validación interna y externa.

Puedes añadir alguna variable adicional, o algún tipo de preprocesamiento al modelo

Representa gráficamente los resultados

¡Explora algunas opciones adicionales!

https://seaborn.pydata.org/tutorial/regression.html

© Netmind S.L.

Todos los derechos reservados. Este documento (v1.00) ha sido diseñado para el uso exclusivo del cliente que atiende a esta formación.

Ninguna parte de este documento puede ser reproducida, distribuida o transmitida en cualquier forma o por cualquier medio sin el permiso previo por escrito de Netmind.