# Regresión

## Aprendizaje supervisado (II)

In [None]:
# Importación de librerías
import pandas as pd
import numpy as np

In [None]:
%matplotlib inline
from matplotlib import rcParams
rcParams['figure.dpi'] = 120

# Estilo de gráficas: 
#https://matplotlib.org/3.1.0/gallery/style_sheets/style_sheets_reference.html
plt.style.use('bmh')

In [None]:
# Importar el dataset "Boston Housing"
columnas = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX',
           'RM', 'AGE', 'DIS', 'RAD', 'TAX',
           'PTRATIO', 'B', 'LSTAT', 'MEDV']
df = pd.read_csv('housing.csv', sep = r"\s+", names = columnas)
# Separador espacio: r"\s+"

In [None]:
# Cinco primeros registros
df.head()

In [None]:
# Estadísticas descriptivas
df.describe()

In [None]:
# Diagramas de dispersión
import matplotlib.pyplot as plt
import seaborn as sns
sns.pairplot(df, height = 2.5)
plt.tight_layout()
plt.show()

In [None]:
# Mapa de calor (correlaciones)
plt.figure(figsize=(20,10))
sns.heatmap(df.corr().abs(),
           annot = True,
           annot_kws = {'size': 10})
plt.show()

In [None]:
# Diagramas boxplots
fig, axs = plt.subplots(ncols = 7, nrows = 2, figsize=(20,10))
index = 0
axs = axs.flatten()
for k,v in df.items():
    sns.boxplot(y = k, data = df, ax = axs[index])
    index += 1
plt.tight_layout(pad = 0.4, w_pad = 0.5, h_pad = 5)

In [None]:
# Porcentaje de outliers por columna
for k,v in df.items():
    q1 = v.quantile(0.25) #cuartil 1
    q3 = v.quantile(0.75) #cuartil 3
    irq = q3 - q1 #distancia intercuartil
    v_col = v[(v <= q1 - 1.5*irq)|(v >= q3 + 1.5*irq)]
    perc = np.shape(v_col)[0] * 100.0 / np.shape(df)[0]
    print('Columna %s outliers = %.2f%%' % (k,perc))

In [None]:
# Quitar las observaciones cuyo MEDV sea un outlier
MEDV_q3 = df['MEDV'].quantile(0.75)
MEDV_q1 = df['MEDV'].quantile(0.25)
MEDV_irq = MEDV_q3 - MEDV_q1
big_sup = MEDV_q3 + 1.5*MEDV_irq
big_inf = MEDV_q1 - 1.5*MEDV_irq
df = df[~(df['MEDV'] >= big_sup)]
df = df[~(df['MEDV'] <= big_inf)]

In [None]:
df.shape

In [None]:
# Mapa de calor (correlaciones)
# Mapa de calor (correlaciones)
plt.figure(figsize=(20,10))
sns.heatmap(df.corr().abs(),
           annot = True,
           annot_kws = {'size': 10})
plt.show()

In [None]:
# Diagramas de dispersión
cols = ['INDUS', 'NOX', 'RM', 'AGE', 'TAX', 'LSTAT', 'MEDV']
sns.pairplot(df[cols], height = 2.5)
plt.tight_layout()
plt.show()

### Regresión lineal simple

Variable independiente: RM

Variable dependiente: MEDV

In [None]:
# Mostrar la gráfica de regresión
plt.figure(figsize = (18,8))
X = df['RM']
Y = df['MEDV']
ax = sns.regplot(x = X, y = Y, marker = 'o')

In [None]:
# Modelo de regresión
# Importar librería
from sklearn.linear_model import LinearRegression

# Instancia del modelo
reg = LinearRegression()

In [None]:
# Crear los datos X, Y y dividirlos en entrenamiento y prueba
# Importar la librería
from sklearn.model_selection import train_test_split

# Semilla de aleatorios
np.random.seed(1234)

# Crear los datos X,Y
X = df['RM'].to_numpy().reshape(466,1) #Sólo se hace para trabajar con una columna en los datos X
Y = df['MEDV']

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3)

In [None]:
# Entrenar el modelo
reg.fit(X_train, y_train)

# Predecir los resultados para el conjunto de prueba
y_pred = reg.predict(X_test)

In [None]:
# Importar las métricas
from sklearn.metrics import r2_score, mean_squared_error

# Métricas
# Coeficiente de determinación
r2 = r2_score(y_test,y_pred)
print('Coeficiente de determinación: \n', r2)

#Error cuadrático medio
mse = mean_squared_error(y_test,y_pred)
print('Error cuadrático medio: \n', mse)

#RMSE
rmse = np.sqrt(mse) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse)

In [None]:
# Coeficientes del modelo
print('Pendiente: \n', reg.coef_[0])
print('intercepto: \n', reg.intercept_)

In [None]:
# Resultado prueba
plt.figure(figsize = (18,8))
plt.scatter(X_test,y_test, label = 'Test data')
plt.plot(X_test, y_pred, color = 'black', label = 'Regresión lineal')
plt.legend()
plt.xlabel('RM')
plt.ylabel('MEDV')
plt.show()

### Regresión lineal múltiple

In [None]:
# Crear los datos X,Y
X2 = df[cols[:-1]]
Y2 = df['MEDV']

# División en entrenamiento y prueba
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, Y2, test_size = 0.3)

In [None]:
# Instanciar el modelo
reg2 = LinearRegression()

# Entrenar el modelo
reg2.fit(X2_train, y2_train)

# Predecir los resultados para el conjunto de prueba
y2_predict = reg2.predict(X2_test) 

In [None]:
# Métricas
# Coeficiente de determinación
r2_2 = r2_score(y2_test,y2_predict)
print('Coeficiente de determinación: \n', r2_2)

#Error cuadrático medio
mse_2 = mean_squared_error(y2_test,y2_predict)
print('Error cuadrático medio: \n', mse_2)

#RMSE
rmse_2 = np.sqrt(mse_2) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_2)


In [None]:
# Coeficientes del modelo
print('Coeficientes: \n', reg2.coef_)
print('Intercepto: \n', reg2.intercept_)

### Regresión por árbol de decisión

In [None]:
# Importar la librería
from sklearn.tree import DecisionTreeRegressor

In [None]:
# Regresión simple (MR vs. MEDV)
# Instancia del modelo
adr = DecisionTreeRegressor(max_depth = 2)

In [None]:
# Entrenar el modelo
adr.fit(X_train,y_train)

In [None]:
# Predecir
y3_pred = adr.predict(X_test)

In [None]:
# Métricas
# Coeficiente de determinación
r2_3 = r2_score(y_test,y3_pred)
print('Coeficiente de determinación: \n', r2_3)

#Error cuadrático medio
mse_3 = mean_squared_error(y_test,y3_pred)
print('Error cuadrático medio: \n', mse_3)

#RMSE
rmse_3 = np.sqrt(mse_3) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_3)

In [None]:
# Resultado prueba
# Resultado prueba
plt.figure(figsize = (18,8))
plt.scatter(X_test,y_test, label = 'Test data')
plt.scatter(X_test, y3_pred, marker = '+', label = 'Depth = 2')
plt.legend()
plt.xlabel('RM')
plt.ylabel('MEDV')
plt.show()

In [None]:
# Regresión múltiple
# Instancia del modelo
adr2 = DecisionTreeRegressor()

In [None]:
# Entrenar el modelo
adr2.fit(X2_train, y2_train)

In [None]:
# Predecir
y4_pred = adr2.predict(X2_test)

In [None]:
# Métricas
# Coeficiente de determinación
r2_4 = r2_score(y2_test,y4_pred)
print('Coeficiente de determinación: \n', r2_4)

#Error cuadrático medio
mse_4 = mean_squared_error(y2_test,y4_pred)
print('Error cuadrático medio: \n', mse_4)

#RMSE
rmse_4 = np.sqrt(mse_4) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_4)


In [None]:
# Importancia de cada característica
adr2.feature_importances_

In [None]:
# Gráfica del árbol
# Importar la librería
import graphviz
from sklearn.tree import export_graphviz

In [None]:
export_graphviz(adr2, 
                out_file = 'arbol.dot', 
                feature_names = cols[:-1])

In [None]:
with open('arbol.dot') as f:
          dot_graph = f.read()
graphviz.Source(dot_graph)

In [None]:
# Arbol como texto
from sklearn.tree import export_text

r = export_text(adr2, feature_names = cols[:-1])
print(r)

### Regresión por Máquinas de Soporte Vectorial

In [None]:
# Importar librerías
from sklearn.svm import SVR
from sklearn.svm import LinearSVR

In [None]:
# Regresión simple
# Instanciar los modelos
svr1 = LinearSVR() #Kernel lineal
svr2 = SVR(kernel = 'rbf') #Kernel gaussiano

In [None]:
# Entrenar
svr1.fit(X_train, y_train)
svr2.fit(X_train, y_train)

In [None]:
# Predecir
y5_pred = svr1.predict(X_test)
y6_pred = svr2.predict(X_test)

In [None]:
# Resultado prueba
plt.figure(figsize=(18,8))
plt.scatter(X_test, y_test, label = 'Data')
plt.scatter(X_test, y5_pred, marker = '+', label = 'Kernel lineal')
plt.scatter(X_test, y6_pred, marker = '*', label = 'Kernel gaussiano')
plt.xlabel('RM')
plt.ylabel('MEDV')
plt.legend()

In [None]:
# Métricas lineal
# Coeficiente de determinación
r2_5 = r2_score(y_test,y5_pred)
print('Coeficiente de determinación: \n', r2_5)

#Error cuadrático medio
mse_5 = mean_squared_error(y_test,y5_pred)
print('Error cuadrático medio: \n', mse_5)

#RMSE
rmse_5 = np.sqrt(mse_5) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_5)


In [None]:
# Métricas gaussiano
# Coeficiente de determinación
r2_6 = r2_score(y_test,y6_pred)
print('Coeficiente de determinación: \n', r2_6)

#Error cuadrático medio
mse_6 = mean_squared_error(y_test,y6_pred)
print('Error cuadrático medio: \n', mse_6)

#RMSE
rmse_6 = np.sqrt(mse_6) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_6)


In [None]:
# Regresión múltiple
# Instanciar los modelos
svr3 = LinearSVR(max_iter = 10000000) #Kernel lineal
svr4 = SVR(kernel = 'rbf') #Kernel gaussiano

In [None]:
# Entrenar los modelos
svr3.fit(X2_train, y2_train)
svr4.fit(X2_train, y2_train)

In [None]:
# Predecir
y7_pred = svr3.predict(X2_test)
y8_pred = svr4.predict(X2_test)

In [None]:
# Métricas gaussiano
# Coeficiente de determinación
r2_8 = r2_score(y2_test,y8_pred)
print('Coeficiente de determinación: \n', r2_8)

#Error cuadrático medio
mse_8 = mean_squared_error(y2_test,y8_pred)
print('Error cuadrático medio: \n', mse_8)

#RMSE
rmse_8 = np.sqrt(mse_8) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_8)

In [None]:
# Métricas lineal
# Coeficiente de determinación
r2_7 = r2_score(y2_test,y7_pred)
print('Coeficiente de determinación: \n', r2_7)

#Error cuadrático medio
mse_7 = mean_squared_error(y2_test,y7_pred)
print('Error cuadrático medio: \n', mse_7)

#RMSE
rmse_7 = np.sqrt(mse_7) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_7)

### Regresión por SGD (Gradiente Reducido Estocástico)

In [None]:
# Importar librería
from sklearn.linear_model import SGDRegressor

In [None]:
# Regresión simple
# Instanciar el modelo
sgd = SGDRegressor()

In [None]:
# Entrenar
sgd.fit(X_train, y_train)

In [None]:
# Predecir
y9_pred = sgd.predict(X_test)

In [None]:
# Resultado prueba
plt.figure(figsize=(18,8))
plt.scatter(X_test, y_test, label = 'Data')
plt.scatter(X_test, y9_pred, marker = '*', label = 'SGD')
plt.xlabel('RM')
plt.ylabel('MEDV')
plt.legend()

In [None]:
# Métricas 
# Coeficiente de determinación
r2_9 = r2_score(y_test,y9_pred)
print('Coeficiente de determinación: \n', r2_9)

#Error cuadrático medio
mse_9 = mean_squared_error(y_test,y9_pred)
print('Error cuadrático medio: \n', mse_9)

#RMSE
rmse_9 = np.sqrt(mse_9) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_9)

In [None]:
# Regresión múltiple
# Instanciar el modelo
sgd2 = SGDRegressor()

In [None]:
# Entrenar
sgd2.fit(X2_train,y2_train)

In [None]:
# Predecir
y10_pred = sgd2.predict(X2_test)

In [None]:
# Métricas
# Coeficiente de determinación
r2_10 = r2_score(y2_test,y10_pred)
print('Coeficiente de determinación: \n', r2_10)

#Error cuadrático medio
mse_10 = mean_squared_error(y2_test,y10_pred)
print('Error cuadrático medio: \n', mse_10)

#RMSE
rmse_10 = np.sqrt(mse_10) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_10)

¿Porqué para el modelo no lineal pueden dar valores negativos de $r^2$?

Para el caso general se calcula como:

$$\rho^2=1-\frac{\sigma^2_r}{\sigma^2}$$

Siendo $\sigma^2_r$ la varianza residual y $\sigma^2$ la varianza de la variable dependiente.

### Regresión por $K$ vecinos más cercanos

In [None]:
# Importar la librería
from sklearn.neighbors import KNeighborsRegressor

In [None]:
# Seleccionar el número de vecinos (K) que minimice el MSE entre 2 y 20
K = range(2,21)
mse = []
for i in K:
    knnreg = KNeighborsRegressor(n_neighbors = i) #Instanciar modelos
    knnreg.fit(X_train, y_train) #Entrenar
    pred = knnreg.predict(X_test) #Predecir
    ecm = mean_squared_error(y_test,pred)
    mse.append(ecm)

In [None]:
# Graficar resultado
plt.figure(figsize=(18,8))
plt.plot(K,mse, marker = 'o')
plt.xlabel('K')
plt.ylabel('MSE')
plt.plot()

In [None]:
# El menor MSE se da en K = 18

# Instanciar el modelo
knn_reg = KNeighborsRegressor(n_neighbors = 18)

# Entrenar
knn_reg.fit(X_train, y_train)

# Predecir
y11_pred = knn_reg.predict(X_test)

In [None]:
# Resultado prueba
plt.figure(figsize=(18,8))
plt.scatter(X_test, y_test, label = 'Data')
plt.scatter(X_test, y11_pred, marker = '+', label = 'KNN: K = 18')
plt.xlabel('RM')
plt.ylabel('MEDV')
plt.legend()

In [None]:
# Métricas 
# Coeficiente de determinación
r2_11 = r2_score(y_test,y11_pred)
print('Coeficiente de determinación: \n', r2_11)

#Error cuadrático medio
mse_11 = mean_squared_error(y_test,y11_pred)
print('Error cuadrático medio: \n', mse_11)

#RMSE
rmse_11 = np.sqrt(mse_11) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_11)

In [None]:
# Regresión múltiple
# Seleccionar el número de vecinos (K) que minimice el MSE entre 2 y 20
K2 = range(2,21)
mse2 = []
for i in K2:
    knnreg = KNeighborsRegressor(n_neighbors = i) #Instanciar modelos
    knnreg.fit(X2_train, y2_train) #Entrenar
    pred = knnreg.predict(X2_test) #Predecir
    ecm = mean_squared_error(y2_test,pred)
    mse2.append(ecm)

In [None]:
# Graficar resultado
plt.figure(figsize=(18,8))
plt.plot(K2,mse2, marker = 'o')
plt.xlabel('K')
plt.ylabel('MSE')
plt.plot()

In [None]:
# El menor MSE se da en K = 2

# Instanciar el modelo
knn_reg2 = KNeighborsRegressor(n_neighbors = 2)

# Entrenar
knn_reg2.fit(X2_train, y2_train)

# Predecir
y12_pred = knn_reg2.predict(X2_test)

In [None]:
# Métricas 
# Coeficiente de determinación
r2_12 = r2_score(y2_test,y12_pred)
print('Coeficiente de determinación: \n', r2_12)

#Error cuadrático medio
mse_12 = mean_squared_error(y2_test,y12_pred)
print('Error cuadrático medio: \n', mse_12)

#RMSE
rmse_12 = np.sqrt(mse_12) # Devuelve el mse a unidades lineales
print('Raiz de Error cuadrático medio: \n', rmse_12)