# Sesión 04: Problemas de Regresión

## Ejemplo 1: Entrenamiento y predicción con regresión

En este ejemplo vamos a cargar datos de viviendas de boston y con ellos vamos a entrenar un modelo de regresión lineal. Para ello vamos a cargar un dataset y veremos sus características.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
boston_dataset = load_boston()
bostonDataFrame = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
bostonDataFrame['MEDV'] = boston_dataset.target
bostonDataFrame.head()

Los datos disponibles del dataset son:

CRIM: Tasa de crimen per-capita.
ZN: Proporción de tierras para uso residenciales.
INDUS: Proporción de acres de negocios por pueblo.
CHAS: 1 si la propiedad colinda con el rio Charles, 0 sino.
NOX: Concentracón de ácido nítrico. (parte por 10 millones)
RM: Cantidad promedio de habitaciones por vivienda.
AGE: Proporción de unidades construidas antes de 1940 con dueño.
DIS: Distancias a 5 centros de empleo de Boston.
RAD: Índice de accesibilidad a vías rápidas.
TAX: Impuestos por cada 10,000 USD de costo.
PTRATIO: Radio maestro-pupilo por pueblo.
B: 1000(Bk — 0.63)², donde Bk es la proporcion de personas descendientes de afroamericanos.
LSTAT: Porcentaje de personas de estratos bajos de la población.

Y el dato a predecir es: MEDV: Valor promedio de casas ocupadas (en miles).

In [None]:
#Aqui elegiremos 2 campos: Porcentaje de personas de estatos bajos, y cantidad promedio de habitaciones por vivienda.
X = bostonDataFrame[['LSTAT', 'RM']]
Y = bostonDataFrame['MEDV']

# Dividamos la muestra en el subconjunto de entrenamiento y el subconjunto de prueba
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

Ahora vamos a entrenar nuestro modelo y evaluar su desempeño en el entrenamiento y en la predicción

In [None]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

In [None]:
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Ahora vamos a comparar las predicciones del modelo contra el valor esperado (observado)

In [None]:
df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

# Reto 01:
Utilizando el código anteior, modifica los datos de entrada: agrega, cambia o quita datos. Revisa cómo eso afecta las predicciones. También aumenta los datos de entrenamiento y reduce los de prueba; y como extra, intenta normalizar los datos para mejorar su rendimiento.

In [None]:
print(bostonDataFrame.columns)

In [None]:
#Aqui elegiremos las variables explicativas de nuestro modelo:
X = bostonDataFrame[[...]]
Y = bostonDataFrame['MEDV']

# Dividamos la muestra en el subconjunto de entrenamiento y el subconjunto de prueba
X_train, X_test, Y_train, Y_test = ...(..., random_state=5)

In [None]:
# Genera una instancia del modelo de regresión lineal y ajústalo a los datos de entrenamiento
lin_model = ...(normalize = True)
lin_model.fit(...)

# Genera la predicción con los datos de entrenamiento
y_train_predict = lin_model....(...)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

# Evalua el modelo con los datos de prueba
y_test_predict = ...
MSE = ...
print("Pruebas: MSE ="+str(MSE))

# Ejemplo 02: Regresión polinomial
En este ejemplo crearemos un sistema de regresión polinomial: Utilizaremos los grados de un polinomio para curvear la línea (o el plano) y evaluar que tal mejora una predicción

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error

In [None]:
boston_dataset = load_boston()
bostonDataFrame = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
bostonDataFrame['MEDV'] = boston_dataset.target
X = bostonDataFrame[['LSTAT', 'RM']]
Y = bostonDataFrame['MEDV']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)

Evaluamos nuestro modelo usando un polinomio de grado uno (lineal)

In [None]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Ahora probemos con un polinomio de grado dos (parábola)

In [None]:
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=2)

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)
y_train_predict = poly_model.predict(Xpolytrain)

MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

## Reto 02:
Con los datos anteriores ajusta el modelo de regresión polinomial para considerar grados de tres a cinco y evalua el MSE para cada uno de ellos. ¿Cuál es el mejor de los 5 modelos construídos?

In [None]:
# Polinomio de grado 3: 
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=3)

# Transforma las muestras de prueba y entrenamiento a grado 3
Xpolytrain = poly....(...)
Xpolytest = poly....(...)

# Evalua el modelo con la muestra de entrenamiento
poly_model.fit(...)
y_train_predict = ...

MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento Grado = 3: MSE ="+str(MSE))

# Evalue el modelo con la muestra de prueba
y_test_predict = 
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas Grado = 3: MSE ="+str(MSE))

# Ahora genera un modelo lineal con Polinomio de grado 4:




# Ahora genera un modelo lineal con Polinomio de grado 5:




# Ejemplo 03: Regresión en series de tiempo

En este ejemplo vamos a tomar una serie de tiempo de temperatura y con base en los datos de 10 días anteriores, trataremos de predecir la temperatura del día siguiente. Esto nos muestra como algo tan volátil de predecir como el clima puede ser predicho con un algoritmo de regresión lineal ... a estos modelos se les conoce como autorregresivos de orden "p", en nuestro caso, AR(10)

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

Esta función transforma una serie de tiempo en un dataset, como vimos en clase: toma N valores y el N+1 lo vuelve una salida esperada.

In [None]:
def transformarSerieADataset(serie, elementosPorMuestra):
    dataset = None
    salidasDataset = None
    for counter in range (len(serie)-elementosPorMuestra-1):        
        muestra = np.array([serie[counter:counter+elementosPorMuestra]])        
        salida = np.array([serie[counter+elementosPorMuestra]])
        if dataset is None:
            dataset = muestra
        else:
            dataset = np.append(dataset,muestra,axis = 0)
        if salidasDataset is None:
            salidasDataset = salida    
        else:        
            salidasDataset = np.append(salidasDataset,salida)
    return dataset, salidasDataset

In [None]:
# import os
# os.chdir("...")

df_timeseries = pd.read_csv('timeseries_temperature.csv')
df_timeseries['Temp']
serie = df_timeseries['Temp'].to_numpy()

X, Y = transformarSerieADataset(serie, elementosPorMuestra = 10)

Aqui vamos a dividir los datos en Train y Test y entrenaremos un regresor lineal para obtener lo mejor que pueda una predicción sobre el clima

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

#### Entrenamiento y predicciones:
Trataremos de predecir que tal funciona el regresor lineal.

In [None]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

#### Predicciones:
Ahora, veamos que tal predijo nuestro modelo poniendo lado a lado las predicciones y los valores reales

In [None]:
df_predicciones = pd.DataFrame({'valor real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

 ## Reto 03:
En este reto deberás tratar de mejorar la predicción modificando los elementos por muestra y/o modificando el regresor lineal para hacerlo polinomial.

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error

def transformarSerieADataset(serie, elementosPorMuestra):
    dataset = None
    salidasDataset = None
    for counter in range (len(serie)-elementosPorMuestra-1):        
        muestra = np.array([serie[counter:counter+elementosPorMuestra]])        
        salida = np.array([serie[counter+elementosPorMuestra]])
        if dataset is None:
            dataset = muestra
        else:
            dataset = np.append(dataset,muestra,axis = 0)
        if salidasDataset is None:
            salidasDataset = salida    
        else:        
            salidasDataset = np.append(salidasDataset,salida)
    return dataset, salidasDataset

In [None]:
df_timeseries = pd.read_csv('timeseries_temperature.csv')
df_timeseries['Temp']
serie = df_timeseries['Temp'].to_numpy()

#### Modifica los elementos por muestra de la función "transformarSeriesADataset" y determina el tamaño del subconjunto de prueba

In [None]:
X, Y = transformarSerieADataset(serie, elementosPorMuestra = ...)

X_train, X_test, Y_train, Y_test = ...(... random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

#### Entrena varios modelos polinomiales y compara tus resultados

In [None]:
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=2)

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)
y_train_predict = poly_model.predict(Xpolytrain)

MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)