# Sesión 04: Problemas de Regresión

## Ejemplo 1: Entrenamiento y predicción con regresión

En este ejemplo vamos a cargar datos de viviendas de boston y con ellos vamos a entrenar un modelo de regresión lineal. Para ello vamos a cargar un dataset y veremos sus características.

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [3]:
boston_dataset = load_boston()

In [4]:
bostonDataFrame = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
bostonDataFrame['MEDV'] = boston_dataset.target
bostonDataFrame.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


Los datos disponibles del dataset son:

CRIM: Tasa de crimen per-capita.
ZN: Proporción de tierras para uso residenciales.
INDUS: Proporción de acres de negocios por pueblo.
CHAS: 1 si la propiedad colinda con el rio Charles, 0 sino.
NOX: Concentracón de ácido nítrico. (parte por 10 millones)
RM: Cantidad promedio de habitaciones por vivienda.
AGE: Proporción de unidades construidas antes de 1940 con dueño.
DIS: Distancias a 5 centros de empleo de Boston.
RAD: Índice de accesibilidad a vías rápidas.
TAX: Impuestos por cada 10,000 USD de costo.
PTRATIO: Radio maestro-pupilo por pueblo.
B: 1000(Bk — 0.63)², donde Bk es la proporcion de personas descendientes de afroamericanos.
LSTAT: Porcentaje de personas de estratos bajos de la población.

Y el dato a predecir es: MEDV: Valor promedio de casas ocupadas (en miles).

In [7]:
#Aqui elegiremos 2 campos: Porcentaje de personas de estatos bajos, y cantidad promedio de habitaciones por vivienda.
X = bostonDataFrame[['LSTAT', 'RM']]
Y = bostonDataFrame['MEDV']

# Dividamos la muestra en el subconjunto de entrenamiento y el subconjunto de prueba
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(303, 2)
(203, 2)
(303,)
(203,)


Ahora vamos a entrenar nuestro modelo y evaluar su desempeño en el entrenamiento y en la predicción

In [8]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

LinearRegression()

In [9]:
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Entrenamiento: MSE =28.139615508258466
Pruebas: MSE =34.28359366137775


Ahora vamos a comparar las predicciones del modelo contra el valor esperado (observado)

In [13]:
df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Unnamed: 0,valor_real,prediccion
0,37.6,37.647015
1,27.9,29.032609
2,22.6,25.444085
3,13.8,1.874892
4,35.2,33.70681
5,10.4,8.846136
6,23.9,30.363831
7,29.0,27.577564
8,22.8,26.271478
9,23.2,22.275428


# Reto 01:
Utilizando el código anteior, modifica los datos de entrada: agrega, cambia o quita datos. Revisa cómo eso afecta las predicciones. También aumenta los datos de entrenamiento y reduce los de prueba; y como extra, intenta normalizar los datos para mejorar su rendimiento.

In [14]:
print(bostonDataFrame.columns)

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX',
       'PTRATIO', 'B', 'LSTAT', 'MEDV'],
      dtype='object')


In [28]:
#Aqui elegiremos las variables explicativas de nuestro modelo:
X = bostonDataFrame[["LSTAT", "RM", "TAX"]]
Y = bostonDataFrame['MEDV']

# Dividamos la muestra en el subconjunto de entrenamiento y el subconjunto de prueba
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size = 0.4 , random_state=5)

In [29]:
# Genera una instancia del modelo de regresión lineal y ajústalo a los datos de entrenamiento
lin_model = LinearRegression(normalize = True)
lin_model.fit(X_train, Y_train)

# Genera la predicción con los datos de entrenamiento
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

# Evalua el modelo con los datos de prueba
y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Entrenamiento: MSE =26.0803011432091
Pruebas: MSE =36.182581915963034


In [19]:
print(lin_model.coef_)
print(lin_model.intercept_)

[-0.59057574  5.45191654]
-4.337891569035715


# Ejemplo 02: Regresión polinomial
En este ejemplo crearemos un sistema de regresión polinomial: Utilizaremos los grados de un polinomio para curvear la línea (o el plano) y evaluar que tal mejora una predicción

In [30]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error

In [31]:
boston_dataset = load_boston()
bostonDataFrame = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
bostonDataFrame['MEDV'] = boston_dataset.target
X = bostonDataFrame[['LSTAT', 'RM']]
Y = bostonDataFrame['MEDV']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)

Evaluamos nuestro modelo usando un polinomio de grado uno (lineal)

In [32]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Entrenamiento: MSE =28.139615508258466
Pruebas: MSE =34.28359366137775


Unnamed: 0,valor_real,prediccion,diferencia
0,37.6,37.647015,-0.047015
1,27.9,29.032609,-1.132609
2,22.6,25.444085,-2.844085
3,13.8,1.874892,11.925108
4,35.2,33.70681,1.49319
5,10.4,8.846136,1.553864
6,23.9,30.363831,-6.463831
7,29.0,27.577564,1.422436
8,22.8,26.271478,-3.471478
9,23.2,22.275428,0.924572


Ahora probemos con un polinomio de grado dos (parábola)

In [47]:
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=2)

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)
y_train_predict = poly_model.predict(Xpolytrain)

MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Entrenamiento: MSE =19.58112638864459
Pruebas: MSE =25.183624243164804


Unnamed: 0,valor_real,prediccion,diferencia
0,37.6,44.004561,-6.404561
1,27.9,29.435158,-1.535158
2,22.6,24.691098,-2.091098
3,13.8,11.503191,2.296809
4,35.2,35.947424,-0.747424
5,10.4,12.538233,-2.138233
6,23.9,31.385347,-7.485347
7,29.0,27.272675,1.727325
8,22.8,25.268163,-2.468163
9,23.2,20.311088,2.888912


## Reto 02:
Con los datos anteriores ajusta el modelo de regresión polinomial para considerar grados de tres a cinco y evalua el MSE para cada uno de ellos. ¿Cuál es el mejor de los 5 modelos construídos?

In [48]:
# Grado 3

In [49]:
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=3)

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)
y_train_predict = poly_model.predict(Xpolytrain)

MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Entrenamiento: MSE =18.118732159286942
Pruebas: MSE =23.258430626625408


Unnamed: 0,valor_real,prediccion,diferencia
0,37.6,46.700245,-9.100245
1,27.9,28.888408,-0.988408
2,22.6,24.702073,-2.102073
3,13.8,12.38952,1.41048
4,35.2,36.535091,-1.335091
5,10.4,12.612177,-2.212177
6,23.9,32.054752,-8.154752
7,29.0,27.616964,1.383036
8,22.8,25.573773,-2.773773
9,23.2,20.412059,2.787941


In [50]:
# Grado 4

In [51]:
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=4)

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)
y_train_predict = poly_model.predict(Xpolytrain)

MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Entrenamiento: MSE =17.314670871871225
Pruebas: MSE =22.80398106204898


Unnamed: 0,valor_real,prediccion,diferencia
0,37.6,46.918789,-9.318789
1,27.9,28.61332,-0.71332
2,22.6,23.993925,-1.393925
3,13.8,16.491748,-2.691748
4,35.2,38.616627,-3.416627
5,10.4,13.26567,-2.86567
6,23.9,32.044204,-8.144204
7,29.0,27.059164,1.940836
8,22.8,25.051091,-2.251091
9,23.2,19.721313,3.478687


In [52]:
# Grado 5

In [53]:
poly_model = LinearRegression()
poly = PolynomialFeatures(degree=5)

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)
y_train_predict = poly_model.predict(Xpolytrain)

MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Entrenamiento: MSE =16.326325739475458
Pruebas: MSE =131.726777299873


Unnamed: 0,valor_real,prediccion,diferencia
0,37.6,46.641697,-9.041697
1,27.9,29.244377,-1.344377
2,22.6,23.819975,-1.219975
3,13.8,5.375098,8.424902
4,35.2,41.738131,-6.538131
5,10.4,13.331608,-2.931608
6,23.9,31.361149,-7.461149
7,29.0,26.420242,2.579758
8,22.8,24.381508,-1.581508
9,23.2,19.196701,4.003299


# Ejemplo 03: Regresión en series de tiempo

En este ejemplo vamos a tomar una serie de tiempo de temperatura y con base en los datos de 10 días anteriores, trataremos de predecir la temperatura del día siguiente. Esto nos muestra como algo tan volátil de predecir como el clima puede ser predicho con un algoritmo de regresión lineal ... a estos modelos se les conoce como autorregresivos de orden "p", en nuestro caso, AR(10)

In [55]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

Esta función transforma una serie de tiempo en un dataset, como vimos en clase: toma N valores y el N+1 lo vuelve una salida esperada.

In [56]:
def transformarSerieADataset(serie, elementosPorMuestra):
    dataset = None
    salidasDataset = None
    for counter in range (len(serie)-elementosPorMuestra-1):        
        muestra = np.array([serie[counter:counter+elementosPorMuestra]])        
        salida = np.array([serie[counter+elementosPorMuestra]])
        if dataset is None:
            dataset = muestra
        else:
            dataset = np.append(dataset,muestra,axis = 0)
        if salidasDataset is None:
            salidasDataset = salida    
        else:        
            salidasDataset = np.append(salidasDataset,salida)
    return dataset, salidasDataset

In [58]:
# import os
# os.chdir("...")

df_timeseries = pd.read_csv('../Datasets/timeseries_temperature.csv')
df_timeseries['Temp']
serie = df_timeseries['Temp'].to_numpy()

X, Y = transformarSerieADataset(serie, elementosPorMuestra = 10)

Aqui vamos a dividir los datos en Train y Test y entrenaremos un regresor lineal para obtener lo mejor que pueda una predicción sobre el clima

In [59]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(2183, 10)
(1456, 10)
(2183,)
(1456,)


#### Entrenamiento y predicciones:
Trataremos de predecir que tal funciona el regresor lineal.

In [60]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Entrenamiento: MSE =5.938930927900748
Pruebas: MSE =5.804442996215095


#### Predicciones:
Ahora, veamos que tal predijo nuestro modelo poniendo lado a lado las predicciones y los valores reales

In [61]:
df_predicciones = pd.DataFrame({'valor real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Unnamed: 0,valor real,prediccion,diferencia
0,7.1,7.842427,-0.742427
1,16.3,12.787543,3.512457
2,10.1,9.808592,0.291408
3,5.3,4.433977,0.866023
4,5.7,5.126536,0.573464
5,11.2,12.512273,-1.312273
6,16.1,16.19359,-0.09359
7,9.0,9.344948,-0.344948
8,6.6,8.291188,-1.691188
9,6.0,8.004833,-2.004833


 ## Reto 03:
En este reto deberás tratar de mejorar la predicción modificando los elementos por muestra y/o modificando el regresor lineal para hacerlo polinomial.

In [62]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error

def transformarSerieADataset2(serie, elementosPorMuestra):
    dataset = None
    salidasDataset = None
    for counter in range (len(serie)-elementosPorMuestra-1):        
        muestra = np.array([serie[counter:counter+elementosPorMuestra]])        
        salida = np.array([serie[counter+elementosPorMuestra]])
        if dataset is None:
            dataset = muestra
        else:
            dataset = np.append(dataset,muestra,axis = 0)
        if salidasDataset is None:
            salidasDataset = salida    
        else:        
            salidasDataset = np.append(salidasDataset,salida)
    return dataset, salidasDataset

In [64]:
df_timeseries = pd.read_csv('../Datasets/timeseries_temperature.csv')
df_timeseries['Temp']
serie = df_timeseries['Temp'].to_numpy()

#### Modifica los elementos por muestra de la función "transformarSeriesADataset" y determina el tamaño del subconjunto de prueba

In [65]:
X, Y = transformarSerieADataset2(serie, elementosPorMuestra = 10)

X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(2183, 10)
(1456, 10)
(2183,)
(1456,)


In [66]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Entrenamiento: MSE =5.938930927900748
Pruebas: MSE =5.804442996215095


In [67]:
df_predicciones = pd.DataFrame({'valor real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Unnamed: 0,valor real,prediccion,diferencia
0,7.1,7.842427,-0.742427
1,16.3,12.787543,3.512457
2,10.1,9.808592,0.291408
3,5.3,4.433977,0.866023
4,5.7,5.126536,0.573464
5,11.2,12.512273,-1.312273
6,16.1,16.19359,-0.09359
7,9.0,9.344948,-0.344948
8,6.6,8.291188,-1.691188
9,6.0,8.004833,-2.004833


---

#### Entrena varios modelos polinomiales y compara tus resultados

In [88]:
X, Y = transformarSerieADataset(serie, elementosPorMuestra = 10)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)

In [89]:
poly_model = LinearRegression()
poly = PolynomialFeatures(degree= 2 )

Xpolytrain = poly.fit_transform(X_train)
Xpolytest = poly.fit_transform(X_test)

poly_model.fit(Xpolytrain, Y_train)

y_train_predict = poly_model.predict(Xpolytrain)
MSE = mean_squared_error(Y_train, y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = poly_model.predict(Xpolytest)
MSE = mean_squared_error(Y_test, y_test_predict)
print("Pruebas: MSE ="+str(MSE))

df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict, 'diferencia':Y_test-y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Entrenamiento: MSE =5.7132532097418505
Pruebas: MSE =5.863962055392443


Unnamed: 0,valor_real,prediccion,diferencia
0,7.1,7.440997,-0.340997
1,16.3,12.49994,3.80006
2,10.1,9.515426,0.584574
3,5.3,4.752587,0.547413
4,5.7,5.025005,0.674995
5,11.2,12.258873,-1.058873
6,16.1,16.350476,-0.250476
7,9.0,9.013429,-0.013429
8,6.6,6.923549,-0.323549
9,6.0,8.312585,-2.312585
