## Actividad Regresión Polinomial: caso de múltiples variables.

El objetivo de este notebook es mostrar cómo construir un modelo de regresión polinomial con múltiples variables predictoras y su evaluación con las métricas seleccionadas. Se explicará, paso a paso, como:

1. Preparar los datos para el modelado.
2. Construir el modelo de regresión polinomial.
3. Evaluar el modelo de regresión polinomial.
4. Comparar los resultados con regresión lineal.

### 1. Importación de librerías 

En las siguientes líneas de código se importan las librerías y herramientas necesarias para desarrollar el caso de uso.

In [1]:
# Librería para comando de sistema
import os
# Librerías para manejo de datos
import pandas as pd
# Librería para parámetros polinomiales
from sklearn.preprocessing import PolynomialFeatures
#Librería para ajustar modelos lineales
from sklearn.linear_model import LinearRegression
# Para determinar el rendimiento del modelo con las métricas MSE, MAE y R2
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split

### 2. Carga de los datos
A través de la librería **pandas** podemos realizar la carga de datos desde diferentes fuentes de información, en este caso se realizará la carga de un archivo plano csv (archivo separado por comas).

In [3]:
# Se cargan los datos. 
data=pd.read_csv('venta_inmuebles_data.csv',sep=';', encoding='latin-1')

In [4]:
# Cantidad de datos y número de variables
data.shape

(5466, 10)

In [5]:
# Mostrar los datos
data.head()

Unnamed: 0,numero_cuartos,numero_baños,area_de_ construcción_pie2,area_del lote_pie2,numero_pisos,condición,grado,superficie_sótano_pie2,año_de_construcción,precio
0,3,1,1180,5650,1,3,7,0,1955,221900
1,2,1,770,10000,1,3,6,0,1933,180000
2,4,3,1960,5000,1,5,7,910,1965,604000
3,3,2,1680,8080,1,3,8,0,1987,510000
4,3,1,1780,7470,1,3,7,730,1960,229500


### 3. Limpieza y preparación de los datos

Recuerda que un aspecto muy importante para tener en cuenta son los requerimientos de entrada de los algoritmos de aprendizaje. Cada uno de estos puede trabajar con un tipo de variable, es por esto que vamos a realizar las mismas transformaciones que se realizaron en el notebook de regresión lineal. Además, vamos a ejecutar los mismos pasos de limpieza de los datos.

In [6]:
# Es recomendable que todos los pasos preparación se realicen sobre otro archivo.
data_t = data

In [7]:
# Eliminación data vacía
data_t=data_t.dropna()

In [8]:
# Eliminación de registros duplicados.
data_t=data_t.drop_duplicates()

In [9]:
data_t.shape

(5465, 10)

### 4. Construcción del modelo

Los algoritmos supervisados implementados en scikit-learn requieren que las variables de entrada estén separadas de la variable objetivo. En este caso, nuestra variable objetivo es el precio.

In [10]:
# Se selecciona la variable objetivo, en este caso "precio".
Y=data_t['precio']
# Del conjunto de datos se elimina la variable "precio".
X=data_t.drop(['precio'], axis=1)

Ahora vamos a aplicar la tranformación polinomial a las variables de entrada. Como primer paso creamos un objeto de la clase PolynomicalFeatures de sklearn. Luego ajustamos y transformamos los datos.

In [11]:
# Utilizaremos una tranformación de grado 2.
poly = PolynomialFeatures(degree=2)
poly_X = poly.fit_transform(X)

Ejemplo:

En caso de tener dos variables explicativas [a, b], el resultado de la transformación polinomial con grado 2 sería el siguiente. [1, a, b, a^2, a*b, b^2].

In [12]:
# Esta transformación crea nuevas variables y las añade al conjunto de datos. Veamos cuántas se generan:
poly_X.shape

(5465, 55)

In [13]:
poly_X

array([[1.000000e+00, 3.000000e+00, 1.000000e+00, ..., 0.000000e+00,
        0.000000e+00, 3.822025e+06],
       [1.000000e+00, 2.000000e+00, 1.000000e+00, ..., 0.000000e+00,
        0.000000e+00, 3.736489e+06],
       [1.000000e+00, 4.000000e+00, 3.000000e+00, ..., 8.281000e+05,
        1.788150e+06, 3.861225e+06],
       ...,
       [1.000000e+00, 2.000000e+00, 1.000000e+00, ..., 0.000000e+00,
        0.000000e+00, 3.775249e+06],
       [1.000000e+00, 4.000000e+00, 3.000000e+00, ..., 0.000000e+00,
        0.000000e+00, 4.012009e+06],
       [1.000000e+00, 3.000000e+00, 2.000000e+00, ..., 0.000000e+00,
        0.000000e+00, 4.056196e+06]])

In [14]:
# Se realiza la división entrenamiento - test. Se deja 20% de los datos para el test.
poly_X_train, poly_X_test, poly_Y_train, poly_Y_test = train_test_split(poly_X, Y, test_size = 0.2, random_state = 0)

In [15]:
# Creación del objeto de la clase LinearRegression y ajuste del modelo a los datos.
modelo_regresion_poly = LinearRegression()
# Podemos verificar que lo hemos construido.
modelo_regresion_poly

LinearRegression()

In [16]:
# Ajustar el modelo con los datos de entrenamiento con las nuevas variables polinomiales
modelo_regresion_poly.fit(poly_X_train, poly_Y_train)

LinearRegression()

### 5. Evaluación del modelo

Ahora vamos a evaluar el modelo sobre el conjunto test con las siguientes métricas: (MSE). Error medio cuadrático,
(MAE). Error absoluto medio y R² or Coeficiente de determinación.

In [31]:
# Se obtienen las predicciones del modelo sobre el conjunto test.
y_pred = modelo_regresion_poly.predict(poly_X_test)

In [32]:
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print('Métricas')
print('------ Modelo de regresión lineal polinomial múltiple----')
print("MSE: %.2f" % mean_squared_error(poly_Y_test, y_pred, squared=True))
print("RMSE: %.2f" % mean_squared_error(poly_Y_test, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(poly_Y_test, y_pred))
print('R²: %.2f' % r2_score(poly_Y_test, y_pred))

Métricas
------ Modelo de regresión lineal polinomial múltiple----
MSE: 15718559401.00
RMSE: 125373.68
MAE: 94674.14
R²: 0.50


### 6. Comparación con regresión lineal

Ahora vamos a comparar el modelo de regresión polinomial con el de regresión lineal. Este lo construimos en el notebook del módulo 2. 

In [29]:
# Se realiza la división entrenamiento - test. Como estamos utilizando el mismo valor para random_state (=0) 
# garantizamos que obtenemos la misma partición utilizada para el modelo de regresión polinomial.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)
# Creación del objeto de la clase LinearRegression y ajuste del modelo a los datos.
modelo_reg_lineal = LinearRegression().fit(X_train, Y_train)
# Se obtienen las predicciones del modelo sobre el conjunto test.
y_pred = modelo_reg_lineal.predict(X_test)
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print("MSE: %.2f" % mean_squared_error(Y_test, y_pred, squared=True))
print("RMSE: %.2f" % mean_squared_error(Y_test, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(Y_test, y_pred))
print('R²: %.2f' % r2_score(Y_test, y_pred))

MSE: 14565133371.50
RMSE: 120686.09
MAE: 95100.90
R²: 0.54


### 7. Modelo polinomial grado 3

In [26]:
# Utilizaremos una tranformación de grado 3.
poly_3 = PolynomialFeatures(degree=3)
poly_X3 = poly_3.fit_transform(X)
poly_X3.shape

(5465, 220)

In [27]:
# Se realiza la división entrenamiento - test. Se deja 20% de los datos para el test.
poly_X_train2, poly_X_test2, poly_Y_train2, poly_Y_test2 = train_test_split(poly_X3, Y, test_size = 0.2, random_state = 0)

# Creación del objeto de la clase LinearRegression y ajuste del modelo a los datos.
modelo_regresion_poly3 = LinearRegression()
# Podemos verificar que lo hemos construido.
modelo_regresion_poly3

LinearRegression()

In [28]:
# Ajustar el modelo con los datos de entrenamiento con las nuevas variables polinomiales
modelo_regresion_poly3.fit(poly_X_train2, poly_Y_train2)
# Se obtienen las predicciones del modelo sobre el conjunto test.
y_pred = modelo_regresion_poly3.predict(poly_X_test2)
# Se obtienen las métricas a partir de la predicción y la base de evaluación (valores reales).
print('Métricas')
print('------ Modelo de regresión lineal polinomial múltiple----')
print("MSE: %.2f" % mean_squared_error(poly_Y_test2, y_pred, squared=True))
print("RMSE: %.2f" % mean_squared_error(poly_Y_test2, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(poly_Y_test2, y_pred))
print('R²: %.2f' % r2_score(poly_Y_test2, y_pred))

Métricas
------ Modelo de regresión lineal polinomial múltiple----
MSE: 2076456012448.02
RMSE: 1440991.33
MAE: 140035.96
R²: -65.28


### Conclusion

El modelo posee un comportamiento lineal ya que es el modelo que mejor metrica R² no da.