#**Regresión polinomial multivariable**
* Contacto: gabrieltehozol@gmail.com

El siguiente código está escrito en Python y utiliza varias librerías para desarrollar un modelo de regresión polinomial con múltiples variables predictoras. El objetivo es mostrar cómo construir y evaluar un modelo de regresión polinomial. Se utilizará un conjunto de datos relacionado con la calidad del vino


En este notebook, vamos a trabajar con una serie de librerías para construir y evaluar un modelo de regresión polinomial. Utilizaremos [os](https://docs.python.org/3/library/os.html) para manejar comandos del sistema, [pandas](https://pandas.pydata.org/) para el manejo de datos, [PolynomialFeatures](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html) de [sklearn](https://scikit-learn.org/stable/index.html) para generar los parámetros polinomiales, [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) también de [sklearn](https://scikit-learn.org/stable/index.html) para ajustar el modelo lineal, y las métricas mean_squared_error, mean_absolute_error y r2_score también de sklearn para evaluar el rendimiento del modelo. Finalmente, utilizaremos [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) para separar nuestros datos en conjuntos de entrenamiento y prueba. A continuación, vamos a importar estas librerías para comenzar a trabajar con nuestros datos.

In [1]:
#Librería para comando de sistema
import os
# Librerías para manejo de datos
import pandas as pd
# Librería para parámetros polinomiales
from sklearn.preprocessing import PolynomialFeatures
#Librería para ajustar modelos lineales
from sklearn.linear_model import LinearRegression
# Para determinar el rendimiento del modelo con las métricas MSE, MAE y R2
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para sacar un reporte estadístico que podemos usar para determinar las importancia de las variables explicativas.
import statsmodels.api as sm


### 2. Carga de los datos


In [5]:
# Cargamos el archivo excel con los datos
data = pd.read_csv('calidad_vino.csv')

# Imprimimos la cantidad de datos y variables
print(data.shape)

# Mostramos los primeros 5 datos
data.head()


(1599, 12)


Unnamed: 0,acidez_fija,acidez_volátil,acido_cítrico,azucar_residual,cloruros,dioxido_azufre_libre,dioxido_azufre_total,densidad,pH,sulfatos,alcohol,calidad
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


##**3. Preparación de los datos**
* Se observa las características generales de los datos
* Se realizan comprobaciones para asegurar que los datos no contienen errores como datos faltantes o duplicados.
* Se eliminan los registros con ausencias y duplicados.
* Se comprueba el tamaño del conjunto de datos después de estos pasos de limpieza.
* Se preparan las variables para cumplir con los requerimientos de entrada de los algoritmos de aprendizaje.
(No se especifica qué pasos adicionales se realizan en esta sección)

In [6]:
# Para ver las caracteríticas generales de los datos, 
# usamos la siguiente instrucción
data.info()
# Con esta instrucción podemos ver el nombre de nuestras columnas,
# También se observa se tienen o no datos vacíos, 
# el número de filas y columnas, y el tipo de datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   acidez_fija           1599 non-null   float64
 1   acidez_volátil        1599 non-null   float64
 2   acido_cítrico         1599 non-null   float64
 3   azucar_residual       1599 non-null   float64
 4   cloruros              1599 non-null   float64
 5   dioxido_azufre_libre  1599 non-null   float64
 6   dioxido_azufre_total  1599 non-null   float64
 7   densidad              1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulfatos              1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  calidad               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


A pesar de que no tenemos datos faltantes ejecutaremos las instrucciónes pertinenetes para cuando ocurra el caso, puedas hacerlo.

In [7]:
# Debe tomarse en cuenta que resulta optimo realizar el procesamiento de datos 
# sobre una copia de la variable original
data_j = data

In [8]:
# Observamos si nuestras variables tienen ausencias en de valores 
print(data_j.isna().sum()/len(data_j))

acidez_fija             0.0
acidez_volátil          0.0
acido_cítrico           0.0
azucar_residual         0.0
cloruros                0.0
dioxido_azufre_libre    0.0
dioxido_azufre_total    0.0
densidad                0.0
pH                      0.0
sulfatos                0.0
alcohol                 0.0
calidad                 0.0
dtype: float64


In [9]:
# En este caso en particular nuestra base de datos no posee valores vacíos.
# Sin embargo, se utilizaria el siguiente código sobre la base de datos si existiesen.
"data_t=data_j.dropna()"

'data_t=data_j.dropna()'

In [10]:
# Verificamos el tamaño del conjunto de datos después de este paso de limpieza de datos.
print("Cantidad de datos después de eliminar ausencias: ", data_j.shape[0])
# Naturalmente al no haber datos vacíos la base de datos seguirá con el mismo número de entradas

Cantidad de datos después de eliminar ausencias:  1599


In [11]:
# En la exploración de datos suele mostrase si hay datos duplicados,
# sin embargo, en este no es el caso, aún así cuando esto se presente,
# podemos usar la siguiente instrucción
"data_j=data_j.drop_duplicates()"
# y nuevamente observamos el tamaño del conjunto de datos después de este paso de limpieza de datos.
print("Cantidad de datos después de eliminar duplicados: ", data_j.shape[0])

Cantidad de datos después de eliminar duplicados:  1599


##**4. Elaboración del modelo**
En este frgmento de código, se selecciona la variable objetivo 'Ajustado' del conjunto de datos y se elimina de las variables explicativas. Luego, se aplica una transformación polinómica de grado 2 a las variables explicativas para crear nuevas variables que puedan mejorar el ajuste del modelo.

Para ello, se utiliza la clase PolynomialFeatures de sklearn, se ajusta y transforma los datos con la variable poly_X. Esto genera nuevas variables como el cuadrado de las variables existentes y las multiplicaciones entre ellas.

A continuación, se realiza la división entre el conjunto de entrenamiento y el de test, se reservando el 20% de los datos para el test. Se crea un objeto de la clase LinearRegression y se ajusta el modelo con los datos de entrenamiento con las nuevas variables polinomiales.

In [14]:
# Seleccionamos la variable objetivo, en este caso "Ajustado"
Y = data_j['calidad']

# De la totalidad de datos se elimina la variable "Ajustado" y "Fecha"
X = data_j.drop(['calidad'], axis=1)

# Aplicamos la tranformación polinomial a las variables de entrada.
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

# Realizamos la división entrenamiento - test. Se deja 20% de los datos para el test.
X_train, X_test, Y_train, Y_test = train_test_split(X_poly, Y, test_size = 0.2, random_state = 0)

# Creación del objeto de la clase LinearRegression y ajuste del modelo a los datos.
reg_poly = LinearRegression()
reg_poly.fit(X_train, Y_train)


LinearRegression()

##**5. Evaluación del modelo**
En el siguiente código se utilizan las funciones de sklearn mean_squared_error, mean_absolute_error, r2_score para calcular el Error medio cuadrático (MSE), Error absoluto medio (MAE) y el Coeficiente de determinación (R²) respectivamente. Además se calcula el RMSE a partir del MSE. Se utilizan las variables poly_Y_test y y_pred como entrada para las funciones de las métricas.

In [15]:
# Obtener las predicciones del modelo sobre el conjunto de prueba
y_pred = reg_poly.predict(X_test)

# Calcular las métricas de rendimiento del modelo
mse = mean_squared_error(Y_test, y_pred)
rmse = mse**(1/2)
mae = mean_absolute_error(Y_test, y_pred)
r2 = r2_score(Y_test, y_pred)

# Imprimir las métricas
print(f'Métricas del modelo de regresión lineal polinómico múltiple')
print(f'MSE: {mse:.2f}')
print(f'RMSE: {rmse:.2f}')
print(f'MAE: {mae:.2f}')
print(f'R²: {r2:.2f}')


Métricas del modelo de regresión lineal polinómico múltiple
MSE: 0.41
RMSE: 0.64
MAE: 0.49
R²: 0.29


Recordando que las métricas anteriores, señalan:
* El Error Medio Cuadrático (MSE) es una medida de la calidad del ajuste del modelo. El valor del MSE es una medida de la diferencia entre los valores predichos y los valores reales. Un valor bajo del MSE indica un buen ajuste del modelo.
* El Error Absoluto Medio (MAE) es otra medida de la calidad del ajuste del modelo. El valor del MAE es la media de la diferencia absoluta entre los valores predichos y los valores reales. Al igual que el MSE, un valor bajo del MAE indica un buen ajuste del modelo.
* El Coeficiente de Determinación (R²) es una medida de la calidad del ajuste del modelo en términos de cuán bien los valores predichos explican la variación de los valores reales. El valor del R² varía entre 0 y 1, donde un valor cercano a 1 indica un buen ajuste del modelo.


##**6.Interpretación del modelo**
En esta parte se genera un reporte estadístico del modelo utilizando la librería statsmodels. El reporte incluye información sobre los coeficientes de regresión, los valores p, el R-cuadrada, entre otros. El ajuste del modelo se hace utilizando el método OLS (Ordinary Least Squares), el cual busca minimizar la suma de los cuadrados de las diferencias entre los valores observados y los valores predichos.

In [16]:
# Ajustar el modelo utilizando OLS (Ordinary Least Squares)
model = sm.OLS(Y, X).fit()

# Generar el reporte estadístico del modelo
print(model.summary())


                                 OLS Regression Results                                
Dep. Variable:                calidad   R-squared (uncentered):                   0.987
Model:                            OLS   Adj. R-squared (uncentered):              0.987
Method:                 Least Squares   F-statistic:                          1.108e+04
Date:                Mon, 30 Jan 2023   Prob (F-statistic):                        0.00
Time:                        00:11:17   Log-Likelihood:                         -1569.7
No. Observations:                1599   AIC:                                      3161.
Df Residuals:                    1588   BIC:                                      3221.
Df Model:                          11                                                  
Covariance Type:            nonrobust                                                  
                           coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------

* R² es el coeficiente de determinación, una medida que indica cuán bien el modelo se ajusta a los datos. El cálculo de R² se realiza sin centrar (sin centrar) ya que el modelo no contiene una constante.
* Los errores estándar asumen que la matriz de covarianza de los errores está correctamente especificada.
* El número de condición es grande, 2.06e+08. Esto podría indicar que hay una alta multicolinealidad o otros problemas numéricos.


Para solucionar la advertencia [1], se puede agregar una constante al modelo, esto se logra agregando una columna de 1 en X_poly antes de aplicar el modelo de regresión.

Para solucionar la advertencia [2], se puede revisar si la matriz de covarianza de los errores está especificada correctamente, y ajustarla si es necesario.

Para solucionar la advertencia [3], se puede realizar un análisis de varianza para identificar variables con alta correlación entre sí y eliminarlas del conjunto de datos. También se puede considerar regularizar el modelo, como Ridge o Lasso Regression, para reducir el impacto de las variables altamente correlacionadas.

In [17]:
import statsmodels.formula.api as smf

# Crear un modelo lineal utilizando la notación de fórmula
reg_poly_fit = smf.ols(formula = 'Y ~ X_poly', data = data_j).fit()

# Obtener un resumen del modelo
reg_poly_fit.summary()


0,1,2,3
Dep. Variable:,Y,R-squared:,0.435
Model:,OLS,Adj. R-squared:,0.406
Method:,Least Squares,F-statistic:,15.19
Date:,"Mon, 30 Jan 2023",Prob (F-statistic):,4.2e-138
Time:,00:12:28,Log-Likelihood:,-1470.7
No. Observations:,1599,AIC:,3097.0
Df Residuals:,1521,BIC:,3517.0
Df Model:,77,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-6254.2746,9171.791,-0.682,0.495,-2.42e+04,1.17e+04
X_poly[0],-6254.2746,9171.791,-0.682,0.495,-2.42e+04,1.17e+04
X_poly[1],-65.3343,36.113,-1.809,0.071,-136.172,5.503
X_poly[2],-59.3516,169.108,-0.351,0.726,-391.062,272.359
X_poly[3],-136.9611,192.815,-0.710,0.478,-515.172,241.250
X_poly[4],-31.2441,26.750,-1.168,0.243,-83.715,21.227
X_poly[5],-1078.3363,648.945,-1.662,0.097,-2351.257,194.585
X_poly[6],-6.8839,3.080,-2.235,0.026,-12.925,-0.843
X_poly[7],2.8763,1.086,2.649,0.008,0.746,5.006

0,1,2,3
Omnibus:,11.228,Durbin-Watson:,1.77
Prob(Omnibus):,0.004,Jarque-Bera (JB):,15.72
Skew:,-0.032,Prob(JB):,0.000386
Kurtosis:,3.481,Cond. No.,3280000000000000.0


##**Bibliografía**
* Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media.
* James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). New York: springer.
* Murphy, K. P. (2012). Machine learning: a probabilistic perspective. MIT press.
* Bishop, C. M. (2006). Pattern recognition and machine learning (Vol. 1, No. 10). springer.
* Gelman, A., & Hill, J. (2007). Data analysis using regression and multilevel/hierarchical models. Cambridge university press.
* Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Springer Science & Business Media.