#**An√°lisis y Selecci√≥n de Caracter√≠sticas para la Predicci√≥n de la Calidad del Vino mediante Regresi√≥n Lineal**
###Regina Gonz√°lez

Se importaron los datos del archivo ‚ÄúVino_Tinto.csv‚Äù al entorno de trabajo y se verificaron sus dimensiones para conocer la cantidad de filas y columnas. Tambi√©n se imprimieron las primeras cinco filas del DataFrame para tener una vista general de su estructura y contenido.

In [18]:
import pandas as pd
import numpy as np
data = pd.read_csv('Vino_Tinto.csv')
print(f"‚úÖ Datos cargados: {data.shape[0]} filas, {data.shape[1]} columnas.\n")
print("üîç Primeras 15 filas:")
display(data.head(5))

‚úÖ Datos cargados: 1599 filas, 12 columnas.

üîç Primeras 15 filas:


Unnamed: 0,acidezFija,acidezVolatil,acidoCitrico,azucarResidual,cloruros,dioxidoAzufreLibre,dioxidoAzufreTotal,densidad,pH,sulfatos,alcohol,calidad
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


Se dividi√≥ el DataFrame en conjuntos de entrenamiento y prueba con una proporci√≥n 80/20, asegurando que la partici√≥n fuera aleatoria para evitar sesgos. Luego, se imprimieron las dimensiones de ambos conjuntos para confirmar que la suma de sus observaciones coincidiera con el total de datos originales.

In [19]:
from sklearn.model_selection import train_test_split

train, test = train_test_split(data, test_size=0.2, random_state=42)

print(f"üìä Dimensiones del conjunto de entrenamiento: {train.shape}")
print(f"üìä Dimensiones del conjunto de validaci√≥n: {test.shape}")

if train.shape[0] + test.shape[0] == data.shape[0]:
    print("‚úÖ La divisi√≥n de datos es correcta: la suma coincide con el total de observaciones.")
else:
    print("‚ö†Ô∏è Advertencia: La suma de los datos de entrenamiento y validaci√≥n no coincide con el total de observaciones.")

üìä Dimensiones del conjunto de entrenamiento: (1279, 12)
üìä Dimensiones del conjunto de validaci√≥n: (320, 12)
‚úÖ La divisi√≥n de datos es correcta: la suma coincide con el total de observaciones.


Se utiliz√≥ la librer√≠a `SequentialFeatureSelector` de `mlxtend.feature_selection` para realizar una selecci√≥n hacia adelante de caracter√≠sticas, con un modelo de regresi√≥n lineal como estimador. El par√°metro `k_features` se configur√≥ como un rango de (2,8), lo que permiti√≥ que el algoritmo seleccionara entre 2 y 8 caracter√≠sticas. Se configur√≥ la selecci√≥n como hacia adelante (`forward=True`), y la m√©trica de evaluaci√≥n fue la R cuadrada (`scoring='r2'`). Para la validaci√≥n cruzada, se especific√≥ que se realizaran 10 pliegues (`cv=10`). Luego, se entren√≥ el modelo y se extrajeron los √≠ndices y nombres de las caracter√≠sticas seleccionadas, que se imprimieron en consola.

In [20]:
from mlxtend.feature_selection import SequentialFeatureSelector as SFS
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

train_x = train.drop('calidad', axis=1)
train_y = train['calidad']

est = LinearRegression()

# Aplicar selecci√≥n de caracter√≠sticas hacia adelante
sfs = SFS(est,
          k_features=(2, 8),
          forward=True,
          scoring='r2',
          cv=10)

# Ajustar el modelo a los datos
sfs= sfs.fit(train_x, train_y)

# Obtener los √≠ndices de las caracter√≠sticas seleccionadas
selected_features_idx = list(sfs.k_feature_idx_)

# Obtener los nombres de las caracter√≠sticas seleccionadas
selected_features_names = list(sfs.k_feature_names_)

# Imprimir los resultados
print("√çndices de las caracter√≠sticas seleccionadas:", selected_features_idx)
print("Nombres de las caracter√≠sticas seleccionadas:", selected_features_names)


√çndices de las caracter√≠sticas seleccionadas: [1, 4, 5, 6, 8, 9, 10]
Nombres de las caracter√≠sticas seleccionadas: ['acidezVolatil', 'cloruros', 'dioxidoAzufreLibre', 'dioxidoAzufreTotal', 'pH', 'sulfatos', 'alcohol']


Se entren√≥ un modelo de regresi√≥n lineal utilizando √∫nicamente las caracter√≠sticas seleccionadas en el paso anterior. Para ello, se extrajeron las columnas correspondientes de los datos de entrenamiento, asegur√°ndose de no incluir variables no seleccionadas. Luego, el modelo se entren√≥ con esas variables mediante la funci√≥n `fit`. Posteriormente, se hicieron predicciones sobre el conjunto de prueba, donde tambi√©n se filtraron las caracter√≠sticas seleccionadas. Finalmente, se utiliz√≥ la funci√≥n `r2_score` de `sklearn.metrics` para medir la capacidad de predicci√≥n del modelo, calculando y mostrando el valor de R cuadrada en consola.

In [21]:
test_x = test.drop('calidad', axis=1)
test_y = test['calidad']

# Filtrar las variables seleccionadas en los datos de entrenamiento y prueba
train_x_selected = train_x[list(sfs.k_feature_names_)]
test_x_selected = test_x[list(sfs.k_feature_names_)]

# Entrenar el modelo con las variables seleccionadas
est.fit(train_x_selected, train_y)

# Hacer predicciones en los datos de prueba
y_pred = est.predict(test_x_selected)

r2_forward = r2_score(test_y, y_pred)
print("R¬≤ del modelo con selecci√≥n hacia adelante:", r2_forward)

R¬≤ del modelo con selecci√≥n hacia adelante: 0.4012628835440285


Se llev√≥ a cabo un proceso de selecci√≥n hacia atr√°s utilizando las variables previamente seleccionadas en el paso de selecci√≥n hacia adelante. Para ello, se aplic√≥ la funci√≥n `SequentialFeatureSelector` de la librer√≠a `mlxtend.feature_selection`, pero esta vez con el par√°metro `forward=False`, lo que indica que se deb√≠a realizar la selecci√≥n hacia atr√°s. Adem√°s, se defini√≥ el par√°metro `k_features=(2, 5)` para restringir la cantidad de variables seleccionadas a un rango entre 2 y 5. Una vez ajustado el modelo con estas caracter√≠sticas, se obtuvieron tanto los √≠ndices como los nombres de las variables seleccionadas. Finalmente, se imprimieron en consola los resultados obtenidos, mostrando qu√© variables fueron elegidas tras la selecci√≥n hacia atr√°s.

In [22]:
sfs_b = SFS(est,
          k_features=(2, 5),
          forward=False,
          scoring='r2',
          cv=10)

# Ajustar el modelo a los datos
sfs_b.fit(train_x, train_y)

# Obtener los √≠ndices de las caracter√≠sticas seleccionadas
selected_features_idx_b = list(sfs_b.k_feature_idx_)

# Obtener los nombres de las caracter√≠sticas seleccionadas
selected_features_names_b = list(sfs_b.k_feature_names_)

# Imprimir los resultados
print("√çndices de las caracter√≠sticas seleccionadas:", selected_features_idx_b)
print("Nombres de las caracter√≠sticas seleccionadas:", selected_features_names_b)

√çndices de las caracter√≠sticas seleccionadas: [1, 4, 6, 9, 10]
Nombres de las caracter√≠sticas seleccionadas: ['acidezVolatil', 'cloruros', 'dioxidoAzufreTotal', 'sulfatos', 'alcohol']


Se repiti√≥ el proceso de entrenamiento y evaluaci√≥n para el modelo utilizando √∫nicamente las variables seleccionadas en el paso de selecci√≥n hacia atr√°s. Se ajust√≥ el modelo de regresi√≥n lineal a los datos de entrenamiento con estas variables seleccionadas y se realiz√≥ la predicci√≥n en los datos de prueba. Posteriormente, se calcul√≥ el valor de R cuadrada para medir la capacidad predictiva del modelo.

In [23]:
# Filtrar las variables seleccionadas en los datos de entrenamiento y prueba
train_x_selected_b = train_x[list(sfs_b.k_feature_names_)]
test_x_selected_b = test_x[list(sfs_b.k_feature_names_)]

# Entrenar el modelo con las variables seleccionadas
est.fit(train_x_selected_b, train_y)

# Hacer predicciones en los datos de prueba
y_pred_b = est.predict(test_x_selected_b)

# Calcular R¬≤ para este modelo
r2_backward = r2_score(test_y, y_pred_b)
print("R¬≤ del modelo con selecci√≥n hacia atr√°s:", r2_backward)

R¬≤ del modelo con selecci√≥n hacia atr√°s: 0.3958889666765396


In [24]:
print("\n--- Comparaci√≥n de Modelos ---")
print(f"R¬≤ del modelo con selecci√≥n hacia adelante: {r2_forward}")
print(f"R¬≤ del modelo con selecci√≥n hacia atr√°s: {r2_backward}")

if r2_backward > r2_forward:
    print("El modelo con selecci√≥n hacia atr√°s tiene un mejor R¬≤, lo que sugiere que eliminar algunas variables mejor√≥ la predicci√≥n.")
elif r2_backward < r2_forward:
    print("El modelo con selecci√≥n hacia adelante tiene un mejor R¬≤, lo que sugiere que incluir m√°s variables ayud√≥ a la predicci√≥n en este caso.")
else:
    print("Ambos modelos tienen la misma capacidad predictiva, por lo que eliminar variables no afect√≥ el desempe√±o.")



--- Comparaci√≥n de Modelos ---
R¬≤ del modelo con selecci√≥n hacia adelante: 0.4012628835440285
R¬≤ del modelo con selecci√≥n hacia atr√°s: 0.3958889666765396
El modelo con selecci√≥n hacia adelante tiene un mejor R¬≤, lo que sugiere que incluir m√°s variables ayud√≥ a la predicci√≥n en este caso.


Al analizar ambos modelos, se observa que la diferencia en los valores de R¬≤ es muy peque√±a, lo que sugiere que la capacidad predictiva no cambia considerablemente al realizar la selecci√≥n hacia adelante o hacia atr√°s. Aunque el modelo con selecci√≥n hacia adelante incluye m√°s variables, lo que podr√≠a parecer ventajoso a primera vista, el modelo con selecci√≥n hacia atr√°s elimina algunas variables innecesarias, lo que lo hace m√°s eficiente.

Dado que ambos modelos logran resultados similares en t√©rminos de R¬≤, creo que el modelo con selecci√≥n hacia atr√°s ser√≠a la mejor opci√≥n. Esto se debe a que, al reducir la cantidad de variables, se optimiza el proceso, haci√©ndolo m√°s r√°pido y menos pesado en t√©rminos computacionales. Adem√°s, al eliminar variables que no aportan mucho a la predicci√≥n, el modelo tiende a generalizar mejor, lo que podr√≠a reducir el riesgo de sobreajuste.