# Actividad Práctica: Implementación y Comparación de Modelos con Regularización

## Introducción a la Actividad

**Objetivo:**

- Implementar modelos de regresión lineal, polinómica, Ridge y Lasso utilizando un conjunto de datos real.
- Comparar el rendimiento de los modelos y analizar el impacto de la regularización y la multicolinealidad.

**Dataset Propuesto:**

- Utilizar el conjunto de datos 'Wine Quality' disponible en UCI Machine Learning Repository.
- Datos sobre características químicas de vinos y su calidad.

**Tareas:**

- Cargar y explorar el dataset.
- Detectar y manejar la multicolinealidad.
- Implementar regresión lineal y polinómica.
- Aplicar Ridge y Lasso.
- Comparar resultados y extraer conclusiones.

## Paso 1 - Carga y Exploración del Dataset

**Cargar el Dataset:**



In [None]:
import pandas as pd

df = pd.read_csv('winequality-red.csv', sep=',')

**Exploración Inicial:**
- Visualizar las primeras filas con df.head().
- Obtener información del dataset con df.info().
- Describir las variables con df.describe().





La variable objetivo es 'quality', una medida de la calidad del vino.

## Paso 2 - Detección y Manejo de la Multicolinealidad

**Matriz de Correlación:**


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Plot a correlation heatmap to visualize relationships between features with all labels
corr_matrix = df.corr()
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.show()


**Análisis del VIF:**



In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

X = df.drop('quality', axis=1)
vif_data = pd.DataFrame()
vif_data["feature"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X.values, i) for i in range(len(X.columns))]
print(vif_data)


**Manejo de Multicolinealidad:**

- Decidir si eliminar variables altamente correlacionadas.
- Considerar combinar variables o aplicar técnicas de regularización.

## Paso 3 - Implementación de Modelos de Regresión

**Preparar los Datos:**



In [None]:
from sklearn.model_selection import train_test_split

X = df.drop('quality', axis=1)
y = df['quality']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


**Regresión Lineal Simple:**



In [None]:
from sklearn.linear_model import LinearRegression

modelo_lineal = LinearRegression()
modelo_lineal.fit(X_train, y_train)
y_pred_lineal = modelo_lineal.predict(X_test)


**Regresión Polinómica:**



In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

modelo_polinomico = LinearRegression()
modelo_polinomico.fit(X_train_poly, y_train)
y_pred_polinomico = modelo_polinomico.predict(X_test_poly)


**Evaluación de Modelos:**



In [None]:
from sklearn.metrics import mean_squared_error, r2_score

mse_lineal = mean_squared_error(y_test, y_pred_lineal)
r2_lineal = r2_score(y_test, y_pred_lineal)

mse_polinomico = mean_squared_error(y_test, y_pred_polinomico)
r2_polinomico = r2_score(y_test, y_pred_polinomico)



## Paso 4 - Aplicación de Ridge y Lasso

**Regresión Ridge:**



In [None]:
from sklearn.linear_model import Ridge

modelo_ridge = Ridge(alpha=1.0)
modelo_ridge.fit(X_train, y_train)
y_pred_ridge = modelo_ridge.predict(X_test)

mse_ridge = mean_squared_error(y_test, y_pred_ridge)
r2_ridge = r2_score(y_test, y_pred_ridge)


**Regresión Lasso:**



In [None]:
from sklearn.linear_model import Lasso

modelo_lasso = Lasso(alpha=0.1)
modelo_lasso.fit(X_train, y_train)
y_pred_lasso = modelo_lasso.predict(X_test)

mse_lasso = mean_squared_error(y_test, y_pred_lasso)
r2_lasso = r2_score(y_test, y_pred_lasso)


**Comparación de Coeficientes:**

- Analizar cómo cambian los coeficientes con cada método.
- Identificar variables que son eliminadas por Lasso.

## Paso 5 - Comparación y Conclusiones

**Comparación de Métricas:**
- Crear una tabla resumen con MSE y $R^2$ de cada modelo.

**Análisis de Resultados:**
- ¿Cuál modelo tuvo el mejor rendimiento?
- ¿Cómo afectó la regularización al sobreajuste?
- ¿Se observó mejora al manejar la multicolinealidad?

**Conclusiones:**
- Reflexionar sobre la importancia de seleccionar y regularizar adecuadamente los modelos.
- Discutir limitaciones y posibles mejoras.


