# Caso de Uso: Predicción de la Calidad del Vino
### Objetivo
En este caso de uso, construiremos y evaluaremos un modelo para predecir la calidad del vino basándonos en sus características químicas.

### Dataset
Usaremos el **Wine Quality Dataset**, que contiene información sobre:
- Variables como acidez, pH, azúcar residual, alcohol, entre otras.
- Una calificación de calidad (`quality`) de 0 a 10 como variable objetivo.

Este dataset es ideal para practicar regresión y clasificación.

### Paso 1: Cargar el Dataset y Librerías
Primero, importaremos las librerías necesarias y cargaremos el dataset desde una fuente pública.
Nota: Usaremos la librería `pandas` para manejar los datos y `matplotlib` para graficar.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, classification_report

# Cargar el dataset desde una URL pública
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'
df = pd.read_csv(url, sep=';')

print("Primeras filas del dataset:")
print(df.head())

### Paso 2: Análisis Exploratorio de Datos (EDA)
Exploraremos el dataset para entender las variables disponibles y su relación con la calidad del vino.

In [None]:
# Resumen estadístico de las variables
print("Resumen estadístico:")
print(df.describe())

# Revisar la distribución de la calidad del vino
plt.figure(figsize=(8, 6))
plt.hist(df['quality'], bins=6, color='skyblue', edgecolor='black')
plt.title('Distribución de la Calidad del Vino', fontsize=14)
plt.xlabel('Calidad (0-10)', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.show()

### Paso 3: Selección de Características
Seleccionaremos las características que tienen mayor correlación con la calidad del vino para construir nuestro modelo.

In [None]:
# Matriz de correlación
correlation_matrix = df.corr()
plt.figure(figsize=(10, 8))
plt.imshow(correlation_matrix, cmap='coolwarm', interpolation='none')
plt.colorbar()
plt.title('Matriz de Correlación entre Variables', fontsize=14)
plt.show()

# Selección basada en correlación alta con la calidad
selected_features = ['alcohol', 'sulphates', 'citric acid', 'volatile acidity']
X = df[selected_features]
y = df['quality']
print(f"Características seleccionadas: {selected_features}")

### Paso 3: Selección de Características
Seleccionaremos las características que tienen mayor correlación con la calidad del vino para construir nuestro modelo.
- La matriz de correlación ahora incluirá etiquetas para que sea más fácil identificar las relaciones fuertes entre variables.


In [None]:
# Matriz de correlación con etiquetas
correlation_matrix = df.corr()
plt.figure(figsize=(12, 10))
plt.matshow(correlation_matrix, fignum=1, cmap='coolwarm')
plt.xticks(range(df.shape[1]), df.columns, rotation=90, fontsize=10)
plt.yticks(range(df.shape[1]), df.columns, fontsize=10)
plt.colorbar()
plt.title('Matriz de Correlación entre Variables', fontsize=14, pad=20)
plt.show()

# Selección basada en correlación alta con la calidad
selected_features = ['alcohol', 'sulphates', 'citric acid', 'volatile acidity']
X = df[selected_features]
y = df['quality']
print(f"Características seleccionadas: {selected_features}")

### Paso 5: Construcción del Modelo de Regresión
Primero construiremos un modelo de regresión lineal para predecir la calidad del vino como una variable continua.

In [None]:
# Modelo de regresión lineal
reg_model = LinearRegression()
reg_model.fit(X_train, y_train)

y_pred_reg = reg_model.predict(X_test)

# Métricas de evaluación
mse = mean_squared_error(y_test, y_pred_reg)
r2 = r2_score(y_test, y_pred_reg)

print(f"Error Cuadrático Medio (MSE): {mse:.2f}")
print(f"Coeficiente de Determinación ($R^2$): {r2:.2f}")

### Paso 6: Construcción del Modelo de Clasificación
Ahora construiremos un modelo de clasificación para predecir la calidad como una variable categórica.

In [None]:
# Modelo de clasificación con Random Forest
clf_model = RandomForestClassifier(random_state=42)
clf_model.fit(X_train, y_train)

y_pred_clf = clf_model.predict(X_test)

# Métricas de evaluación
accuracy = accuracy_score(y_test, y_pred_clf)
print(f"Precisión del modelo de clasificación: {accuracy:.2f}")

print("Reporte de clasificación:")
print(classification_report(y_test, y_pred_clf))

### Paso 7: Visualización de Resultados
Graficaremos las predicciones frente a los valores reales para evaluar visualmente los modelos.

In [None]:
# Gráfico de regresión
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred_reg, alpha=0.5, color='blue')
plt.title('Regresión: Predicciones vs Valores Reales', fontsize=14)
plt.xlabel('Valores Reales (Calidad)', fontsize=12)
plt.ylabel('Predicciones (Calidad)', fontsize=12)
plt.plot([0, 10], [0, 10], '--', color='red')
plt.show()

# Gráfico de clasificación (matriz de confusión)
from sklearn.metrics import ConfusionMatrixDisplay
ConfusionMatrixDisplay.from_estimator(clf_model, X_test, y_test, cmap='Blues')
plt.title('Clasificación: Matriz de Confusión', fontsize=14)
plt.show()

### Paso 8: Conclusiones
- La regresión lineal proporciona una medida continua de predicción con un $R^2$ y MSE razonables.
- El modelo de clasificación (Random Forest) muestra buena precisión para clasificar correctamente la calidad del vino.
- La selección adecuada de características y la evaluación de modelos son esenciales para un buen rendimiento.