## Predicción de calidad del vino con Árboles de Decisión

En este cuaderno, utilizaremos un modelo de árboles de decisión para predecir la calidad del vino en función de sus características.

### Paso 1: Importar las bibliotecas necesarias

Comenzaremos importando las bibliotecas necesarias para el análisis de datos y la creación del modelo.

In [1]:
# Importar bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

### Paso 2: Cargar y explorar los datos

Cargaremos el conjunto de datos `wine-quality-red.csv` y exploraremos su estructura y características.

In [2]:
# Cargar datos
data = pd.read_csv('wine-quality-red.csv')

# Mostrar las primeras filas del DataFrame
data.head()

### Paso 3: Preprocesamiento de datos

Realizaremos algunas transformaciones en los datos para prepararlos para el modelado.

In [3]:
# Verificar si hay valores nulos
data.isnull().sum()

### Paso 4: Dividir los datos en conjuntos de entrenamiento y prueba

Dividiremos los datos en un conjunto de entrenamiento y otro de prueba para evaluar el rendimiento del modelo.

In [4]:
# Definir variables independientes (X) y dependientes (y)
X = data.drop('quality', axis=1)
y = data['quality']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mostrar dimensiones de los conjuntos de entrenamiento y prueba
X_train.shape, X_test.shape, y_train.shape, y_test.shape

### Paso 5: Entrenar el modelo de Árboles de Decisión

Entrenaremos un modelo de árboles de decisión utilizando los datos de entrenamiento.

In [5]:
# Inicializar el modelo
model = DecisionTreeClassifier(random_state=42)

# Entrenar el modelo
model.fit(X_train, y_train)

### Paso 6: Evaluación del modelo

Evaluaremos el rendimiento del modelo utilizando los datos de prueba.

In [6]:
# Predecir en los datos de prueba
y_pred = model.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print('Precisión del modelo:', accuracy)

# Mostrar el reporte de clasificación
print('\nReporte de Clasificación:\n', classification_report(y_test, y_pred))

# Mostrar la matriz de confusión
print('\nMatriz de Confusión:\n', confusion_matrix(y_test, y_pred))

### Paso 7: Visualización de resultados

Aunque no hay una visualización específica para este modelo de árbol de decisión, podemos visualizar la matriz de confusión para tener una idea de cómo se distribuyen las predicciones.

In [7]:
# Visualizar la matriz de confusión
plt.figure(figsize=(10, 7))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.title('Matriz de Confusión')
plt.show()

Unnamed: 0,quality,0,1,2,3,4,5,6,7,8,9
0,0,65,21,6,0,0,0,0,0,0,0
1,1,25,50,24,6,1,0,0,0,0,0
2,2,2,22,40,18,9,0,0,0,0,0
3,3,0,3,9,14,2,0,0,0,0,0
4,4,0,2,9,12,6,0,0,0,0,0
5,5,0,0,3,9,5,3,0,0,0,0
6,6,0,0,1,2,4,2,1,0,0,0
7,7,0,0,0,0,1,2,0,0,0,0
8,8,0,0,0,0,0,1,0,0,0,0
9,9,0,0,0,0,0,0,0,0,0,0


### Paso 8: Interpretaciones y conclusiones

En este cuaderno, utilizamos un modelo de árboles de decisión para predecir la calidad del vino. Después de entrenar y evaluar el modelo, pudimos obtener una matriz de confusión que muestra la distribución de las predicciones. Esto nos permite comprender mejor el rendimiento del modelo y las áreas en las que puede mejorar.