# Laboratorio 3 Valeria Solís
## Machine Learning con Python Avanzado

In [8]:
# Carga de librerías
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import cross_val_score

# Carga de datos
wine = load_wine()
print(dict(enumerate(wine.target_names)))
X = wine.data
y = wine.target

{0: np.str_('class_0'), 1: np.str_('class_1'), 2: np.str_('class_2')}


In [9]:
# Division de datos
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y)

## Decision Tree

In [13]:
# Crear el modelo del árbol de decisión
dtc = DecisionTreeClassifier(random_state=42)

# Validación cruzada
cv_scores_dtc = cross_val_score(dtc, X, y, cv=5, scoring='accuracy')
print("CV Accuracy Árbol:", cv_scores_dtc.mean())

# Entrenar el modelo
dtc.fit(X_train, y_train)

# Hacer las predicciones
y_pred_dtc = dtc.predict(X_test)

# Evaluar el modelo
print(f"Accuracy: {accuracy_score(y_test, y_pred_dtc):.4f}")
print("Reporte de clasificación:\n", classification_report(y_test, y_pred_dtc))
print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred_dtc))


CV Accuracy Árbol: 0.8653968253968254
Accuracy: 0.9444
Reporte de clasificación:
               precision    recall  f1-score   support

           0       1.00      0.92      0.96        12
           1       0.88      1.00      0.93        14
           2       1.00      0.90      0.95        10

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36

Matriz de confusión:
 [[11  1  0]
 [ 0 14  0]
 [ 0  1  9]]


Según el modelo de arbol de decisión, para la clase 0 se obtuvo una buena precisión, ya que no se equivocó al predecir clase 0, pero sí falló 1 vez en el recall porque no reconoció uno de sus casos verdaderos.

Para la clase 1 se obtuvo un muy buen recall porque logró reconocer todos los vinos clase 1, pero tuvo una pequeña confusión al predecirla cuando no correspondía y eso explica que la precisión bajara a 0.88.

Y para clase 2 se obtuvo una buena precisión pero no logró reconocer a todos los vinos clase 2 y por eso el recall de 0.90.

En cuanto a la matriz de confusión, el modelo confundió un vino de clase 0 con uno de clase 1, y también confundió un vino de clase 2 con uno de clase 1. La clase 1 si fue predicha de manera perfecta sin errores.

## Random Forest

In [12]:
# Crear el modelo de random forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Validación cruzada
cv_scores_rf = cross_val_score(rf, X, y, cv=5, scoring='accuracy')
print("CV Accuracy RF:", cv_scores_rf.mean())

# Entrenar el modelo
rf.fit(X_train, y_train)

# Hacer las predicciones
y_pred_rf = rf.predict(X_test)


# Evaluar el modelo
print(f"Accuracy: {accuracy_score(y_test, y_pred_rf):.4f}")
print("Reporte de clasificación:\n", classification_report(y_test, y_pred_rf))
print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred_rf))


CV Accuracy RF: 0.9720634920634922
Accuracy: 1.0000
Reporte de clasificación:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        12
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00        10

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

Matriz de confusión:
 [[12  0  0]
 [ 0 14  0]
 [ 0  0 10]]


Según el modelo de Random Forest, el modelo no cometió ningún error de clasificación de clases de vinos, cada clase fue reconocida de manera perfecta, obteniendo la precisión, recall y F1 de 1.00 en todas las clases de vinos.

En cuanto a la matriz de confusión, no hay errores, ya que no hay valores fuera de la diagonal, cada clase fue predicha de manera correcta por el modelo.



# Informe Comparativo de Modelos de Clasificación

Se utilizó el dataset Vinos (`sklearn.datasets.load_wine`) y los modelos aplicados fueron Árbol de Decisión y Random Forest

## Preparación del Dataset

- El dataset contiene 178 observaciones y 13 variables numéricas.
- La variable objetivo (`target`) representa 3 tipos de vino: clases 0, 1 y 2.
- No contiene valores nulos.
- Se dividieron los datos en entrenamiento (80%) y prueba (20%).

## Modelos

### Árbol de Decisión
- Entrenado con el criterio de impureza **Gini**.
- **Accuracy:** 0.94
- Métricas:
  - Clases 0 y 2: precisión = 1.00
  - Clase 1: precisión = 0.88, recall = 1.00
- Matriz de confusión: Se detectaron algunos falsos positivos hacia la clase 1.

### Random Forest
- Ensamble de **100 árboles**, también usando criterio **Gini**.
- **Accuracy:** 1.00
- Métricas:
  - Precisión, recall y f1-score = 1.00 en todas las clases
- Matriz de confusión: Predicciones completamente correctas.

## Validación Cruzada

Se aplicó validación cruzada para estimar la estabilidad de los modelos.

| Modelo             | Accuracy promedio (CV) |
|--------------------|------------------------|
| Árbol de Decisión  | ~0.94                  |
| Random Forest      | ~0.98–1.00             |

Ambos modelos mostraron buen rendimiento, pero **Random Forest fue más consistente**.

## Conclusión General

Ambos modelos clasificaron correctamente la mayoría de los vinos.

- **Random Forest** fue el que mejor se adaptó al problema, mostrando:
  - Mayor precisión
  - Mejor generalización (validación cruzada)
  - Mayor robustez

- El **Árbol de Decisión** sigue siendo una buena opción cuando se necesita un modelo **explicable y visualmente interpretable**, aunque fue ligeramente menos preciso que Random Forest.