<a href="https://colab.research.google.com/github/luismiguelcasadodiaz/IBM_SkillsBuild_IA_325/blob/main/IA_325_py_cod_ex_28_s.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Métricas en árboles de decisión
El objetivo de este ejercicio es que los estudiantes implementen una función que:

+ Entrene un árbol de decisión usando DecisionTreeClassifier de sklearn.
+ Haga predicciones en un conjunto de prueba.
+ Evalúe el modelo utilizando métricas como precisión (accuracy), matriz de confusión y reporte de clasificación.
+ Pase pruebas unitarias (unittest) que validen el funcionamiento correcto del código.



## Instrucciones

Implementa una función llamada entrenar_y_evaluar_arbol(X_train, y_train, X_test, y_test) que:

  + Entrene un modelo DecisionTreeClassifier con los datos de entrenamiento (X_train, y_train).
  + Prediga los valores de X_test.
  + Evalúe el modelo usando:
    + Precisión (accuracy_score). aciertos / predicciones
    + Matriz de confusión (confusion_matrix)
    + Reporte de clasificación (classification_report)
  + Devuelva un diccionario con:

    + predicciones: Un array con las predicciones del modelo.
    + accuracy: Un número flotante con la precisión.
    + matriz_confusion: Una matriz de confusión.
    + reporte: Un string con el reporte de clasificación.

Usa random_state=42 en DecisionTreeClassifier para reproducibilidad.

Prueba la función con el dataset Iris, asegurando que el modelo tenga al menos 85% de precisión en los datos de prueba.



##Ejemplo de Uso

Una vez implementada la función, debe ejecutarse correctamente con este código de prueba:


```python
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import numpy as np

# Cargar el dataset de flores Iris
iris = load_iris()
X = iris.data  # Características
y = iris.target  # Clases de las flores (Setosa, Versicolor, Virginica)

# Dividir en conjunto de entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Importar la función implementada
from solution import entrenar_y_evaluar_arbol

# Llamar a la función y obtener las métricas
resultados = entrenar_y_evaluar_arbol(X_train, y_train, X_test, y_test)

# Mostrar los resultados
print("Precisión del modelo:", resultados["accuracy"])
print("Matriz de Confusión:\n", resultados["matriz_confusion"])
print("Reporte de Clasificación:\n", resultados["reporte"])
```

## Salida esperada (aproximada):
```python

Precisión del modelo: 1.0
Matriz de Confusión:
 [[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]
Reporte de Clasificación:
               precision    recall  f1-score   support

      Setosa       1.00      1.00      1.00        10
  Versicolor       1.00      1.00      1.00         9
   Virginica       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

```



## Importación de las librerías

In [17]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import numpy as np
import unittest

## Definición de la función

In [18]:
def entrenar_y_evaluar_arbol(X_train, y_train, X_test, y_test):
    """
    Entrena un árbol de decisión y evalúa su rendimiento.

    Esta función entrena un modelo DecisionTreeClassifier en los datos de entrenamiento,
    realiza predicciones en los datos de prueba y evalúa el modelo utilizando
    precisión, matriz de confusión y reporte de clasificación.

    Args:
        X_train (np.ndarray): Datos de características de entrenamiento.
        y_train (np.ndarray): Etiquetas de clase de entrenamiento.
        X_test (np.ndarray): Datos de características de prueba.
        y_test (np.ndarray): Etiquetas de clase de prueba.

    Returns:
        dict: Un diccionario que contiene las siguientes métricas:
            'predicciones' (np.ndarray): Predicciones del modelo en los datos de prueba.
            'accuracy' (float): Precisión del modelo.
            'matriz_confusion' (np.ndarray): Matriz de confusión del modelo.
            'reporte' (str): Reporte de clasificación del modelo.
    """
    dtc = DecisionTreeClassifier(random_state=42)
    dtc.fit(X_train, y_train)
    predicciones = dtc.predict(X_test)
    accuracy = np.mean(predicciones == y_test)
    matriz_confusion = confusion_matrix(predicciones, y_test)
    reporte = classification_report(predicciones, y_test)
    resultado = {'predicciones':predicciones,'accuracy':accuracy, \
    'matriz_confusion':matriz_confusion, 'reporte': reporte}
    return resultado

#### Test para la función

In [19]:
class TestDecisionTreeEvaluation(unittest.TestCase):

    def setUp(self):
        """Prepara los datos para cada prueba."""
        iris = load_iris()
        X = iris.data
        y = iris.target
        self.X_train, self.X_test, self.y_train, self.y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    def test_entrenar_y_evaluar_arbol_returns_dict(self):
        """Verifica que la función devuelve un diccionario."""
        resultados = entrenar_y_evaluar_arbol(self.X_train, self.y_train, self.X_test, self.y_test)
        self.assertIsInstance(resultados, dict)

    def test_entrenar_y_evaluar_arbol_contains_keys(self):
        """Verifica que el diccionario devuelto contiene las claves esperadas."""
        resultados = entrenar_y_evaluar_arbol(self.X_train, self.y_train, self.X_test, self.y_test)
        expected_keys = ['predicciones', 'accuracy', 'matriz_confusion', 'reporte']
        self.assertEqual(sorted(list(resultados.keys())), sorted(expected_keys))

    def test_entrenar_y_evaluar_arbol_accuracy(self):
        """Verifica que la precisión es mayor o igual a 0.85."""
        resultados = entrenar_y_evaluar_arbol(self.X_train, self.y_train, self.X_test, self.y_test)
        self.assertGreaterEqual(resultados['accuracy'], 0.85)

    def test_entrenar_y_evaluar_arbol_predicciones_shape(self):
        """Verifica la forma de las predicciones."""
        resultados = entrenar_y_evaluar_arbol(self.X_train, self.y_train, self.X_test, self.y_test)
        self.assertEqual(resultados['predicciones'].shape, self.y_test.shape)

    def test_entrenar_y_evaluar_arbol_matriz_confusion_shape(self):
        """Verifica la forma de la matriz de confusión."""
        resultados = entrenar_y_evaluar_arbol(self.X_train, self.y_train, self.X_test, self.y_test)
        # Para el dataset Iris, hay 3 clases, por lo que la matriz de confusión debe ser 3x3
        self.assertEqual(resultados['matriz_confusion'].shape, (3, 3))

In [21]:
unittest.main(argv=['first-arg-is-ignored'], exit=False)

.....
----------------------------------------------------------------------
Ran 5 tests in 0.090s

OK


<unittest.main.TestProgram at 0x7ed7b1fe9490>

##Prueba de la función

In [20]:
# Cargar el dataset de flores Iris
iris = load_iris()
X = iris.data  # Características
y = iris.target  # Clases de las flores (Setosa, Versicolor, Virginica)

# Dividir en conjunto de entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Importar la función implementada


# Llamar a la función y obtener las métricas
resultados = entrenar_y_evaluar_arbol(X_train, y_train, X_test, y_test)

# Mostrar los resultados
print("Precisión del modelo:", resultados["accuracy"])
print("Matriz de Confusión:\n", resultados["matriz_confusion"])
print("Reporte de Clasificación:\n", resultados["reporte"])

Precisión del modelo: 1.0
Matriz de Confusión:
 [[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]
Reporte de Clasificación:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

