<a href="https://colab.research.google.com/github/luismiguelcasadodiaz/IBM_SkillsBuild_IA_325/blob/main/IA_325_py_cod_ex_32_s.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Random Forest
El objetivo es implementar una función que:

+ 1.- **Entrene** un modelo Random Forest (RandomForestClassifier).
+ 2.-Haga **predicciones** en datos de prueba.
+ 3.-**Evalúe** el rendimiento del modelo con:
  + **Precisión** (accuracy_score)
  + **Matriz de confusión** (confusion_matrix)
  + **Reporte de clasificación** (classification_report)
+ 4.-**Devuelva los resultados en un diccionario**.
+ 5.-**Supervise la implementación con pruebas unitarias** (unittest).



## Instrucciones

### 1.- Implementa una función llamada entrenar_y_evaluar_random_forest(X_train, y_train, X_test, y_test) que:

  + **Entrene** un RandomForestClassifier(n_estimators=100, random_state=42).
  + **Prediga** los valores de X_test.
  + **Calcule** las métricas de evaluación mencionadas.
  + **Devuelva** un diccionario con:

   + "predicciones": Array de predicciones del modelo.
   +  "accuracy": Precisión del modelo en los datos de prueba.
   +  "matriz_confusion": Matriz de confusión.
   +  "reporte": Reporte de clasificación.

### 2.- Usa el dataset de vinos (wine dataset) de sklearn.datasets.

###3.- Asegúrate de que el modelo tenga al menos 90% de precisión en los datos de prueba.



## Ejemplo de Uso

El siguiente código debería ejecutarse correctamente una vez que implementes la función:
```python
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
import numpy as np

# Cargar el dataset de vinos
wine = load_wine()
X = wine.data  # Características
y = wine.target  # Clases de vinos

# Dividir en conjunto de entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Importar la función implementada
from solution import entrenar_y_evaluar_random_forest

# Llamar a la función y obtener las métricas
resultados = entrenar_y_evaluar_random_forest(X_train, y_train, X_test, y_test)

# Mostrar los resultados
print("Precisión del modelo:", resultados["accuracy"])
print("Matriz de Confusión:\n", resultados["matriz_confusion"])
print("Reporte de Clasificación:\n", resultados["reporte"])

```


## Salida esperada (aproximada)
```python
Precisión del modelo: 1.0
Matriz de Confusión:
 [[14  0  0]
 [ 0 14  0]
 [ 0  0  8]]
Reporte de Clasificación:
               precision    recall  f1-score   support

     Clase 0       1.00      1.00      1.00        14
     Clase 1       1.00      1.00      1.00        14
     Clase 2       1.00      1.00      1.00         8

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36
```


## Importación de librerías

In [21]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, \
classification_report
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
import numpy as np
import unittest

## Definición de la función solicitada

In [22]:
def entrenar_y_evaluar_random_forest(X_train, y_train, X_test, y_test):
  """
  Entrena un modelo Random Forest y evalúa su rendimiento.

  Args:
    X_train: Datos de entrenamiento.
    y_train: Etiquetas de entrenamiento.
    X_test: Datos de prueba.
    y_test: Etiquetas de prueba.

  Returns:
    Un diccionario con las predicciones, precisión, matriz de confusión
    y reporte de clasificación.
  """
  # Verificar que los argumentos no sean nulos.
  if X_train is None or y_train is None or X_test is None or y_test is None:
    raise ValueError("Los argumentos no pueden ser nulos.")
  # Verificar que los tamaños de los conjuntos de entrenamiento y prueba coincidan.
  if X_train.shape[0] != y_train.shape[0] or X_test.shape[0] != y_test.shape[0]:
    raise ValueError("Los tamaños de X_train, y_train, X_test y y_test deben ser iguales.")
  # Verificar que el número de características sea el mismo.
  if X_train.shape[1] != X_test.shape[1]:
    raise ValueError("El número de características en X_train y X_test debe ser el mismo.")
  # Verificar que las etiquetas sean unidimensionales.
  if y_train.ndim != 1 or y_test.ndim != 1:
    raise ValueError("Las etiquetas deben ser unidimensionales.")

  # Inicializar el modelo Random Forest.
  rfc = RandomForestClassifier(n_estimators=100, random_state=42)
  # Entrenar el modelo.
  rfc.fit(X_train, y_train)

  # Realizar predicciones en los datos de prueba.
  y_predid = rfc.predict(X_test)

  # Calcular métricas de evaluación.
  accuracy = accuracy_score(y_test, y_predid)
  matriz_confusion = confusion_matrix(y_test, y_predid)
  reporte = classification_report(y_test, y_predid)

  # Devolver los resultados en un diccionario.
  return {"predicciones": y_predid, \
          "accuracy": accuracy, \
          "matriz_confusion": matriz_confusion, \
          "reporte": reporte}

## Definición de la batería de tests

In [23]:
class TestRandomForestEvaluation(unittest.TestCase):

    def setUp(self):
        """Set up a synthetic dataset for testing."""
        wine = load_wine()
        X = wine.data  # Características
        y = wine.target
        self.X_train, self.X_test, self.y_train, self.y_test = train_test_split(
            X, y, test_size=0.2, random_state=42
        )

    def test_valid_input(self):
        """Test with valid input data."""
        results = entrenar_y_evaluar_random_forest(self.X_train, self.y_train, self.X_test, self.y_test)
        self.assertIsInstance(results, dict)
        self.assertIn("predicciones", results)
        self.assertIn("accuracy", results)
        self.assertIn("matriz_confusion", results)
        self.assertIn("reporte", results)
        self.assertIsInstance(results["accuracy"], float)
        self.assertIsInstance(results["matriz_confusion"], np.ndarray)
        self.assertIsInstance(results["reporte"], str)

    def test_none_input(self):
        """Test with None values as input."""
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(None, self.y_train, self.X_test, self.y_test)
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(self.X_train, None, self.X_test, self.y_test)
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(self.X_train, self.y_train, None, self.y_test)
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(self.X_train, self.y_train, self.X_test, None)

    def test_mismatched_samples(self):
        """Test with mismatched number of samples between X and y."""
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(self.X_train[:-1], self.y_train, self.X_test, self.y_test)
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(self.X_train, self.y_train[:-1], self.X_test, self.y_test)

    def test_mismatched_features(self):
        """Test with mismatched number of features between train and test."""
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(self.X_train[:, :-1], self.y_train, self.X_test, self.y_test)

    def test_multidimensional_labels(self):
        """Test with multidimensional label arrays."""
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(self.X_train, np.vstack([self.y_train, self.y_train]).T, self.X_test, self.y_test)
        with self.assertRaises(ValueError):
            entrenar_y_evaluar_random_forest(self.X_train, self.y_train, self.X_test, np.vstack([self.y_test, self.y_test]).T)

    def test_accuracy_threshold(self):
        """Test if accuracy meets the threshold (requires a dataset where this is likely)."""
        # This test might fail with the synthetic data if the model performs poorly.
        # For the wine dataset, it should pass as per the problem description.
        # For this test to be reliable, you might need a specific dataset
        # where the model is guaranteed to have high accuracy.
        from sklearn.datasets import load_wine
        wine = load_wine()
        X = wine.data
        y = wine.target
        X_train_wine, X_test_wine, y_train_wine, y_test_wine = train_test_split(X, y, test_size=0.2, random_state=42)
        results = entrenar_y_evaluar_random_forest(X_train_wine, y_train_wine, X_test_wine, y_test_wine)
        self.assertGreaterEqual(results["accuracy"], 0.9)

#### Ejecución de los test

In [24]:
unittest.main(argv=['first-arg-is-ignored'], exit=False)

......
----------------------------------------------------------------------
Ran 6 tests in 0.659s

OK


<unittest.main.TestProgram at 0x780cb6ec5b10>

## Ejemplo de uso

In [25]:
# Cargar el dataset de vinos
wine = load_wine()
X = wine.data  # Características
y = wine.target  # Clases de vinos

# Dividir en conjunto de entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Importar la función implementada
#from solution import entrenar_y_evaluar_random_forest

# Llamar a la función y obtener las métricas
resultados = entrenar_y_evaluar_random_forest(X_train, y_train, X_test, y_test)

# Mostrar los resultados
print("Precisión del modelo:", resultados["accuracy"])
print("Matriz de Confusión:\n", resultados["matriz_confusion"])
print("Reporte de Clasificación:\n", resultados["reporte"])

Precisión del modelo: 1.0
Matriz de Confusión:
 [[14  0  0]
 [ 0 14  0]
 [ 0  0  8]]
Reporte de Clasificación:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00         8

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

