<a href="https://colab.research.google.com/github/ejyepezm/PPIA/blob/main/unidad_3_aplicaciones_python/2_MLflow_Tracking.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üíä C√°psula 2: El Detective de Experimentos (MLflow)
**Tema:** Tracking de Experimentos, Registro de M√©tricas y Comparaci√≥n de Modelos.

## 1. El Caos de los Hiperpar√°metros

En ML, nunca entrenas un solo modelo. Pruebas cientos:
*   "RandomForest con 10 √°rboles"
*   "RandomForest con 50 √°rboles"
*   "Con escalado vs sin escalado"

Si anotas esto en un Excel o conf√≠as en tu memoria, perder√°s el mejor modelo.

### La Soluci√≥n: MLflow
MLflow es una herramienta (Open Source) que act√∫a como un "Diario de Laboratorio" autom√°tico.
Dentro de un bloque `with mlflow.start_run():`, todo lo que hagas queda guardado para siempre:
*   `log_param()`: Qu√© configuraci√≥n usaste (ej. n_estimators=100).
*   `log_metric()`: Qu√© resultado obtuviste (ej. accuracy=0.95).
*   `log_model()`: Guarda el archivo del modelo (.pkl) autom√°ticamente.

In [None]:
# Instalamos MLflow (silencioso para no ensuciar la salida)
!pip install mlflow -q

import mlflow
import mlflow.sklearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Preparamos datos (Iris)
data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2)

# Configuraci√≥n b√°sica (Local)
mlflow.set_experiment("Experimento_Iris_Clase")

In [None]:
# --- DEMOSTRACI√ìN: Un solo experimento ---

print("Iniciando entrenamiento...")

# Iniciamos el "Run" (La ejecuci√≥n)
with mlflow.start_run(run_name="Modelo_Bosque_Peque√±o"):

    # 1. Definimos par√°metros
    n_arboles = 10
    profundidad = 3

    # 2. Registramos par√°metros (Para no olvidarlos)
    mlflow.log_param("n_estimators", n_arboles)
    mlflow.log_param("max_depth", profundidad)

    # 3. Entrenamos
    clf = RandomForestClassifier(n_estimators=n_arboles, max_depth=profundidad)
    clf.fit(X_train, y_train)

    # 4. Evaluamos
    predicciones = clf.predict(X_test)
    acc = accuracy_score(y_test, predicciones)

    # 5. Registramos la m√©trica (El resultado)
    print(f"Accuracy obtenido: {acc}")
    mlflow.log_metric("accuracy", acc)

    # 6. Guardamos el modelo (Artefacto)
    mlflow.sklearn.log_model(clf, "modelo_random_forest")

print("‚úÖ Experimento registrado en MLflow.")

## üî• Micro-Desaf√≠o: El Bucle de Optimizaci√≥n

Queremos encontrar el n√∫mero √≥ptimo de √°rboles para nuestro Bosque Aleatorio.
Probar manualmente es aburrido.

**Tu Misi√≥n:**
1.  Crea una lista de configuraciones: `lista_arboles = [10, 50, 100, 200]`.
2.  Haz un bucle `for` que recorra esa lista.
3.  Dentro del bucle, inicia un `mlflow.start_run()`.
4.  Entrena el modelo con ese n√∫mero de √°rboles, registra el par√°metro y la m√©trica de accuracy.
5.  **Bonus:** Al final, usa `mlflow.search_runs()` para mostrar un DataFrame con todos los resultados y ver cu√°l gan√≥.

In [None]:
# Lista de hiperpar√°metros a probar
lista_arboles = [5, 20, 50, 100]

print("üß™ Iniciando b√∫squeda de hiperpar√°metros...")

for n in lista_arboles:
    # --- TU C√ìDIGO AQU√ç ---
    # TODO: Inicia el run con un nombre din√°mico ej: f"Run_{n}_arboles"
    with mlflow.start_run(run_name=f"Run_{n}_arboles"):

        # TODO: Loguea el par√°metro n_estimators

        # Entrenamiento (Te lo doy hecho)
        model = RandomForestClassifier(n_estimators=n, random_state=42)
        model.fit(X_train, y_train)
        acc = accuracy_score(y_test, model.predict(X_test))

        # TODO: Loguea la m√©trica accuracy

        print(f"--> Arboles: {n} | Accuracy: {acc:.4f}")

# --- VALIDACI√ìN Y AN√ÅLISIS ---
print("\nüìä Resumen de Experimentos (Pandas DataFrame):")
# MLflow nos permite bajar los resultados como tabla
resultados = mlflow.search_runs()
print(resultados[['params.n_estimators', 'metrics.accuracy']].sort_values(by='metrics.accuracy', ascending=False))