# MLPY: Getting Started (Actualizado 2025)

Este notebook te introducir√° a los conceptos b√°sicos de MLPY, un framework moderno de machine learning para Python.

## 1. Instalaci√≥n y Setup

Primero, aseg√∫rate de tener MLPY instalado:

In [None]:
# Si no est√° instalado, descomenta la siguiente l√≠nea:
# !pip install mlpy

import mlpy
print(f"MLPY version: {mlpy.__version__}")
print(f"MLPY est√° 100% funcional desde agosto 2025")

## 2. Conceptos B√°sicos

MLPY est√° construido alrededor de varios conceptos clave:

- **Task**: Encapsula los datos y metadatos de un problema de ML
- **Learner**: Interfaz unificada para algoritmos de ML
- **Measure**: M√©tricas para evaluar el rendimiento
- **Resampling**: Estrategias para evaluaci√≥n robusta

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris

# Importar componentes principales de MLPY
from mlpy.tasks import TaskClassif
from mlpy.learners import LearnerClassifSklearn
from mlpy.measures import MeasureClassifAccuracy, MeasureClassifF1
from mlpy.resamplings import ResamplingCV
from mlpy import resample

## 3. Crear una Tarea (Task)

Vamos a trabajar con el dataset Iris:

In [None]:
# Cargar datos
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target_names[iris.target]

print(f"Dataset shape: {df.shape}")
print(f"\nPrimeras filas:")
df.head()

In [None]:
# Crear una tarea de clasificaci√≥n
task = TaskClassif(
    data=df,
    target='species',
    id='iris_classification'
)

# Explorar la tarea
print(f"Tipo de tarea: {task.task_type}")
print(f"N√∫mero de features: {len(task.feature_names)}")
print(f"N√∫mero de observaciones: {task.nrow}")
print(f"Clases: {task.class_names}")
print(f"N√∫mero de clases: {task.n_classes}")
print(f"\nFeatures disponibles:")
print(task.feature_names)

## 4. Crear un Learner

Utilizaremos learners de scikit-learn:

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Crear un Random Forest learner
rf_learner = LearnerClassifSklearn(
    classifier="RandomForestClassifier",
    n_estimators=100,
    random_state=42,
    id='random_forest'
)

print(f"Learner ID: {rf_learner.id}")
print(f"¬øEst√° entrenado?: {rf_learner.is_trained}")

## 5. Entrenar y Predecir

Veamos c√≥mo entrenar el modelo y hacer predicciones:

In [None]:
# Entrenar el learner
rf_learner.train(task)
print(f"¬øEst√° entrenado ahora?: {rf_learner.is_trained}")

# Hacer predicciones
predictions = rf_learner.predict(task)

# Ver algunas predicciones
print("\nPrimeras 10 predicciones:")
print(predictions.response[:10])
print("\nClases reales:")
print(predictions.truth[:10])

## 6. Evaluar el Rendimiento

Usemos medidas para evaluar las predicciones:

In [None]:
# Crear medidas
accuracy = MeasureClassifAccuracy()
f1 = MeasureClassifF1(average='macro')

# Calcular scores
acc_score = accuracy.score(predictions, task)
f1_score = f1.score(predictions, task)

print(f"Accuracy: {acc_score:.3f}")
print(f"F1-Score (macro): {f1_score:.3f}")

## 7. Cross-Validation

Para una evaluaci√≥n m√°s robusta, usemos cross-validation:

In [None]:
# Definir estrategia de resampling
cv = ResamplingCV(
    folds=5,
    stratify=True  # Mantener proporci√≥n de clases
)

# Ejecutar evaluaci√≥n con cross-validation
result = resample(
    task=task,
    learner=rf_learner,
    resampling=cv,
    measures=[accuracy, f1]
)

print(f"N√∫mero de iteraciones: {result.n_iters}")
print(f"N√∫mero de errores: {result.n_errors}")

# Ver resultados agregados
print("\nResultados agregados:")
print(result.aggregate())

# Obtener score promedio para accuracy
print(f"\nAccuracy promedio: {result.score('classif.acc', 'mean'):.4f}")
print(f"F1 promedio: {result.score('classif.f1', 'mean'):.4f}")

## 8. Comparar M√∫ltiples Modelos

Creemos varios learners y comparemos su rendimiento:

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

# Lista de learners a comparar
learners = [
    LearnerClassifSklearn(
        classifier="RandomForestClassifier",
        n_estimators=100,
        random_state=42,
        id='random_forest'
    ),
    LearnerClassifSklearn(
        classifier="DecisionTreeClassifier",
        max_depth=5,
        random_state=42,
        id='decision_tree'
    ),
    LearnerClassifSklearn(
        classifier="SVC",
        probability=True,
        random_state=42,
        id='svm'
    )
]

# Evaluar todos los learners
results = {}
for learner in learners:
    print(f"Evaluando {learner.id}...")
    result = resample(
        task=task,
        learner=learner,
        resampling=cv,
        measures=[accuracy]
    )
    results[learner.id] = result.score('classif.acc', 'mean')
    print(f"  Accuracy: {results[learner.id]:.4f}")

# Mostrar ranking
print("\nRanking de modelos:")
sorted_results = sorted(results.items(), key=lambda x: x[1], reverse=True)
for i, (name, score) in enumerate(sorted_results, 1):
    print(f"{i}. {name}: {score:.4f}")

## 9. Usar SimpleAutoML

MLPY incluye una interfaz de AutoML simplificada:

In [None]:
from mlpy.automl import SimpleAutoML

# Crear AutoML con configuraci√≥n r√°pida
automl = SimpleAutoML(
    time_limit=60,  # 1 minuto
    max_models=5,   # Solo 5 modelos para demostraci√≥n
    feature_engineering=True,
    feature_selection=True,
    cross_validation=3,  # 3 folds para rapidez
    test_size=0.2,
    random_state=42,
    verbose=True
)

# Ejecutar AutoML
automl_result = automl.fit(df, 'species')

print(f"\nüéØ Mejor score encontrado: {automl_result.best_score:.4f}")
print(f"‚è±Ô∏è Tiempo total: {automl_result.training_time:.1f}s")
print(f"üîç Modelos probados: {len(automl_result.leaderboard)}")

# Ver leaderboard
print("\nüìä Top 3 modelos:")
print(automl_result.leaderboard.head(3))

## 10. Crear un Pipeline

MLPY soporta pipelines para preprocesamiento:

In [None]:
from mlpy.pipelines import Graph, GraphLearner, PipeOpScale, PipeOpLearner

# Crear pipeline: escalar ‚Üí clasificar
pipeline_graph = Graph()

# A√±adir operadores
scaler = PipeOpScale(id='scaler', method='standard')
classifier = PipeOpLearner(
    LearnerClassifSklearn(
        classifier="RandomForestClassifier",
        n_estimators=100,
        random_state=42
    ),
    id='classifier'
)

pipeline_graph.add_pipeop(scaler)
pipeline_graph.add_pipeop(classifier)
pipeline_graph.add_edge('scaler', 'output', 'classifier', 'input')

# Convertir a GraphLearner
pipeline = GraphLearner(graph=pipeline_graph, id='pipeline_rf')

# Evaluar el pipeline
pipeline_result = resample(
    task=task,
    learner=pipeline,
    resampling=cv,
    measures=[accuracy, f1]
)

print("Pipeline (Scale + RF) - Resultados:")
print(f"Accuracy: {pipeline_result.score('classif.acc', 'mean'):.4f}")
print(f"F1-Score: {pipeline_result.score('classif.f1', 'mean'):.4f}")

## 11. Visualizaci√≥n de Resultados

Visualicemos la comparaci√≥n de modelos:

In [None]:
import matplotlib.pyplot as plt

# Preparar datos para visualizaci√≥n
model_names = ['Random Forest', 'Decision Tree', 'SVM', 'AutoML', 'Pipeline']
accuracies = [
    results['random_forest'],
    results['decision_tree'],
    results['svm'],
    automl_result.best_score,
    pipeline_result.score('classif.acc', 'mean')
]

# Crear gr√°fico de barras
plt.figure(figsize=(12, 6))
bars = plt.bar(model_names, accuracies, 
               color=['lightblue', 'lightcoral', 'lightgreen', 'gold', 'orchid'])
plt.ylabel('Accuracy')
plt.title('Comparaci√≥n de Modelos en Dataset Iris')
plt.ylim(0.8, 1.0)
plt.grid(axis='y', alpha=0.3)

# A√±adir valores en las barras
for bar, acc in zip(bars, accuracies):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.005,
             f'{acc:.3f}', ha='center', va='bottom', fontweight='bold')

plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

# Mostrar el mejor modelo
best_idx = accuracies.index(max(accuracies))
print(f"\nüèÜ Mejor modelo: {model_names[best_idx]} con accuracy de {max(accuracies):.4f}")

## 12. Pr√≥ximos Pasos

¬°Felicidades! Has aprendido los conceptos b√°sicos de MLPY:

1. ‚úÖ Crear tareas (Tasks)
2. ‚úÖ Usar learners de scikit-learn
3. ‚úÖ Evaluar modelos con measures
4. ‚úÖ Usar cross-validation
5. ‚úÖ Comparar m√∫ltiples modelos
6. ‚úÖ Usar SimpleAutoML
7. ‚úÖ Crear pipelines

### Para explorar m√°s:

- **Notebooks avanzados**: Consulta otros notebooks para ejemplos m√°s complejos
- **Documentaci√≥n**: Lee la documentaci√≥n completa en el README
- **Datasets grandes**: Prueba con backends Dask o Vaex
- **Tuning avanzado**: Optimizaci√≥n de hiperpar√°metros con Optuna
- **Visualizaci√≥n**: M√°s tipos de gr√°ficos para an√°lisis

¬°MLPY est√° listo para proyectos de machine learning serios!