**Nota:** Este cuaderno est√° dise√±ado para **Google Colab**.

Si ves el logotipo de Colab <span style='vertical-align:bottom;'><img src='https://colab.research.google.com/img/colab_favicon_256px.png' width='40' alt='Logotipo de Colab'></span> en la esquina superior izquierda, ¬°ya est√° todo listo! Por favor, **contin√∫a**.

Si no ves el logotipo (por ejemplo, est√°s en GitHub), haz clic en el bot√≥n de abajo para abrirlo en el entorno correcto:

[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/mparrott-at-wiris/aimodelshare/blob/master/notebooks/justice_and_equity_advance_notebook_es.ipynb)

# **Reto Avanzado de Justicia y Equidad: Construir y Enviar Modelos Personalizados**

Bienvenido a la **V√≠a Avanzada** del Reto de Justicia de √âtica en Juego (Ethics at Play).

**¬øPara qui√©n es esto?**
Este cuaderno est√° dise√±ado para participantes con experiencia en Python (por ejemplo, Scikit-Learn, TensorFlow, PyTorch). En lugar de usar las aplicaciones gamificadas, construir√°s, entrenar√°s y enviar√°s tus propios modelos de aprendizaje autom√°tico directamente a la tabla de clasificaci√≥n de la competencia.

**El Objetivo:**
Entrenar un modelo para predecir el riesgo de reincidencia (la probabilidad de volver a delinquir) utilizando el conjunto de datos COMPAS, equilibrando la precisi√≥n y la equidad.

## üöÄ **Gu√≠a de Inicio R√°pido**

Para participar en el reto, completa estos 5 pasos:

1.  **Instalar Bibliotecas:** Ejecuta la celda de configuraci√≥n para instalar `aimodelshare`.
2.  **Obtener los Datos:** Ejecuta la celda de carga de datos para recuperar los datos de entrenamiento y prueba pre-divididos.
3.  **Entrenar tu Modelo:** Usa el ejemplo de Pipeline de Scikit-Learn proporcionado o escribe tu propio c√≥digo de entrenamiento personalizado.
4.  **Conectar:** Vincula este cuaderno a la Tabla de Clasificaci√≥n del Reto de Justicia.
5.  **Enviar:** Env√≠a tus predicciones a la tabla de clasificaci√≥n para ver tu puntuaci√≥n.

**¬øListo? Haz clic en el bot√≥n de reproducci√≥n ‚ñ∂ en la primera celda de abajo para comenzar.**

---
# **Paso 1: Instalaci√≥n**

Necesitamos instalar la biblioteca `aimodelshare` para conectarnos al backend de la competencia.

In [None]:
# Instalar la biblioteca aimodelshare
print("Instalando las bibliotecas necesarias...")
!pip install aimodelshare --upgrade -q --no-warn-script-location > /dev/null 2>&1
print("‚úÖ ¬°Instalaci√≥n completada!")

---
# **Paso 2: Cargar Datos**

Cargaremos los datos de entrenamiento y prueba directamente desde las URL oficiales de la competencia.

* **X_train:** Caracter√≠sticas para el entrenamiento.
* **y_train:** Etiquetas objetivo (¬øocurri√≥ reincidencia?) para el entrenamiento.
* **X_test:** Caracter√≠sticas para la prueba (generar√°s predicciones sobre esto).

In [None]:
import pandas as pd

# 1. Cargar Datos desde las URL
X_train = pd.read_csv("https://raw.githubusercontent.com/AIModelShare/aimodelshare_tutorials/refs/heads/main/datasets/ethicsatplay/X_train.csv")
X_test = pd.read_csv("https://raw.githubusercontent.com/AIModelShare/aimodelshare_tutorials/refs/heads/main/datasets/ethicsatplay/X_test.csv")
y_train_labels = pd.read_csv("https://raw.githubusercontent.com/AIModelShare/aimodelshare_tutorials/refs/heads/main/datasets/ethicsatplay/y_train.csv")

# Asegurar que y_train es una Serie 1D (requerido para sklearn)
y_train = y_train_labels.squeeze()

# 2. Definir Listas de Caracter√≠sticas para el Pipeline
# Estas listas coinciden con las columnas presentes en X_train y X_test
ALL_NUMERIC_COLS = ["juv_fel_count", "juv_misd_count", "juv_other_count", "days_b_screening_arrest", "age", "length_of_stay", "priors_count"]
ALL_CATEGORICAL_COLS = ["race", "sex", "c_charge_degree", "c_charge_desc"]

print("‚úÖ ¬°Datos cargados exitosamente!")
print(f"Forma de los datos de entrenamiento: {X_train.shape}")
print(f"Forma de los datos de prueba: {X_test.shape}")
print("\nPrimeras 5 filas de los datos de entrenamiento:")
X_train.head()

---
# **Paso 3: Entrenar el Modelo con la Biblioteca Preferida (Sklearn, Tensorflow, Pytorch, Etc.)**

Usaremos un **Pipeline de Scikit-Learn** para agilizar el preprocesamiento y el modelado.

Este pipeline:
1.  **Imputar√° Valores Faltantes** (Rellena NaNs con la mediana para n√∫meros, el m√°s frecuente para categor√≠as).
2.  **Codificar√° One-Hot** las columnas categ√≥ricas (Raza, Sexo, Grado del Cargo, Descripci√≥n del Cargo).
3.  **Escalar√°** las columnas num√©ricas (Edad, Antecedentes, Duraci√≥n de la Estancia, etc.).
4.  **Entrenar√°** un clasificador de Regresi√≥n Log√≠stica.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression

# 1. Definir grupos de caracter√≠sticas usando constantes del Paso 2
# Las caracter√≠sticas num√©ricas ser√°n imputadas y escaladas
numeric_features = ALL_NUMERIC_COLS

# Las caracter√≠sticas categ√≥ricas ser√°n imputadas y codificadas con One-Hot
categorical_features = ALL_CATEGORICAL_COLS

# 2. Definir Transformadores con Imputaci√≥n
# Num√©rico: Imputar valores faltantes con la mediana, luego escalar
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

# Categ√≥rico: Imputar valores faltantes con el valor m√°s frecuente, luego codificar con one-hot
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder(handle_unknown='ignore'))
])

# 3. Crear Preprocesador usando los transformadores
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# 4. Crear Pipeline (Preprocesador + Modelo)
# Puedes reemplazar LogisticRegression con cualquier otro modelo de sklearn (ej. RandomForestClassifier)
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(max_iter=1000))
])

# 5. Entrenar el pipeline
pipeline.fit(X_train, y_train)

# 6. Generar predicciones en el conjunto de prueba
predictions = pipeline.predict(X_test)

print(f"‚úÖ ¬°Modelo Entrenado! Predicciones generadas para {len(predictions)} muestras.")
print("Procede al siguiente paso para enviar tus predicciones a la tabla de clasificaci√≥n.")

---
# **Paso 4: Conectar a la Tabla de Clasificaci√≥n**

Este paso conecta tu cuaderno al backend espec√≠fico para el Reto de Justicia y Equidad.

*Nota: Se te pedir√° que ingreses un nombre de usuario y contrase√±a. Si no tienes uno, deber√°s crear uno en [modelshare.ai](https://www.modelshare.ai)

In [None]:
from aimodelshare.aws import set_credentials
from aimodelshare.playground import Competition
import os

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)


# La URL espec√≠fica del Model Playground para el Reto de Justicia
my_playground_url = "https://cf3wdpkg0d.execute-api.us-east-1.amazonaws.com/prod/m"

# Configura tus credenciales (aparecer√° una ventana emergente)
set_credentials(apiurl=my_playground_url)

# Generar tu token de acceso a la sesi√≥n
token=os.getenv("AWS_TOKEN")

# Conectar a la competencia
playground = Competition(my_playground_url)

---
# **Paso 5: Enviar y Verificar Resultados**

Env√≠a tus predicciones a la tabla de clasificaci√≥n.

In [None]:
# 1. Enviar tus predicciones
# Nota: Pasamos None para el modelo y preprocesador porque solo estamos enviando predicciones para evaluaci√≥n
playground.submit_model(
    model=None,
    preprocessor=None,
    prediction_submission=predictions, token=token,
    input_dict={
        "Team": "The Ethical Explorers", # Cambia el nombre del equipo manualmente si es necesario.
        "description": "Logistic Regression with Sklearn Pipeline",
        "tags": "sklearn, logistic_regression, advanced_pathway, pipeline"
    }
)

print("‚úÖ ¬°Predicciones enviadas exitosamente!")

# 2. Verificar la tabla de clasificaci√≥n
print("Cargando tabla de clasificaci√≥n...")
leaderboard = playground.get_leaderboard()
playground.stylize_leaderboard(leaderboard)