# 02_create_splits ‚Äî Split √∫nico reproducible para todos los baselines

**Objetivo:** crear **una sola vez** los splits train/val estratificados y guardarlos en `data/splits/` para que **todos los baselines** (rule-based, TF-IDF, transformer) usen **exactamente los mismos ejemplos** y sean **comparables**.

**Outputs:**
- `data/splits/train_indices.csv` (√≠ndices para train)
- `data/splits/val_indices.csv` (√≠ndices para val)
- `data/splits/dataset_base.csv` (dataset normalizado base con √≠ndices)

**Reproducibilidad:** `random_state=42` fijo.

In [15]:
# ===============================================================
# Setup: Paths y configuraci√≥n
# ===============================================================
from pathlib import Path
import pandas as pd
from sklearn.model_selection import train_test_split

# Importar utilidades compartidas
try:
    from utils_shared import (
        setup_paths, 
        guess_text_col, 
        guess_label_col, 
        normalize_label,
        validate_file_exists
    )
    paths = setup_paths()
    DATA_PATH = paths['DATA_PATH']
    SPLITS_PATH = paths['SPLITS_PATH']
    print("‚úÖ Usando utils_shared.py para configuraci√≥n")
except ImportError:
    print("‚ö†Ô∏è utils_shared.py no encontrado, usando configuraci√≥n manual")
    BASE_PATH = Path.cwd()
    if BASE_PATH.name == "notebooks":
        BASE_PATH = BASE_PATH.parent
    DATA_PATH = BASE_PATH / "data"
    SPLITS_PATH = DATA_PATH / "splits"
    SPLITS_PATH.mkdir(exist_ok=True)
    
    # Definir funciones helper manualmente si no hay utils
    def guess_text_col(df):
        for c in ['texto', 'Motivo Consulta', 'text']:
            if c in df.columns: return c
        raise ValueError("No se encontr√≥ columna de texto")
    
    def guess_label_col(df):
        for c in ['etiqueta', 'Tipo', 'label']:
            if c in df.columns: return c
        return None
    
    def normalize_label(s):
        import unicodedata
        if pd.isna(s): return ""
        s = str(s).strip().lower()
        s = unicodedata.normalize("NFKD", s).encode("ascii", "ignore").decode("ascii")
        return {'depresivo': 'depresion'}.get(s, s)

# ---------------------------------------------------------------
# Detectar archivo de entrada (priorizar ips_clean.csv)
# ---------------------------------------------------------------
INPUT_FILE = DATA_PATH / 'ips_clean.csv'
if not INPUT_FILE.exists():
    INPUT_FILE = DATA_PATH / 'ips_raw.csv'
    print("‚ö†Ô∏è No se encontr√≥ ips_clean.csv, usando ips_raw.csv")
    print("   Recomendaci√≥n: ejecutar 01_eda_understanding.ipynb primero")
    if not INPUT_FILE.exists():
        raise FileNotFoundError(
            f"‚ùå No se encontr√≥ ni ips_clean.csv ni ips_raw.csv en {DATA_PATH}\n"
            f"   Ejecuta 01_eda_understanding.ipynb para generar ips_clean.csv"
        )

print(f"üì• INPUT_FILE: {INPUT_FILE}")
print(f"üìÅ SPLITS_PATH: {SPLITS_PATH}")

‚úÖ Usando utils_shared.py para configuraci√≥n
üì• INPUT_FILE: /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/ips_clean.csv
üìÅ SPLITS_PATH: /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/splits


## 1) Carga y normalizaci√≥n base (sin preprocesamiento de texto)

In [16]:
# ===============================================================
# Carga y normalizaci√≥n del dataset base
# ===============================================================
# Cargar dataset (ya deber√≠a estar limpio si viene de ips_clean.csv)
df_raw = pd.read_csv(INPUT_FILE)
print(f"‚úÖ Dataset cargado: {len(df_raw)} filas")

# Detectar columnas autom√°ticamente usando utils
text_col = guess_text_col(df_raw)
label_col = guess_label_col(df_raw)

if label_col is None:
    raise ValueError(
        "‚ùå No se encontr√≥ columna de etiquetas en el dataset.\n"
        f"   Columnas disponibles: {list(df_raw.columns)}"
    )

print(f"üìä Columnas detectadas:")
print(f"   Texto: '{text_col}'")
print(f"   Etiqueta: '{label_col}'")

# ---------------------------------------------------------------
# Filtrar y normalizar etiquetas
# ---------------------------------------------------------------
# Eliminar filas sin texto o etiqueta
df = df_raw.dropna(subset=[text_col, label_col]).copy()
print(f"   Despu√©s de remover nulos: {len(df)} filas")

# Normalizar etiquetas (ansiedad/depresion)
df[label_col] = df[label_col].map(normalize_label)

# Filtrar solo ansiedad y depresi√≥n (clasificaci√≥n binaria)
df = df[df[label_col].isin(['ansiedad','depresion'])].copy()
print(f"   Despu√©s de filtrar A/D: {len(df)} filas")

# ---------------------------------------------------------------
# Eliminar duplicados (por si viene de ips_raw.csv)
# ---------------------------------------------------------------
n_before = len(df)
df = df.drop_duplicates(subset=[text_col]).copy()
n_after = len(df)

if n_before > n_after:
    print(f"‚ö†Ô∏è Eliminados {n_before - n_after} duplicados")
    print(f"   Recomendaci√≥n: Usar ips_clean.csv para evitar esto en el futuro")

# ---------------------------------------------------------------
# Resetear √≠ndice y crear row_id √∫nico
# ---------------------------------------------------------------
df = df.reset_index(drop=True)
df['row_id'] = df.index

print(f"\n‚úÖ Dataset final preparado: {len(df)} ejemplos √∫nicos")
print(f"\nüìä Distribuci√≥n de clases:")
print(df[label_col].value_counts())

‚úÖ Dataset cargado: 3127 filas
üìä Columnas detectadas:
   Texto: 'texto'
   Etiqueta: 'etiqueta'
   Despu√©s de remover nulos: 3126 filas
   Despu√©s de filtrar A/D: 3126 filas

‚úÖ Dataset final preparado: 3126 ejemplos √∫nicos

üìä Distribuci√≥n de clases:
etiqueta
depresion    2201
ansiedad      925
Name: count, dtype: int64


## 2) Split estratificado (80/20) con semilla fija

In [17]:
# ===============================================================
# Estrategia de Split: 80/20 estratificado con semilla fija
# ===============================================================
# 
# ¬øPor qu√© estos par√°metros?
# 
# 1) **RANDOM_STATE = 42**: 
#    - Fija la semilla aleatoria para reproducibilidad total
#    - Todos los baselines ver√°n exactamente los mismos ejemplos
#    - Permite comparaciones justas entre modelos
#
# 2) **TEST_SIZE = 0.2** (80/20):
#    - Est√°ndar de la industria para datasets peque√±os/medianos
#    - 80% train proporciona suficientes ejemplos para aprender patrones
#    - 20% val proporciona validaci√≥n confiable sin desperdiciar datos
#
# 3) **stratify=df[label_col]**:
#    - Mantiene la proporci√≥n de clases en train y val
#    - Evita desbalances accidentales (ej: val con 90% ansiedad)
#    - Cr√≠tico para evaluar correctamente modelos en datos desbalanceados
#
# ===============================================================

RANDOM_STATE = 42
TEST_SIZE = 0.2

train_idx, val_idx = train_test_split(
    df.index,
    test_size=TEST_SIZE,
    random_state=RANDOM_STATE,
    stratify=df[label_col]
)

# Reportar resultados del split
print(f"‚úÖ Split creado exitosamente:")
print(f"   Train: {len(train_idx)} ejemplos ({len(train_idx)/len(df)*100:.1f}%)")
print(f"   Val:   {len(val_idx)} ejemplos ({len(val_idx)/len(df)*100:.1f}%)")
print(f"   Total: {len(df)} ejemplos")

print(f"\nüìä Distribuci√≥n en Train:")
train_dist = df.loc[train_idx, label_col].value_counts()
for label, count in train_dist.items():
    print(f"   {label}: {count} ({count/len(train_idx)*100:.1f}%)")

print(f"\nüìä Distribuci√≥n en Val:")
val_dist = df.loc[val_idx, label_col].value_counts()
for label, count in val_dist.items():
    print(f"   {label}: {count} ({count/len(val_idx)*100:.1f}%)")

# Validaci√≥n: verificar que estratificaci√≥n funcion√≥ correctamente
train_prop = train_dist / len(train_idx)
val_prop = val_dist / len(val_idx)
max_diff = (train_prop - val_prop).abs().max()

if max_diff < 0.05:  # Diferencia < 5%
    print(f"\n‚úÖ Estratificaci√≥n exitosa (diferencia m√°xima: {max_diff*100:.2f}%)")
else:
    print(f"\n‚ö†Ô∏è Estratificaci√≥n con diferencia de {max_diff*100:.2f}% (verificar)")

‚úÖ Split creado exitosamente:
   Train: 2500 ejemplos (80.0%)
   Val:   626 ejemplos (20.0%)
   Total: 3126 ejemplos

üìä Distribuci√≥n en Train:
   depresion: 1760 (70.4%)
   ansiedad: 740 (29.6%)

üìä Distribuci√≥n en Val:
   depresion: 441 (70.4%)
   ansiedad: 185 (29.6%)

‚úÖ Estratificaci√≥n exitosa (diferencia m√°xima: 0.05%)


## 3) Guardar splits y dataset base

In [18]:
# ===============================================================
# Guardar splits unificados para todos los baselines
# ===============================================================
#
# Estructura de archivos generada:
#
# 1) **train_indices.csv / val_indices.csv**:
#    - Contienen √∫nicamente los row_id de cada split
#    - Permite a cada baseline cargar exactamente los mismos ejemplos
#    - Ligero (solo IDs), no duplica datos de texto
#
# 2) **dataset_base.csv**:
#    - Contiene: row_id + texto original + etiqueta normalizada
#    - Es el "dataset maestro" que usan TODOS los baselines
#    - Cada baseline carga este archivo y filtra con los √≠ndices
#
# ¬øPor qu√© esta estrategia?
# - **Reproducibilidad**: Un √∫nico punto de verdad para los datos
# - **Comparabilidad**: Todos los modelos ven exactamente lo mismo
# - **Flexibilidad**: Cada baseline puede preprocesar el texto a su manera
#   (ej: rule-based no lo limpia, TF-IDF s√≠ lo limpia)
# - **Mantenibilidad**: Cambios en splits se propagan autom√°ticamente
#
# ===============================================================

# Guardar √≠ndices de train y val
train_indices_path = SPLITS_PATH / 'train_indices.csv'
val_indices_path = SPLITS_PATH / 'val_indices.csv'

pd.DataFrame({'row_id': train_idx}).to_csv(train_indices_path, index=False)
pd.DataFrame({'row_id': val_idx}).to_csv(val_indices_path, index=False)

# Guardar dataset base (con texto original y etiqueta normalizada)
# IMPORTANTE: No aplicamos limpieza aqu√≠, cada baseline decide su estrategia
df_base = df[['row_id', text_col, label_col]].copy()
dataset_base_path = SPLITS_PATH / 'dataset_base.csv'
df_base.to_csv(dataset_base_path, index=False, encoding='utf-8')

# Reportar archivos creados
print("\n" + "="*60)
print("‚úÖ Archivos de splits creados exitosamente")
print("="*60)
print(f"\nüìÅ Ubicaci√≥n: {SPLITS_PATH}/")
print(f"\n1Ô∏è‚É£  train_indices.csv")
print(f"    - {len(train_idx)} √≠ndices de entrenamiento")
print(f"\n2Ô∏è‚É£  val_indices.csv")
print(f"    - {len(val_idx)} √≠ndices de validaci√≥n")
print(f"\n3Ô∏è‚É£  dataset_base.csv")
print(f"    - {len(df_base)} ejemplos con texto original")
print(f"    - Columnas: {list(df_base.columns)}")
print(f"    - Origen: {INPUT_FILE.name}")

print(f"\n" + "="*60)
print("üîí IMPORTANTE: Todos los baselines DEBEN usar estos archivos")
print("="*60)
print(f"üìù Los baselines deben:")
print(f"   1. Cargar dataset_base.csv")
print(f"   2. Cargar train_indices.csv y val_indices.csv")
print(f"   3. Filtrar ejemplos usando row_id")
print(f"   4. Aplicar su propia estrategia de preprocesamiento")
print(f"\nüí° Ver notebooks 02_baseline_*.ipynb para ejemplos de uso")


‚úÖ Archivos de splits creados exitosamente

üìÅ Ubicaci√≥n: /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/splits/

1Ô∏è‚É£  train_indices.csv
    - 2500 √≠ndices de entrenamiento

2Ô∏è‚É£  val_indices.csv
    - 626 √≠ndices de validaci√≥n

3Ô∏è‚É£  dataset_base.csv
    - 3126 ejemplos con texto original
    - Columnas: ['row_id', 'texto', 'etiqueta']
    - Origen: ips_clean.csv

üîí IMPORTANTE: Todos los baselines DEBEN usar estos archivos
üìù Los baselines deben:
   1. Cargar dataset_base.csv
   2. Cargar train_indices.csv y val_indices.csv
   3. Filtrar ejemplos usando row_id
   4. Aplicar su propia estrategia de preprocesamiento

üí° Ver notebooks 02_baseline_*.ipynb para ejemplos de uso
