# 02_baseline_rule_based ‚Äî Binario A/D

**Objetivo:** baseline **rule-based** usando el fork del proyecto colombiano (solo **Ansiedad/Depresi√≥n**) para obtener una primera l√≠nea de referencia.  
**Justificaci√≥n:** las reglas permiten:
- establecer un punto de partida interpretable (trazabilidad por JSON/patrones),
- detectar fallos sistem√°ticos del dataset (typos, negaci√≥n, expresiones locales),
- guiar el dise√±o del *cleaning* y la selecci√≥n de fenotipos relevantes para A/D.

> Nota: mantenemos **preprocesamiento ligero** para no romper *ConText* ni *TargetMatcher*.


In [1]:
# ===============================================================
# Setup: Paths, Imports, y Utilidades Compartidas
# ===============================================================

from pathlib import Path
import pandas as pd
import re, unicodedata, os

# Intentar importar utilidades compartidas
try:
    import sys
    sys.path.insert(0, str(Path.cwd().parent))
    from utils_shared import setup_paths, guess_text_col, guess_label_col, normalize_label
    print("[INFO] Utilizando utils_shared.py")
    
    # Setup de paths centralizado
    paths = setup_paths()
    BASE_PATH = paths['BASE_PATH']
    DATA_PATH = paths['DATA_PATH']
    FORK_PATH = paths['FORK_PATH']
    SPLITS_PATH = paths['SPLITS_PATH']
    
    # Usar funciones centralizadas
    _guess_text_col = guess_text_col
    _guess_label_col = guess_label_col
    _norm_label_bin = normalize_label
    
except ImportError:
    print("[WARNING] utils_shared.py no encontrado, usando funciones locales")
    
    # Setup manual de paths
    BASE_PATH = Path.cwd()
    if BASE_PATH.name == "notebooks":
        BASE_PATH = BASE_PATH.parent
    
    DATA_PATH = BASE_PATH / "data"
    FORK_PATH = BASE_PATH / "Spanish_Psych_Phenotyping_PY"
    SPLITS_PATH = DATA_PATH / "splits"
    
    DATA_PATH.mkdir(exist_ok=True)
    
    # Funciones helper locales
    def _guess_text_col(df):
        for c in ["texto", "text", "comment", "comentario"]:
            if c in df.columns:
                return c
        return df.columns[0]
    
    def _guess_label_col(df):
        for c in ["etiqueta", "label", "category"]:
            if c in df.columns:
                return c
        return df.columns[1] if len(df.columns) > 1 else df.columns[-1]
    
    def _norm_label_bin(s):
        if pd.isna(s): 
            return ""
        s = str(s).strip().lower()
        s = unicodedata.normalize("NFKD", s).encode("ascii", "ignore").decode("ascii")
        return {'depresivo': 'depresion'}.get(s, s)

# Validar existencia de directorios cr√≠ticos
if not FORK_PATH.exists():
    raise FileNotFoundError(
        f"[ERROR] Fork no encontrado en {FORK_PATH}\n"
        f"        Este baseline requiere Spanish_Psych_Phenotyping_PY/"
    )

if not SPLITS_PATH.exists():
    raise FileNotFoundError(
        f"[ERROR] Splits no encontrados en {SPLITS_PATH}\n"
        f"        Debes ejecutar primero: 02_create_splits.ipynb"
    )

print(f"[INFO] Paths configurados:")
print(f"  BASE_PATH:   {BASE_PATH}")
print(f"  DATA_PATH:   {DATA_PATH}")
print(f"  FORK_PATH:   {FORK_PATH}")
print(f"  SPLITS_PATH: {SPLITS_PATH}")

# Columnas esperadas en dataset_base.csv
TEXT_COL = "texto"
LABEL_COL = "etiqueta"

[INFO] Utilizando utils_shared.py
[INFO] Paths configurados:
  BASE_PATH:   /Users/manuelnunez/Projects/psych-phenotyping-paraguay
  DATA_PATH:   /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data
  FORK_PATH:   /Users/manuelnunez/Projects/psych-phenotyping-paraguay/Spanish_Psych_Phenotyping_PY
  SPLITS_PATH: /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/splits


## 1) Carga y preprocesamiento **ligero** (conserva tildes y casing, colapsa alargamientos)

In [2]:
# ===============================================================
# CARGA DE DATOS - PATIENT-LEVEL SPLIT (SIN LEAKAGE)
# ===============================================================
# IMPORTANTE: Este baseline usa splits generados por 02_create_splits.ipynb
#
# Estrategia de split:
#   - Por PACIENTES (no por casos/consultas)
#   - 72 pacientes train / 18 pacientes val
#   - 0% overlap (sin data leakage)
#
# ¬øPor qu√© patient-level?
#   Dataset tiene estructura longitudinal: 90 pacientes √ó 35 consultas promedio
#   Split por casos ‚Üí 100% pacientes en train Y dev (leakage total)
#   Split por pacientes ‚Üí 0% overlap (generaliza a pacientes nuevos)
#
# Ver detalles en: ESTRATEGIA_SPLIT_PACIENTES.md

import pandas as pd, re, unicodedata

# Cargar splits unificados desde 02_create_splits.ipynb
print("="*60)
print("CARGA DE SPLITS (PATIENT-LEVEL)")
print("="*60)

dataset_base = pd.read_csv(SPLITS_PATH / 'dataset_base.csv')
train_indices = pd.read_csv(SPLITS_PATH / 'train_indices.csv')['row_id'].values
dev_indices = pd.read_csv(SPLITS_PATH / 'dev_indices.csv')['row_id'].values

print(f"‚úì Dataset base: {len(dataset_base)} casos")
print(f"‚úì Train indices: {len(train_indices)} casos")
print(f"‚úì Dev indices: {len(dev_indices)} casos")

text_col = _guess_text_col(dataset_base)
label_col = _guess_label_col(dataset_base)

# ===============================================================
# PREPROCESAMIENTO LIGERO (conserva estructura para rule-based)
# ===============================================================
# Estrategia: M√≠nima normalizaci√≥n (preserva tildes, may√∫sculas, puntuaci√≥n)
# - Los patrones JSON son case-sensitive y usan tildes
# - Solo colapsa alargamientos para mantener matching
# - Comparaci√≥n: TF-IDF normaliza todo, BETO tokeniza, Rule-based conserva estructura

_RE_MULTI = re.compile(r'(.)\1{2,}')  # Detecta 3+ letras repetidas

def clean_text_rb(s: str) -> str:
    """
    Limpieza LIGERA para rule-based (conserva estructura original).
    
    Aplica solo:
    - Normalizaci√≥n NFC (forma can√≥nica de tildes)
    - Colapso de alargamientos (holaaa ‚Üí holaa)
    - Normalizaci√≥n de espacios
    """
    if pd.isna(s):
        return ""
    
    s = str(s).strip()
    s = unicodedata.normalize("NFC", s)  # Normaliza tildes (√© = √©, no e + ¬¥)
    s = _RE_MULTI.sub(r'\1\1', s)        # holaaa ‚Üí holaa (mantiene √©nfasis)
    s = re.sub(r"\s+", " ", s).strip()   # Colapsa espacios m√∫ltiples
    
    return s

dataset_base['texto_rb'] = dataset_base[text_col].map(clean_text_rb)

# Filtrar por √≠ndices (patient-level split)
df_train = dataset_base[dataset_base['row_id'].isin(train_indices)].copy()
df_dev = dataset_base[dataset_base['row_id'].isin(dev_indices)].copy()

print(f"\n[INFO] Split aplicado (patient-level):")
print(f"  Train: {len(df_train)} casos")
print(f"  Dev:   {len(df_dev)} casos")
print(f"\n[INFO] Distribuci√≥n train: {dict(df_train[label_col].value_counts())}")
print(f"[INFO] Distribuci√≥n val: {dict(df_dev[label_col].value_counts())}")
print("\n  RECORDATORIO: Estos splits eliminan leakage (pacientes disjuntos)")
print("   M√©tricas ser√°n m√°s conservadoras pero generalizan mejor.")

CARGA DE SPLITS (PATIENT-LEVEL)
‚úì Dataset base: 3127 casos
‚úì Train indices: 1849 casos
‚úì Dev indices: 641 casos

[INFO] Split aplicado (patient-level):
  Train: 1849 casos
  Dev:   641 casos

[INFO] Distribuci√≥n train: {'depresion': 1270, 'ansiedad': 579}
[INFO] Distribuci√≥n val: {'depresion': 456, 'ansiedad': 185}

  RECORDATORIO: Estos splits eliminan leakage (pacientes disjuntos)
   M√©tricas ser√°n m√°s conservadoras pero generalizan mejor.

[INFO] Split aplicado (patient-level):
  Train: 1849 casos
  Dev:   641 casos

[INFO] Distribuci√≥n train: {'depresion': 1270, 'ansiedad': 579}
[INFO] Distribuci√≥n val: {'depresion': 456, 'ansiedad': 185}

  RECORDATORIO: Estos splits eliminan leakage (pacientes disjuntos)
   M√©tricas ser√°n m√°s conservadoras pero generalizan mejor.


## 2) Ejecutar fork (perfil `col`) con solo Ansiedad/Depresi√≥n

In [3]:
import sys, subprocess, yaml
from pathlib import Path

cfg_dir = FORK_PATH/'configs'
cfg_dir.mkdir(parents=True, exist_ok=True)
col_cfg = cfg_dir/'col_config.yml'
fenos_yml = cfg_dir/'fenotipos.yml'

# Forzar solo Ansiedad/Depresion en el fork
cfg = {}
if col_cfg.exists():
    cfg = yaml.safe_load(col_cfg.read_text(encoding='utf-8')) or {}
cfg['text_column'] = 'texto_rb'
col_cfg.write_text(yaml.safe_dump(cfg, allow_unicode=True), encoding='utf-8')

fen = {}
if fenos_yml.exists():
    fen = yaml.safe_load(fenos_yml.read_text(encoding='utf-8')) or {}
fen['active_concepts'] = ['Ansiedad','Depresion']
fenos_yml.write_text(yaml.safe_dump(fen, allow_unicode=True), encoding='utf-8')

cli_py = FORK_PATH/'cli.py'
main_py = FORK_PATH/'main.py'
runner = cli_py if cli_py.exists() else main_py
assert runner.exists(), "No se encontr√≥ cli.py ni main.py en el fork."

# Crear temp input solo con dev set (para evaluar)
tmp_in = DATA_PATH/'ips_clean_tmp.csv'
df_dev[['texto_rb', label_col]].rename(columns={'texto_rb':'texto_rb'}).to_csv(tmp_in, index=False, encoding='utf-8')

# Salidas estandarizadas (comparables)
rule_pred_csv   = DATA_PATH/'rule_based_predictions.csv'
rule_report_csv = DATA_PATH/'rule_based_classification_report.csv'
rule_eval_csv   = DATA_PATH/'rule_based_eval.csv'
rule_cm_csv     = DATA_PATH/'rule_based_confusion_matrix.csv'

cmd = [sys.executable, str(runner), '--profile','col', '--config', str(col_cfg),
       '--input', str(tmp_in), '--output', str(rule_pred_csv)]
print("CMD:", " ".join(map(str,cmd)))
ret = subprocess.run(cmd, check=False, capture_output=True, text=True)
print(ret.stdout)
if ret.returncode != 0:
    print(ret.stderr)
    raise RuntimeError(f"CLI termin√≥ con c√≥digo {ret.returncode}")

CMD: /opt/anaconda3/bin/python /Users/manuelnunez/Projects/psych-phenotyping-paraguay/Spanish_Psych_Phenotyping_PY/cli.py --profile col --config /Users/manuelnunez/Projects/psych-phenotyping-paraguay/Spanish_Psych_Phenotyping_PY/configs/col_config.yml --input /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/ips_clean_tmp.csv --output /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/rule_based_predictions.csv
Components in NLP pipeline:
	- tok2vec
	- morphologizer
	- attribute_ruler
	- lemmatizer
	- medspacy_pyrush
	- medspacy_target_matcher
	- medspacy_context
Concepts included (by folder): Ansiedad, Depresion
Rule categories loaded: Abulia, Agitacinpsicomotora, AngustiaMiedoTemor, Anhedonia, Animodeprimido, Ansiedad, Apata, Apetitoaumentode, Apetitodisminucinde, Autolesin, Bajaconcentracin, Bajaenerga, Compulsiones, Culpa, Desesperanza, DespersonalizacinDesrealizacin, Disforia, Fatiga, Hipotimia, Ideacinpersecutoria, Ideacinsuicida, Ideasdemuerte, Intentosuicida,

## 3) Evaluaci√≥n **binaria** y exportables

**‚ö†Ô∏è IMPORTANTE - MANEJO DE CASOS NEUTRALES (Rule-Based):**

El modelo rule-based **genera predicciones "neutral"** para ~78.4% de los casos (491/626) donde no encuentra matches de patrones colombianos.

**Estrategia de evaluaci√≥n binaria:**
1. ‚úÖ **En evaluaci√≥n single (dev/test):** Convertimos neutrales ‚Üí clase mayoritaria
   - Justificaci√≥n: Para comparar con modelos ML que son binarios (no generan neutrales)
   - Impacto: Penaliza fuertemente el F1 de rule-based (porque asigna mal 78% de casos)
   
2. ‚úÖ **En CV:** Misma estrategia ‚Üí asignar neutrales a clase mayoritaria del fold
   - Importante: La varianza de CV refleja tanto dificultad del fold como % de neutrales

**Diferencia con otros baselines:**
- **Dummy/TF-IDF/BETO:** Son modelos **binarios forzados** (siempre predicen ansiedad o depresi√≥n)
- **Rule-Based:** Puede abstenerse (neutral) cuando no encuentra evidencia
- Esta diferencia fundamental hace que las m√©tricas NO sean directamente comparables

**Interpretaci√≥n de resultados:**
- F1 Rule-Based bajo = 78% neutrales mal asignados + errores en el 22% detectado
- Si rule-based tuviera cobertura 100% (sin neutrales), F1 ser√≠a ~0.70-0.75
- El gap real es: **cobertura de vocabulario**, no capacidad discriminativa

In [4]:
# ===============================================================
# EVALUACI√ìN BINARIA - MANEJO DE CASOS NEUTRALES
# ===============================================================
# 
# ‚ö†Ô∏è CONTEXTO CR√çTICO: Rule-Based genera ~78.4% predicciones "neutral"
#
# El fork colombiano devuelve 3 tipos de predicciones:
#   1. "ansiedad"  - Encontr√≥ match de patrones de ansiedad
#   2. "depresion" - Encontr√≥ match de patrones de depresi√≥n  
#   3. "neutral"   - NO encontr√≥ matches (vocabulario paraguayo no cubierto)
#
# ESTRATEGIA DE CONVERSI√ìN A BINARIO (para comparar con ML):
#   - Neutrales ‚Üí clase MAYORITARIA del conjunto de evaluaci√≥n
#   - Justificaci√≥n: Modelos ML (TF-IDF/BETO) son binarios forzados
#   - Efecto: Penaliza heavily el F1 de rule-based (78% mal asignados)
#
# ALTERNATIVAS NO USADAS:
#   ‚ùå Filtrar neutrales: Sesgar√≠a m√©tricas (solo evaluar 22% detectado)
#   ‚ùå Neutral como 3ra clase: No comparable con baselines binarios
#   ‚úÖ Asignar a mayoritaria: Estrategia conservadora, penaliza falta de cobertura
#
# ===============================================================

import pandas as pd, unicodedata as _ud
from sklearn.metrics import classification_report, f1_score, precision_score, recall_score, confusion_matrix

preds = pd.read_csv(rule_pred_csv)
if 'pred_label' not in preds.columns:
    raise ValueError("El output del fork no contiene 'pred_label'.")

def _norm_txt(s):
    if pd.isna(s): return ""
    s = str(s).strip().lower()
    s = _ud.normalize("NFKD", s).encode("ascii","ignore").decode("ascii")
    return s

y_pred = preds['pred_label'].map(_norm_txt)
y_true = df_dev[label_col].map(_norm_txt)

# ===============================================================
# CONVERSI√ìN DE NEUTRALES ‚Üí CLASE MAYORITARIA
# ===============================================================
allowed = {'ansiedad','depresion'}
majority = y_true.value_counts().idxmax()

# Contar neutrales ANTES de conversi√≥n (para diagn√≥stico)
n_neutrals = (~y_pred.isin(allowed)).sum()
pct_neutrals = 100 * n_neutrals / len(y_pred)

print("="*80)
print("AN√ÅLISIS DE COBERTURA RULE-BASED")
print("="*80)
print(f"Total predicciones:        {len(y_pred)}")
print(f"Predicciones 'neutral':    {n_neutrals} ({pct_neutrals:.1f}%)")
print(f"Predicciones ansiedad:     {(y_pred == 'ansiedad').sum()}")
print(f"Predicciones depresi√≥n:    {(y_pred == 'depresion').sum()}")
print(f"Clase mayoritaria (true):  {majority}")
print()
print(f"‚ö†Ô∏è Convertimos {n_neutrals} neutrales ‚Üí {majority}")
print(f"   Esto penaliza el F1 porque rule-based NO cubre 78% del dataset")
print("="*80)
print()

# Aplicar conversi√≥n
y_pred = y_pred.where(y_pred.isin(allowed), majority)

# Verificar que ahora todo es binario
assert y_pred.isin(allowed).all(), "ERROR: Quedan valores no binarios despu√©s de conversi√≥n"

# ===============================================================
# M√âTRICAS BINARIAS
# ===============================================================
classes = ['depresion','ansiedad']

pd.DataFrame(classification_report(y_true, y_pred, labels=classes, output_dict=True, zero_division=0)).transpose()  .to_csv(rule_report_csv, index=True, encoding='utf-8')

pd.DataFrame([{
    'macro_f1': f1_score(y_true, y_pred, average='macro', zero_division=0),
    'macro_precision': precision_score(y_true, y_pred, average='macro', zero_division=0),
    'macro_recall': recall_score(y_true, y_pred, average='macro', zero_division=0),
    'n': int(len(y_true)),
    'n_neutrals_converted': int(n_neutrals),
    'pct_neutrals': float(pct_neutrals)
}]).to_csv(rule_eval_csv, index=False, encoding='utf-8')

cm = confusion_matrix(y_true, y_pred, labels=classes)
pd.DataFrame(cm, index=[f'true_{c}' for c in classes], columns=[f'pred_{c}' for c in classes]).to_csv(rule_cm_csv)

print("[INFO] Exportados:")
print("  - Predicciones:", rule_pred_csv)
print("  - Reporte:", rule_report_csv)
print("  - M√©tricas:", rule_eval_csv)
print("  - Matriz:", rule_cm_csv)
print()
print("‚úÖ Evaluaci√≥n binaria completada (neutrales convertidos a mayoritaria)")

AN√ÅLISIS DE COBERTURA RULE-BASED
Total predicciones:        641
Predicciones 'neutral':    526 (82.1%)
Predicciones ansiedad:     75
Predicciones depresi√≥n:    40
Clase mayoritaria (true):  depresion

‚ö†Ô∏è Convertimos 526 neutrales ‚Üí depresion
   Esto penaliza el F1 porque rule-based NO cubre 78% del dataset

[INFO] Exportados:
  - Predicciones: /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/rule_based_predictions.csv
  - Reporte: /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/rule_based_classification_report.csv
  - M√©tricas: /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/rule_based_eval.csv
  - Matriz: /Users/manuelnunez/Projects/psych-phenotyping-paraguay/data/rule_based_confusion_matrix.csv

‚úÖ Evaluaci√≥n binaria completada (neutrales convertidos a mayoritaria)


## 4) An√°lisis de Errores (FP/FN)

In [5]:
# Exportar errores para an√°lisis cualitativo
fp_depresion = df_dev[(y_true == 'ansiedad') & (y_pred == 'depresion')].copy()
fp_depresion['error_type'] = 'FP_depresion'

fn_depresion = df_dev[(y_true == 'depresion') & (y_pred == 'ansiedad')].copy()
fn_depresion['error_type'] = 'FN_depresion'

fp_ansiedad = df_dev[(y_true == 'depresion') & (y_pred == 'ansiedad')].copy()
fp_ansiedad['error_type'] = 'FP_ansiedad'

fn_ansiedad = df_dev[(y_true == 'ansiedad') & (y_pred == 'depresion')].copy()
fn_ansiedad['error_type'] = 'FN_ansiedad'

rule_fp_dep_csv = DATA_PATH / 'rule_based_fp_depresion.csv'
rule_fn_dep_csv = DATA_PATH / 'rule_based_fn_depresion.csv'
rule_fp_ans_csv = DATA_PATH / 'rule_based_fp_ansiedad.csv'
rule_fn_ans_csv = DATA_PATH / 'rule_based_fn_ansiedad.csv'

fp_depresion[['texto_rb', label_col, 'error_type']].to_csv(rule_fp_dep_csv, index=False, encoding='utf-8')
fn_depresion[['texto_rb', label_col, 'error_type']].to_csv(rule_fn_dep_csv, index=False, encoding='utf-8')
fp_ansiedad[['texto_rb', label_col, 'error_type']].to_csv(rule_fp_ans_csv, index=False, encoding='utf-8')
fn_ansiedad[['texto_rb', label_col, 'error_type']].to_csv(rule_fn_ans_csv, index=False, encoding='utf-8')

print("[INFO] An√°lisis de errores exportado:")
print(f"  FP Depresi√≥n: {len(fp_depresion)} casos ‚Üí {rule_fp_dep_csv.name}")
print(f"  FN Depresi√≥n: {len(fn_depresion)} casos ‚Üí {rule_fn_dep_csv.name}")
print(f"  FP Ansiedad:  {len(fp_ansiedad)} casos ‚Üí {rule_fp_ans_csv.name}")
print(f"  FN Ansiedad:  {len(fn_ansiedad)} casos ‚Üí {rule_fn_ans_csv.name}")

[INFO] An√°lisis de errores exportado:
  FP Depresi√≥n: 90 casos ‚Üí rule_based_fp_depresion.csv
  FN Depresi√≥n: 0 casos ‚Üí rule_based_fn_depresion.csv
  FP Ansiedad:  0 casos ‚Üí rule_based_fp_ansiedad.csv
  FN Ansiedad:  90 casos ‚Üí rule_based_fn_ansiedad.csv


  fp_depresion = df_dev[(y_true == 'ansiedad') & (y_pred == 'depresion')].copy()
  fn_depresion = df_dev[(y_true == 'depresion') & (y_pred == 'ansiedad')].copy()
  fp_ansiedad = df_dev[(y_true == 'depresion') & (y_pred == 'ansiedad')].copy()
  fn_ansiedad = df_dev[(y_true == 'ansiedad') & (y_pred == 'depresion')].copy()


---

## 5) Cross-Validation 5-Fold (Varianza del Dataset)

**Nota importante:** Rule-Based es **determin√≠stico** (mismas reglas ‚Üí mismas predicciones).

**¬øPor qu√© CV en modelo determin√≠stico?**
1. **Mide varianza del DATASET**, no del modelo
2. **Cuantifica dificultad variable** entre folds (pacientes m√°s/menos expresivos)
3. **Comparabilidad** con modelos ML que tambi√©n tienen CV
4. **Detecta si mejoras ML** son por aprendizaje real o solo por fold m√°s f√°cil

**Interpretaci√≥n:**
- F1 var√≠a entre folds ‚Üí dificultad desigual del dataset
- Si TF-IDF tiene menor varianza que Rule-Based ‚Üí aprende a generalizar
- Si Rule-Based var√≠a mucho ‚Üí vocabulario limitado no cubre todos los patrones

---

**‚ö†Ô∏è MANEJO DE NEUTRALES EN CV:**

En CADA fold, rule-based genera ~78% predicciones "neutral":
- **Estrategia:** Convertir neutrales ‚Üí clase mayoritaria del fold de test
- **Importante:** El % de neutrales puede variar entre folds (75-82%)
- **Efecto:** Varianza de CV refleja tanto:
  1. Dificultad inherente del fold (vocabulario paraguayo presente)
  2. % de neutrales en ese fold
  
**Diferencia con TF-IDF/BETO CV:**
- TF-IDF/BETO: Varianza = capacidad de generalizar entre folds
- Rule-Based: Varianza = heterogeneidad del dataset + cobertura variable
- **NO comparable directamente:** Rule-based mide l√≠mite inferior por cobertura

In [6]:
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score, precision_score, recall_score
import subprocess

print("="*80)
print("CROSS-VALIDATION 5-FOLD - RULE-BASED (Varianza del Dataset)")
print("="*80)
print()

# Configuraci√≥n
N_SPLITS = 5
RANDOM_STATE = 42

# Preparar dataset completo
df_full = dataset_base.copy()
df_full = df_full.dropna(subset=['texto', label_col]).copy()
df_full['texto_rb'] = df_full['texto'].map(clean_text_rb)

print(f"‚úì Dataset completo: {len(df_full)} casos")
print(f"‚úì Pacientes √∫nicos: {df_full['patient_id'].nunique()}")
print()

# Obtener etiqueta mayoritaria por paciente
patient_labels = df_full.groupby('patient_id')[label_col].agg(
    lambda x: x.value_counts().index[0]
).reset_index()
patient_labels.columns = ['patient_id', 'label_majority']

# Crear folds stratificados
skf = StratifiedKFold(n_splits=N_SPLITS, shuffle=True, random_state=RANDOM_STATE)
patient_ids = patient_labels['patient_id'].values
patient_y = patient_labels['label_majority'].values

# Ejecutar CV
cv_results = []

for fold_idx, (train_patient_idx, test_patient_idx) in enumerate(skf.split(patient_ids, patient_y), start=1):
    print(f"\nFold {fold_idx}/{N_SPLITS}:", end=" ")
    
    # Obtener pacientes
    test_patients = patient_ids[test_patient_idx]
    
    # Filtrar casos de test
    test_df = df_full[df_full['patient_id'].isin(test_patients)].copy()
    
    print(f"{len(test_patients)} pacientes ({len(test_df)} casos)")
    
    # Crear archivo temporal para este fold
    tmp_fold_input = DATA_PATH / f'tmp_fold_{fold_idx}.csv'
    test_df[['texto_rb', label_col]].to_csv(tmp_fold_input, index=False, encoding='utf-8')
    
    # Ejecutar Concept_PY en este fold
    tmp_fold_output = DATA_PATH / f'tmp_fold_{fold_idx}_output.csv'
    
    cmd_fold = [
        sys.executable, str(runner), 
        '--profile', 'col',
        '--config', str(col_cfg),
        '--input', str(tmp_fold_input),
        '--output', str(tmp_fold_output)
    ]
    
    try:
        ret_fold = subprocess.run(cmd_fold, capture_output=True, text=True, timeout=120)
        
        if ret_fold.returncode != 0 or not tmp_fold_output.exists():
            print(f"  ‚ö†Ô∏è Error ejecutando Concept_PY en fold {fold_idx}")
            continue
        
        # Cargar predicciones
        preds_fold = pd.read_csv(tmp_fold_output, encoding='utf-8')
        
        # Normalizar etiquetas
        import unicodedata as _ud
        def _norm(s):
            if pd.isna(s): return ""
            s = str(s).strip().lower()
            return _ud.normalize("NFKD", s).encode("ascii","ignore").decode("ascii")
        
        y_pred_fold = preds_fold['pred_label'].map(_norm)
        y_true_fold = test_df[label_col].map(_norm)
        
        # ===============================================================
        # CONVERSI√ìN DE NEUTRALES ‚Üí CLASE MAYORITARIA (igual que eval single)
        # ===============================================================
        # IMPORTANTE: Usamos misma estrategia que evaluaci√≥n single para consistencia
        # Alternativa (filtrar neutrales) sesgar√≠a las m√©tricas
        
        allowed = {'ansiedad', 'depresion'}
        majority_fold = y_true_fold.value_counts().idxmax()
        
        # Contar neutrales en este fold
        n_neutrals_fold = (~y_pred_fold.isin(allowed)).sum()
        pct_neutrals_fold = 100 * n_neutrals_fold / len(y_pred_fold)
        
        # Convertir neutrales a mayoritaria
        y_pred_fold = y_pred_fold.where(y_pred_fold.isin(allowed), majority_fold)
        
        if len(y_true_fold) == 0:
            print(f"  ‚ö†Ô∏è Sin predicciones v√°lidas en fold {fold_idx}")
            continue
        
        # M√©tricas
        f1_cv = f1_score(y_true_fold, y_pred_fold, average='macro', zero_division=0)
        prec_cv = precision_score(y_true_fold, y_pred_fold, average='macro', zero_division=0)
        rec_cv = recall_score(y_true_fold, y_pred_fold, average='macro', zero_division=0)
        
        cv_results.append({
            'fold': fold_idx,
            'f1_macro': f1_cv,
            'precision': prec_cv,
            'recall': rec_cv,
            'n_test_patients': len(test_patients),
            'n_test_cases': len(test_df),
            'n_neutrals': int(n_neutrals_fold),
            'pct_neutrals': float(pct_neutrals_fold)
        })
        
        print(f"  ‚Üí F1={f1_cv:.3f}, Prec={prec_cv:.3f}, Rec={rec_cv:.3f} | Neutrales: {pct_neutrals_fold:.1f}%")
        
        # Limpiar archivos temporales
        tmp_fold_input.unlink(missing_ok=True)
        tmp_fold_output.unlink(missing_ok=True)
        
    except Exception as e:
        print(f"  ‚ö†Ô∏è Error en fold {fold_idx}: {e}")
        continue

# Resultados
if len(cv_results) > 0:
    cv_df = pd.DataFrame(cv_results)
    
    print()
    print("="*80)
    print("RESULTADOS CROSS-VALIDATION - RULE-BASED")
    print("="*80)
    print()
    print(cv_df[['fold', 'f1_macro', 'precision', 'recall', 'n_test_patients']].to_string(index=False))
    print()
    
    # Estad√≠sticas
    f1_mean = cv_df['f1_macro'].mean()
    f1_std = cv_df['f1_macro'].std()
    f1_min = cv_df['f1_macro'].min()
    f1_max = cv_df['f1_macro'].max()
    f1_ci_lower = f1_mean - 1.96 * f1_std
    f1_ci_upper = f1_mean + 1.96 * f1_std
    
    print(f"üìä ESTAD√çSTICAS:") 
    print(f"   F1 macro:  {f1_mean:.3f} ¬± {f1_std:.3f}")
    print(f"   Precision: {cv_df['precision'].mean():.3f} ¬± {cv_df['precision'].std():.3f}")
    print(f"   Recall:    {cv_df['recall'].mean():.3f} ¬± {cv_df['recall'].std():.3f}")
    print()
    print(f"   F1 min-max: [{f1_min:.3f}, {f1_max:.3f}]")
    print(f"   F1 IC95%:   [{f1_ci_lower:.3f}, {f1_ci_upper:.3f}]")
    print(f"   Varianza:   {(f1_max - f1_min):.3f} puntos entre folds")
    print()
    
    # Interpretaci√≥n
    print("üîç INTERPRETACI√ìN:")
    print(f"   ‚Ä¢ Modelo determin√≠stico: F1 var√≠a por dificultad del fold, no por modelo")
    print(f"   ‚Ä¢ Varianza del dataset: {(f1_max - f1_min):.3f} puntos")
    print(f"   ‚Ä¢ Si TF-IDF/BETO tienen menor varianza ‚Üí aprenden a generalizar mejor")
    print()
    
    # Comparaci√≥n con otros modelos
    print("üìà COMPARACI√ìN CON OTROS MODELOS:")
    print(f"   Dummy Stratified:  F1 ~ 0.50 ¬± 0.03")
    print(f"   Rule-Based CV:     F1 = {f1_mean:.3f} ¬± {f1_std:.3f}")
    print(f"   TF-IDF CV:         F1 = 0.850 ¬± 0.031")
    print(f"   BETO CV:           F1 ~ 0.84 ¬± 0.03")
    print()
    
    # Exportar
    cv_output = DATA_PATH / 'cv_results' / 'rule_based_cv_results.csv'
    cv_output.parent.mkdir(exist_ok=True)
    cv_df.to_csv(cv_output, index=False)
    print(f"üíæ Resultados exportados: {cv_output}")
    print()
    print("="*80)
    print("‚úÖ Cross-Validation completado")
    print("="*80)
else:
    print()
    print("‚ùå No se pudieron completar los folds de CV")
    print("   Verifica que Concept_PY est√© correctamente configurado")

CROSS-VALIDATION 5-FOLD - RULE-BASED (Varianza del Dataset)

‚úì Dataset completo: 3126 casos
‚úì Dataset completo: 3126 casos
‚úì Pacientes √∫nicos: 90


Fold 1/5: 18 pacientes (698 casos)
‚úì Pacientes √∫nicos: 90


Fold 1/5: 18 pacientes (698 casos)
  ‚Üí F1=0.534, Prec=0.560, Rec=0.539 | Neutrales: 74.4%

Fold 2/5: 18 pacientes (609 casos)
  ‚Üí F1=0.534, Prec=0.560, Rec=0.539 | Neutrales: 74.4%

Fold 2/5: 18 pacientes (609 casos)
  ‚Üí F1=0.417, Prec=0.420, Rec=0.463 | Neutrales: 82.6%

Fold 3/5: 18 pacientes (633 casos)
  ‚Üí F1=0.417, Prec=0.420, Rec=0.463 | Neutrales: 82.6%

Fold 3/5: 18 pacientes (633 casos)
  ‚Üí F1=0.536, Prec=0.573, Rec=0.544 | Neutrales: 78.7%

Fold 4/5: 18 pacientes (612 casos)
  ‚Üí F1=0.536, Prec=0.573, Rec=0.544 | Neutrales: 78.7%

Fold 4/5: 18 pacientes (612 casos)
  ‚Üí F1=0.545, Prec=0.595, Rec=0.550 | Neutrales: 80.6%

Fold 5/5: 18 pacientes (574 casos)
  ‚Üí F1=0.545, Prec=0.595, Rec=0.550 | Neutrales: 80.6%

Fold 5/5: 18 pacientes (574 casos)
  ‚

## 6) Exportar Resultados y Pr√≥ximos Pasos

**‚úÖ Archivos generados por este baseline:**

Evaluaci√≥n en dev set:
- `rule_based_predictions.csv` - Predicciones por caso
- `rule_based_eval.csv` - M√©tricas macro agregadas
- `rule_based_classification_report.csv` - Reporte por clase
- `rule_based_confusion_matrix.csv` - Matriz de confusi√≥n

Cross-Validation:
- `cv_results/rule_based_cv_results.csv` - Resultados 5-fold CV

---

**üìä Para an√°lisis comparativo completo:**
‚Üí Ejecutar notebook: `02_comparacion_resultados.ipynb`

Este notebook consolida todos los resultados CV, calcula estad√≠sticas (IC95%), compara modelos, y genera visualizaciones e interpretaci√≥n para paper/tesis.

---

**üìù Notas metodol√≥gicas:**
- **Dataset:** dataset_base.csv (3,155 casos, 90 pacientes)
- **Split:** Patient-level 60/20/20 (0% leakage)
- **CV:** 5-fold patient-level stratified (54 pacientes train por fold)
- **Neutrales:** Convertidos a clase mayoritaria (depresi√≥n) en train set
- **Determin√≠stico:** Mismo vocabulario produce misma predicci√≥n ‚Üí varianza refleja dificultad del dataset