# üìù Entrenamiento con Concatenaci√≥n de Features como Texto

## üéØ Enfoque Simple: Todo como Texto

Este notebook implementa el enfoque de **concatenaci√≥n de features**, donde todas las variables (texto, edad, nivel educativo, desempe√±o) se unen en un solo texto que se alimenta al Transformer.

### Ejemplo de Transformaci√≥n:

```
Input Original:
  texto_final: "vendedor de abarrotes"
  edad: 35
  nivel: 5
  desempe√±o: 1

Output Concatenado:
  "vendedor de abarrotes | edad: 35 a√±os | educaci√≥n: secundaria completa | desempe√±o: independiente"
```

### üìä Comparaci√≥n con Multimodal:

| Aspecto | Este Notebook (Concatenaci√≥n) | Multimodal |
|---------|------------------------------|------------|
| Complejidad | ‚≠ê Simple | ‚≠ê‚≠ê‚≠ê Compleja |
| C√≥digo | ~200 l√≠neas | ~500 l√≠neas |
| Performance | Buena (baseline) | Excelente (+1-3%) |
| Edad como | Texto ("35 a√±os") | N√∫mero (0.23 normalizado) |

---

**üí° Tip**: Usa este notebook como baseline r√°pido. Si necesitas mejor performance, usa el notebook multimodal.

---


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# ============================================================================
# üì¶ IMPORTS Y CONFIGURACI√ìN INICIAL
# ============================================================================

import pandas as pd
import numpy as np
import torch
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    Trainer,
    TrainingArguments,
    EarlyStoppingCallback
)
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    accuracy_score,
    precision_recall_fscore_support,
    classification_report
)
from torch.utils.data import Dataset
import warnings
import logging
from datetime import datetime
import os
import json
import pickle

warnings.filterwarnings('ignore')

# Configurar logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)

print("\n" + "="*80)
print(" IMPORTS COMPLETADOS")
print("="*80)
print(f"\n PyTorch version: {torch.__version__}")
print(f" CUDA disponible: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f" GPU: {torch.cuda.get_device_name(0)}")
print("\n" + "="*80 + "\n")



 IMPORTS COMPLETADOS

 PyTorch version: 2.8.0+cu126
 CUDA disponible: True
 GPU: Tesla T4




In [None]:
# ============================================================================
# ‚öôÔ∏è  CONFIGURACI√ìN DEL EXPERIMENTO
# ============================================================================

class Config:
    """Configuraci√≥n centralizada del experimento"""

    # ========================================================================
    # RUTAS DE DATOS
    # ========================================================================
    DATA_PATH = "/content/drive/MyDrive/classification_coding_open_ended_occupational_responses_ENAHO/CLEAN_DATA/BASE_LIMPIA_VF.parquet"  # üîß CAMBIAR AQU√ç

    # ========================================================================
    # COLUMNAS DEL DATASET
    # ========================================================================
    TEXT_COLUMN = "texto_final"         # Columna con descripci√≥n de ocupaci√≥n
    EDAD_COLUMN = "p208a"              # Columna con edad (num√©rica)
    NIVEL_COLUMN = "p301a"             # Columna con nivel educativo (0-11)
    DESEMPENO_COLUMN = "p507"          # Columna con desempe√±o (0-3)
    TARGET_COLUMN = "p505r4"           # Columna target (c√≥digo CIUO)

    # ========================================================================
    # MODELO BASE
    # ========================================================================
    MODEL_NAME = "FacebookAI/xlm-roberta-base"  # üîß Modelo recomendado

    # Alternativas (descomentar para usar):
    # MODEL_NAME = "dccuchile/bert-base-spanish-wwm-uncased"  # BETO
    # MODEL_NAME = "PlanTL-GOB-ES/roberta-base-bne"           # RoBERTa-BNE
    # MODEL_NAME = "bert-base-multilingual-cased"             # mBERT

    # ========================================================================
    # FORMATO DE CONCATENACI√ìN
    # ========================================================================
    INCLUDE_LABELS = True  # True: "edad: 35", False: "35"
    SEPARATOR = " , "      # Separador entre campos

    # Mapeos descriptivos para hacer el texto m√°s legible
    NIVEL_EDUCATIVO_MAP = {
        1: "sin nivel educativo",
        2: "educaci√≥n inicial",
        3: "primaria incompleta",
        4: "primaria completa",
        5: "secundaria incompleta",
        6: "secundaria completa",
        7: "superior no universitaria incompleta",
        8: "superior no universitaria completa",
        9: "superior universitaria incompleta",
        10: "superior universitaria completa",
        11: "maestr√≠a o doctorado",
        12: "b√°sica especial"
    }

    DESEMPENO_MAP = {
        1: "empleador o patrono",
        2: "trabajador independiente",
        3: "empleado",
        4: 'obrero',
        5: "trabajador familiar no remunerado",
        6: 'trabajador del hogar',
        7: 'otro'
    }


    # ========================================================================
    # HIPERPAR√ÅMETROS DE TOKENIZACI√ìN
    # ========================================================================
    MAX_LENGTH = 128  # Longitud m√°xima de secuencia

    # ========================================================================
    # HIPERPAR√ÅMETROS DE ENTRENAMIENTO
    # ========================================================================
    BATCH_SIZE = 16            # Tama√±o del batch
    LEARNING_RATE = 2e-5       # Learning rate
    NUM_EPOCHS = 3             # N√∫mero de √©pocas
    WARMUP_STEPS = 500         # Pasos de warmup
    WEIGHT_DECAY = 0.01        # Weight decay
    EARLY_STOPPING_PATIENCE = 3  # Paciencia para early stopping

    # FILTRADO
    MIN_SAMPLES_PER_CLASS=10

    # ========================================================================
    # SPLITS DE DATOS
    # ========================================================================
    TEST_SIZE = 0.15    # 15% para test
    VAL_SIZE = 0.15     # 15% para validaci√≥n
    RANDOM_STATE = 2025   # Semilla para reproducibilidad

    # ========================================================================
    # DIRECTORIOS DE SALIDA
    # ========================================================================
    OUTPUT_DIR = "./outputs_concatenado"
    EXPERIMENT_NAME = f"concat_{MODEL_NAME.split('/')[-1]}_{datetime.now().strftime('%Y%m%d_%H%M%S')}"

    # Directorios espec√≠ficos
    EXPERIMENT_DIR = os.path.join(OUTPUT_DIR, EXPERIMENT_NAME)
    CHECKPOINT_DIR = os.path.join(EXPERIMENT_DIR, "checkpoints")
    MODEL_SAVE_DIR = os.path.join(EXPERIMENT_DIR, "final_model")
    LOGS_DIR = os.path.join(EXPERIMENT_DIR, "logs")

    # ========================================================================
    # DEVICE
    # ========================================================================
    DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

    @classmethod
    def create_directories(cls):
        """Crea los directorios necesarios"""
        os.makedirs(cls.EXPERIMENT_DIR, exist_ok=True)
        os.makedirs(cls.CHECKPOINT_DIR, exist_ok=True)
        os.makedirs(cls.MODEL_SAVE_DIR, exist_ok=True)
        os.makedirs(cls.LOGS_DIR, exist_ok=True)

    @classmethod
    def save_config(cls):
        """Guarda la configuraci√≥n en JSON"""
        config_dict = {
            key: str(value) if not isinstance(value, (int, float, bool, str, dict)) else value
            for key, value in cls.__dict__.items()
            if not key.startswith('_') and not callable(value)
        }

        with open(os.path.join(cls.EXPERIMENT_DIR, 'config.json'), 'w') as f:
            json.dump(config_dict, f, indent=2)

# Inicializar configuraci√≥n
config = Config()
config.create_directories()
config.save_config()

print("\n" + "="*80)
print("‚öôÔ∏è  CONFIGURACI√ìN CARGADA")
print("="*80)
print(f"\n Experimento: {config.EXPERIMENT_NAME}")
print(f" Modelo: {config.MODEL_NAME}")
print(f" Device: {config.DEVICE}")
print(f" Formato: {'Con etiquetas' if config.INCLUDE_LABELS else 'Compacto'}")
print(f" Separador: '{config.SEPARATOR}'")
print(f" Max length: {config.MAX_LENGTH}")
print(f" Batch size: {config.BATCH_SIZE}")
print(f" Epochs: {config.NUM_EPOCHS}")
print(f"\n Output: {config.EXPERIMENT_DIR}")
print("\n" + "="*80 + "\n")



‚öôÔ∏è  CONFIGURACI√ìN CARGADA

 Experimento: concat_xlm-roberta-base_20251112_085130
 Modelo: FacebookAI/xlm-roberta-base
 Device: cuda
 Formato: Con etiquetas
 Separador: ' , '
 Max length: 128
 Batch size: 16
 Epochs: 3

 Output: ./outputs_concatenado/concat_xlm-roberta-base_20251112_085130




In [None]:
# ============================================================================
# FUNCI√ìN DE CONCATENACI√ìN DE FEATURES
# ============================================================================

def concatenate_features(
    texto: str,
    edad: int,
    nivel: int,
    desempeno: int,
    include_labels: bool = True,
    separator: str = " | "
) -> str:
    """
    Concatena todas las features en un solo texto enriquecido.

    Args:
        texto: Descripci√≥n textual de la ocupaci√≥n
        edad: Edad de la persona (num√©rica)
        nivel: Nivel educativo (0-11)
        desempeno: Tipo de desempe√±o (0-3)
        include_labels: Si True, incluye etiquetas descriptivas
        separator: Separador entre componentes

    Returns:
        Texto concatenado con todas las features

    Ejemplos:
        >>> concatenate_features("vendedor", 35, 5, 1, True, " | ")
        'vendedor | edad: 35 a√±os | educaci√≥n: secundaria completa | desempe√±o: trabajador independiente'

        >>> concatenate_features("vendedor", 35, 5, 1, False, ", ")
        'vendedor, 35 a√±os, secundaria completa, trabajador independiente'
    """
    # Limpiar texto base
    texto = str(texto).strip()

    # Iniciar con el texto original
    components = [texto]

    # Mapear valores categ√≥ricos a texto descriptivo
    nivel_desc = config.NIVEL_EDUCATIVO_MAP.get(int(nivel), "nivel desconocido")
    desemp_desc = config.DESEMPENO_MAP.get(int(desempeno), "desempe√±o desconocido")

    # Agregar componentes seg√∫n el formato
    if include_labels:
        # Formato con etiquetas (m√°s descriptivo)
        components.append(f"edad: {int(edad)} a√±os")
        components.append(f"educaci√≥n: {nivel_desc}")
        components.append(f"desempe√±o: {desemp_desc}")
    else:
        # Formato compacto (sin etiquetas)
        components.append(f"{int(edad)} a√±os")
        components.append(nivel_desc)
        components.append(desemp_desc)

    # Unir todos los componentes
    return separator.join(components)


# ============================================================================
# PRUEBA DE LA FUNCI√ìN
# ============================================================================

print("\n" + "="*80)
print("üîó FUNCI√ìN DE CONCATENACI√ìN DEFINIDA")
print("="*80)
print("\nüìù Ejemplos de concatenaci√≥n:\n")

# Ejemplo 1: Vendedor
ejemplo1 = concatenate_features(
    texto="vendedor de abarrotes en bodega",
    edad=35,
    nivel=5,
    desempeno=1,
    include_labels=config.INCLUDE_LABELS,
    separator=config.SEPARATOR
)
print("1Ô∏è‚É£  Vendedor (35 a√±os, secundaria, independiente):")
print(f"   {ejemplo1}")

# Ejemplo 2: Profesor
ejemplo2 = concatenate_features(
    texto="profesor de matem√°ticas en colegio secundario",
    edad=42,
    nivel=9,
    desempeno=2,
    include_labels=config.INCLUDE_LABELS,
    separator=config.SEPARATOR
)
print("\n2Ô∏è‚É£  Profesor (42 a√±os, universitaria, empleado):")
print(f"   {ejemplo2}")

# Ejemplo 3: Alba√±il
ejemplo3 = concatenate_features(
    texto="alba√±il en construcci√≥n",
    edad=50,
    nivel=3,
    desempeno=1,
    include_labels=config.INCLUDE_LABELS,
    separator=config.SEPARATOR
)
print("\n3Ô∏è‚É£  Alba√±il (50 a√±os, primaria, independiente):")
print(f"   {ejemplo3}")

print("\n" + "="*80 + "\n")



üîó FUNCI√ìN DE CONCATENACI√ìN DEFINIDA

üìù Ejemplos de concatenaci√≥n:

1Ô∏è‚É£  Vendedor (35 a√±os, secundaria, independiente):
   vendedor de abarrotes en bodega , edad: 35 a√±os , educaci√≥n: secundaria completa , desempe√±o: trabajador independiente

2Ô∏è‚É£  Profesor (42 a√±os, universitaria, empleado):
   profesor de matem√°ticas en colegio secundario , edad: 42 a√±os , educaci√≥n: superior universitaria completa , desempe√±o: empleado

3Ô∏è‚É£  Alba√±il (50 a√±os, primaria, independiente):
   alba√±il en construcci√≥n , edad: 50 a√±os , educaci√≥n: primaria completa , desempe√±o: trabajador independiente




In [None]:
# ============================================================================
# üìÇ CARGA Y PREPARACI√ìN DE DATOS
# ============================================================================

print("\n" + "="*80)
print("üìÇ CARGANDO Y PREPARANDO DATOS")
print("="*80 + "\n")

# Cargar datos
logging.info(f"Cargando datos desde: {config.DATA_PATH}")
df = pd.read_parquet(config.DATA_PATH)

print(f"‚úÖ Datos cargados exitosamente")
print(f"   Total de registros: {len(df):,}")
print(f"   Columnas: {list(df.columns)}")

# Validar que existan todas las columnas necesarias
required_cols = [
    config.TEXT_COLUMN,
    config.EDAD_COLUMN,
    config.NIVEL_COLUMN,
    config.DESEMPENO_COLUMN,
    config.TARGET_COLUMN
]

missing_cols = [col for col in required_cols if col not in df.columns]

if missing_cols:
    raise ValueError(
        f"\n‚ùå Error: Faltan las siguientes columnas en el dataset:\n"
        f"   {', '.join(missing_cols)}\n\n"
        f"   Columnas disponibles: {', '.join(df.columns)}"
    )

print(f"\n‚úÖ Todas las columnas requeridas est√°n presentes")

# Verificar valores nulos
print(f"\nüîç Verificando valores nulos:")
nulls = df[required_cols].isnull().sum()
for col, count in nulls.items():
    pct = count / len(df) * 100
    print(f"   {col}: {count:,} ({pct:.2f}%)")

# Filtrar registros con valores nulos
initial_size = len(df)
df = df.dropna(subset=required_cols)
removed = initial_size - len(df)

if removed > 0:
    print(f"\n‚ö†Ô∏è  Se eliminaron {removed:,} registros con valores nulos")

print(f"\n‚úÖ Dataset final: {len(df):,} registros ({len(df)/initial_size*100:.1f}% del original)")

print("\n" + "="*80 + "\n")

def filter_rare_classes(df):
    """Filtra clases con pocas muestras"""
    print(
        f"Filtrando clases con < {config.MIN_SAMPLES_PER_CLASS} muestras..."
        )

    class_counts = df[config.TARGET_COLUMN].value_counts()
    valid_classes = class_counts[class_counts >= config.MIN_SAMPLES_PER_CLASS].index
    df_filtered = df[df[config.TARGET_COLUMN].isin(valid_classes)].copy()

    print(
        f"   Clases originales: {len(class_counts):,}\n"
        f"   Clases mantenidas: {len(valid_classes):,}\n"
        f"‚úÖ Registros despu√©s: {len(df_filtered):,}"
        )
    return df_filtered

df = filter_rare_classes(df)



üìÇ CARGANDO Y PREPARANDO DATOS

‚úÖ Datos cargados exitosamente
   Total de registros: 316,022
   Columnas: ['anio', 'conglome', 'vivienda', 'hogar', 'codperso', 'p207', 'p207_label', 'p208a', 'p301a', 'p301a_label', 'p301a1', 'p301a1_label', 'p505r4', 'p505r4_label', 'txt505', 'txt505b', 'p506r4', 'p506r4_label', 'txt506', 'p507', 'p507_label', 'p510', 'p510_label', 'txt505_clean', 'txt505b_clean', 'txt506_clean', 'texto_final']

‚úÖ Todas las columnas requeridas est√°n presentes

üîç Verificando valores nulos:
   texto_final: 0 (0.00%)
   p208a: 0 (0.00%)
   p301a: 79 (0.02%)
   p507: 0 (0.00%)
   p505r4: 0 (0.00%)

‚ö†Ô∏è  Se eliminaron 79 registros con valores nulos

‚úÖ Dataset final: 315,943 registros (100.0% del original)


Filtrando clases con < 10 muestras...
   Clases originales: 450
   Clases mantenidas: 357
‚úÖ Registros despu√©s: 315,546


In [None]:
# ============================================================================
# üîó CREAR COLUMNA CON TEXTO CONCATENADO
# ============================================================================

print("\n" + "="*80)
print("üîó CREANDO TEXTO CONCATENADO CON TODAS LAS FEATURES")
print("="*80 + "\n")

logging.info("Concatenando features...")

# Aplicar funci√≥n de concatenaci√≥n
df['texto_concatenado'] = df.apply(
    lambda row: concatenate_features(
        texto=row[config.TEXT_COLUMN],
        edad=int(row[config.EDAD_COLUMN]),
        nivel=int(row[config.NIVEL_COLUMN]),
        desempeno=int(row[config.DESEMPENO_COLUMN]),
        include_labels=config.INCLUDE_LABELS,
        separator=config.SEPARATOR
    ),
    axis=1
)

print(f"‚úÖ Columna 'texto_concatenado' creada exitosamente")

# Mostrar ejemplos
print(f"\nüìù Ejemplos de transformaci√≥n (primeros 5 registros):\n")
print("-" * 80)

for i in range(min(5, len(df))):
    row = df.iloc[i]
    print(f"\n{i+1}. ORIGINAL:")
    print(f"   Texto: {row[config.TEXT_COLUMN]}")
    print(f"   Edad: {int(row[config.EDAD_COLUMN])} a√±os")
    print(f"   Nivel: {int(row[config.NIVEL_COLUMN])} ({config.NIVEL_EDUCATIVO_MAP[int(row[config.NIVEL_COLUMN])]})")
    print(f"   Desempe√±o: {int(row[config.DESEMPENO_COLUMN])} ({config.DESEMPENO_MAP[int(row[config.DESEMPENO_COLUMN])]})")
    print(f"\n   CONCATENADO:")
    print(f"   {row['texto_concatenado']}")
    print("-" * 80)

# An√°lisis de longitud de texto
print(f"\nüìè AN√ÅLISIS DE LONGITUD (caracteres):\n")

original_lengths = df[config.TEXT_COLUMN].str.len()
concat_lengths = df['texto_concatenado'].str.len()

print(f"Texto Original:")
print(f"   Min: {original_lengths.min()}")
print(f"   Max: {original_lengths.max()}")
print(f"   Promedio: {original_lengths.mean():.1f}")
print(f"   Mediana: {original_lengths.median():.1f}")

print(f"\nTexto Concatenado:")
print(f"   Min: {concat_lengths.min()}")
print(f"   Max: {concat_lengths.max()}")
print(f"   Promedio: {concat_lengths.mean():.1f}")
print(f"   Mediana: {concat_lengths.median():.1f}")

print(f"\nIncremento:")
print(f"   Caracteres adicionales (promedio): +{concat_lengths.mean() - original_lengths.mean():.1f}")
print(f"   Factor de incremento: {concat_lengths.mean() / original_lengths.mean():.2f}x")

print("\n" + "="*80 + "\n")



üîó CREANDO TEXTO CONCATENADO CON TODAS LAS FEATURES

‚úÖ Columna 'texto_concatenado' creada exitosamente

üìù Ejemplos de transformaci√≥n (primeros 5 registros):

--------------------------------------------------------------------------------

1. ORIGINAL:
   Texto: tejedora de chompa de lana en maquina de tejer tejer chompa de lana en maquina de tejer confecci√≥n de chompa de lana en maquina de tejer en su vivienda
   Edad: 66 a√±os
   Nivel: 4 (secundaria incompleta)
   Desempe√±o: 2 (empleado)

   CONCATENADO:
   tejedora de chompa de lana en maquina de tejer tejer chompa de lana en maquina de tejer confecci√≥n de chompa de lana en maquina de tejer en su vivienda , edad: 66 a√±os , educaci√≥n: secundaria incompleta , desempe√±o: empleado
--------------------------------------------------------------------------------

2. ORIGINAL:
   Texto: tecnico administrativo digital documento manejar sistema hopsital essalud
   Edad: 47 a√±os
   Nivel: 8 (superior universitaria incompleta)

In [None]:
# ============================================================================
# üéØ CREAR MAPEOS DE LABELS Y SPLITS
# ============================================================================

print("\n" + "="*80)
print("üéØ CREANDO MAPEOS Y DIVIDIENDO DATOS")
print("="*80 + "\n")

# Crear mapeos label ‚Üî id
unique_labels = sorted(df[config.TARGET_COLUMN].unique())
label2id = {label: idx for idx, label in enumerate(unique_labels)}
id2label = {idx: label for label, idx in label2id.items()}

# Crear columna con IDs
df['label_id'] = df[config.TARGET_COLUMN].map(label2id)

print(f"‚úÖ Mapeos creados:")
print(f"   N√∫mero de clases √∫nicas: {len(unique_labels)}")
print(f"   Ejemplos de mapeo:")
for i, (label, idx) in enumerate(list(label2id.items())[:5]):
    print(f"      {label} ‚Üí {idx}")
if len(unique_labels) > 5:
    print(f"      ... ({len(unique_labels) - 5} m√°s)")

# Distribuci√≥n de clases
print(f"\nüìä Distribuci√≥n de clases:")
class_dist = df['label_id'].value_counts().sort_index()
print(f"   Clase m√°s frecuente: {class_dist.max():,} registros")
print(f"   Clase menos frecuente: {class_dist.min():,} registros")
print(f"   Promedio por clase: {class_dist.mean():.0f} registros")

# ============================================================================
# SPLITS ESTRATIFICADOS
# ============================================================================

print(f"\nüî™ Dividiendo en train/val/test...")

# Primer split: train vs (val + test)
train_df, temp_df = train_test_split(
    df,
    test_size=(config.TEST_SIZE + config.VAL_SIZE),
    random_state=config.RANDOM_STATE,
    stratify=df['label_id']
)

# Segundo split: val vs test
val_df, test_df = train_test_split(
    temp_df,
    test_size=config.TEST_SIZE / (config.TEST_SIZE + config.VAL_SIZE),
    random_state=config.RANDOM_STATE,
    stratify=temp_df['label_id']
)

print(f"\n‚úÖ Splits creados (estratificados):")
print(f"   Train:      {len(train_df):>7,} registros ({len(train_df)/len(df)*100:>5.1f}%)")
print(f"   Validation: {len(val_df):>7,} registros ({len(val_df)/len(df)*100:>5.1f}%)")
print(f"   Test:       {len(test_df):>7,} registros ({len(test_df)/len(df)*100:>5.1f}%)")
print(f"   {'‚îÄ'*40}")
print(f"   Total:      {len(df):>7,} registros")

# Verificar que las clases est√©n balanceadas en cada split
print(f"\nüìä Clases √∫nicas por split:")
print(f"   Train: {train_df['label_id'].nunique()}")
print(f"   Val:   {val_df['label_id'].nunique()}")
print(f"   Test:  {test_df['label_id'].nunique()}")

print("\n" + "="*80 + "\n")



üéØ CREANDO MAPEOS Y DIVIDIENDO DATOS

‚úÖ Mapeos creados:
   N√∫mero de clases √∫nicas: 357
   Ejemplos de mapeo:
      0111 ‚Üí 0
      0112 ‚Üí 1
      0120 ‚Üí 2
      0211 ‚Üí 3
      0212 ‚Üí 4
      ... (352 m√°s)

üìä Distribuci√≥n de clases:
   Clase m√°s frecuente: 65,694 registros
   Clase menos frecuente: 10 registros
   Promedio por clase: 884 registros

üî™ Dividiendo en train/val/test...

‚úÖ Splits creados (estratificados):
   Train:      220,882 registros ( 70.0%)
   Validation:  47,332 registros ( 15.0%)
   Test:        47,332 registros ( 15.0%)
   ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
   Total:      315,546 registros

üìä Clases √∫nicas por split:
   Train: 357
   Val:   357
   Test:  357




In [None]:
# ============================================================================
# üì¶ DATASET CLASS PARA TEXTO CONCATENADO
# ============================================================================

class ConcatenatedTextDataset(Dataset):
    """
    Dataset para manejar texto concatenado.

    Este dataset es m√°s simple que el multimodal porque solo maneja
    una entrada de texto (aunque contiene toda la informaci√≥n).
    """

    def __init__(self, texts, labels, tokenizer, max_length):
        """
        Args:
            texts: Lista de textos concatenados
            labels: Lista de labels (IDs num√©ricos)
            tokenizer: Tokenizer del modelo
            max_length: Longitud m√°xima de secuencia
        """
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        # Obtener texto y label
        text = str(self.texts[idx])
        label = self.labels[idx]

        # Tokenizar
        encoding = self.tokenizer(
            text,
            max_length=self.max_length,
            padding='max_length',
            truncation=True,
            return_tensors='pt'
        )

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }

print("‚úÖ Clase ConcatenatedTextDataset definida")


‚úÖ Clase ConcatenatedTextDataset definida


In [None]:
# ============================================================================
# üî§ CARGAR TOKENIZER Y CREAR DATASETS
# ============================================================================

print("\n" + "="*80)
print("üî§ CARGANDO TOKENIZER Y CREANDO DATASETS")
print("="*80 + "\n")

# Cargar tokenizer
logging.info(f"Cargando tokenizer: {config.MODEL_NAME}")
tokenizer = AutoTokenizer.from_pretrained(config.MODEL_NAME)

print(f"‚úÖ Tokenizer cargado: {config.MODEL_NAME}")
print(f"   Tama√±o del vocabulario: {len(tokenizer):,} tokens")
print(f"   Tokens especiales:")
print(f"      PAD: {tokenizer.pad_token} (ID: {tokenizer.pad_token_id})")
print(f"      UNK: {tokenizer.unk_token} (ID: {tokenizer.unk_token_id})")
print(f"      CLS: {tokenizer.cls_token} (ID: {tokenizer.cls_token_id})")
print(f"      SEP: {tokenizer.sep_token} (ID: {tokenizer.sep_token_id})")

# Crear datasets
print(f"\nüì¶ Creando datasets...")

train_dataset = ConcatenatedTextDataset(
    texts=train_df['texto_concatenado'].values,
    labels=train_df['label_id'].values,
    tokenizer=tokenizer,
    max_length=config.MAX_LENGTH
)

val_dataset = ConcatenatedTextDataset(
    texts=val_df['texto_concatenado'].values,
    labels=val_df['label_id'].values,
    tokenizer=tokenizer,
    max_length=config.MAX_LENGTH
)

test_dataset = ConcatenatedTextDataset(
    texts=test_df['texto_concatenado'].values,
    labels=test_df['label_id'].values,
    tokenizer=tokenizer,
    max_length=config.MAX_LENGTH
)

print(f"\n‚úÖ Datasets creados:")
print(f"   Train Dataset:      {len(train_dataset):,} ejemplos")
print(f"   Validation Dataset: {len(val_dataset):,} ejemplos")
print(f"   Test Dataset:       {len(test_dataset):,} ejemplos")

# Inspeccionar un ejemplo
print(f"\nüîç Ejemplo de un elemento del dataset:")
sample = train_dataset[0]
print(f"   Input IDs shape: {sample['input_ids'].shape}")
print(f"   Attention mask shape: {sample['attention_mask'].shape}")
print(f"   Label: {sample['labels'].item()} (c√≥digo: {id2label[sample['labels'].item()]})")
print(f"\n   Primeros 10 tokens:")
print(f"   IDs: {sample['input_ids'][:10].tolist()}")
decoded = tokenizer.decode(sample['input_ids'][:50])
print(f"   Texto: {decoded[:100]}...")

print("\n" + "="*80 + "\n")



üî§ CARGANDO TOKENIZER Y CREANDO DATASETS



tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/615 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

‚úÖ Tokenizer cargado: FacebookAI/xlm-roberta-base
   Tama√±o del vocabulario: 250,002 tokens
   Tokens especiales:
      PAD: <pad> (ID: 1)
      UNK: <unk> (ID: 3)
      CLS: <s> (ID: 0)
      SEP: </s> (ID: 2)

üì¶ Creando datasets...

‚úÖ Datasets creados:
   Train Dataset:      220,882 ejemplos
   Validation Dataset: 47,332 ejemplos
   Test Dataset:       47,332 ejemplos

üîç Ejemplo de un elemento del dataset:
   Input IDs shape: torch.Size([128])
   Attention mask shape: torch.Size([128])
   Label: 194 (c√≥digo: 5213)

   Primeros 10 tokens:
   IDs: [0, 173227, 11, 8, 28, 18908, 2759, 23778, 2721, 2512]
   Texto: <s> vendedora de esponjas escobillas guantes art√≠culos de aseo hogar ofrecer desempolvar atender cli...




In [None]:
# ============================================================================
# üìä FUNCIONES DE M√âTRICAS
# ============================================================================

def compute_metrics(eval_pred):
    """
    Calcula m√©tricas completas para evaluaci√≥n.
    Incluye: accuracy, precision, recall, F1 (macro, micro, weighted)
    """
    predictions, labels = eval_pred

    # Obtener predicciones
    if predictions.ndim > 1:
        preds = np.argmax(predictions, axis=1)
    else:
        preds = predictions

    # Accuracy
    accuracy = accuracy_score(labels, preds)

    # Precision, Recall, F1 - Macro
    precision_macro, recall_macro, f1_macro, _ = precision_recall_fscore_support(
        labels, preds, average='macro', zero_division=0
    )

    # Precision, Recall, F1 - Micro
    precision_micro, recall_micro, f1_micro, _ = precision_recall_fscore_support(
        labels, preds, average='micro', zero_division=0
    )

    # Precision, Recall, F1 - Weighted
    precision_weighted, recall_weighted, f1_weighted, _ = precision_recall_fscore_support(
        labels, preds, average='weighted', zero_division=0
    )

    return {
        'accuracy': accuracy,
        'f1_macro': f1_macro,
        'f1_micro': f1_micro,
        'f1_weighted': f1_weighted,
        'precision_macro': precision_macro,
        'precision_micro': precision_micro,
        'precision_weighted': precision_weighted,
        'recall_macro': recall_macro,
        'recall_micro': recall_micro,
        'recall_weighted': recall_weighted,
    }


def display_metrics(metrics, title="M√©tricas"):
    """Muestra las m√©tricas de forma organizada"""
    print("\n" + "="*80)
    print(f"üìä {title.upper()}")
    print("="*80 + "\n")

    # Mostrar Loss si existe
    loss = (
        metrics.get('test_loss') or
        metrics.get('eval_loss') or
        metrics.get('loss', None)
    )
    if loss is not None:
        print(f"üí• LOSS: {loss:.4f}")

    # Accuracy
    acc = (
        metrics.get('test_accuracy') or
        metrics.get('eval_accuracy') or
        metrics.get('accuracy', 0)
    )
    print(f"üéØ ACCURACY: {acc:.4f}")
    print("\n" + "-"*80)

    # Tabla
    print(f"\n{'M√©trica':<20} {'Macro':>12} {'Micro':>12} {'Weighted':>12}")
    print("-"*60)

    def get_m(name):
        return (
            metrics.get(f'test_{name}') or
            metrics.get(f'eval_{name}') or
            metrics.get(name, 0)
        )

    print(f"{'F1 Score':<20} {get_m('f1_macro'):>12.4f} {get_m('f1_micro'):>12.4f} {get_m('f1_weighted'):>12.4f}")
    print(f"{'Precision':<20} {get_m('precision_macro'):>12.4f} {get_m('precision_micro'):>12.4f} {get_m('precision_weighted'):>12.4f}")
    print(f"{'Recall':<20} {get_m('recall_macro'):>12.4f} {get_m('recall_micro'):>12.4f} {get_m('recall_weighted'):>12.4f}")

    print("\n" + "="*80 + "\n")


print("‚úÖ Funciones de m√©tricas cargadas (con loss incluido)")

‚úÖ Funciones de m√©tricas cargadas (con loss incluido)


In [None]:
# ============================================================================
# ü§ñ CARGAR MODELO Y CONFIGURAR ENTRENAMIENTO
# ============================================================================

print("\n" + "="*80)
print("ü§ñ CARGANDO MODELO Y CONFIGURANDO ENTRENAMIENTO")
print("="*80 + "\n")

# Cargar modelo
logging.info(f"Cargando modelo: {config.MODEL_NAME}")

model = AutoModelForSequenceClassification.from_pretrained(
    config.MODEL_NAME,
    num_labels=len(label2id),
    id2label=id2label,
    label2id=label2id
)

# Mover a device
model.to(config.DEVICE)

# Info del modelo
num_params = sum(p.numel() for p in model.parameters())
num_trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f"‚úÖ Modelo cargado: {config.MODEL_NAME}")
print(f"   N√∫mero de clases: {len(label2id)}")
print(f"   Par√°metros totales: {num_params:,}")
print(f"   Par√°metros entrenables: {num_trainable:,}")
print(f"   Device: {config.DEVICE}")

if torch.cuda.is_available():
    print(f"   Memoria GPU: {torch.cuda.memory_allocated(0) / 1e9:.2f} GB")

# Configurar argumentos de entrenamiento
print(f"\n‚öôÔ∏è  Configurando argumentos de entrenamiento...")

training_args = TrainingArguments(
    output_dir=config.CHECKPOINT_DIR,
    logging_dir=config.LOGS_DIR,

    # Hiperpar√°metros
    learning_rate=config.LEARNING_RATE,
    per_device_train_batch_size=config.BATCH_SIZE,
    per_device_eval_batch_size=config.BATCH_SIZE,
    num_train_epochs=config.NUM_EPOCHS,
    warmup_steps=config.WARMUP_STEPS,
    weight_decay=config.WEIGHT_DECAY,

    # Evaluaci√≥n y guardado
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    metric_for_best_model="f1_weighted",
    greater_is_better=True,

    # Logging
    logging_steps=100,
    logging_strategy="steps",

    # Optimizaci√≥n
    fp16=torch.cuda.is_available(),
    gradient_accumulation_steps=1,

    # Otros
    seed=config.RANDOM_STATE,
    report_to="none",
    disable_tqdm=False,
)

# Crear Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    compute_metrics=compute_metrics,
    callbacks=[
        EarlyStoppingCallback(
            early_stopping_patience=config.EARLY_STOPPING_PATIENCE
        )
    ]
)

print(f"\n‚úÖ Trainer configurado")
print(f"   Learning rate: {config.LEARNING_RATE}")
print(f"   Batch size: {config.BATCH_SIZE}")
print(f"   Epochs: {config.NUM_EPOCHS}")
print(f"   Early stopping patience: {config.EARLY_STOPPING_PATIENCE}")
print(f"   FP16: {training_args.fp16}")
print(f"   M√©trica principal: f1_weighted")

print("\n" + "="*80 + "\n")



ü§ñ CARGANDO MODELO Y CONFIGURANDO ENTRENAMIENTO



model.safetensors:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

Some weights of XLMRobertaForSequenceClassification were not initialized from the model checkpoint at FacebookAI/xlm-roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


‚úÖ Modelo cargado: FacebookAI/xlm-roberta-base
   N√∫mero de clases: 357
   Par√°metros totales: 278,318,181
   Par√°metros entrenables: 278,318,181
   Device: cuda
   Memoria GPU: 1.11 GB

‚öôÔ∏è  Configurando argumentos de entrenamiento...

‚úÖ Trainer configurado
   Learning rate: 2e-05
   Batch size: 16
   Epochs: 3
   Early stopping patience: 3
   FP16: True
   M√©trica principal: f1_weighted




In [None]:
# ============================================================================
# üöÄ ENTRENAMIENTO DEL MODELO
# ============================================================================

print("\n" + "="*80)
print("üöÄ INICIANDO ENTRENAMIENTO")
print("="*80)
print(f"\nüìù Enfoque: CONCATENACI√ìN DE FEATURES COMO TEXTO")
print(f"ü§ñ Modelo: {config.MODEL_NAME}")
print(f"üìä Datos de entrenamiento: {len(train_dataset):,} ejemplos")
print(f"üìä Datos de validaci√≥n: {len(val_dataset):,} ejemplos")
print(f"üéØ N√∫mero de clases: {len(label2id)}")
print(f"\n‚è±Ô∏è  Esto puede tomar tiempo...")
print("="*80 + "\n")

try:
    start_time = datetime.now()
    logging.info("Iniciando entrenamiento...")

    # ENTRENAR
    train_result = trainer.train()

    end_time = datetime.now()
    training_time = end_time - start_time

    logging.info(f"Entrenamiento completado en {training_time}")

    print("\n" + "="*80)
    print("‚úÖ ENTRENAMIENTO COMPLETADO")
    print("="*80)
    print(f"\n‚è±Ô∏è  Tiempo total: {training_time}")
    print(f"üìâ Training loss: {train_result.training_loss:.4f}")

    # Evaluar en validation
    print("\n" + "-"*80)
    print("üìä Evaluando en conjunto de validaci√≥n...")
    val_metrics = trainer.evaluate()
    display_metrics(val_metrics, "M√©tricas de Validaci√≥n")

    print("="*80 + "\n")

except KeyboardInterrupt:
    print("\n‚ö†Ô∏è  ENTRENAMIENTO INTERRUMPIDO POR EL USUARIO")
    raise

except Exception as e:
    print("\n" + "="*80)
    print("‚ùå ERROR DURANTE EL ENTRENAMIENTO")
    print("="*80)
    print(f"\n{str(e)}\n")
    logging.error(f"Error durante entrenamiento: {str(e)}", exc_info=True)
    raise



üöÄ INICIANDO ENTRENAMIENTO

üìù Enfoque: CONCATENACI√ìN DE FEATURES COMO TEXTO
ü§ñ Modelo: FacebookAI/xlm-roberta-base
üìä Datos de entrenamiento: 220,882 ejemplos
üìä Datos de validaci√≥n: 47,332 ejemplos
üéØ N√∫mero de clases: 357

‚è±Ô∏è  Esto puede tomar tiempo...



Epoch,Training Loss,Validation Loss,Accuracy,F1 Macro,F1 Micro,F1 Weighted,Precision Macro,Precision Micro,Precision Weighted,Recall Macro,Recall Micro,Recall Weighted
1,0.3657,0.362383,0.92204,0.422728,0.92204,0.911761,0.446585,0.92204,0.908964,0.431073,0.92204,0.92204
2,0.2591,0.291754,0.93797,0.524154,0.93797,0.932411,0.542102,0.93797,0.930588,0.536457,0.93797,0.93797
3,0.2583,0.272528,0.941836,0.562268,0.941836,0.937402,0.574126,0.941836,0.935642,0.572495,0.941836,0.941836



‚úÖ ENTRENAMIENTO COMPLETADO

‚è±Ô∏è  Tiempo total: 2:02:30.245876
üìâ Training loss: 0.4446

--------------------------------------------------------------------------------
üìä Evaluando en conjunto de validaci√≥n...



üìä M√âTRICAS DE VALIDACI√ìN

üéØ ACCURACY: 0.9418

--------------------------------------------------------------------------------

M√©trica                     Macro        Micro     Weighted
------------------------------------------------------------
F1 Score                   0.5623       0.9418       0.9374
Precision                  0.5741       0.9418       0.9356
Recall                     0.5725       0.9418       0.9418





In [None]:
# ============================================================================
# üß™ EVALUACI√ìN EN TEST SET
# ============================================================================

print("\n" + "="*80)
print("üß™ EVALUACI√ìN EN TEST SET")
print("="*80 + "\n")

try:
    logging.info("Evaluando en test set...")

    # Obtener predicciones
    test_predictions = trainer.predict(test_dataset)
    test_metrics = test_predictions.metrics

    # Mostrar m√©tricas
    display_metrics(test_metrics, "M√©tricas de Test (Evaluaci√≥n Final)")

    # Guardar m√©tricas
    metrics_file = os.path.join(config.EXPERIMENT_DIR, 'test_metrics.json')
    with open(metrics_file, 'w', encoding='utf-8') as f:
        json.dump(test_metrics, f, indent=2)

    print(f"üíæ M√©tricas guardadas en: {metrics_file}")

    # Reporte de clasificaci√≥n detallado
    print("\n" + "="*80)
    print("üìà REPORTE DE CLASIFICACI√ìN DETALLADO")
    print("="*80 + "\n")

    y_pred = np.argmax(test_predictions.predictions, axis=1)
    y_true = test_predictions.label_ids

    # Nombres de clases
    target_names = [str(id2label[i]) for i in range(len(id2label))]

    class_report = classification_report(
        y_true,
        y_pred,
        target_names=target_names,
        zero_division=0,
        digits=4
    )

    print(class_report)

    # Guardar reporte
    report_file = os.path.join(config.EXPERIMENT_DIR, 'classification_report.txt')
    with open(report_file, 'w', encoding='utf-8') as f:
        f.write("REPORTE DE CLASIFICACI√ìN - ENFOQUE DE CONCATENACI√ìN\n")
        f.write("="*80 + "\n\n")
        f.write(f"Modelo: {config.MODEL_NAME}\n")
        f.write(f"Enfoque: Concatenaci√≥n de features como texto\n")
        f.write(f"Formato: {'Con etiquetas' if config.INCLUDE_LABELS else 'Compacto'}\n")
        f.write(f"Fecha: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
        f.write("\n" + "="*80 + "\n\n")
        f.write(class_report)

    print(f"\nüíæ Reporte guardado en: {report_file}")

    # An√°lisis de errores
    print("\n" + "="*80)
    print("üîç AN√ÅLISIS DE ERRORES")
    print("="*80 + "\n")

    incorrect_mask = y_pred != y_true
    num_incorrect = incorrect_mask.sum()

    print(f"Total de predicciones: {len(y_true):,}")
    print(f"Predicciones correctas: {(~incorrect_mask).sum():,} ({(~incorrect_mask).sum()/len(y_true)*100:.2f}%)")
    print(f"Predicciones incorrectas: {num_incorrect:,} ({num_incorrect/len(y_true)*100:.2f}%)")

    # Guardar casos incorrectos
    if num_incorrect > 0:
        errors_df = test_df[incorrect_mask].copy()
        errors_df['predicted_label'] = [id2label[pred] for pred in y_pred[incorrect_mask]]
        errors_df['true_label'] = [id2label[true] for true in y_true[incorrect_mask]]

        # Calcular confianza
        probs = torch.nn.functional.softmax(torch.tensor(test_predictions.predictions), dim=-1)
        max_probs = probs.max(dim=-1).values.numpy()
        errors_df['confidence'] = max_probs[incorrect_mask]

        errors_file = os.path.join(config.EXPERIMENT_DIR, 'error_analysis.csv')
        errors_df.to_csv(errors_file, index=False, encoding='utf-8')
        print(f"\nüíæ An√°lisis de errores guardado en: {errors_file}")

    print("\n" + "="*80 + "\n")

except Exception as e:
    print("\n" + "="*80)
    print("‚ùå ERROR EN LA EVALUACI√ìN")
    print("="*80)
    print(f"\n{str(e)}\n")
    raise



üß™ EVALUACI√ìN EN TEST SET




üìä M√âTRICAS DE TEST (EVALUACI√ìN FINAL)

üí• LOSS: 0.2668
üéØ ACCURACY: 0.9416

--------------------------------------------------------------------------------

M√©trica                     Macro        Micro     Weighted
------------------------------------------------------------
F1 Score                   0.5587       0.9416       0.9372
Precision                  0.5725       0.9416       0.9357
Recall                     0.5694       0.9416       0.9416


üíæ M√©tricas guardadas en: ./outputs_concatenado/concat_xlm-roberta-base_20251112_085130/test_metrics.json

üìà REPORTE DE CLASIFICACI√ìN DETALLADO

              precision    recall  f1-score   support

        0111     1.0000    0.3333    0.5000         3
        0112     0.0000    0.0000    0.0000         2
        0120     0.9000    1.0000    0.9474         9
        0211     0.7273    0.8889    0.8000         9
        0212     0.6667    0.8000    0.7273         5
        0213     0.0000    0.0000    0.0000        

In [None]:
# ============================================================================
# üíæ GUARDADO DEL MODELO Y ARTEFACTOS
# ============================================================================

print("\n" + "="*80)
print("üíæ GUARDANDO MODELO Y ARTEFACTOS")
print("="*80 + "\n")

try:
    # Guardar modelo y tokenizer
    logging.info(f"Guardando modelo en: {config.MODEL_SAVE_DIR}")

    model.save_pretrained(config.MODEL_SAVE_DIR)
    tokenizer.save_pretrained(config.MODEL_SAVE_DIR)

    print(f"‚úÖ Modelo guardado en: {config.MODEL_SAVE_DIR}")

    # Guardar artefactos
    artifacts = {
        'label2id': label2id,
        'id2label': id2label,
        'num_labels': len(label2id),
        'model_name': config.MODEL_NAME,
        'approach': 'concatenation',
        'text_column': config.TEXT_COLUMN,
        'edad_column': config.EDAD_COLUMN,
        'nivel_column': config.NIVEL_COLUMN,
        'desempeno_column': config.DESEMPENO_COLUMN,
        'target_column': config.TARGET_COLUMN,
        'max_length': config.MAX_LENGTH,
        'include_labels': config.INCLUDE_LABELS,
        'separator': config.SEPARATOR,
        'nivel_educativo_map': config.NIVEL_EDUCATIVO_MAP,
        'desempeno_map': config.DESEMPENO_MAP,
        'test_metrics': test_metrics,
        'training_date': datetime.now().isoformat(),
    }

    artifacts_file = os.path.join(config.EXPERIMENT_DIR, 'artifacts.pkl')
    with open(artifacts_file, 'wb') as f:
        pickle.dump(artifacts, f)

    print(f"‚úÖ Artefactos guardados en: {artifacts_file}")

    # Crear README
    readme_content = f"""# Modelo de Concatenaci√≥n: {config.EXPERIMENT_NAME}

## Informaci√≥n del Modelo

- **Modelo Base**: {config.MODEL_NAME}
- **Enfoque**: Concatenaci√≥n de features como texto
- **N√∫mero de Clases**: {len(label2id)}
- **Fecha de Entrenamiento**: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

## Formato de Entrada

Este modelo usa CONCATENACI√ìN de features:

```
Input Original:
  texto: "vendedor de abarrotes"
  edad: 35
  nivel: 5
  desempe√±o: 1

Texto Concatenado:
  "vendedor de abarrotes{config.SEPARATOR}edad: 35 a√±os{config.SEPARATOR}educaci√≥n: secundaria completa{config.SEPARATOR}desempe√±o: independiente"
```

## Configuraci√≥n

- **Include labels**: {config.INCLUDE_LABELS}
- **Separator**: "{config.SEPARATOR}"
- **Max length**: {config.MAX_LENGTH}
- **Batch size**: {config.BATCH_SIZE}
- **Learning rate**: {config.LEARNING_RATE}
- **Epochs**: {config.NUM_EPOCHS}

## Resultados (Test Set)

- **Accuracy**: {test_metrics.get('test_accuracy', test_metrics.get('eval_accuracy', 0)):.4f}
- **F1 Weighted**: {test_metrics.get('test_f1_weighted', test_metrics.get('eval_f1_weighted', 0)):.4f}
- **F1 Macro**: {test_metrics.get('test_f1_macro', test_metrics.get('eval_f1_macro', 0)):.4f}

## Uso del Modelo

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import pickle

# Cargar modelo y tokenizer
model = AutoModelForSequenceClassification.from_pretrained("{config.MODEL_SAVE_DIR}")
tokenizer = AutoTokenizer.from_pretrained("{config.MODEL_SAVE_DIR}")

# Cargar artefactos
with open("{artifacts_file}", 'rb') as f:
    artifacts = pickle.load(f)

# Preparar texto
def concatenate_features(texto, edad, nivel, desempeno):
    nivel_desc = artifacts['nivel_educativo_map'][nivel]
    desemp_desc = artifacts['desempeno_map'][desempeno]

    return f"{{texto}}{config.SEPARATOR}edad: {{edad}} a√±os{config.SEPARATOR}educaci√≥n: {{nivel_desc}}{config.SEPARATOR}desempe√±o: {{desemp_desc}}"

# Ejemplo
texto_concat = concatenate_features(
    texto="vendedor de abarrotes",
    edad=35,
    nivel=5,
    desempeno=1
)

# Tokenizar y predecir
inputs = tokenizer(texto_concat, return_tensors="pt", truncation=True, max_length={config.MAX_LENGTH})
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
predicted_label = artifacts['id2label'][str(predicted_class)]

print(f"Predicci√≥n: {{predicted_label}}")
```

## Archivos

- `pytorch_model.bin`: Pesos del modelo
- `config.json`: Configuraci√≥n del modelo
- `tokenizer.json`: Tokenizer
- `artifacts.pkl`: Mapeos y metadata
- `test_metrics.json`: M√©tricas de evaluaci√≥n
- `classification_report.txt`: Reporte detallado
- `error_analysis.csv`: An√°lisis de errores

## Comparaci√≥n con Multimodal

Este modelo usa concatenaci√≥n simple (todas las features como texto).
Para mejor performance, considera el enfoque multimodal que preserva la informaci√≥n num√©rica.
"""

    readme_file = os.path.join(config.EXPERIMENT_DIR, 'README.md')
    with open(readme_file, 'w', encoding='utf-8') as f:
        f.write(readme_content)

    print(f"‚úÖ README creado en: {readme_file}")

    print("\n" + "="*80)
    print("üéâ GUARDADO COMPLETADO")
    print("="*80 + "\n")

except Exception as e:
    print("\n" + "="*80)
    print("‚ùå ERROR AL GUARDAR")
    print("="*80)
    print(f"\n{str(e)}\n")
    raise



üíæ GUARDANDO MODELO Y ARTEFACTOS

‚úÖ Modelo guardado en: ./outputs_concatenado/concat_xlm-roberta-base_20251112_085130/final_model
‚úÖ Artefactos guardados en: ./outputs_concatenado/concat_xlm-roberta-base_20251112_085130/artifacts.pkl
‚úÖ README creado en: ./outputs_concatenado/concat_xlm-roberta-base_20251112_085130/README.md

üéâ GUARDADO COMPLETADO



---

# üéâ ¬°ENTRENAMIENTO COMPLETADO!

## üìä Modelo Entrenado con Concatenaci√≥n

Has entrenado exitosamente un modelo usando el **enfoque de concatenaci√≥n**, donde todas las features se unen en un solo texto:

```
"vendedor abarrotes | edad: 35 a√±os | educaci√≥n: secundaria completa | desempe√±o: independiente"
```

## üìà Pr√≥ximos Pasos

### 1. Comparar con Baseline

Compara este modelo con uno entrenado solo con texto (sin las features adicionales):

- Si mejora >1%: Las features adicionales ayudan ‚úÖ
- Si mejora <1%: Beneficio marginal ‚ö†Ô∏è

### 2. Comparar con Multimodal

Para obtener el **mejor performance posible**, entrena tambi√©n el modelo multimodal:

- Notebook: `training_multimodal_complete.ipynb`
- Esperado: +1-3% sobre concatenaci√≥n
- Raz√≥n: Preserva informaci√≥n num√©rica de la edad

### 3. An√°lisis de Resultados

Revisa los archivos generados:

- `test_metrics.json`: M√©tricas completas
- `classification_report.txt`: Reporte por clase
- `error_analysis.csv`: Casos donde el modelo fall√≥

## üí° Ventajas y Limitaciones

### ‚úÖ Ventajas de este Enfoque:

- **Simplicidad**: C√≥digo m√°s simple y directo
- **R√°pido**: Menos tiempo de desarrollo
- **Compatible**: Usa AutoModelForSequenceClassification est√°ndar

### ‚ö†Ô∏è Limitaciones:

- **P√©rdida de precisi√≥n num√©rica**: La edad "35" es solo texto, no n√∫mero
- **Tokens extra**: Gasta tokens en etiquetas y formato
- **Menos flexible**: No puedes ajustar importancia de features

## üîÑ Workflow Completo

```
1. Solo Texto (baseline)
   ‚Üì
2. Concatenaci√≥n (este notebook)  ‚Üê EST√ÅS AQU√ç
   ‚Üì
3. Multimodal (mejor performance)
   ‚Üì
4. Comparar y elegir el mejor
```

---

**¬°Modelo con concatenaci√≥n listo! üöÄ**

Para mejor performance, prueba el notebook multimodal.
