![image-2.png](attachment:image-2.png)

_M√°ster Universitario en Inteligencia Artificial_

_Trabajo Fin de M√°ster_

- Gustavo Mateos Santos
- gustavo.mateos830@comunidadunir.net

# Clasificaci√≥n autom√°tica de estrellas variables con modelos Transformer aplicados a series temporales



In [None]:
# Install missing packages
%pip install torch lightkurve
%pip install -q pyarrow

In [3]:
import torch, lightkurve as lk

print("Torch:", torch.__version__)
print("Lightkurve:", lk.__version__)

Torch: 2.2.2
Lightkurve: 2.5.0


## **Fase 2: Dise√±o e Implementaci√≥n del Modelo Transformer**



## **NUEVO CICLO DE ENTRENAMIENTO+FINE-TUNING DESPUES DE REDUCIR A 7 CLASES (MEJOR MODELO HASTA AHORA) Y REFORZAR DATASET CON ERRORES DE CLASIFICACION (YSO)**

√öltimo ciclo de pruebas: despu√©s de llegar al mejor modelo en `astro_transformer_fase2_sagemaker.ipynb`, se analizaron los errores de clasificaci√≥n del modelo y se vio que la clase YSO, aun siendo ahora la mayoritaria en el dataset, generaba muchos falsos positivos (clase predicha YSO pero otra clase real) y tambi√©n un buen n√∫mero de falsos negativos (otras clases que el modelo confund√≠a y predec√≠a como YSO). 

En el notebook `16_preprocesado_YSO_review.ipynb` se generaron los datasets con IDs de objeto, as√≠ como CSVs de errores de clasificaci√≥n, tambi√©n con IDs de objeto. Cruzando todo ello se concluy√≥:

- üîç Total de FALSOS NEGATIVOS (YSO reales pero no predichas): **430**
- üîç Total de FALSOS POSITIVOS (YSO predichas pero no reales): **858**
- üîç Total de curvas a eliminar: 1288

Motivo_descarte
YSO predicha incorrectamente (FP)    858
YSO mal clasificada (FN)             430

üìä **Curvas confusas**. Desglose por clase original (impacto en dataset):

| Clase                | N¬∫ curvas |
| -------------------- | --------- |
| Young Stellar Object | 430     |
| Eclipsing Binary     | 238     |
| Cataclysmic          | 195     |
| Rotational           | 170     |
| Delta Scuti          | 101     |
| RR Lyrae             | 97     |
| Irregular            | 57     |

‚úÖ Guardado en: ../data/train/curvas_a_eliminar_por_confusion_yso.csv

La idea es hacer un nuevo preprocesado + training + fine tuning, en el que los datasets se van a generar nuevos pero filtrando las clases de manera que se eliminen las curvas identificadas como dudosas o confusas: 

- üìÇ [INFO] IDs a excluir por filtrado: 1288
- üìÇ [INFO] Exclusiones por clase: {'Cataclysmic': 195, 'Delta Scuti': 97, 'Eclipsing Binary': 238, 'Irregular': 57, 'RR Lyrae': 101, 'Rotational': 170, 'Young Stellar Object': 430}

#### 1. **PREPROCESADO**

In [1]:
import warnings
import numpy as np
import sys
from pathlib import Path

# A√±adir la ra√≠z del proyecto al path
ROOT_DIR = Path.cwd().parent  # <- sube un nivel para alcanzar la ra√≠z del proyecto
if str(ROOT_DIR) not in sys.path:
    sys.path.insert(0, str(ROOT_DIR))

# Ignorar solo los RuntimeWarning de numpy (como overflows en reduce)
warnings.filterwarnings("ignore", category=RuntimeWarning, module="numpy")

from src.fase2.script_1_transformer_preprocessing_optimizado_2 import main as preprocessing_optimized_YSO_cleaning

# Balanceo de clases 
max_per_class_override={
    "Irregular": 9000,
    "Rotational": 9000,
    "Eclipsing Binary": 9000,
    "Delta Scuti": None,            # 7.550 ‚Üí TODAS
    "RR Lyrae": 9000,               # 41.208 ‚Üí RECORTAMOS A 9.000
    "Young Stellar Object": None,   # 9.809 ‚Üí TODAS 
    "Cataclysmic": None,            # 2.080 ‚Üí TODAS
    "White Dwarf": 0,               # 0 ‚Üí LA ELIMINAMOS
    "Variable": 0                   # 0 ‚Üí LA ELIMINAMOS
}

# El script se ha adaptado para filtrar curvas malas directamente con el parametro `filtrar_curvas_malas`
preprocessing_optimized_YSO_cleaning(
    seq_length=25000,
    max_per_class=None, # usamos override completo
    max_per_class_override=max_per_class_override,
    parquet_batch_size=10_000_000,
    dataloader_batch_size=128,
    num_workers=20,
    filtrar_curvas_malas="../data/train/curvas_a_eliminar_por_confusion_yso.csv"
    #errores_csv_path=Path("../outputs/errores_mal_clasificados.csv")
)

üìÇ Cargando datos en lotes con PyArrow...
üìÇ [INFO] IDs a excluir por filtrado: 1288
üìÇ [INFO] Exclusiones por clase: {'Cataclysmic': 195, 'Delta Scuti': 97, 'Eclipsing Binary': 238, 'Irregular': 57, 'RR Lyrae': 101, 'Rotational': 170, 'Young Stellar Object': 430}
üíæ [INFO] Cargando agrupaci√≥n de curvas desde cache: /home/ec2-user/SageMaker/astro_transformer/src/fase2/../../data/train/grouped_data.pkl
‚úÖ [INFO] Agrupaci√≥n cargada desde cache. Total objetos: 54947
‚è≥ [INFO] Tiempo en agrupaci√≥n de datos: 248.9 segundos
üöÄ Procesando 54947 curvas en paralelo usando 20 CPUs...
‚è≥ [INFO] Tiempo en procesamiento paralelo: 82.1 segundos
üîã [INFO] Curvas v√°lidas tras filtrado: 54854
üîé Ejemplos aleatorios despu√©s del filtrado final:
ID: ASASSN-V J031510.38+545659.0, Clase: Rotational
ID: ASASSN-V J051539.55-611420.1, Clase: Cataclysmic
ID: ASASSN-V J025201.04-233827.4, Clase: Irregular
ID: ASASSN-V J153259.00-332342.9, Clase: RR Lyrae
ID: ASASSN-V J073526.05-305037.0, Cl

(<torch.utils.data.dataloader.DataLoader at 0x7f526eab2b90>,
 <torch.utils.data.dataloader.DataLoader at 0x7f526eab3f10>)


#### Nueva distribuci√≥n de clases tras preprocesado:


| Cod. | Clase                | N¬∫ curvas |
| ---- | -------------------- | --------- |
| 0    | Cataclysmic          | **2.027**     |
| 1    | Delta Scuti          | **7.279**     |
| 2    | Eclipsing Binary     | **9.000**     |
| 3    | Irregular            | **9.000**     |
| 4    | RR Lyrae             | **9.000**     |
| 5    | Rotational           | **9.000**     |
| 6    | Young Stellar Object | **9.548**    |
|      | TOTAL                | **54.854** |

In [1]:
import pandas as pd
import pickle
import torch
import torch.nn as nn
import torch.serialization
from torch.utils.data import DataLoader
import sys
import gc
import os
import argparse
import warnings
from pathlib import Path

# A√±adir la ra√≠z del proyecto al path
ROOT_DIR = Path.cwd().parent  # <- sube un nivel para alcanzar la ra√≠z del proyecto
if str(ROOT_DIR) not in sys.path:
    sys.path.insert(0, str(ROOT_DIR))

# Ignorar solo los RuntimeWarning de numpy (como overflows en reduce)
warnings.filterwarnings("ignore", category=RuntimeWarning, module="numpy")

from src.fase2.script_2_transformer_fine_tuning_optimizado import AstroConformerClassifier as AstroConformerClassifier, evaluate

# Detectar dispositivo
device = "cuda" if torch.cuda.is_available() else "cpu"

# acciones para resolver los problemas de memoria
# 1. Liberar memoria
gc.collect()
torch.cuda.empty_cache()

# 2. Optimizar fragmentacion
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

torch.backends.cudnn.benchmark = True

def detectar_todos_los_errores(preds, true, ids, label_encoder):
    """
    Retorna un DataFrame con todos los errores de clasificaci√≥n con clase real y predicha bien decodificadas.
    """
    df_labels = pd.DataFrame({
        "id_objeto": ids,
        "true_label": true,
        "pred_label": preds
    })

    # Decodificar nombres
    label_decoder = {v: k for k, v in label_encoder.items()}
    df_labels["clase_real"] = df_labels["true_label"].map(label_decoder)
    df_labels["clase_predicha"] = df_labels["pred_label"].map(label_decoder)

    # Filtrar errores
    df_errores = df_labels[df_labels["clase_real"] != df_labels["clase_predicha"]][
        ["id_objeto", "clase_real", "clase_predicha"]
    ].reset_index(drop=True)

    return df_errores

def detectar_yso_confundidas(preds, true, ids, label_encoder):
    """
    Retorna un DataFrame con los objetos cuya clase fue predicha como YSO pero no lo eran.
    """
    df_labels = pd.DataFrame({
        "id_objeto": ids,
        "true_label": true,
        "pred_label": preds
    })

    label_decoder = {v: k for k, v in label_encoder.items()}
    df_labels["clase_real"] = df_labels["true_label"].map(label_decoder)
    df_labels["clase_predicha"] = df_labels["pred_label"].map(label_decoder)

    df_yso_mal = df_labels[
        (df_labels["clase_predicha"] == "Young Stellar Object") &
        (df_labels["clase_real"] != "Young Stellar Object")
    ][["id_objeto", "clase_real", "clase_predicha"]].reset_index(drop=True)

    return df_yso_mal


# Cargar dataset y label encoder
from src.fase2.script_1_transformer_preprocessing_optimizado_2 import LightCurveDataset
#torch.serialization.add_safe_globals([LightCurveDataset])

val_dataset = torch.load("../data/train/val_dataset.pt", weights_only=False)

# Verificacion rapida
# Cargar un sample cualquiera
sample = val_dataset[0]
# Ver cu√°ntos elementos contiene
print("N¬∫ de elementos devueltos por __getitem__:", len(sample))
# Inspeccionar los elementos
for i, item in enumerate(sample):
    print(f"Elemento {i}: {type(item)}, shape o valor: {getattr(item, 'shape', item)}")

with open("../data/train/label_encoder.pkl", "rb") as f:
    label_encoder = pickle.load(f)
num_classes = len(label_encoder)
class_names = list(label_encoder.keys())

# Dataloader con batch peque√±o
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False, num_workers=6, pin_memory=True, persistent_workers=True)

# Crear el modelo con la arquitectura esperada
args = argparse.Namespace(
    input_dim=1,
    in_channels=1,
    encoder_dim=256,
    hidden_dim=384,
    output_dim=num_classes,
    num_heads=8,
    num_layers=8,
    dropout=0.4, dropout_p=0.4,
    stride=32,
    kernel_size=3,
    norm="postnorm",
    encoder=["mhsa_pro", "conv", "conv"],
    timeshift=False,
    device=device
)
model = AstroConformerClassifier(args, num_classes=len(label_encoder), feature_dim=7)

# Cargar los pesos entrenados
state_dict = torch.load("../outputs/mejor_modelo_finetuned_optimizado2_features_segunda_vuelta.pt", map_location="cpu")
# Elimina el prefijo "_orig_mod." de las claves
new_state_dict = {k.replace("_orig_mod.", ""): v for k, v in state_dict.items()}
model.load_state_dict(new_state_dict)

# Pasar a GPU si est√° disponible
model = model.to(device)
model.eval()  # Muy importante: modo evaluaci√≥n

criterion = nn.CrossEntropyLoss()
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Evaluar con IDs
val_loss, preds, true, ids = evaluate(model, val_loader, criterion, device)

#####################################
# Mostrar el label encoder para asegurar consistencia (opcional si ya lo hiciste)
print("Contenido del label encoder:")
for key, value in label_encoder.items():
    print(f"{key}: {value}")
# Mapear IDs a clases reales desde el CSV original
df_debug = pd.read_csv("../data/train/debug_clases_codificadas.csv")
dict_clases_reales = dict(zip(df_debug["id"].astype(str), df_debug["clase_variable"]))
print("\nüîç Verificaci√≥n manual de los primeros errores:")
for i in range(5):
    pred_label = class_names[preds[i]]
    true_label = class_names[true[i]]
    object_id = str(ids[i])

    real_ref = dict_clases_reales.get(object_id, "NO_ENCONTRADO")

    print(f"ID: {object_id}")
    print(f" - Predicha: {pred_label}")
    print(f" - Real (seg√∫n modelo): {true_label}")
    print(f" - Real (en CSV original): {real_ref}")
    print("---")
#####################################

# Detectar YSO mal clasificadas
df_yso_mal = detectar_yso_confundidas(preds, true, ids, label_encoder)
df_yso_mal.to_csv("../outputs/yso_clase_predicha_error2.csv", index=False)
# Detectar todos los errores
df_todos_errores = detectar_todos_los_errores(preds, true, ids, label_encoder)
df_todos_errores.to_csv("../outputs/todos_los_errores2.csv", index=False)

print(f"YSOs mal clasificadas detectadas: {len(df_yso_mal)}")
print(f"Total de errores detectados: {len(df_todos_errores)}")


Matplotlib is building the font cache; this may take a moment.


N¬∫ de elementos devueltos por __getitem__: 5
Elemento 0: <class 'torch.Tensor'>, shape o valor: torch.Size([25000])
Elemento 1: <class 'torch.Tensor'>, shape o valor: torch.Size([])
Elemento 2: <class 'torch.Tensor'>, shape o valor: torch.Size([25000])
Elemento 3: <class 'torch.Tensor'>, shape o valor: torch.Size([7])
Elemento 4: <class 'str'>, shape o valor: ASASSN-V J024446.27+065612.3
Contenido del label encoder:
Cataclysmic: 0
Delta Scuti: 1
Eclipsing Binary: 2
Irregular: 3
RR Lyrae: 4
Rotational: 5
Young Stellar Object: 6

üîç Verificaci√≥n manual de los primeros errores:
ID: ASASSN-V J024446.27+065612.3
 - Predicha: Young Stellar Object
 - Real (seg√∫n modelo): Young Stellar Object
 - Real (en CSV original): Young Stellar Object
---
ID: ASASSN-V J010244.04+562906.6
 - Predicha: Irregular
 - Real (seg√∫n modelo): Irregular
 - Real (en CSV original): Irregular
---
ID: ASASSN-V J040748.13+452112.9
 - Predicha: Eclipsing Binary
 - Real (seg√∫n modelo): Eclipsing Binary
 - Real (en 

**Verificaciones...**

In [2]:
# Ejemplo para comprobar el contenido de un dataset .pt
import torch
import sys
from pathlib import Path

# A√±adir la ra√≠z del proyecto al path
ROOT_DIR = Path.cwd().parent  # <- sube un nivel para alcanzar la ra√≠z del proyecto
if str(ROOT_DIR) not in sys.path:
    sys.path.insert(0, str(ROOT_DIR))
    
# Cargar el dataset (ajusta la ruta si es necesario)
dataset = torch.load("../data/train/train_dataset.pt", weights_only=False)

# Obtener el primer elemento
sample = dataset[0]

# Mostrar informaci√≥n de cada campo
for i, value in enumerate(sample):
    print(f"Elemento {i}: tipo={type(value)}, valor/shape={getattr(value, 'shape', value)}")

# Ejemplo de salida esperada:
# Elemento 0: tipo=<class 'torch.Tensor'>, valor/shape=torch.Size([25000])
# Elemento 1: tipo=<class 'torch.Tensor'>, valor/shape=tensor(3)
# Elemento 2: tipo=<class 'torch.Tensor'>, valor/shape=torch.Size([25000])
# Elemento 3: tipo=<class 'torch.Tensor'>, valor/shape=torch.Size([7])
# Elemento 4: tipo=<class 'str'>, valor/shape=ASASSN-V J055358.70+014409.5

Elemento 0: tipo=<class 'torch.Tensor'>, valor/shape=torch.Size([25000])
Elemento 1: tipo=<class 'torch.Tensor'>, valor/shape=torch.Size([])
Elemento 2: tipo=<class 'torch.Tensor'>, valor/shape=torch.Size([25000])
Elemento 3: tipo=<class 'torch.Tensor'>, valor/shape=torch.Size([7])
Elemento 4: tipo=<class 'str'>, valor/shape=ASASSN-V J062458.42-352355.1


In [2]:
import pandas as pd

# Cargar ambos archivos
df_errores = pd.read_csv("../outputs/todos_los_errores2.csv")
df_ref = pd.read_csv("../data/train/debug_clases_codificadas.csv")

# Renombrar para evitar conflictos
df_ref = df_ref.rename(columns={"id": "id_objeto", "clase_variable": "clase_real_ref"})

# ‚ö†Ô∏è Filtrar solo errores cuyos IDs a√∫n est√°n en el dataset final
df_errores_filtrados = df_errores[df_errores["id_objeto"].isin(df_ref["id_objeto"])].copy()

# Cruzar por ID
df_merge = pd.merge(df_errores_filtrados, df_ref, on="id_objeto", how="left")

# Verificar discrepancias REALES
df_discrepancias = df_merge[df_merge["clase_real"] != df_merge["clase_real_ref"]]

# Mostrar resumen
print(f"üîé Total errores analizados: {len(df_errores_filtrados)} (de {len(df_errores)} totales)")
print(f"‚ùå Discrepancias reales: {len(df_discrepancias)}")
if not df_discrepancias.empty:
    print(df_discrepancias.head(10))


üîé Total errores analizados: 2298 (de 2298 totales)
‚ùå Discrepancias reales: 0


In [6]:
import torch

# Cargar dataset
val_dataset = torch.load("../data/train/val_dataset.pt", weights_only=False)

# Elegir IDs concretos con discrepancias
ids_problema = [
    "ASASSN-V J024305.65-065501.3",
    "ASASSN-V J031438.40+581303.1",
    "ASASSN-V J093207.60-823329.8",
    "ASASSN-V J114016.78+184126.4",
    "459672",
    "ASASSN-V J002142.23-414002.5",
    "ASASSN-V J112416.67-110645.0",
    "ASASSN-V J032732.09+000351.4",
    "ASASSN-V J030537.58-593637.3",
    "AP43491782",
    "ASASSN-V J031510.38+545659.0",  # Clase: Rotational
    "ASASSN-V J051539.55-611420.1",  # Clase: Cataclysmic
    "ASASSN-V J025201.04-233827.4",  # Clase: Irregular
    "ASASSN-V J153259.00-332342.9",  # Clase: RR Lyrae
    "ASASSN-V J073526.05-305037.0"   # Clase: Delta Scuti
]
# Cargar CSV codificado
df_codificadas = pd.read_csv("../data/train/debug_clases_codificadas.csv")
df_codificadas = df_codificadas.set_index("id")

# Cargar encoder
import pickle
with open("../data/train/label_encoder.pkl", "rb") as f:
    label_encoder = pickle.load(f)
inv_label_encoder = {v: k for k, v in label_encoder.items()}

# Buscar en val_dataset los objetos y verificar su label real
print("üîç Verificaci√≥n directa en dataset:")
for i in range(len(val_dataset)):
    _, label, _, _, id_obj = val_dataset[i]
    if id_obj in ids_problema:
        clase_real_dataset = inv_label_encoder[label.item()]
        clase_codificada_csv = df_codificadas.loc[id_obj, "clase_codificada"]
        clase_nombre_csv = df_codificadas.loc[id_obj, "clase_variable"]
        print(f"üßæ ID: {id_obj}")
        print(f" - Clase val_dataset: {clase_real_dataset}")
        print(f" - Clase CSV codificado: {clase_nombre_csv} ({clase_codificada_csv})")
        print("---")


üîç Verificaci√≥n directa en dataset:
üßæ ID: ASASSN-V J032732.09+000351.4
 - Clase val_dataset: Eclipsing Binary
 - Clase CSV codificado: Eclipsing Binary (2)
---
üßæ ID: AP43491782
 - Clase val_dataset: Rotational
 - Clase CSV codificado: Rotational (5)
---
üßæ ID: ASASSN-V J051539.55-611420.1
 - Clase val_dataset: Cataclysmic
 - Clase CSV codificado: Cataclysmic (0)
---
üßæ ID: ASASSN-V J030537.58-593637.3
 - Clase val_dataset: Delta Scuti
 - Clase CSV codificado: Delta Scuti (1)
---
üßæ ID: ASASSN-V J002142.23-414002.5
 - Clase val_dataset: Delta Scuti
 - Clase CSV codificado: Delta Scuti (1)
---
üßæ ID: ASASSN-V J153259.00-332342.9
 - Clase val_dataset: RR Lyrae
 - Clase CSV codificado: RR Lyrae (4)
---
üßæ ID: ASASSN-V J031510.38+545659.0
 - Clase val_dataset: Rotational
 - Clase CSV codificado: Rotational (5)
---
üßæ ID: ASASSN-V J112416.67-110645.0
 - Clase val_dataset: RR Lyrae
 - Clase CSV codificado: RR Lyrae (4)
---
üßæ ID: ASASSN-V J114016.78+184126.4
 - Clase va

#### 2. **ENTRENAMIENTO**

In [None]:
import sys
import torch
import pickle
from torch.utils.data import DataLoader
from pathlib import Path
import time
import os
import gc

gc.collect()
torch.cuda.empty_cache()
# 2. Optimizar fragmentacion
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

# A√±adir la ra√≠z del proyecto al path
ROOT_DIR = Path.cwd().parent  # <- sube un nivel para alcanzar la ra√≠z del proyecto
if str(ROOT_DIR) not in sys.path:
    sys.path.insert(0, str(ROOT_DIR))
from src.fase2.script_2_transformer_training_optimizado2 import main as train_model_optimized2

# Detectar dispositivo
device = "cuda" if torch.cuda.is_available() else "cpu"

print("üîÑ Restaurando datasets...")
start = time.time()
train_dataset = torch.load("../data/train/train_dataset.pt")
val_dataset = torch.load("../data/train/val_dataset.pt")
print(f"‚úÖ Dataset cargado en {time.time() - start:.2f} segundos")

# Cargar datasets completos
print("üîÑ Cargando datasets completos...")
train_loader = DataLoader(train_dataset, batch_size=192, shuffle=True, num_workers=10, pin_memory=True)
val_loader = DataLoader(val_dataset, batch_size=192, shuffle=False, num_workers=10, pin_memory=True)

print(f"Total batches in train_loader: {len(train_loader)}")
print(f"Total batches in val_loader: {len(val_loader)}")

######################################################################
# Crear un mini-dataloader con batch peque√±o para inspecci√≥n
batch_size = 256
debug_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=False)
for i, (x, y, mask, features, ids) in enumerate(debug_loader):
    if i >= 100:
        break
    # Validaciones de tipo
    if not torch.is_tensor(x) or not torch.is_tensor(mask):
        print(f"‚ùå No tensor en entrada en batch {i}")
    if not torch.is_tensor(y) or not torch.is_tensor(features):
        print(f"‚ùå y o features no son tensores en batch {i}")
    # Validaciones de contenido
    if not torch.isfinite(x).all():
        print(f"‚ö†Ô∏è x contiene NaN o Inf en batch {i}")
    if not torch.isfinite(mask).all():
        print(f"‚ö†Ô∏è mask contiene NaN o Inf en batch {i}")
    if not torch.isfinite(features).all():
        print(f"‚ö†Ô∏è features contiene NaN o Inf en batch {i}:\n{features}")
    # Validaci√≥n de forma
    if features.shape[1] != 7:
        print(f"‚ùå Tama√±o inesperado en features en batch {i}: {features.shape}")
    if x.shape != mask.shape:
        print(f"‚ùå Tama√±os incompatibles en batch {i}: x {x.shape}, mask {mask.shape}")
    # Validaci√≥n de etiquetas
    for j, label in enumerate(y):
        if not isinstance(label.item(), int):
            print(f"‚ùå Etiqueta no entera en batch {i}, elemento {j}: {label}")
        if label.item() < 0 or label.item() >= 9:
            print(f"‚ùå Etiqueta fuera de rango en batch {i}, elemento {j}: {label.item()}")
print("‚úÖ Comprobaci√≥n completada")
######################################################################

# Calcular n√∫mero de clases
label_encoder = pickle.load(open("../data/train/label_encoder.pkl", "rb"))
num_classes = len(label_encoder)
print(f"TOTAL CLASES: {num_classes}")

# Ejecutar entrenamiento optimizado: 
# Ponderaci√≥n por clase con class_weight
# dropout=0.3
# Scheduler ReduceLROnPlateau
# Early stopping
# Curvas de p√©rdida y accuracy
print("üöÄ Entrenando modelo optimizado...")
model = train_model_optimized2(
    train_loader=train_loader,
    val_loader=val_loader,
    label_encoder=label_encoder,
    device=device,
    epochs=50,
    lr=3e-5,
    freeze_encoder=True,  # transfer learning cl√°sico
    patience=6,           # early stopping
    debug=False           # True para depuraci√≥n
)

#### 3. **FINE TUNING 1/2**

In [None]:
import torch
from torch.utils.data import DataLoader
import pickle
import os
import torch, gc
import sys
from pathlib import Path
import numpy as np

# A√±adir la ra√≠z del proyecto al path
ROOT_DIR = Path.cwd().parent  # <- sube un nivel para alcanzar la ra√≠z del proyecto
if str(ROOT_DIR) not in sys.path:
    sys.path.insert(0, str(ROOT_DIR))
from src.fase2.script_2_transformer_fine_tuning_optimizado import main as fine_tuned_optimized_model

# Detectar dispositivo
device = "cuda" if torch.cuda.is_available() else "cpu"

# acciones para resolver los problemas de memoria
# 1. Liberar memoria
gc.collect()
torch.cuda.empty_cache()

# 2. Optimizar fragmentacion
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

torch.backends.cudnn.benchmark = True

print("üîÑ Restaurando datasets...")
train_dataset = torch.load("../data/train/train_dataset.pt")
val_dataset = torch.load("../data/train/val_dataset.pt")

# Cargar datasets completos
print("üîÑ Cargando datasets completos...")
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True, num_workers=12, pin_memory=True)
val_loader = DataLoader(val_dataset, batch_size=64, shuffle=False, num_workers=12, pin_memory=True)

print(f"Total batches in train_loader: {len(train_loader)}")
print(f"Total batches in val_loader: {len(val_loader)}")

label_encoder = pickle.load(open("../data/train/label_encoder.pkl", "rb"))
num_classes = len(label_encoder)
print(f"NUM CLASES: {num_classes}")

# Fine-tuning optimizado
# Carga desde mejor_modelo_optimizado.pt
# Doble learning rate (encoder / head)
# Descongelado tras las primeras n epocas (freeze_epochs=n) o desde el principio (con freeze_encoder=False)
# label_smoothing=0.1 para mejorar la generalizaci√≥n (lo hemos quitado en esta prueba)
# Optimizaci√≥n por AdamW con weight_decay.
print("üöÄ Fine-tuning sobre mejor modelo optimizado...")
model = fine_tuned_optimized_model(
    train_loader=train_loader,
    val_loader=val_loader,
    label_encoder=label_encoder,
    device=device,
    epochs=40,
    patience=5,
    # freeze_encoder=False,
    freeze_epochs=2,
    encoder_lr=3e-6,
    head_lr=1e-4,  # Para acelerar la adaptaci√≥n de la capa final
    gamma=3
)

#### 4. **FINE TUNING 2/2**

In [None]:
import torch
from torch.utils.data import DataLoader
import pickle
import os
import torch, gc
import sys
from pathlib import Path
import numpy as np

# A√±adir la ra√≠z del proyecto al path
ROOT_DIR = Path.cwd().parent  # <- sube un nivel para alcanzar la ra√≠z del proyecto
if str(ROOT_DIR) not in sys.path:
    sys.path.insert(0, str(ROOT_DIR))
from src.fase2.script_2_transformer_fine_tuning_optimizado import main as fine_tuned_optimized_model

# Detectar dispositivo
device = "cuda" if torch.cuda.is_available() else "cpu"

# acciones para resolver los problemas de memoria
# 1. Liberar memoria
gc.collect()
torch.cuda.empty_cache()

# 2. Optimizar fragmentacion
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

torch.backends.cudnn.benchmark = True

print("üîÑ Restaurando datasets...")
train_dataset = torch.load("../data/train/train_dataset.pt")
val_dataset = torch.load("../data/train/val_dataset.pt")

# Cargar datasets completos
print("üîÑ Cargando datasets completos...")
train_loader = DataLoader(train_dataset, batch_size=48, shuffle=True, num_workers=12, pin_memory=True,persistent_workers=True)
val_loader = DataLoader(val_dataset, batch_size=48, shuffle=False, num_workers=12, pin_memory=True,persistent_workers=True)

print(f"Total batches in train_loader: {len(train_loader)}")
print(f"Total batches in val_loader: {len(val_loader)}")

label_encoder = pickle.load(open("../data/train/label_encoder.pkl", "rb"))
num_classes = len(label_encoder)
print(f"NUM CLASES: {num_classes}")

# Fine-tuning adicional
# Carga desde mejor_modelo_optimizado.pt
# Doble learning rate (encoder / head)
# Descongelado tras las primeras n epocas (freeze_epochs=n) o desde el principio (con freeze_encoder=False)
# Usar scheduler ReduceLROnPlateau
# Optimizaci√≥n por AdamW con weight_decay.
print("üöÄ Fine-tuning sobre mejor modelo optimizado...")
model = fine_tuned_optimized_model(
    train_loader=train_loader,
    val_loader=val_loader,
    model_name="mejor_modelo_finetuned_optimizado2.pt",
    label_encoder=label_encoder,
    device=device,
    epochs=15,
    patience=5,
    freeze_encoder=False,
    #freeze_epochs=2,
    encoder_lr=2e-6,
    head_lr=5e-6,
    gamma=3,
    use_scheduler=True,  # Usar scheduler ReduceLROnPlateau
)