In [1]:
# ==============================================================================
# CELDA 1: Markdown de Introducción
# ==============================================================================
# ## ETAPA 2: Generación de Pseudo-Etiquetas
#
# Este notebook carga los modelos "Teacher" entrenados en la etapa anterior y los 
# utiliza para realizar inferencia sobre el conjunto de datos no etiquetado (`SIN_CLASIFICAR`).
#
# Las predicciones que superen un umbral de confianza (`THRESHOLD`) se guardarán 
# como "pseudo-etiquetas" en una nueva estructura de carpetas (`PSEUDO`), 
# que servirá para aumentar el dataset de entrenamiento del "Student".

In [2]:
# ==============================================================================
# CELDA 2: Importaciones
# ==============================================================================
# --- Importaciones ---
import torch
import pandas as pd
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms
from PIL import Image
from pathlib import Path
import shutil

# --- Importar desde nuestros módulos locales ---
import config
import models
import utils

In [3]:
# ==============================================================================
# CELDA 3: Clases de Dataset y Lógica de Inferencia
# ==============================================================================
# ### Clases de Dataset y Lógica de Inferencia

class UnlabeledDataset(Dataset):
    def __init__(self, root: Path, transform=None):
        self.paths = sorted(list(root.glob("**/*.png")))
        self.transform = transform

    def __len__(self):
        return len(self.paths)

    def __getitem__(self, i):
        img = Image.open(self.paths[i]).convert("L")
        if self.transform:
            x = self.transform(img)
        else:
            x = transforms.ToTensor()(img)
        return x, str(self.paths[i])

def predict_and_save(model_name, params, ckpt_path, unlabeled_loader, class_names, threshold=0.8):
    device = torch.device(config.DEVICE)
    num_classes = len(class_names)
    idx2cls = {i: name for i, name in enumerate(class_names)}

    # Construir el modelo y cargar los pesos del checkpoint
    model = models.make_model(model_name, num_classes, params.get('RESNET_USE_PRETRAIN', True)).to(device)
    model.load_state_dict(torch.load(ckpt_path, map_location=device))
    model.eval()

    all_rows = []
    with torch.no_grad():
        for xb, paths in unlabeled_loader:
            # Reutilizar la función de utils para el redimensionamiento
            # Asumiendo que utils.py tiene la función maybe_resize_for_resnet
            # Si no, puedes definirla aquí también.
            should_resize = params.get('RESNET_RESIZE_TO_224', False)
            if 'maybe_resize_for_resnet' in dir(utils):
                 xb = utils.maybe_resize_for_resnet(xb, should_resize)
            elif should_resize:
                 xb = torch.nn.functional.interpolate(xb, size=(224, 224), mode="bilinear", align_corners=False)

            xb = xb.to(device)
            logits = model(xb)
            probs = torch.softmax(logits, dim=1)
            conf, pred = probs.max(dim=1)

            for pth, yhat, c in zip(paths, pred.cpu().numpy(), conf.cpu().numpy()):
                cls_name = idx2cls[int(yhat)]
                passed = float(c) >= threshold
                all_rows.append({
                    "img_path": pth,
                    "pred_class": cls_name,
                    "confidence": float(c),
                    "pass_threshold": bool(passed)
                })
                
                if passed:
                    dest_dir = config.PSEUDO_DIR / model_name / cls_name
                    dest_dir.mkdir(parents=True, exist_ok=True)
                    shutil.copy(pth, dest_dir / Path(pth).name)
    
    df = pd.DataFrame(all_rows)
    csv_path = config.RESULTS_DIR / f"pseudolabels_{model_name}.csv"
    df.to_csv(csv_path, index=False)
    print(f"Resultados de pseudo-etiquetado guardados en {csv_path}")
    
    # Imprimir resumen
    accepted_count = df['pass_threshold'].sum()
    print(f"Total de pseudo-etiquetas generadas por '{model_name}': {accepted_count}")
    if accepted_count > 0:
        print("Distribución por clase:")
        print(df[df['pass_threshold']]['pred_class'].value_counts())
    return df

In [4]:
# ==============================================================================
# CELDA 4: Bucle Principal de Inferencia
# ==============================================================================
# ### Bucle Principal de Inferencia

# --- Preparar Dataloader para datos no etiquetados ---
pred_tfms = transforms.Compose([
    transforms.Resize((config.IMG_H, config.IMG_W)),
    transforms.ToTensor(),
    # La normalización debe ser consistente con el entrenamiento si se usó
    # Si no, a veces es mejor no normalizar para la inferencia simple.
    # transforms.Normalize(mean=[0.5], std=[0.5]), 
])

unlabeled_ds = UnlabeledDataset(config.UNLABELED_DIR, transform=pred_tfms)
unlabeled_loader = DataLoader(unlabeled_ds, batch_size=64, shuffle=False, num_workers=0)

print(f"Encontradas {len(unlabeled_ds)} imágenes en '{config.UNLABELED_DIR.name}'")

class_names = sorted([p.name for p in config.TRAIN_VAL_DIR.iterdir() if p.is_dir()])

# --- Bucle de inferencia para cada Teacher ---
for model_key, params in config.TRAIN_PARAMS.items():
    print(f"\n{'='*20} GENERANDO PSEUDO-ETIQUETAS CON: {model_key} {'='*20}")
    
    ckpt_path = config.CHECKPOINTS_DIR / f"{params['MODEL_NAME']}_best_{config.CARRIER}.pth"
    if not ckpt_path.exists():
        print(f"[ERROR] No se encontró el checkpoint: {ckpt_path}. Saltando este modelo.")
        continue
        
    # Limpiar directorio de pseudo-etiquetas anterior para este modelo
    pseudo_model_dir = config.PSEUDO_DIR / model_key
    if pseudo_model_dir.exists():
        print(f"Limpiando directorio anterior: {pseudo_model_dir}")
        shutil.rmtree(pseudo_model_dir)
    
    predict_and_save(
        model_name=params['MODEL_NAME'],
        params=params,
        ckpt_path=ckpt_path,
        unlabeled_loader=unlabeled_loader,
        class_names=class_names,
        threshold=0.50 # Puedes mover esto a config.py si quieres
    )

Encontradas 643 imágenes en 'SIN_CLASIFICAR'

[ERROR] No se encontró el checkpoint: D:\PYTHON\30_CLASIFICADOR_DE_INTERFERENCIAS\CHECKPOINTS\cnn_paper_best_Carrier_C3_2975.pth. Saltando este modelo.

[ERROR] No se encontró el checkpoint: D:\PYTHON\30_CLASIFICADOR_DE_INTERFERENCIAS\CHECKPOINTS\cnn_paper_L2_best_Carrier_C3_2975.pth. Saltando este modelo.



  model.load_state_dict(torch.load(ckpt_path, map_location=device))


Resultados de pseudo-etiquetado guardados en D:\PYTHON\30_CLASIFICADOR_DE_INTERFERENCIAS\RESULTADOS\Carrier_C3_2975\pseudolabels_resnet50.csv
Total de pseudo-etiquetas generadas por 'resnet50': 619
Distribución por clase:
pred_class
PIM_OTRO       303
TINA           184
ARM_DELGADO     81
WIFI            40
MW              11
Name: count, dtype: int64
