<a href="https://colab.research.google.com/github/EJQP2002/C1-Nocturno-S1-Tarea-1/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# =======================================================
# CELDA 1 (VERSIÓN FINAL, AHORA SÍ): MONTAJE Y DESCOMPRESIÓN
# =======================================================
from google.colab import drive
import os
import zipfile

# 1. Montar Google Drive
print("🔌 Conectando a Google Drive...")
drive.mount('/content/drive', force_remount=True)
print("✅ Google Drive conectado.")

# --- Rutas que DEBES verificar ---
# Ruta al archivo ZIP en TU Google Drive.
zip_path_in_drive = '/content/drive/MyDrive/Dermatological_AI_Model_Training.zip'

# Directorio de destino para la extracción en Colab
extract_destination = '/content/'

# La ruta base donde estará TODO después de descomprimir.
# Como el ZIP crea una carpeta, la ruta base es esta.
base_data_path = os.path.join(extract_destination, 'Dermatological_AI_Model_Training')

# --- Lógica de descompresión y verificación ---
# 4. Descomprimir el archivo (SOLO si no se ha hecho antes)
if not os.path.exists(base_data_path):
    if not os.path.exists(zip_path_in_drive):
        print(f"❌ ERROR: ¡El archivo ZIP no se encuentra en la ruta especificada de Drive!")
        print(f"   Ruta buscada: {zip_path_in_drive}")
    else:
        print(f"\n📁 El directorio '{base_data_path}' no existe. Descomprimiendo el archivo ZIP...")
        print(f"   Desde: {zip_path_in_drive} -> Hacia: {extract_destination}")
        with zipfile.ZipFile(zip_path_in_drive, 'r') as zip_ref:
            zip_ref.extractall(extract_destination)
        print("✅ Descompresión completada.")
else:
    print(f"\n👍 El directorio de datos '{base_data_path}' ya existe. Saltando la descompresión.")

# 5. Verificación final de las rutas AHORA SÍ CORRECTAS
dataset_check_path = os.path.join(base_data_path, 'dataset_dermatology')
csv_check_path = os.path.join(base_data_path, 'metadata_dermatology.csv')

print("\n🧐 Verificando rutas finales:")
if os.path.exists(dataset_check_path) and os.path.exists(csv_check_path):
    print("   ✅ ¡Éxito! Las rutas al dataset y al archivo CSV son correctas.")
    print(f"   El script de entrenamiento usará la ruta base: {base_data_path}")
else:
    print("   ❌ ¡ERROR! No se encontraron las subcarpetas/archivos esperados.")
    print(f"      Ruta buscada para dataset: {dataset_check_path} (Existe: {os.path.exists(dataset_check_path)})")
    print(f"      Ruta buscada para CSV: {csv_check_path} (Existe: {os.path.exists(csv_check_path)})")

🔌 Conectando a Google Drive...
Mounted at /content/drive
✅ Google Drive conectado.

📁 El directorio '/content/Dermatological_AI_Model_Training' no existe. Descomprimiendo el archivo ZIP...
   Desde: /content/drive/MyDrive/Dermatological_AI_Model_Training.zip -> Hacia: /content/
✅ Descompresión completada.

🧐 Verificando rutas finales:
   ✅ ¡Éxito! Las rutas al dataset y al archivo CSV son correctas.
   El script de entrenamiento usará la ruta base: /content/Dermatological_AI_Model_Training


In [None]:
# =======================================================
# CELDA 2: SCRIPT DE ENTRENAMIENTO COMPLETO
# =======================================================

# --- Importaciones ---
import os
import cv2
import numpy as np
import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from tensorflow.keras.applications import MobileNetV2
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping, ReduceLROnPlateau
from tensorflow.keras.layers import Dense, GlobalAveragePooling2D, Dropout
from tensorflow.keras.models import Model, load_model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.utils import Sequence
from tqdm import tqdm
from tqdm.keras import TqdmCallback

# --- ============================== ---
# --- GENERADOR PERSONALIZADO
# --- ============================== ---

class BalancedDataGenerator(Sequence):
    """Generador que carga imágenes y aplica oversampling al vuelo."""
    def __init__(self, df, label_cols, image_dir, batch_size=32, target_size=(224, 224), augmentor=None, is_validation=False):
        self.df = df.copy().reset_index(drop=True)
        self.label_cols = label_cols
        self.image_dir = image_dir
        self.batch_size = batch_size
        self.target_size = target_size
        self.augmentor = augmentor
        self.is_validation = is_validation

        self.indices = self.df.index.tolist()

        if not self.is_validation:
            self.resample_indices()
        else:
            self.resampled_indices = self.indices

    def __len__(self):
        """Devuelve el número de lotes por época."""
        return int(np.floor(len(self.resampled_indices) / self.batch_size))

    def __getitem__(self, index):
        """Genera un lote de datos."""
        start_index = index * self.batch_size
        end_index = (index + 1) * self.batch_size
        batch_indices = self.resampled_indices[start_index:end_index]

        batch_df = self.df.iloc[batch_indices]

        X = np.empty((self.batch_size, *self.target_size, 3), dtype=np.float32)
        for i, row in enumerate(batch_df.itertuples()):
            img_path = os.path.join(self.image_dir, row.image_with_ext)
            img = cv2.imread(img_path)
            if img is not None:
                img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
                img = cv2.resize(img, self.target_size)

                # --- [CORRECCIÓN] ---
                # Aplicamos la aumentación imagen por imagen, si corresponde
                if self.augmentor:
                    img = self.augmentor.random_transform(img)

                # La normalización se hace después de la aumentación
                X[i,] = img / 255.0
            else:
                # Si una imagen no se puede cargar, ponemos un array de ceros
                X[i,] = np.zeros((*self.target_size, 3))


        y = batch_df[self.label_cols].values

        return X, y

    def on_epoch_end(self):
        """Se ejecuta al final de cada época. Re-aplica el oversampling."""
        if not self.is_validation:
            self.resample_indices()

    def resample_indices(self):
        """Aplica RandomOverSampler a los índices de los datos."""
        y_labels = np.argmax(self.df[self.label_cols].values, axis=1)
        ros = RandomOverSampler(random_state=42)
        self.resampled_indices, _ = ros.fit_resample(np.array(self.indices).reshape(-1, 1), y_labels)
        self.resampled_indices = self.resampled_indices.flatten().tolist()
        np.random.shuffle(self.resampled_indices)


# --- CONFIGURACIÓN Y CONSTANTES PARA COLAB ---
# Las rutas apuntan a los datos descomprimidos en /content/
BASE_DIR = "/content/Dermatological_AI_Model_Training"
DATASET_PATH = os.path.join(BASE_DIR, "dataset_dermatology")
CSV_PATH = os.path.join(BASE_DIR, "metadata_dermatology.csv")

# La ruta para guardar modelos apunta a TU Google Drive para que no se pierda
MODEL_SAVE_DIR = "/content/drive/MyDrive/Dermatological_AI_Model_Output"

# Parámetros del modelo
IMG_SIZE = (224, 224)
BATCH_SIZE = 128 # Aumentamos el batch size para aprovechar la GPU
VALIDATION_SPLIT = 0.2
EPOCHS_TRANSFER_LEARNING = 10
EPOCHS_FINE_TUNING = 20
FINE_TUNE_AT_BLOCK = 'block_13_expand'
CHECKPOINT_TRANSFER_PATH = os.path.join(MODEL_SAVE_DIR, "mobilenetv2_transfer_learning_best.keras")
CHECKPOINT_FINETUNE_PATH = os.path.join(MODEL_SAVE_DIR, "mobilenetv2_fine_tuning_best.keras")

# --- 1. VERIFICACIÓN DEL ENTORNO ---
print("🔬 Verificando entorno de TensorFlow...")
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    print(f"✅ GPU disponible y configurada: {gpus[0]}")
else:
    print("⚠️ ¡ATENCIÓN! No se detectó GPU. Asegúrate de haberla activado en 'Entorno de ejecución'.")
os.makedirs(MODEL_SAVE_DIR, exist_ok=True)


# --- 2. CARGA Y PREPROCESAMIENTO DE DATOS ---
print(f"\n📖 Leyendo metadatos desde: {CSV_PATH}")
df = pd.read_csv(CSV_PATH)
all_image_files_set = set(os.listdir(DATASET_PATH))
image_mapping = {}
print("\n🔍 Verificando que todas las imágenes del CSV existan en el disco...")
for image_name in tqdm(df['image'], desc="Verificando imágenes"):
    for ext in ['.jpg', '.jpeg', '.png']:
        if f"{image_name}{ext}" in all_image_files_set:
            image_mapping[image_name] = f"{image_name}{ext}"
            break
df_filtered = df[df['image'].isin(image_mapping.keys())].copy()
df_filtered['image_with_ext'] = df_filtered['image'].map(image_mapping)
label_columns = df_filtered.drop(columns=['image', 'image_with_ext']).columns.tolist()
num_classes = len(label_columns)
print(f"  - Se usarán {num_classes} clases para la clasificación.")


# --- 3. CREACIÓN DE GENERADORES DE DATOS ---
print("\n🔄 Creando generadores de datos con estrategia de oversampling...")
train_df, val_df = train_test_split(df_filtered, test_size=VALIDATION_SPLIT, random_state=42)

# Crear un 'augmentor' para la aumentación de datos en tiempo real
augmentor = tf.keras.preprocessing.image.ImageDataGenerator(
    rotation_range=20, width_shift_range=0.1, height_shift_range=0.1,
    shear_range=0.1, zoom_range=0.1, horizontal_flip=True, fill_mode='nearest')

train_generator = BalancedDataGenerator(
    df=train_df, label_cols=label_columns, image_dir=DATASET_PATH,
    batch_size=BATCH_SIZE, target_size=IMG_SIZE, augmentor=augmentor, is_validation=False)

val_generator = BalancedDataGenerator(
    df=val_df, label_cols=label_columns, image_dir=DATASET_PATH,
    batch_size=BATCH_SIZE, target_size=IMG_SIZE, augmentor=None, is_validation=True)

print(f"  - Generador de entrenamiento: {len(train_generator)} lotes balanceados.")
print(f"  - Generador de validación: {len(val_generator)} lotes ({len(val_df)} imágenes).")


# --- 4. CONSTRUCCIÓN / CARGA INTELIGENTE DEL MODELO ---
initial_epoch = 0
if os.path.exists(CHECKPOINT_FINETUNE_PATH):
  print(f"\n🔄 REANUDANDO ENTRENAMIENTO: Se encontró checkpoint de Fine-Tuning.")
  model = load_model(CHECKPOINT_FINETUNE_PATH)
  initial_epoch = EPOCHS_TRANSFER_LEARNING
elif os.path.exists(CHECKPOINT_TRANSFER_PATH):
  print(f"\n🔄 REANUDANDO ENTRENAMIENTO: Se encontró checkpoint de Transfer Learning.")
  model = load_model(CHECKPOINT_TRANSFER_PATH)
  initial_epoch = EPOCHS_TRANSFER_LEARNING
else:
  print("\n🆕 No se encontraron checkpoints. Construyendo un nuevo modelo desde cero.")
  base_model = MobileNetV2(weights='imagenet', include_top=False, input_shape=(*IMG_SIZE, 3))
  base_model.trainable = False
  x = base_model.output
  x = GlobalAveragePooling2D()(x)
  x = Dense(512, activation='relu')(x)
  x = Dropout(0.5)(x)
  x = Dense(256, activation='relu')(x)
  x = Dropout(0.3)(x)
  output = Dense(num_classes, activation='sigmoid', name='output_layer')(x)
  model = Model(inputs=base_model.input, outputs=output)
  model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['binary_accuracy'])


# --- 5. FASE 1: ENTRENAMIENTO DE TRANSFERENCIA ---
if initial_epoch == 0:
  print("\n📊 Resumen del modelo (BASE CONGELADA):")
  model.summary()
  print("\n🚀 FASE 1: Iniciando entrenamiento de Transferencia (solo el cabezal)...")
  checkpoint_transfer = ModelCheckpoint(
      filepath=CHECKPOINT_TRANSFER_PATH, monitor="val_binary_accuracy",
      save_best_only=True, verbose=1, mode='max')

  # Usaremos verbose=1 aquí, ya que el log de Colab es interactivo
  history_transfer = model.fit(
      train_generator, validation_data=val_generator, epochs=EPOCHS_TRANSFER_LEARNING,
      callbacks=[checkpoint_transfer])

  print("\n✅ FASE 1 completada.")
  initial_epoch = history_transfer.epoch[-1] + 1
  print(f"Cargando el mejor modelo de la Fase 1 desde {CHECKPOINT_TRANSFER_PATH}...")
  model.load_weights(CHECKPOINT_TRANSFER_PATH)


# --- 6. FASE 2: PREPARACIÓN Y ENTRENAMIENTO DE FINE-TUNING ---
print("\n🔧 FASE 2: Preparando el modelo para Fine-Tuning...")
model.trainable = True

# Forma robusta de encontrar el modelo base
base_model_found = None
for layer in model.layers:
    if "mobilenet" in layer.name:
        base_model_found = layer
        break
if not base_model_found:
    base_model_found = model.layers[1]

if base_model_found:
  fine_tune_at_layer_index = -1
  for i, layer in enumerate(base_model_found.layers):
      if layer.name == FINE_TUNE_AT_BLOCK:
          fine_tune_at_layer_index = i
          break
  if fine_tune_at_layer_index != -1:
      print(f"Descongelando desde la capa '{FINE_TUNE_AT_BLOCK}'...")
      for layer in base_model_found.layers[:fine_tune_at_layer_index]:
          layer.trainable = False
  else:
      print(f"⚠️ Advertencia: Capa '{FINE_TUNE_AT_BLOCK}' no encontrada. Se descongelará todo.")
else:
    print("⚠️ No se pudo encontrar el modelo base para el fine-tuning.")

model.compile(optimizer=Adam(learning_rate=1e-5), loss='binary_crossentropy', metrics=['binary_accuracy'])
print("\n📊 Resumen del modelo (FINE-TUNING ACTIVADO):")
model.summary()

print("\n🚀 FASE 2: Iniciando o reanudando entrenamiento de Fine-Tuning...")
total_epochs = EPOCHS_TRANSFER_LEARNING + EPOCHS_FINE_TUNING

checkpoint_fine_tune = ModelCheckpoint(filepath=CHECKPOINT_FINETUNE_PATH, monitor="val_binary_accuracy", save_best_only=True, verbose=1, mode='max')
early_stopping = EarlyStopping(monitor='val_loss', patience=5, verbose=1, restore_best_weights=True)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=3, verbose=1)

model.fit(
  train_generator, validation_data=val_generator, epochs=total_epochs, initial_epoch=initial_epoch,
  callbacks=[checkpoint_fine_tune, early_stopping, reduce_lr])


# --- 7. FIN DEL PROCESO ---
print(f"\n✅ Proceso finalizado. El mejor modelo de fine-tuning se encuentra en: {CHECKPOINT_FINETUNE_PATH}")
print("\n🎉 ¡Entrenamiento completo (Transfer Learning + Fine-Tuning) finalizado exitosamente!")

🔬 Verificando entorno de TensorFlow...
✅ GPU disponible y configurada: PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')

📖 Leyendo metadatos desde: /content/Dermatological_AI_Model_Training/metadata_dermatology.csv

🔍 Verificando que todas las imágenes del CSV existan en el disco...


Verificando imágenes: 100%|██████████| 122047/122047 [00:00<00:00, 1063750.40it/s]


  - Se usarán 25 clases para la clasificación.

🔄 Creando generadores de datos con estrategia de oversampling...
  - Generador de entrenamiento: 1931 lotes balanceados.
  - Generador de validación: 190 lotes (24410 imágenes).

🆕 No se encontraron checkpoints. Construyendo un nuevo modelo desde cero.
Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/mobilenet_v2/mobilenet_v2_weights_tf_dim_ordering_tf_kernels_1.0_224_no_top.h5
[1m9406464/9406464[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 0us/step

📊 Resumen del modelo (BASE CONGELADA):



🚀 FASE 1: Iniciando entrenamiento de Transferencia (solo el cabezal)...


  self._warn_if_super_not_called()


Epoch 1/10
[1m1931/1931[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2s/step - binary_accuracy: 0.9644 - loss: 0.1115

  self._warn_if_super_not_called()



Epoch 1: val_binary_accuracy improved from -inf to 0.97876, saving model to /content/drive/MyDrive/Dermatological_AI_Model_Output/mobilenetv2_transfer_learning_best.keras
[1m1931/1931[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4304s[0m 2s/step - binary_accuracy: 0.9644 - loss: 0.1115 - val_binary_accuracy: 0.9788 - val_loss: 0.0568
Epoch 2/10
[1m 968/1931[0m [32m━━━━━━━━━━[0m[37m━━━━━━━━━━[0m [1m34:09[0m 2s/step - binary_accuracy: 0.9768 - loss: 0.0642