In [9]:
import os
import sys
from tqdm import tqdm

BASE_INPUT_DIR = None
original_biome_names = []

try:
    dataset_root_walk = next(os.walk('/kaggle/input')) 
    if not dataset_root_walk[1] and dataset_root_walk[0] == '/kaggle/input':
         dataset_root_walk = next(os.walk(dataset_root_walk[0]))

    dataset_root_dir = dataset_root_walk[0]
    preprocessed_data_path = os.path.join(dataset_root_dir, 'preprocessed_data')
    
    if os.path.isdir(preprocessed_data_path):
        BASE_INPUT_DIR = preprocessed_data_path
        original_biome_names = next(os.walk(BASE_INPUT_DIR))[1]
        print(f"Directorio base de entrada detectado: {BASE_INPUT_DIR}")
        print(f"Se encontraron {len(original_biome_names)} directorios 'biome_X'.")
    else:
        print("Advertencia: No se encontró 'preprocessed_data'. Buscando biomas en el directorio raíz del dataset.")
        BASE_INPUT_DIR = dataset_root_dir
        original_biome_names = dataset_root_walk[1]
        if not any(name.startswith('biome_') for name in original_biome_names):
            raise FileNotFoundError("No se encontró 'preprocessed_data' ni directorios 'biome_X' en la raíz.")
            
except (StopIteration, FileNotFoundError) as e:
    print(f"Error: No se encontró una estructura de directorios válida. {e}")
    print("Asegúrate de que el dataset (con 'preprocessed_data') esté agregado a este notebook.")

BASE_OUTPUT_DIR = '/kaggle/working/dataset_agrupado'
os.makedirs(BASE_OUTPUT_DIR, exist_ok=True)
print(f"El dataset agrupado se guardará en: {BASE_OUTPUT_DIR}")


BIOME_MAP_BY_ID = {
    "Taiga": ["biome_5", "biome_19", "biome_32", "biome_33", "biome_133"],
    "Taiga Nevada": ["biome_30", "biome_31", "biome_158"],
    "Savana": ["biome_35", "biome_36"],
    "Jungla": ["biome_21", "biome_22"],
    "Bosque de Roble Oscuro": ["biome_29", "biome_157"],
    "Desierto": ["biome_2", "biome_17", "biome_130"],
    "Badlands": ["biome_37", "biome_38", "biome_39"],
    "Bosque de Abeto": ["biome_27", "biome_28", "biome_156"],
    "Pantano": ["biome_6"],
    "Bosque de Roble": ["biome_4", "biome_132"],
    "Planicies": ["biome_1", "biome_129"],
    "Bosque Mixto": ["biome_18", "biome_34"],
    "Tundra Nevada": ["biome_12"],
    "Montañas": ["biome_3", "biome_131", "biome_162"],
    "Montaña Nevada": ["biome_13"],
    "Playa": ["biome_16", "biome_26"],
    "Ríos": ["biome_7", "biome_11"]
}

BIOMAS_EXCLUIDOS_BY_ID = ["biome_10", "biome_45"]

total_images_processed = 0
new_category_counts = {category: 0 for category in BIOME_MAP_BY_ID.keys()}
original_biomes_mapped = set()

for new_category, original_biome_id_list in tqdm(BIOME_MAP_BY_ID.items(), desc="Agrupando categorías"): 
    new_category_dir = os.path.join(BASE_OUTPUT_DIR, new_category)
    os.makedirs(new_category_dir, exist_ok=True)
    
    for old_biome_dir_name in original_biome_id_list:
        original_biome_path = os.path.join(BASE_INPUT_DIR, old_biome_dir_name)
        original_biomes_mapped.add(old_biome_dir_name)
        
        if not os.path.isdir(original_biome_path):
            print(f"  -> Advertencia: No se encontró el directorio para '{old_biome_dir_name}'. Omitiendo.")
            continue
            
        try:
            images = os.listdir(original_biome_path)
            for image_name in images:
                source_path = os.path.join(original_biome_path, image_name)
                dest_name = f"{old_biome_dir_name}_{image_name}"
                dest_path = os.path.join(new_category_dir, dest_name)
                
                try:
                    os.symlink(source_path, dest_path)
                    total_images_processed += 1
                    new_category_counts[new_category] += 1
                except FileExistsError:
                    pass 
                except Exception as e:
                    print(f"Error al crear enlace para {source_path}: {e}")

        except Exception as e:
            print(f"  -> Error procesando '{original_biome_path}': {e}")

print("\n--- Proceso de agrupación completado ---")
print(f"Total de imágenes enlazadas: {total_images_processed}")

target_counts = {
    "Taiga": 2346, "Taiga Nevada": 420, "Savana": 1164, "Jungla": 444,
    "Bosque de Roble Oscuro": 870, "Desierto": 2088, "Badlands": 210,
    "Bosque de Abeto": 1122, "Pantano": 665, "Bosque de Roble": 2850,
    "Planicies": 3186, "Bosque Mixto": 1320, "Tundra Nevada": 1254,
    "Montañas": 2652, "Montaña Nevada": 474, "Playa": 540, "Ríos": 444
}
print("\n--- Verificación de Conteo de Imágenes ---")
for category, count in new_category_counts.items():
    target = target_counts.get(category, 0)
    discrepancy = ""
    if count != target:
        discrepancy = f" (Esperado: {target} - ¡Revisar!)"
    print(f"- {category}: {count} imágenes {discrepancy}")

all_original_biomes_in_map = original_biomes_mapped | set(BIOMAS_EXCLUIDOS_BY_ID)
unmapped_biomes = [b for b in original_biome_names if b not in all_original_biomes_in_map]
        
if unmapped_biomes:
    print(f"\n¡ADVERTENCIA! Los siguientes directorios no fueron mapeados ni excluidos:")
    for b in unmapped_biomes: print(f"  - {b}")
else:
    print("\nTodos los directorios de biomas originales fueron mapeados o excluidos correctamente.")

Directorio base de entrada detectado: /kaggle/input/preprocessed_data
Se encontraron 41 directorios 'biome_X'.
El dataset agrupado se guardará en: /kaggle/working/dataset_agrupado


Agrupando categorías: 100%|██████████| 17/17 [00:00<00:00, 88.86it/s]


--- Proceso de agrupación completado ---
Total de imágenes enlazadas: 0

--- Verificación de Conteo de Imágenes ---
- Taiga: 0 imágenes  (Esperado: 2346 - ¡Revisar!)
- Taiga Nevada: 0 imágenes  (Esperado: 420 - ¡Revisar!)
- Savana: 0 imágenes  (Esperado: 1164 - ¡Revisar!)
- Jungla: 0 imágenes  (Esperado: 444 - ¡Revisar!)
- Bosque de Roble Oscuro: 0 imágenes  (Esperado: 870 - ¡Revisar!)
- Desierto: 0 imágenes  (Esperado: 2088 - ¡Revisar!)
- Badlands: 0 imágenes  (Esperado: 210 - ¡Revisar!)
- Bosque de Abeto: 0 imágenes  (Esperado: 1122 - ¡Revisar!)
- Pantano: 0 imágenes  (Esperado: 665 - ¡Revisar!)
- Bosque de Roble: 0 imágenes  (Esperado: 2850 - ¡Revisar!)
- Planicies: 0 imágenes  (Esperado: 3186 - ¡Revisar!)
- Bosque Mixto: 0 imágenes  (Esperado: 1320 - ¡Revisar!)
- Tundra Nevada: 0 imágenes  (Esperado: 1254 - ¡Revisar!)
- Montañas: 0 imágenes  (Esperado: 2652 - ¡Revisar!)
- Montaña Nevada: 0 imágenes  (Esperado: 474 - ¡Revisar!)
- Playa: 0 imágenes  (Esperado: 540 - ¡Revisar!)
- Río




In [10]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models, optimizers
import matplotlib.pyplot as plt
import numpy as np
import sklearn.metrics as metrics
import seaborn as sns
import os
import sys

IMG_HEIGHT = 180
IMG_WIDTH = 320
BATCH_SIZE = 32
VALIDATION_SPLIT = 0.2
SEED = 123

DATA_DIR = '/kaggle/working/dataset_agrupado'

if not os.path.exists(DATA_DIR) or not os.listdir(DATA_DIR):
    print(f"Error: El directorio '{DATA_DIR}' está vacío o no existe.")
    print("Por favor, ejecuta la Celda 1 (agrupación de dataset) primero.")
else:
    CLASS_NAMES = sorted(os.listdir(DATA_DIR))
    NUM_CLASSES = len(CLASS_NAMES)
    print(f"Configuración lista.")
    print(f"Clases detectadas ({NUM_CLASSES}): {CLASS_NAMES}")

Configuración lista.
Clases detectadas (17): ['Badlands', 'Bosque Mixto', 'Bosque de Abeto', 'Bosque de Roble', 'Bosque de Roble Oscuro', 'Desierto', 'Jungla', 'Montaña Nevada', 'Montañas', 'Pantano', 'Planicies', 'Playa', 'Ríos', 'Savana', 'Taiga', 'Taiga Nevada', 'Tundra Nevada']


In [11]:
target_counts = {
    "Taiga": 2346, "Taiga Nevada": 420, "Savana": 1164, "Jungla": 444,
    "Bosque de Roble Oscuro": 870, "Desierto": 2088, "Badlands": 210,
    "Bosque de Abeto": 1122, "Pantano": 665, "Bosque de Roble": 2850,
    "Planicies": 3186, "Bosque Mixto": 1320, "Tundra Nevada": 1254,
    "Montañas": 2652, "Montaña Nevada": 474, "Playa": 540, "Ríos": 444
}

MINORITY_THRESHOLD = 1000
print(f"Umbral para aumento de datos: {MINORITY_THRESHOLD} imágenes.")

print("Cargando dataset de entrenamiento...")
train_ds = tf.keras.utils.image_dataset_from_directory(
    DATA_DIR,
    validation_split=VALIDATION_SPLIT,
    subset="training",
    seed=SEED,
    image_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE
)

print("Cargando dataset de validación...")
val_ds = tf.keras.utils.image_dataset_from_directory(
    DATA_DIR,
    validation_split=VALIDATION_SPLIT,
    subset="validation",
    seed=SEED,
    image_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=BATCH_SIZE
)

class_names_loaded = train_ds.class_names
minority_class_indices = []

print("Identificando clases minoritarias para aumento:")
for i, class_name in enumerate(class_names_loaded):
    count = target_counts.get(class_name, 0)
    if count < MINORITY_THRESHOLD and count > 0:
        minority_class_indices.append(i)
        print(f"  -> SÍ: {class_name} (índice {i}) con {count} imágenes.")
    else:
        print(f"  -> NO: {class_name} (índice {i}) con {count} imágenes.")

MINORITY_INDICES_TENSOR = tf.constant(minority_class_indices, dtype=tf.int32)

data_augmentation = keras.Sequential(
    [
        layers.RandomFlip("horizontal"),
        layers.RandomRotation(0.1),
        layers.RandomZoom(0.1),
        layers.RandomContrast(0.1),
    ],
    name="data_augmentation",
)

# --- INICIO DE LA SECCIÓN CORREGIDA ---

@tf.function
def augment_if_minority(x, y):
    # x es un lote de imágenes [32, H, W, C]
    # y es un lote de etiquetas [32]
    
    # 1. Generar la versión aumentada del lote completo
    x_augmented = data_augmentation(x, training=True)
    
    # 2. Crear la máscara de condición
    
    # Convertir etiquetas a int32
    y_cast = tf.cast(y, tf.int32)
    
    # Reformatear 'y' para broadcasting: [32] -> [32, 1]
    y_reshaped = tf.reshape(y_cast, [-1, 1])
    
    # Reformatear 'minority_indices' para broadcasting: [8] -> [1, 8]
    minority_reshaped = tf.reshape(MINORITY_INDICES_TENSOR, [1, -1])
    
    # Comparar [32, 1] con [1, 8]. Resultado: Matriz [32, 8] de True/False
    comparison_matrix = tf.equal(y_reshaped, minority_reshaped)
    
    # Comprobar si *alguna* comparación fue True para cada imagen
    # Resultado: Vector [32] (ej. [True, False, True...])
    is_minority_vec = tf.reduce_any(comparison_matrix, axis=1)
    
    # 3. Reformatear la máscara para que coincida con las imágenes
    # [32] -> [32, 1, 1, 1]
    # Esto le dice a tf.where que use la imagen completa
    condition = tf.reshape(is_minority_vec, [-1, 1, 1, 1])
    
    # 4. Usar tf.where
    # Si condition[i] es True, toma de x_augmented[i]
    # Si condition[i] es False, toma de x[i] (la original)
    x_final = tf.where(condition, x_augmented, x)
    
    return x_final, y

# --- FIN DE LA SECCIÓN CORREGIDA ---


print("\nAplicando aumento condicional SOLO a las clases minoritarias...")

train_ds = train_ds.map(
    augment_if_minority,
    num_parallel_calls=tf.data.AUTOTUNE
)

train_ds = train_ds.cache().prefetch(buffer_size=tf.data.AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=tf.data.AUTOTUNE)

print("\nDatasets de entrenamiento (condicional) y validación listos.")

Umbral para aumento de datos: 1000 imágenes.
Cargando dataset de entrenamiento...
Found 22049 files belonging to 17 classes.
Using 17640 files for training.
Cargando dataset de validación...
Found 22049 files belonging to 17 classes.
Using 4409 files for validation.
Identificando clases minoritarias para aumento:
  -> SÍ: Badlands (índice 0) con 210 imágenes.
  -> NO: Bosque Mixto (índice 1) con 1320 imágenes.
  -> NO: Bosque de Abeto (índice 2) con 1122 imágenes.
  -> NO: Bosque de Roble (índice 3) con 2850 imágenes.
  -> SÍ: Bosque de Roble Oscuro (índice 4) con 870 imágenes.
  -> NO: Desierto (índice 5) con 2088 imágenes.
  -> SÍ: Jungla (índice 6) con 444 imágenes.
  -> SÍ: Montaña Nevada (índice 7) con 474 imágenes.
  -> NO: Montañas (índice 8) con 2652 imágenes.
  -> SÍ: Pantano (índice 9) con 665 imágenes.
  -> NO: Planicies (índice 10) con 3186 imágenes.
  -> SÍ: Playa (índice 11) con 540 imágenes.
  -> SÍ: Ríos (índice 12) con 444 imágenes.
  -> NO: Savana (índice 13) con 1164

In [12]:
def build_model(num_classes):
    model = models.Sequential(name="Minecraft_Biome_Classifier")
    
    model.add(layers.Input(shape=(IMG_HEIGHT, IMG_WIDTH, 3)))
    model.add(layers.Rescaling(1./255))

    model.add(layers.Conv2D(32, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2)))
    model.add(layers.Conv2D(64, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2)))
    model.add(layers.Conv2D(128, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2)))
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2)))

    model.add(layers.Flatten())

    model.add(layers.Dense(512, activation='relu'))
    model.add(layers.Dropout(0.5))
    model.add(layers.Dense(256, activation='relu'))
    model.add(layers.Dropout(0.3))

    model.add(layers.Dense(num_classes, activation='softmax'))
    
    return model

print("Función 'build_model' definida.")

Función 'build_model' definida.


In [13]:
def train_model_interactive(model, train_ds, val_ds, existing_history=None):
    try:
        epochs = int(input("Ingrese el número de épocas (ej. 10): ") or 10)
        lr = float(input("Ingrese la tasa de aprendizaje (ej. 0.001): ") or 0.001)
    except ValueError:
        print("Error: Entrada no válida.")
        return model, existing_history

    model.compile(
        optimizer=optimizers.Adam(learning_rate=lr),
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy']
    )
    
    print(f"\nEntrenando por {epochs} épocas con LR={lr}...")
    
    history = model.fit(
        train_ds,
        epochs=epochs,
        validation_data=val_ds,
        verbose=1
    )
    
    print("Entrenamiento finalizado.")
    
    if existing_history:
        for key in history.history:
            if key in existing_history.history:
                existing_history.history[key].extend(history.history[key])
            else:
                existing_history.history[key] = history.history[key]
        plot_loss_history(existing_history)
        return model, existing_history
    else:
        plot_loss_history(history)
        return model, history

def plot_loss_history(history):
    acc = history.history.get('accuracy', [])
    val_acc = history.history.get('val_accuracy', [])
    loss = history.history.get('loss', [])
    val_loss = history.history.get('val_loss', [])
    
    if not acc or not val_acc or not loss or not val_loss:
        print("No hay suficiente historial para graficar.")
        return

    epochs_range = range(len(acc))
    plt.figure(figsize=(12, 5))

    plt.subplot(1, 2, 1)
    plt.plot(epochs_range, acc, label='Precisión de Entrenamiento')
    plt.plot(epochs_range, val_acc, label='Precisión de Validación')
    plt.legend(loc='lower right')
    plt.title('Precisión de Entrenamiento y Validación')

    plt.subplot(1, 2, 2)
    plt.plot(epochs_range, loss, label='Pérdida de Entrenamiento')
    plt.plot(epochs_range, val_loss, label='Pérdida de Validación')
    plt.legend(loc='upper right')
    plt.title('Pérdida de Entrenamiento y Validación')
    plt.show()

def test_model_interactive(model, val_ds, class_names_list):
    print("Evaluando modelo contra el conjunto de validación...")
    
    loss, accuracy = model.evaluate(val_ds, verbose=0)
    print("\n" + "="*60)
    print("          RESULTADOS DE LA EVALUACIÓN")
    print("="*60)
    print(f"Pérdida (Loss): {loss:.4f}")
    print(f"Precisión (Accuracy): {accuracy * 100:.2f}%")
    
    if accuracy > 0.90:
        print("¡Éxito! Se alcanzó el objetivo de >90% de precisión.")
    else:
        print(f"Objetivo de >90% no alcanzado.")
    print("="*60)

    print("\nGenerando predicciones para el reporte detallado...")
    y_pred = []
    y_true = []
    for images, labels in val_ds:
        y_true.extend(labels.numpy())
        preds = model.predict(images, verbose=0)
        y_pred.extend(np.argmax(preds, axis=1))
        
    print("\n--- Reporte de Clasificación (Precisión, Recall, F1) ---")
    print(metrics.classification_report(y_true, y_pred, target_names=class_names_list, zero_division=0))

    print("Generando Matriz de Confusión...")
    cm = metrics.confusion_matrix(y_true, y_pred)
    plt.figure(figsize=(14, 12))
    sns.heatmap(
        cm, 
        annot=True, 
        fmt='d', 
        cmap='Blues', 
        xticklabels=class_names_list, 
        yticklabels=class_names_list
    )
    plt.title('Matriz de Confusión')
    plt.ylabel('Bioma Real (True Label)')
    plt.xlabel('Bioma Predicho (Predicted Label)')
    plt.xticks(rotation=45, ha='right')
    plt.yticks(rotation=0)
    plt.show()

def save_model_interactive(model):
    print("El modelo se guardará en '/kaggle/working/'")
    filename = input("Nombre del archivo (ej: mi_modelo.keras): ")
    
    if not filename:
        print("Guardado cancelado.")
        return
        
    save_path = os.path.join("/kaggle/working/", filename)
    
    try:
        model.save(save_path)
        print(f"Modelo guardado exitosamente en {save_path}")
    except Exception as e:
        print(f"Error al guardar el modelo: {e}")

def load_model_interactive():
    print("Buscando modelos en '/kaggle/working/' y '/kaggle/input/...")
    filename = input("Ruta completa del archivo a cargar (ej: /kaggle/working/mi_modelo.keras): ")

    if not filename:
        print("Carga cancelada.")
        return None

    if not os.path.exists(filename):
        print(f"Error: El archivo '{filename}' no existe.")
        return None
        
    try:
        model = models.load_model(filename)
        print(f"Modelo cargado exitosamente desde {filename}")
        model.summary()
        return model
    except Exception as e:
        print(f"Error al cargar el modelo: {e}")
        return None

print("Funciones interactivas definidas.")

Funciones interactivas definidas.


In [None]:
model = None
history = None

if 'train_ds' not in locals() or 'val_ds' not in locals() or 'CLASS_NAMES' not in locals():
    print("Error: Los datasets (train_ds, val_ds) no están cargados.")
    print("Por favor, asegúrate de ejecutar las Celdas 2 y 3 primero.")
else:
    print("Datasets (train_ds, val_ds) y función 'build_model' listos.")
    
    while True:
        print("\n-------------------------------------------")
        print("  Panel de Control - Clasificador de Biomas")
        print("-------------------------------------------")
        
        if model is None:
            print("Estado: No hay modelo cargado en memoria.")
        else:
            print(f"Estado: Modelo '{model.name}' cargado.")
            
        print("\n--- Opciones Principales ---")
        print("1. Crear un nuevo modelo (borra el actual)")
        print("2. Cargar un modelo desde archivo")
        print("3. Entrenar el modelo actual")
        print("4. Evaluar (Probar) el modelo actual")
        print("5. Guardar el modelo actual")
        print("6. Salir")
        
        main_choice = input("Seleccione una opción: ")
        
        if main_choice == '1':
            print("\nCreando nueva arquitectura de modelo...")
            model = build_model(NUM_CLASSES)
            history = None
            print("¡Nuevo modelo creado y listo para entrenar!")
            model.summary()

        elif main_choice == '2':
            loaded_model = load_model_interactive()
            if loaded_model is not None:
                model = loaded_model
                history = None
                print("Modelo reemplazado por el archivo cargado.")

        elif main_choice == '3':
            if model is None:
                print("Error: No hay modelo en memoria. Cree (Opción 1) o cargue (Opción 2) un modelo.")
            else:
                model, history = train_model_interactive(model, train_ds, val_ds, history)

        elif main_choice == '4':
            if model is None:
                print("Error: No hay modelo en memoria. Cree (Opción 1) o cargue (Opción 2) un modelo.")
            else:
                test_model_interactive(model, val_ds, CLASS_NAMES)
                
        elif main_choice == '5':
            if model is None:
                print("Error: No hay modelo en memoria para guardar.")
            else:
                save_model_interactive(model)
                
        elif main_choice == '6':
            print("Saliendo del panel de control...")
            break
            
        else:
            print("Opción no válida. Por favor, intente de nuevo.")

print("Bucle del menú finalizado.")

Datasets (train_ds, val_ds) y función 'build_model' listos.

-------------------------------------------
  Panel de Control - Clasificador de Biomas
-------------------------------------------
Estado: No hay modelo cargado en memoria.

--- Opciones Principales ---
1. Crear un nuevo modelo (borra el actual)
2. Cargar un modelo desde archivo
3. Entrenar el modelo actual
4. Evaluar (Probar) el modelo actual
5. Guardar el modelo actual
6. Salir


Seleccione una opción:  1



Creando nueva arquitectura de modelo...
¡Nuevo modelo creado y listo para entrenar!



-------------------------------------------
  Panel de Control - Clasificador de Biomas
-------------------------------------------
Estado: Modelo 'Minecraft_Biome_Classifier' cargado.

--- Opciones Principales ---
1. Crear un nuevo modelo (borra el actual)
2. Cargar un modelo desde archivo
3. Entrenar el modelo actual
4. Evaluar (Probar) el modelo actual
5. Guardar el modelo actual
6. Salir


Seleccione una opción:  3
Ingrese el número de épocas (ej. 10):  10
Ingrese la tasa de aprendizaje (ej. 0.001):  0.001



Entrenando por 10 épocas con LR=0.001...
Epoch 1/10
[1m375/552[0m [32m━━━━━━━━━━━━━[0m[37m━━━━━━━[0m [1m9:06[0m 3s/step - accuracy: 0.3737 - loss: 1.9975