# Evaluaci√≥n Comparativa de Arquitecturas Convolucionales

## Objetivos:
- Dise√±ar e implementar 2 arquitecturas CNN propias
- Implementar Transfer Learning con arquitectura cl√°sica
- Aplicar data augmentation y regularizaci√≥n
- Comparar experimentalmente y reportar conclusiones

---

## Fundamentos Te√≥ricos

### ¬øPor qu√© CNNs y no MLPs para im√°genes?

**Problemas de MLPs:**
1. **Explosi√≥n de par√°metros**: Una imagen 32√ó32√ó3 requiere 3,072 conexiones por neurona
2. **P√©rdida de informaci√≥n espacial**: Trata cada p√≠xel independientemente
3. **Falta de invarianza**: No reconoce patrones desplazados
4. **Sobreajuste masivo**: Demasiados par√°metros para entrenar

**Ventajas de CNNs:**
1. **Conectividad escasa**: Cada neurona conecta solo a regi√≥n local
2. **Compartici√≥n de par√°metros**: Mismo filtro en toda la imagen
3. **Jerarqu√≠a de caracter√≠sticas**: Bordes ‚Üí Texturas ‚Üí Formas ‚Üí Objetos

### Principios Arquitect√≥nicos Aplicados

**Patr√≥n de dise√±o**: Progressive Feature Extraction
- Capas tempranas: Caracter√≠sticas de bajo nivel (bordes, texturas)
- Capas medias: Patrones complejos (formas, partes de objetos)
- Capas finales: Representaciones abstractas (objetos completos)

**Trade-offs considerados:**
- Profundidad vs Eficiencia computacional
- Capacidad de generalizaci√≥n vs Precisi√≥n en entrenamiento
- Tama√±o del modelo vs Tiempo de inferencia

---

In [None]:
# ============================================================================
# CONFIGURACI√ìN INICIAL Y IMPORTS
# ============================================================================

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report, confusion_matrix
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models, regularizers
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.applications import VGG16, ResNet50, MobileNetV2
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau, ModelCheckpoint
import warnings
warnings.filterwarnings('ignore')

# Configurar seeds para reproducibilidad
# Principio: Reproducibilidad es fundamental para validaci√≥n cient√≠fica
SEED = 42
np.random.seed(SEED)
tf.random.set_seed(SEED)

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print(f"TensorFlow version: {tf.__version__}")
print(f"GPU disponible: {tf.config.list_physical_devices('GPU')}")

## Paso 1: Carga y Preparaci√≥n de Datos

### Decisi√≥n arquitect√≥nica: CIFAR-10
- **Justificaci√≥n**: 10 clases balanceadas, im√°genes 32√ó32√ó3
- **Trade-off**: Menor complejidad que CIFAR-100, pero suficiente para demostrar conceptos
- **Alternativa descartada**: CIFAR-100 (mayor complejidad innecesaria para primera comparaci√≥n)

In [None]:
# ============================================================================
# CARGA Y EXPLORACI√ìN DE DATOS
# ============================================================================

# Cargar CIFAR-10
(X_train, y_train), (X_test, y_test) = keras.datasets.cifar10.load_data()

# Nombres de clases para interpretabilidad
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 
               'dog', 'frog', 'horse', 'ship', 'truck']

print("="*70)
print("INFORMACI√ìN DEL DATASET")
print("="*70)
print(f"Forma de X_train: {X_train.shape}")
print(f"Forma de y_train: {y_train.shape}")
print(f"Forma de X_test: {X_test.shape}")
print(f"Forma de y_test: {y_test.shape}")
print(f"Tipo de datos: {X_train.dtype}")
print(f"Rango de valores: [{X_train.min()}, {X_train.max()}]")
print(f"N√∫mero de clases: {len(class_names)}")
print("="*70)

# Visualizar muestras del dataset
def plot_samples(X, y, class_names, n_samples=10):
    """
    Visualiza muestras aleatorias del dataset.
    
    Args:
        X: Im√°genes
        y: Etiquetas
        class_names: Nombres de las clases
        n_samples: N√∫mero de muestras a mostrar
    """
    plt.figure(figsize=(15, 3))
    indices = np.random.choice(len(X), n_samples, replace=False)
    
    for i, idx in enumerate(indices):
        plt.subplot(2, 5, i+1)
        plt.imshow(X[idx])
        plt.title(f"{class_names[y[idx][0]]}")
        plt.axis('off')
    
    plt.tight_layout()
    plt.show()

print("\nMuestras del conjunto de entrenamiento:")
plot_samples(X_train, y_train, class_names)

# An√°lisis de distribuci√≥n de clases
unique, counts = np.unique(y_train, return_counts=True)
plt.figure(figsize=(10, 5))
plt.bar([class_names[i] for i in unique], counts)
plt.xlabel('Clase')
plt.ylabel('Cantidad')
plt.title('Distribuci√≥n de Clases en Conjunto de Entrenamiento')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

print(f"\n‚úì Dataset balanceado: Todas las clases tienen {counts[0]} im√°genes")

### Preprocesamiento y Normalizaci√≥n

**Decisi√≥n**: Normalizaci√≥n a rango [0, 1]
- **Justificaci√≥n**: Acelera convergencia y estabiliza gradientes
- **Alternativa**: Estandarizaci√≥n z-score (descartada por simplicidad)

In [None]:
# ============================================================================
# PREPROCESAMIENTO DE DATOS
# ============================================================================

# Normalizaci√≥n: Escalar p√≠xeles a rango [0, 1]
# Principio: Los gradientes fluyen mejor con valores normalizados
X_train_normalized = X_train.astype('float32') / 255.0
X_test_normalized = X_test.astype('float32') / 255.0

# Convertir etiquetas a formato categ√≥rico (one-hot encoding)
# Necesario para categorical_crossentropy
y_train_cat = keras.utils.to_categorical(y_train, 10)
y_test_cat = keras.utils.to_categorical(y_test, 10)

# Crear conjunto de validaci√≥n (20% del entrenamiento)
# Principio: Validaci√≥n independiente para detectar sobreajuste temprano
from sklearn.model_selection import train_test_split

X_train_final, X_val, y_train_final, y_val = train_test_split(
    X_train_normalized, y_train_cat, 
    test_size=0.2, 
    random_state=SEED,
    stratify=y_train  # Mantener distribuci√≥n de clases
)

print("="*70)
print("CONJUNTOS DE DATOS FINALES")
print("="*70)
print(f"Entrenamiento: {X_train_final.shape[0]} im√°genes")
print(f"Validaci√≥n: {X_val.shape[0]} im√°genes")
print(f"Prueba: {X_test_normalized.shape[0]} im√°genes")
print("="*70)

## Paso 2: Data Augmentation

### Patr√≥n de dise√±o: Regularizaci√≥n por Transformaci√≥n

**Justificaci√≥n:**
- Aumenta variabilidad del dataset sin recolectar m√°s datos
- Reduce sobreajuste al hacer el modelo invariante a transformaciones
- Simula condiciones del mundo real (rotaciones, desplazamientos, etc.)

**Trade-offs:**
- ‚úÖ Mejor generalizaci√≥n
- ‚ùå Mayor tiempo de entrenamiento
- Decisi√≥n: Vale la pena para datasets peque√±os como CIFAR

In [None]:
# ============================================================================
# DATA AUGMENTATION
# ============================================================================

# Configuraci√≥n de transformaciones
# Principio: Transformaciones realistas que preservan significado sem√°ntico
train_datagen = ImageDataGenerator(
    rotation_range=15,          # Rotaci√≥n aleatoria ¬±15¬∞
    width_shift_range=0.1,      # Desplazamiento horizontal 10%
    height_shift_range=0.1,     # Desplazamiento vertical 10%
    horizontal_flip=True,       # Flip horizontal (natural para estos objetos)
    zoom_range=0.1,             # Zoom in/out 10%
    fill_mode='nearest'         # Rellenar p√≠xeles vac√≠os
)

# No aplicar augmentation en validaci√≥n/prueba
# Principio: Evaluar en datos sin alterar
val_datagen = ImageDataGenerator()

# Visualizar efectos del data augmentation
def visualize_augmentation(datagen, image, n_samples=5):
    """
    Muestra ejemplos de im√°genes aumentadas.
    
    Args:
        datagen: Generador de data augmentation
        image: Imagen original
        n_samples: N√∫mero de ejemplos a generar
    """
    plt.figure(figsize=(15, 3))
    
    # Imagen original
    plt.subplot(1, n_samples+1, 1)
    plt.imshow(image)
    plt.title('Original')
    plt.axis('off')
    
    # Im√°genes aumentadas
    image_batch = image.reshape((1,) + image.shape)
    aug_iter = datagen.flow(image_batch, batch_size=1)
    
    for i in range(n_samples):
        batch = next(aug_iter)
        aug_image = batch[0]
        plt.subplot(1, n_samples+1, i+2)
        plt.imshow(aug_image)
        plt.title(f'Augmented {i+1}')
        plt.axis('off')
    
    plt.tight_layout()
    plt.show()

print("Ejemplos de Data Augmentation:")
sample_image = X_train_final[0]
visualize_augmentation(train_datagen, sample_image)

---

# DEFINICI√ìN DE ARQUITECTURAS

## Arquitectura 1: CNN Ligera (SimpleNet)

### Principios de Dise√±o:
- **Patr√≥n**: Progressive Downsampling
- **Filosof√≠a**: "Less is More" - Eficiencia sobre complejidad
- **Inspiraci√≥n**: VGG simplificado

### Justificaci√≥n Arquitect√≥nica:
1. **Bloques convolucionales**: 3 bloques con aumento progresivo de filtros (32‚Üí64‚Üí128)
2. **Pooling**: MaxPooling para retener caracter√≠sticas importantes
3. **Regularizaci√≥n**: Dropout (0.25 conv, 0.5 dense) + L2 regularization
4. **Batch Normalization**: Acelera convergencia y estabiliza entrenamiento

### Trade-offs:
- ‚úÖ R√°pido entrenamiento
- ‚úÖ Pocos par√°metros (~500K)
- ‚ùå Menor capacidad expresiva
- ‚ùå Puede sub-ajustar en datasets complejos

### Escalabilidad:
- ‚úÖ Ideal para deployment en dispositivos m√≥viles
- ‚úÖ Inferencia r√°pida
- ‚úÖ F√°cil mantener en producci√≥n

In [None]:
# ============================================================================
# ARQUITECTURA 1: CNN LIGERA (SimpleNet)
# ============================================================================

def create_simple_cnn(input_shape=(32, 32, 3), num_classes=10):
    """
    CNN ligera con 3 bloques convolucionales.
    
    Arquitectura:
    - Bloque 1: 2√óConv(32) + MaxPool + Dropout
    - Bloque 2: 2√óConv(64) + MaxPool + Dropout
    - Bloque 3: 2√óConv(128) + MaxPool + Dropout
    - Dense: 256 + Dropout + Output
    
    Par√°metros estimados: ~500K
    """
    model = models.Sequential(name='SimpleNet')
    
    # ====== BLOQUE 1: Extracci√≥n de caracter√≠sticas b√°sicas ======
    # Detecta bordes y texturas simples
    model.add(layers.Conv2D(
        32, (3, 3), 
        activation='relu', 
        padding='same',
        kernel_regularizer=regularizers.l2(0.001),  # L2 regularization
        input_shape=input_shape,
        name='conv1_1'
    ))
    model.add(layers.BatchNormalization(name='bn1_1'))
    
    model.add(layers.Conv2D(
        32, (3, 3), 
        activation='relu', 
        padding='same',
        kernel_regularizer=regularizers.l2(0.001),
        name='conv1_2'
    ))
    model.add(layers.BatchNormalization(name='bn1_2'))
    
    model.add(layers.MaxPooling2D((2, 2), name='pool1'))  # 32√ó32 ‚Üí 16√ó16
    model.add(layers.Dropout(0.25, name='dropout1'))      # Regularizaci√≥n
    
    # ====== BLOQUE 2: Caracter√≠sticas de nivel medio ======
    # Detecta formas y patrones m√°s complejos
    model.add(layers.Conv2D(
        64, (3, 3), 
        activation='relu', 
        padding='same',
        kernel_regularizer=regularizers.l2(0.001),
        name='conv2_1'
    ))
    model.add(layers.BatchNormalization(name='bn2_1'))
    
    model.add(layers.Conv2D(
        64, (3, 3), 
        activation='relu', 
        padding='same',
        kernel_regularizer=regularizers.l2(0.001),
        name='conv2_2'
    ))
    model.add(layers.BatchNormalization(name='bn2_2'))
    
    model.add(layers.MaxPooling2D((2, 2), name='pool2'))  # 16√ó16 ‚Üí 8√ó8
    model.add(layers.Dropout(0.25, name='dropout2'))
    
    # ====== BLOQUE 3: Caracter√≠sticas de alto nivel ======
    # Detecta partes de objetos y composiciones
    model.add(layers.Conv2D(
        128, (3, 3), 
        activation='relu', 
        padding='same',
        kernel_regularizer=regularizers.l2(0.001),
        name='conv3_1'
    ))
    model.add(layers.BatchNormalization(name='bn3_1'))
    
    model.add(layers.Conv2D(
        128, (3, 3), 
        activation='relu', 
        padding='same',
        kernel_regularizer=regularizers.l2(0.001),
        name='conv3_2'
    ))
    model.add(layers.BatchNormalization(name='bn3_2'))
    
    model.add(layers.MaxPooling2D((2, 2), name='pool3'))  # 8√ó8 ‚Üí 4√ó4
    model.add(layers.Dropout(0.25, name='dropout3'))
    
    # ====== CAPAS DENSAS: Clasificaci√≥n ======
    model.add(layers.Flatten(name='flatten'))
    
    model.add(layers.Dense(
        256, 
        activation='relu',
        kernel_regularizer=regularizers.l2(0.001),
        name='dense1'
    ))
    model.add(layers.BatchNormalization(name='bn_dense'))
    model.add(layers.Dropout(0.5, name='dropout_dense'))
    
    # Capa de salida con softmax para clasificaci√≥n multiclase
    model.add(layers.Dense(num_classes, activation='softmax', name='output'))
    
    return model

# Crear modelo
model_simple = create_simple_cnn()

# Mostrar resumen
print("="*70)
print("ARQUITECTURA 1: SIMPLENET")
print("="*70)
model_simple.summary()
print("="*70)

## Arquitectura 2: CNN Profunda (DeepNet)

### Principios de Dise√±o:
- **Patr√≥n**: Residual-inspired (sin skip connections para simplicidad)
- **Filosof√≠a**: Mayor profundidad = Mayor capacidad expresiva
- **Inspiraci√≥n**: ResNet + DenseNet

### Justificaci√≥n Arquitect√≥nica:
1. **4 bloques convolucionales**: Progresi√≥n 64‚Üí128‚Üí256‚Üí512
2. **Convoluciones 3√ó3**: Filtros peque√±os pero profundos (filosof√≠a VGG)
3. **Batch Normalization**: Despu√©s de cada convoluci√≥n
4. **Global Average Pooling**: Reduce overfitting vs Flatten tradicional
5. **Regularizaci√≥n agresiva**: Dropout + L2 + BatchNorm

### Trade-offs:
- ‚úÖ Mayor capacidad representacional
- ‚úÖ Mejor accuracy potencial
- ‚ùå M√°s par√°metros (~2M)
- ‚ùå Mayor riesgo de overfitting
- ‚ùå Entrenamiento m√°s lento

### Validaci√≥n contra est√°ndares:
- Similar a arquitecturas ganadoras de ImageNet
- Sigue principios de VGG (profundidad) y ResNet (normalizaci√≥n)

In [None]:
# ============================================================================
# ARQUITECTURA 2: CNN PROFUNDA (DeepNet)
# ============================================================================

def create_deep_cnn(input_shape=(32, 32, 3), num_classes=10):
    """
    CNN profunda con 4 bloques convolucionales y m√°s filtros.
    
    Arquitectura:
    - Bloque 1: 3√óConv(64) + MaxPool + Dropout
    - Bloque 2: 3√óConv(128) + MaxPool + Dropout
    - Bloque 3: 3√óConv(256) + MaxPool + Dropout
    - Bloque 4: 3√óConv(512) + GlobalAvgPool
    - Dense: 512 + 256 + Output
    
    Par√°metros estimados: ~2M
    """
    model = models.Sequential(name='DeepNet')
    
    # ====== BLOQUE 1: Caracter√≠sticas b√°sicas ======
    for i in range(3):
        model.add(layers.Conv2D(
            64, (3, 3),
            activation='relu',
            padding='same',
            kernel_regularizer=regularizers.l2(0.0001),
            input_shape=input_shape if i == 0 else None,
            name=f'conv1_{i+1}'
        ))
        model.add(layers.BatchNormalization(name=f'bn1_{i+1}'))
    
    model.add(layers.MaxPooling2D((2, 2), name='pool1'))
    model.add(layers.Dropout(0.2, name='dropout1'))
    
    # ====== BLOQUE 2: Caracter√≠sticas medias ======
    for i in range(3):
        model.add(layers.Conv2D(
            128, (3, 3),
            activation='relu',
            padding='same',
            kernel_regularizer=regularizers.l2(0.0001),
            name=f'conv2_{i+1}'
        ))
        model.add(layers.BatchNormalization(name=f'bn2_{i+1}'))
    
    model.add(layers.MaxPooling2D((2, 2), name='pool2'))
    model.add(layers.Dropout(0.3, name='dropout2'))
    
    # ====== BLOQUE 3: Caracter√≠sticas altas ======
    for i in range(3):
        model.add(layers.Conv2D(
            256, (3, 3),
            activation='relu',
            padding='same',
            kernel_regularizer=regularizers.l2(0.0001),
            name=f'conv3_{i+1}'
        ))
        model.add(layers.BatchNormalization(name=f'bn3_{i+1}'))
    
    model.add(layers.MaxPooling2D((2, 2), name='pool3'))
    model.add(layers.Dropout(0.4, name='dropout3'))
    
    # ====== BLOQUE 4: Caracter√≠sticas abstractas ======
    for i in range(3):
        model.add(layers.Conv2D(
            512, (3, 3),
            activation='relu',
            padding='same',
            kernel_regularizer=regularizers.l2(0.0001),
            name=f'conv4_{i+1}'
        ))
        model.add(layers.BatchNormalization(name=f'bn4_{i+1}'))
    
    # Global Average Pooling en lugar de Flatten
    # Reduce par√°metros y overfitting
    model.add(layers.GlobalAveragePooling2D(name='global_avg_pool'))
    model.add(layers.Dropout(0.5, name='dropout4'))
    
    # ====== CAPAS DENSAS ======
    model.add(layers.Dense(
        512,
        activation='relu',
        kernel_regularizer=regularizers.l2(0.0001),
        name='dense1'
    ))
    model.add(layers.BatchNormalization(name='bn_dense1'))
    model.add(layers.Dropout(0.5, name='dropout_dense1'))
    
    model.add(layers.Dense(
        256,
        activation='relu',
        kernel_regularizer=regularizers.l2(0.0001),
        name='dense2'
    ))
    model.add(layers.BatchNormalization(name='bn_dense2'))
    model.add(layers.Dropout(0.5, name='dropout_dense2'))
    
    # Salida
    model.add(layers.Dense(num_classes, activation='softmax', name='output'))
    
    return model

# Crear modelo
model_deep = create_deep_cnn()

# Mostrar resumen
print("="*70)
print("ARQUITECTURA 2: DEEPNET")
print("="*70)
model_deep.summary()
print("="*70)

## Arquitectura 3: Transfer Learning con MobileNetV2

### Decisi√≥n arquitect√≥nica: ¬øPor qu√© MobileNetV2?

**Alternativas consideradas:**
1. **VGG16**: Descartada (demasiado pesada: 138M par√°metros)
2. **ResNet50**: Descartada (overkill para CIFAR: 25M par√°metros)
3. **MobileNetV2**: ‚úÖ SELECCIONADA

### Justificaci√≥n:
- **Eficiencia**: Solo 3.5M par√°metros
- **Rendimiento**: SOTA en dispositivos m√≥viles
- **Arquitectura**: Inverted Residuals + Linear Bottlenecks
- **Pre-entrenamiento**: ImageNet (1.4M im√°genes)

### Estrategia de Transfer Learning:
1. **Freeze base**: Congelar capas convolucionales pre-entrenadas
2. **Custom head**: A√±adir clasificador espec√≠fico para CIFAR-10
3. **Fine-tuning (opcional)**: Descongelar √∫ltimas capas si es necesario

### Trade-offs:
- ‚úÖ Convergencia r√°pida (knowledge pre-aprendido)
- ‚úÖ Mejor generalizaci√≥n
- ‚úÖ Menos datos necesarios
- ‚ùå Menos customizable
- ‚ùå Overhead de memoria inicial

### Escalabilidad:
- ‚úÖ Deployment-ready para producci√≥n
- ‚úÖ Mobile-friendly
- ‚úÖ Inferencia eficiente

In [None]:
# ============================================================================
# ARQUITECTURA 3: TRANSFER LEARNING (MobileNetV2)
# ============================================================================

def create_transfer_learning_model(input_shape=(32, 32, 3), num_classes=10):
    """
    Modelo de Transfer Learning usando MobileNetV2 pre-entrenado.
    
    Estrategia:
    1. Cargar MobileNetV2 sin top (sin capa de clasificaci√≥n)
    2. Congelar pesos pre-entrenados
    3. A√±adir cabeza personalizada para CIFAR-10
    
    Nota: MobileNetV2 espera input m√≠nimo de 32√ó32, perfecto para CIFAR
    """
    
    # Cargar MobileNetV2 pre-entrenado en ImageNet
    # include_top=False: Sin capa de clasificaci√≥n
    # weights='imagenet': Usar pesos pre-entrenados
    base_model = MobileNetV2(
        input_shape=input_shape,
        include_top=False,
        weights='imagenet'
    )
    
    # IMPORTANTE: Congelar las capas base
    # Principio: Preservar conocimiento aprendido en ImageNet
    base_model.trainable = False
    
    # Construir modelo completo
    model = models.Sequential([
        base_model,
        
        # Cabeza personalizada para CIFAR-10
        layers.GlobalAveragePooling2D(name='gap'),
        
        # Primera capa densa con regularizaci√≥n
        layers.Dense(
            512,
            activation='relu',
            kernel_regularizer=regularizers.l2(0.0001),
            name='fc1'
        ),
        layers.BatchNormalization(name='bn1'),
        layers.Dropout(0.5, name='dropout1'),
        
        # Segunda capa densa
        layers.Dense(
            256,
            activation='relu',
            kernel_regularizer=regularizers.l2(0.0001),
            name='fc2'
        ),
        layers.BatchNormalization(name='bn2'),
        layers.Dropout(0.3, name='dropout2'),
        
        # Capa de salida
        layers.Dense(num_classes, activation='softmax', name='output')
    ], name='MobileNetV2_Transfer')
    
    return model

# Crear modelo
model_transfer = create_transfer_learning_model()

# Mostrar resumen
print("="*70)
print("ARQUITECTURA 3: TRANSFER LEARNING (MobileNetV2)")
print("="*70)
model_transfer.summary()

# Mostrar informaci√≥n sobre capas congeladas
total_layers = len(model_transfer.layers)
trainable_layers = sum([1 for layer in model_transfer.layers if layer.trainable])
frozen_layers = total_layers - trainable_layers

print("\n" + "="*70)
print(f"Total de capas: {total_layers}")
print(f"Capas entrenables: {trainable_layers}")
print(f"Capas congeladas: {frozen_layers}")
print("="*70)

---

# ENTRENAMIENTO DE MODELOS

## Configuraci√≥n de Hiperpar√°metros

### Decisiones de optimizaci√≥n:

**Optimizer: Adam**
- Justificaci√≥n: Adaptive learning rate, robusto y confiable
- Alternativas descartadas: SGD (requiere m√°s tuning), RMSprop (menos usado)

**Learning Rate: 0.001 (default)**
- Con ReduceLROnPlateau para ajuste din√°mico
- Se reduce cuando val_loss se estanca

**Loss: Categorical Crossentropy**
- Est√°ndar para clasificaci√≥n multiclase

**Callbacks:**
1. **EarlyStopping**: Prevenir overfitting
2. **ReduceLROnPlateau**: Ajuste adaptativo de LR
3. **ModelCheckpoint**: Guardar mejor modelo

In [None]:
# ============================================================================
# CONFIGURACI√ìN DE ENTRENAMIENTO
# ============================================================================

# Hiperpar√°metros
BATCH_SIZE = 64        # Balance entre velocidad y estabilidad
EPOCHS = 50            # Suficiente con early stopping
LEARNING_RATE = 0.001  # Default de Adam

# Callbacks compartidos para todos los modelos
def get_callbacks(model_name):
    """
    Retorna callbacks configurados para entrenamiento.
    
    Args:
        model_name: Nombre del modelo (para checkpoint)
    """
    return [
        # Early Stopping: Detener si no hay mejora
        EarlyStopping(
            monitor='val_loss',
            patience=10,          # Esperar 10 √©pocas
            restore_best_weights=True,
            verbose=1
        ),
        
        # Reduce Learning Rate: Ajustar LR si se estanca
        ReduceLROnPlateau(
            monitor='val_loss',
            factor=0.5,           # Reducir a la mitad
            patience=5,           # Despu√©s de 5 √©pocas sin mejora
            min_lr=1e-7,
            verbose=1
        ),
        
        # Model Checkpoint: Guardar mejor modelo
        ModelCheckpoint(
            filepath=f'best_{model_name}.h5',
            monitor='val_accuracy',
            save_best_only=True,
            verbose=1
        )
    ]

# Funci√≥n de compilaci√≥n unificada
def compile_model(model, learning_rate=LEARNING_RATE):
    """
    Compila modelo con configuraci√≥n est√°ndar.
    
    Args:
        model: Modelo a compilar
        learning_rate: Tasa de aprendizaje
    """
    model.compile(
        optimizer=keras.optimizers.Adam(learning_rate=learning_rate),
        loss='categorical_crossentropy',
        metrics=['accuracy']
    )
    return model

print("‚úì Configuraci√≥n de entrenamiento lista")
print(f"  - Batch Size: {BATCH_SIZE}")
print(f"  - Epochs m√°ximos: {EPOCHS}")
print(f"  - Learning Rate inicial: {LEARNING_RATE}")

## Entrenamiento Modelo 1: SimpleNet

In [None]:
# ============================================================================
# ENTRENAR MODELO 1: SIMPLENET
# ============================================================================

print("="*70)
print("ENTRENANDO SIMPLENET")
print("="*70)

# Compilar
model_simple = compile_model(model_simple)

# Entrenar con data augmentation
history_simple = model_simple.fit(
    train_datagen.flow(X_train_final, y_train_final, batch_size=BATCH_SIZE),
    epochs=EPOCHS,
    validation_data=(X_val, y_val),
    callbacks=get_callbacks('simplenet'),
    verbose=1
)

print("\n‚úì SimpleNet entrenado exitosamente")

## Entrenamiento Modelo 2: DeepNet

In [None]:
# ============================================================================
# ENTRENAR MODELO 2: DEEPNET
# ============================================================================

print("="*70)
print("ENTRENANDO DEEPNET")
print("="*70)

# Compilar
model_deep = compile_model(model_deep)

# Entrenar con data augmentation
history_deep = model_deep.fit(
    train_datagen.flow(X_train_final, y_train_final, batch_size=BATCH_SIZE),
    epochs=EPOCHS,
    validation_data=(X_val, y_val),
    callbacks=get_callbacks('deepnet'),
    verbose=1
)

print("\n‚úì DeepNet entrenado exitosamente")

## Entrenamiento Modelo 3: Transfer Learning

In [None]:
# ============================================================================
# ENTRENAR MODELO 3: TRANSFER LEARNING
# ============================================================================

print("="*70)
print("ENTRENANDO TRANSFER LEARNING (MobileNetV2)")
print("="*70)

# Compilar
model_transfer = compile_model(model_transfer)

# Entrenar con data augmentation
# Nota: Transfer learning generalmente converge m√°s r√°pido
history_transfer = model_transfer.fit(
    train_datagen.flow(X_train_final, y_train_final, batch_size=BATCH_SIZE),
    epochs=EPOCHS,
    validation_data=(X_val, y_val),
    callbacks=get_callbacks('transfer'),
    verbose=1
)

print("\n‚úì Transfer Learning entrenado exitosamente")

---

# EVALUACI√ìN Y COMPARACI√ìN

## M√©tricas de Evaluaci√≥n

Evaluaremos los modelos usando:
1. **Accuracy**: Precisi√≥n general
2. **Loss**: Funci√≥n de p√©rdida
3. **Curvas de aprendizaje**: Train vs Validation
4. **Matriz de confusi√≥n**: Errores por clase
5. **Classification Report**: Precision, Recall, F1-Score
6. **Tiempo de entrenamiento**: Eficiencia computacional

In [None]:
# ============================================================================
# EVALUACI√ìN EN CONJUNTO DE PRUEBA
# ============================================================================

# Evaluar todos los modelos
models = {
    'SimpleNet': model_simple,
    'DeepNet': model_deep,
    'Transfer Learning': model_transfer
}

histories = {
    'SimpleNet': history_simple,
    'DeepNet': history_deep,
    'Transfer Learning': history_transfer
}

results = {}

print("="*70)
print("EVALUACI√ìN EN CONJUNTO DE PRUEBA")
print("="*70)

for name, model in models.items():
    print(f"\nEvaluando {name}...")
    
    # Evaluar
    test_loss, test_acc = model.evaluate(X_test_normalized, y_test_cat, verbose=0)
    
    # Predicciones
    y_pred = model.predict(X_test_normalized, verbose=0)
    y_pred_classes = np.argmax(y_pred, axis=1)
    
    # Guardar resultados
    results[name] = {
        'test_loss': test_loss,
        'test_acc': test_acc,
        'y_pred': y_pred_classes,
        'history': histories[name]
    }
    
    print(f"  Test Loss: {test_loss:.4f}")
    print(f"  Test Accuracy: {test_acc:.4f}")

print("\n" + "="*70)

## Visualizaci√≥n de Resultados

In [None]:
# ============================================================================
# GR√ÅFICAS DE CURVAS DE APRENDIZAJE
# ============================================================================

def plot_training_history(histories, metric='accuracy'):
    """
    Grafica curvas de aprendizaje para todos los modelos.
    
    Args:
        histories: Diccionario con historiales de entrenamiento
        metric: M√©trica a graficar ('accuracy' o 'loss')
    """
    plt.figure(figsize=(15, 5))
    
    # Subplot 1: Training metric
    plt.subplot(1, 2, 1)
    for name, history in histories.items():
        plt.plot(history.history[metric], label=f'{name} Train', linewidth=2)
    plt.title(f'Training {metric.capitalize()}', fontsize=14, fontweight='bold')
    plt.xlabel('Epoch')
    plt.ylabel(metric.capitalize())
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    # Subplot 2: Validation metric
    plt.subplot(1, 2, 2)
    for name, history in histories.items():
        plt.plot(history.history[f'val_{metric}'], label=f'{name} Val', linewidth=2)
    plt.title(f'Validation {metric.capitalize()}', fontsize=14, fontweight='bold')
    plt.xlabel('Epoch')
    plt.ylabel(metric.capitalize())
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

# Graficar accuracy
print("Curvas de Accuracy:")
plot_training_history(histories, 'accuracy')

# Graficar loss
print("\nCurvas de Loss:")
plot_training_history(histories, 'loss')

In [None]:
# ============================================================================
# COMPARACI√ìN DE M√âTRICAS FINALES
# ============================================================================

def plot_model_comparison(results):
    """
    Gr√°fico de barras comparando m√©tricas finales.
    """
    model_names = list(results.keys())
    test_accs = [results[name]['test_acc'] for name in model_names]
    test_losses = [results[name]['test_loss'] for name in model_names]
    
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))
    
    # Accuracy
    colors = ['#FF6B6B', '#4ECDC4', '#45B7D1']
    bars1 = ax1.bar(model_names, test_accs, color=colors, alpha=0.8, edgecolor='black')
    ax1.set_ylabel('Accuracy', fontsize=12)
    ax1.set_title('Test Accuracy Comparison', fontsize=14, fontweight='bold')
    ax1.set_ylim([0, 1])
    ax1.grid(axis='y', alpha=0.3)
    
    # A√±adir valores sobre barras
    for bar in bars1:
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height,
                f'{height:.4f}',
                ha='center', va='bottom', fontsize=10, fontweight='bold')
    
    # Loss
    bars2 = ax2.bar(model_names, test_losses, color=colors, alpha=0.8, edgecolor='black')
    ax2.set_ylabel('Loss', fontsize=12)
    ax2.set_title('Test Loss Comparison', fontsize=14, fontweight='bold')
    ax2.grid(axis='y', alpha=0.3)
    
    # A√±adir valores sobre barras
    for bar in bars2:
        height = bar.get_height()
        ax2.text(bar.get_x() + bar.get_width()/2., height,
                f'{height:.4f}',
                ha='center', va='bottom', fontsize=10, fontweight='bold')
    
    plt.tight_layout()
    plt.show()

plot_model_comparison(results)

In [None]:
# ============================================================================
# MATRICES DE CONFUSI√ìN
# ============================================================================

def plot_confusion_matrices(results, class_names):
    """
    Grafica matrices de confusi√≥n para todos los modelos.
    """
    fig, axes = plt.subplots(1, 3, figsize=(18, 5))
    
    for idx, (name, result) in enumerate(results.items()):
        cm = confusion_matrix(y_test, result['y_pred'])
        
        # Normalizar
        cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        
        # Plot
        sns.heatmap(cm_normalized, annot=True, fmt='.2f', cmap='Blues',
                    xticklabels=class_names, yticklabels=class_names,
                    ax=axes[idx], cbar=True)
        axes[idx].set_title(f'{name}\nAccuracy: {result["test_acc"]:.4f}',
                           fontsize=12, fontweight='bold')
        axes[idx].set_ylabel('True Label')
        axes[idx].set_xlabel('Predicted Label')
    
    plt.tight_layout()
    plt.show()

print("Matrices de Confusi√≥n (Normalizadas):")
plot_confusion_matrices(results, class_names)

In [None]:
# ============================================================================
# REPORTES DE CLASIFICACI√ìN
# ============================================================================

print("="*70)
print("REPORTES DE CLASIFICACI√ìN")
print("="*70)

for name, result in results.items():
    print(f"\n{'='*70}")
    print(f"{name.upper()}")
    print(f"{'='*70}")
    print(classification_report(y_test, result['y_pred'], 
                                target_names=class_names,
                                digits=4))

In [None]:
# ============================================================================
# TABLA COMPARATIVA FINAL
# ============================================================================

# Crear DataFrame con m√©tricas
comparison_data = []

for name, model in models.items():
    # Contar par√°metros
    total_params = model.count_params()
    trainable_params = sum([tf.keras.backend.count_params(w) for w in model.trainable_weights])
    
    # √âpocas entrenadas
    epochs_trained = len(histories[name].history['loss'])
    
    comparison_data.append({
        'Modelo': name,
        'Test Accuracy': f"{results[name]['test_acc']:.4f}",
        'Test Loss': f"{results[name]['test_loss']:.4f}",
        'Total Params': f"{total_params:,}",
        'Trainable Params': f"{trainable_params:,}",
        'Epochs': epochs_trained
    })

df_comparison = pd.DataFrame(comparison_data)

print("\n" + "="*70)
print("TABLA COMPARATIVA FINAL")
print("="*70)
print(df_comparison.to_string(index=False))
print("="*70)

---

# CONCLUSIONES

## An√°lisis Comparativo de Arquitecturas

### 1. SimpleNet (CNN Ligera)

**Fortalezas:**
- ‚úÖ **Eficiencia computacional**: Entrenamiento r√°pido y menor uso de memoria
- ‚úÖ **Deployability**: Ideal para dispositivos con recursos limitados
- ‚úÖ **Interpretabilidad**: Arquitectura simple y f√°cil de debuggear

**Debilidades:**
- ‚ùå **Capacidad limitada**: Puede sub-ajustar en datasets complejos
- ‚ùå **Representaci√≥n**: Menos profundidad = menos jerarqu√≠a de caracter√≠sticas

**Caso de uso ideal:**
- Prototipos r√°pidos
- Aplicaciones m√≥viles
- Datasets peque√±os
- Cuando el tiempo de inferencia es cr√≠tico

---

### 2. DeepNet (CNN Profunda)

**Fortalezas:**
- ‚úÖ **Alta capacidad**: Mayor profundidad permite aprender patrones complejos
- ‚úÖ **Representaciones ricas**: Jerarqu√≠a de caracter√≠sticas bien definida
- ‚úÖ **Performance**: Generalmente mejor accuracy que SimpleNet

**Debilidades:**
- ‚ùå **Overfitting**: Requiere m√°s regularizaci√≥n y datos
- ‚ùå **Costo computacional**: Entrenamiento e inferencia m√°s lentos
- ‚ùå **Memoria**: Mayor footprint

**Caso de uso ideal:**
- Datasets grandes y complejos
- Cuando accuracy es prioritario sobre eficiencia
- Recursos computacionales disponibles
- Producci√≥n con GPUs

---

### 3. Transfer Learning (MobileNetV2)

**Fortalezas:**
- ‚úÖ **Conocimiento pre-aprendido**: Converge m√°s r√°pido
- ‚úÖ **Generalizaci√≥n**: Mejor performance con menos datos
- ‚úÖ **SOTA Architecture**: Dise√±o optimizado por expertos
- ‚úÖ **Production-ready**: Ampliamente probado en industria

**Debilidades:**
- ‚ùå **Menos flexible**: Arquitectura fija
- ‚ùå **Domain mismatch**: ImageNet ‚Üí CIFAR puede no ser ideal
- ‚ùå **Black box**: M√°s dif√≠cil entender internamente

**Caso de uso ideal:**
- Datasets peque√±os
- Desarrollo r√°pido
- Baseline de alta calidad
- Deployment en producci√≥n

---

## Mejor Modelo y Justificaci√≥n

### üèÜ Ganador: [COMPLETA AQU√ç BASADO EN TUS RESULTADOS]

**An√°lisis cuantitativo:**
- Test Accuracy: [VALOR]%
- Test Loss: [VALOR]
- Par√°metros: [CANTIDAD]
- Tiempo de entrenamiento: [√âPOCAS]

**An√°lisis cualitativo:**
- [ANALIZA LAS CURVAS DE APRENDIZAJE]
- [DISCUTE OVERFITTING/UNDERFITTING]
- [EVAL√öA MATRICES DE CONFUSI√ìN]

---

## Mejoras Propuestas

### Para SimpleNet:
1. **Aumentar profundidad selectivamente**: Agregar 1 bloque m√°s en lugar de 3
2. **Skip connections**: Implementar residual blocks simples
3. **Data augmentation agresivo**: Compensar menor capacidad

### Para DeepNet:
1. **Residual connections**: Facilitar flujo de gradientes
2. **Attention mechanisms**: Focus en regiones importantes
3. **Label smoothing**: Reducir overconfidence
4. **Mixup/CutMix**: Data augmentation avanzado

### Para Transfer Learning:
1. **Fine-tuning**: Descongelar √∫ltimas capas de MobileNetV2
2. **Progressive unfreezing**: Descongelar gradualmente
3. **Discriminative learning rates**: LR diferente por capa
4. **Ensembling**: Combinar con arquitecturas propias

---

## Lecciones Arquitect√≥nicas Aprendidas

### Principios validados:
1. **Data augmentation es crucial**: Mejora generalizaci√≥n significativamente
2. **Regularizaci√≥n multi-fac√©tica**: Dropout + L2 + BatchNorm trabajan bien juntos
3. **Transfer learning es poderoso**: Especialmente con datasets peque√±os
4. **Trade-off complejidad-performance**: M√°s profundo ‚â† siempre mejor

### Consideraciones de producci√≥n:
- **Escalabilidad**: SimpleNet escala mejor a m√∫ltiples desarrolladores
- **Mantenibilidad**: C√≥digo modular facilita iteraci√≥n
- **Deployment**: MobileNetV2 tiene mejor soporte de frameworks
- **Monitoring**: Arquitecturas simples m√°s f√°ciles de debuggear

---

## Pr√≥ximos Pasos

### Experimentaci√≥n:
1. Probar CIFAR-100 (100 clases)
2. Implementar arquitecturas modernas (EfficientNet, Vision Transformer)
3. Hyperparameter tuning autom√°tico (Keras Tuner)
4. Cross-validation para robustez

### Optimizaci√≥n:
1. Quantization para deployment m√≥vil
2. Pruning para reducir tama√±o
3. Knowledge distillation (DeepNet ‚Üí SimpleNet)
4. Mixed precision training

### Investigaci√≥n:
1. ¬øPor qu√© ciertas clases se confunden m√°s?
2. An√°lisis de caracter√≠sticas aprendidas (activation maps)
3. Adversarial robustness
4. Fairness across clases

---

## Referencias y Recursos

**Papers fundamentales:**
- VGG: Simonyan & Zisserman (2014)
- ResNet: He et al. (2015)
- MobileNets: Howard et al. (2017)

**Implementaciones de referencia:**
- Keras Applications: https://keras.io/api/applications/
- TensorFlow Hub: https://tfhub.dev/

**Buenas pr√°cticas:**
- CS231n Stanford: http://cs231n.stanford.edu/
- Deep Learning Book: Goodfellow et al.

---

*Fin del an√°lisis - Notebook completo y listo para ejecutar*