
# Cuadernillo: EfficientNet (Teor√≠a + Implementaci√≥n en PyTorch)

Este cuadernillo combina la explicaci√≥n te√≥rica de EfficientNet con una implementaci√≥n educativa en PyTorch de la versi√≥n B0 (modelo base).

## Contenido:
- Introducci√≥n a EfficientNet y el escalado compuesto.
- Arquitectura de EfficientNet-B0.
- Implementaci√≥n desde cero del bloque MBConv con Squeeze-and-Excitation (SE).
- Construcci√≥n de EfficientNet-B0 mini.
- Ejemplo de inferencia.
- Ejemplo de fine-tuning.


## 1. Introducci√≥n a EfficientNet

EfficientNet es una familia de redes neuronales convolucionales que introduce el concepto de **escalado compuesto** para mejorar el rendimiento y la eficiencia. La idea es escalar de forma balanceada tres dimensiones de la red:

- **Profundidad (d):** N√∫mero de capas.
- **Anchura (w):** N√∫mero de canales en cada capa.
- **Resoluci√≥n (r):** Tama√±o de la imagen de entrada.

### üî¨ Escalado Compuesto

El escalado se controla con un factor œÜ (phi) y tres coeficientes Œ±, Œ≤, Œ≥:

```
depth = Œ±^œÜ
width = Œ≤^œÜ  
resolution = Œ≥^œÜ
```

**Restricci√≥n:** Œ± ¬∑ Œ≤¬≤ ¬∑ Œ≥¬≤ ‚âà 2, donde Œ± ‚â• 1, Œ≤ ‚â• 1, Œ≥ ‚â• 1

### üéØ Ventajas de EfficientNet:

1. **Eficiencia computacional**: Mejor accuracy con menos par√°metros
2. **Escalado balanceado**: No solo aumenta una dimensi√≥n
3. **Transferible**: Funciona bien en diferentes tareas
4. **Arquitectura optimizada**: Basada en Neural Architecture Search (NAS)

## Arquitectura de EfficientNet

La siguiente imagen muestra la arquitectura y funcionamiento de EfficientNet:

![EfficientNet Architecture](IMAGE.png)

*Figura: Arquitectura y escalado compuesto de EfficientNet mostrando c√≥mo se balancean las dimensiones de profundidad, anchura y resoluci√≥n.*

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import transforms
from PIL import Image
from pathlib import Path

## üìä Funcionamiento Detallado del Modelo EfficientNet

### üèóÔ∏è **Arquitectura General**

EfficientNet sigue esta estructura principal:

```
Input Image ‚Üí Stem ‚Üí MBConv Blocks ‚Üí Head ‚Üí Output
```

### üîç **1. Stem (Inicio)**
- **Funci√≥n**: Preprocesamiento inicial de la imagen
- **Operaci√≥n**: Convoluci√≥n 3x3 con stride=2
- **Salida**: Reduce resoluci√≥n a la mitad, extrae caracter√≠sticas b√°sicas
- **Canales**: RGB (3) ‚Üí 32 caracter√≠sticas

### üß± **2. Bloques MBConv (Coraz√≥n del modelo)**

Los bloques MBConv son la innovaci√≥n clave. Cada bloque realiza:

#### **Paso 1: Expansi√≥n (1x1 Conv)**
```python
# Si expand_ratio > 1
channels: in_ch ‚Üí in_ch * expand_ratio
# Ejemplo: 32 ‚Üí 192 canales (expand_ratio=6)
```

#### **Paso 2: Depthwise Convolution**
```python
# Convoluci√≥n por grupos (cada canal por separado)
- Reduce par√°metros significativamente
- Captura patrones espaciales por canal
- Kernel: 3x3 o 5x5
```

#### **Paso 3: Squeeze-and-Excitation (SE)**
```python
# Recalibraci√≥n de canales
Global Average Pool ‚Üí FC ‚Üí ReLU ‚Üí FC ‚Üí Sigmoid ‚Üí Multiply
```

#### **Paso 4: Proyecci√≥n (1x1 Conv)**
```python
# Reducci√≥n de canales
channels: expanded ‚Üí out_ch
# Ejemplo: 192 ‚Üí 40 canales
```

#### **Paso 5: Skip Connection**
```python
if stride == 1 and in_ch == out_ch:
    output = projection + input  # Residual connection
```

### üéØ **3. Head (Final)**
- **Global Average Pooling**: Convierte feature maps a vector
- **Dropout**: Regularizaci√≥n para evitar overfitting  
- **Linear**: Clasificaci√≥n final (1000 clases en ImageNet)

### ‚ö° **Flujo de Datos Completo**

```
Imagen (224x224x3)
    ‚Üì Stem Conv3x3
Feature Maps (112x112x32)
    ‚Üì MBConv Stage 1 (16 canales)
Feature Maps (112x112x16)
    ‚Üì MBConv Stage 2 (24 canales)
Feature Maps (56x56x24)
    ‚Üì MBConv Stage 3 (40 canales)
Feature Maps (28x28x40)
    ‚Üì MBConv Stage 4 (80 canales)
Feature Maps (14x14x80)
    ‚Üì MBConv Stage 5 (112 canales)
Feature Maps (14x14x112)
    ‚Üì MBConv Stage 6 (192 canales)
Feature Maps (7x7x192)
    ‚Üì MBConv Stage 7 (320 canales)
Feature Maps (7x7x320)
    ‚Üì Head Conv1x1
Feature Maps (7x7x1280)
    ‚Üì Global Average Pool
Vector (1280)
    ‚Üì Dropout + Linear
Logits (1000 clases)
```

## 2. Bloque Squeeze-and-Excitation (SE) - Explicaci√≥n Detallada

### üß† **¬øQu√© problema resuelve SE?**

Las redes convolucionales tradicionales tratan todos los canales por igual. Sin embargo, **algunos canales contienen informaci√≥n m√°s relevante que otros**. El bloque SE aprende a **recalibrar autom√°ticamente** la importancia de cada canal.

### ‚öôÔ∏è **Funcionamiento paso a paso:**

#### **Paso 1: Squeeze (Compresi√≥n) üóúÔ∏è**
```python
# Global Average Pooling
input: (Batch, Channels, Height, Width)
output: (Batch, Channels, 1, 1)
```
- **Funci√≥n**: Convierte cada mapa de caracter√≠sticas 2D en un √∫nico valor
- **Resultado**: Captura la "esencia" global de cada canal
- **Matem√°ticamente**: `z_c = (1/H*W) * Œ£(x_c(i,j))`

#### **Paso 2: Excitation (Activaci√≥n) ‚ö°**
```python
# Dos capas completamente conectadas
FC1: channels ‚Üí channels//reduction  # Compresi√≥n
ReLU: Activaci√≥n no lineal
FC2: channels//reduction ‚Üí channels   # Expansi√≥n  
Sigmoid: Normalizaci√≥n [0,1]
```
- **Funci√≥n**: Aprende las interdependencias entre canales
- **Reduction**: T√≠picamente 4 o 16 (reduce par√°metros)
- **Sigmoid**: Asegura que los pesos est√©n entre 0 y 1

#### **Paso 3: Scale (Reescalado) üìè**
```python
# Multiplicaci√≥n elemento por elemento
output = input * se_weights.unsqueeze(-1).unsqueeze(-1)
```
- **Funci√≥n**: Aplica los pesos aprendidos a cada canal
- **Resultado**: Canales importantes se amplifican, irrelevantes se aten√∫an

### üéØ **Ejemplo Pr√°ctico:**
Si tenemos una imagen de un gato:
- **Canales de bordes**: Peso alto (importante para detectar forma)
- **Canales de textura**: Peso medio (√∫til para pelaje)
- **Canales de ruido**: Peso bajo (informaci√≥n irrelevante)

### üìà **Beneficios:**
1. **Mejora accuracy** sin costo computacional significativo
2. **Atenci√≥n autom√°tica** en caracter√≠sticas relevantes  
3. **F√°cil integraci√≥n** en cualquier arquitectura CNN
4. **Pocos par√°metros adicionales** (~2% del total)

In [None]:

class SEModule(nn.Module):
    def __init__(self, channels, reduction=4):
        super().__init__()
        hidden = max(1, channels // reduction)
        self.pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Conv2d(channels, hidden, kernel_size=1),
            nn.SiLU(inplace=True),
            nn.Conv2d(hidden, channels, kernel_size=1),
            nn.Sigmoid()
        )
    def forward(self, x):
        w = self.pool(x)
        w = self.fc(w)
        return x * w


## 3. Bloque MBConv (Mobile Inverted Bottleneck) - An√°lisis Completo

### üèóÔ∏è **Filosof√≠a del Dise√±o**

El bloque MBConv invierte la filosof√≠a tradicional de los bottlenecks:
- **Bottleneck tradicional**: Ancho ‚Üí Estrecho ‚Üí Ancho
- **Inverted Bottleneck**: Estrecho ‚Üí Ancho ‚Üí Estrecho

### üîÑ **Arquitectura Detallada:**

```
Input (low-dim) ‚Üí Expand (high-dim) ‚Üí Filter ‚Üí Compress (low-dim) ‚Üí Output
```

#### **üöÄ Ventaja 1: Expansi√≥n**
```python
# Expansi√≥n 1x1 (si expand_ratio > 1)
if expand_ratio != 1:
    channels: in_ch ‚Üí in_ch * expand_ratio
```
- **Por qu√©**: Las convoluciones depthwise funcionan mejor con m√°s canales
- **Ejemplo**: 32 canales ‚Üí 192 canales (expand_ratio=6)
- **Beneficio**: M√°s "espacio" para aprender caracter√≠sticas complejas

#### **üéØ Ventaja 2: Depthwise Convolution**
```python
# Convoluci√≥n por grupos (cada canal independiente)
groups = input_channels  # Cada canal se procesa por separado
```

**Comparaci√≥n de par√°metros:**
```python
# Convoluci√≥n tradicional 3x3:
params_traditional = in_ch * out_ch * 3 * 3
# Ejemplo: 192 * 192 * 9 = 331,776 par√°metros

# Depthwise + Pointwise:
params_depthwise = in_ch * 3 * 3 + in_ch * out_ch
# Ejemplo: 192 * 9 + 192 * 32 = 1,728 + 6,144 = 7,872 par√°metros
# ¬°42x menos par√°metros!
```

#### **üß† Ventaja 3: Informaci√≥n Preservada**
La conexi√≥n residual preserva informaci√≥n:
```python
if stride == 1 and in_ch == out_ch:
    output = processed_input + input  # Skip connection
```

### üìä **Flujo Completo de un MBConv:**

```python
# Entrada: (B, 32, 56, 56)
#     ‚Üì Expand 1x1 (32‚Üí192)
# (B, 192, 56, 56)
#     ‚Üì Depthwise 3x3
# (B, 192, 28, 28)  # Si stride=2
#     ‚Üì SE Module (recalibraci√≥n)
# (B, 192, 28, 28)
#     ‚Üì Project 1x1 (192‚Üí24)
# (B, 24, 28, 28)
#     ‚Üì + Skip (si dimensiones coinciden)
# Output: (B, 24, 28, 28)
```

### ‚ö° **Componentes Clave:**

1. **Expansi√≥n 1x1**: 
   - Aumenta canales para mejor representaci√≥n
   - Activaci√≥n: Swish/SiLU (mejor que ReLU)

2. **Depthwise Convolution**: 
   - Captura patrones espaciales
   - Eficiencia computacional extrema

3. **Squeeze-and-Excitation**: 
   - Atenci√≥n en canales importantes
   - Mejora significativa en accuracy

4. **Proyecci√≥n 1x1**: 
   - Reduce dimensionalidad
   - Sin activaci√≥n (preserva informaci√≥n)

5. **Skip Connection**: 
   - Evita degradaci√≥n del gradiente
   - Permite redes m√°s profundas

### üéØ **Configuraciones por Etapa:**

| Etapa | Output Ch | Kernel | Stride | Expand | Repeticiones |
|-------|-----------|--------|--------|---------|-------------|
| 1     | 16        | 3      | 1      | 1       | 1          |
| 2     | 24        | 3      | 2      | 6       | 2          |
| 3     | 40        | 5      | 2      | 6       | 2          |
| 4     | 80        | 3      | 2      | 6       | 3          |
| 5     | 112       | 5      | 1      | 6       | 3          |
| 6     | 192       | 5      | 2      | 6       | 4          |
| 7     | 320       | 3      | 1      | 6       | 1          |

In [None]:

class MBConv(nn.Module):
    def __init__(self, in_ch, out_ch, kernel_size=3, stride=1,
                 expand_ratio=6, se_ratio=0.25, drop_rate=0.0):
        super().__init__()
        self.use_res = (stride == 1 and in_ch == out_ch)
        self.drop_rate = drop_rate
        mid_ch = in_ch if expand_ratio == 1 else in_ch * expand_ratio
        
        layers = []
        if expand_ratio != 1:
            layers += [
                nn.Conv2d(in_ch, mid_ch, kernel_size=1, bias=False),
                nn.BatchNorm2d(mid_ch),
                nn.SiLU(inplace=True)
            ]
        
        layers += [
            nn.Conv2d(mid_ch, mid_ch, kernel_size, stride, kernel_size//2, groups=mid_ch, bias=False),
            nn.BatchNorm2d(mid_ch),
            nn.SiLU(inplace=True)
        ]
        
        self.features = nn.Sequential(*layers)
        self.se = SEModule(mid_ch, reduction=int(1/se_ratio))
        self.project = nn.Sequential(
            nn.Conv2d(mid_ch, out_ch, kernel_size=1, bias=False),
            nn.BatchNorm2d(out_ch)
        )
    
    def forward(self, x):
        identity = x
        y = self.features(x)
        y = self.se(y)
        y = self.project(y)
        if self.use_res:
            y = y + identity
        return y



## 4. EfficientNet-B0 Mini (Educativo)

Implementaci√≥n reducida de EfficientNet-B0, √∫til para fines educativos.  
No incluye pesos preentrenados, pero mantiene la estructura principal.


### üèÜ **Innovaciones Clave de EfficientNet**

#### **1. Neural Architecture Search (NAS)**
- **Automatizaci√≥n**: La arquitectura base se dise√±√≥ usando b√∫squeda autom√°tica
- **Optimizaci√≥n**: Balance √≥ptimo entre accuracy y eficiencia
- **Resultado**: EfficientNet-B0 como arquitectura base optimal

#### **2. Compound Scaling Method**
```python
# Escalado tradicional (problem√°tico):
# Solo profundidad: ResNet-50 ‚Üí ResNet-101 ‚Üí ResNet-152
# Solo anchura: M√°s canales por capa
# Solo resoluci√≥n: Im√°genes m√°s grandes

# Escalado compuesto (EfficientNet):
depth = Œ±^œÜ     # Œ± = 1.2
width = Œ≤^œÜ     # Œ≤ = 1.1  
resolution = Œ≥^œÜ # Œ≥ = 1.15
# Restricci√≥n: Œ± ¬∑ Œ≤¬≤ ¬∑ Œ≥¬≤ ‚âà 2
```

#### **3. Comparaci√≥n con Otras Arquitecturas**

| Modelo | Par√°metros | FLOPs | Top-1 Accuracy |
|--------|------------|-------|---------------|
| ResNet-50 | 25.6M | 4.1B | 76.0% |
| ResNet-152 | 60.2M | 11.6B | 77.8% |
| DenseNet-264 | 33.3M | 5.8B | 77.9% |
| **EfficientNet-B0** | **5.3M** | **0.39B** | **77.1%** |
| **EfficientNet-B7** | **66M** | **37B** | **84.4%** |

### üî¨ **An√°lisis de Eficiencia**

#### **Memoria y Computaci√≥n:**
```python
# Comparaci√≥n de operaciones (ejemplo 224x224):
Traditional Conv 3x3: O(H√óW√óCin√óCout√ó9)
Depthwise + Pointwise: O(H√óW√óCin√ó9 + H√óW√óCin√óCout)

# Para 192 canales entrada/salida:
Traditional: 224√ó224√ó192√ó192√ó9 = 52.6B ops
MBConv: 224√ó224√ó192√ó9 + 224√ó224√ó192√ó192 = 0.87B ops
# ¬°60x m√°s eficiente!
```

#### **Escalado Inteligente:**
- **Œ± (profundidad)**: M√°s capas ‚Üí mejor representaci√≥n
- **Œ≤ (anchura)**: M√°s canales ‚Üí mayor capacidad  
- **Œ≥ (resoluci√≥n)**: Im√°genes grandes ‚Üí m√°s detalles finos
- **Balance**: Los tres factores se complementan exponencialmente

In [None]:

class EfficientNetB0Mini(nn.Module):
    def __init__(self, num_classes=1000, drop_rate=0.2):
        super().__init__()
        self.stem = nn.Sequential(
            nn.Conv2d(3, 32, kernel_size=3, stride=2, padding=1, bias=False),
            nn.BatchNorm2d(32),
            nn.SiLU(inplace=True)
        )
        
        cfg = [
            (16, 3, 1, 1, 1),
            (24, 3, 2, 6, 2),
            (40, 5, 2, 6, 2),
            (80, 3, 2, 6, 3),
            (112, 5, 1, 6, 3),
            (192, 5, 2, 6, 4),
            (320, 3, 1, 6, 1)
        ]
        
        blocks = []
        in_ch = 32
        for out_ch, k, s, exp, reps in cfg:
            for i in range(reps):
                stride = s if i == 0 else 1
                blocks.append(MBConv(in_ch, out_ch, kernel_size=k, stride=stride, expand_ratio=exp))
                in_ch = out_ch
        
        self.blocks = nn.Sequential(*blocks)
        self.head = nn.Sequential(
            nn.Conv2d(in_ch, 1280, kernel_size=1, bias=False),
            nn.BatchNorm2d(1280),
            nn.SiLU(inplace=True),
            nn.AdaptiveAvgPool2d(1),
            nn.Flatten(),
            nn.Dropout(drop_rate),
            nn.Linear(1280, num_classes)
        )
    
    def forward(self, x):
        x = self.stem(x)
        x = self.blocks(x)
        x = self.head(x)
        return x


In [None]:

device = "cuda" if torch.cuda.is_available() else "cpu"
model = EfficientNetB0Mini().to(device)
print("Modelo creado en", device)



## 5. Inferencia

Ejemplo de inferencia con una imagen de entrada.


In [None]:

transform_infer = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

img_path = "foto.jpg"
if Path(img_path).exists():
    img = Image.open(img_path).convert("RGB")
    x = transform_infer(img).unsqueeze(0).to(device)
    model.eval()
    with torch.no_grad():
        logits = model(x)
        probs = logits.softmax(dim=1)
    print("Shape de salida:", probs.shape)
else:
    print("Coloca una imagen llamada 'foto.jpg' en el directorio actual.")
