## Integrantes 
- Andre Marroquin
- Joaquin Puente
- Sergio Orellana
- Nelson Garcia


1) **¿En qué casos son útiles estas arquitecturas?**

a) **GoogleNet (Inception)**

Cuándo la usaría:

- Cuando necesito capturar características a múltiples escalas (texturas finas y patrones grandes) en la misma capa.
- Si busco buena precisión con presupuesto de cómputo moderado, por ejemplo en clasificación en la nube con recursos limitados.
- Para reducir parámetros frente a CNNs clásicas profundas (gracias a 1×1 conv y “global average pooling”).

**Por qué:** combina en paralelo conv 1×1, 3×3, 5×5 y pooling dentro de un módulo Inception, y concatena sus salidas; además usa clasificadores auxiliares durante el entrenamiento para estabilizar gradientes. 

<center>

![Google](GoogleNet.png)

</center>

b) **DenseNet (Densely Connected Convolutional Networks)**

Cuándo la usaría:

- Cuando quiero máximo reuso de características y mejor flujo de gradiente (evitar desvanecimiento), útil en datasets medianos/pequeños.
- Si necesito modelos relativamente compactos (sorprendentemente eficientes en parámetros para su profundidad).
- En tareas donde ayuda combinar rasgos de bajo y alto nivel (ej. clasificación, segmentación).

**Por qué:** cada capa recibe como entrada el concat de todas las salidas previas en el bloque denso; las transition layers controlan el crecimiento con 1×1 conv y pooling.

<center>

![DenseNet](DenseNet.png)

</center>

c) **MobileNet**

Cuándo la usaría:

- Para inferencia en dispositivos móviles/embebidos (apps on-device, IoT, robótica con tiempo real).
- Cuando el requisito clave es baja latencia y bajo consumo con una caída mínima de precisión.
- Para despliegues a gran escala donde el costo por consulta importa.

**Por qué:** usa convoluciones separables en profundidad (depthwise + pointwise 1×1) y, en V2/V3, bottlenecks invertidos y ReLU6, logrando grandes ahorros en cómputo y parámetros.

![MobileNet](MobileNet.png)

d) **EfficientNet**

Cuándo la usaría:

- Cuando quiero mejor precisión-eficiencia y además escalar el modelo (pequeño → grande) de forma sistemática.
- En sistemas donde puedo elegir entre variantes B0–B7 según mi presupuesto de FLOPs/memoria.
- Para competir con SOTA en clasificación manteniendo un buen costo.

**Por qué:** introduce el compound scaling (escala coordinadamente profundidad, ancho y resolución) y usa bloques MBConv con Squeeze-and-Excitation (inspirados en MobileNetV2).

<center>

![EfficientNet](EfficientNet.png)

</center>

2) **¿Cómo puedo usar Transformers para image recognition?**

Así lo haría con un Vision Transformer (ViT):

1. Particionar la imagen en parches (p.ej., 16×16), aplanarlos y proyectarlos linealmente para obtener tokens; añado embeddings posicionales.
2. Paso la secuencia por un encoder Transformer (múltiples capas de auto-atención multi-cabeza + MLP + normalizaciones).
3. Prependo un token [CLS] (o equivalente) y su representación final alimenta una capa densa de clasificación.
4. Usar pre-entrenamiento grande y fine-tuning en mi dataset; o variantes híbridas que mezclan CNNs y Transformers cuando quiero inductive bias local con contexto global.

Cuándo lo usaría:

- Cuando necesito contexto global explícito y flexibilidad para múltiples tareas (clasificación, detección, segmentación) sin depender de convoluciones.
- Si dispongo de muchos datos (o técnicas de data-efficient training) y busco escalabilidad del modelo.

# **Referencias**

- GeeksforGeeks. (2025a, June 30). Depth wise Separable Convolutional Neural Networks. GeeksforGeeks. https://www.geeksforgeeks.org/machine-learning/depth-wise-separable-convolutional-neural-networks/ 
- GeeksforGeeks. (2025b, July 15). Understanding GoogLeNet Model CNN Architecture. GeeksforGeeks. https://www.geeksforgeeks.org/machine-learning/understanding-googlenet-model-cnn-architecture/ 
- GeeksforGeeks. (2025c, July 23). DenseNet explained. GeeksforGeeks. https://www.geeksforgeeks.org/computer-vision/densenet-explained/ 
- GeeksforGeeks. (2025d, July 23). EfficientNet Architecture. GeeksforGeeks. https://www.geeksforgeeks.org/computer-vision/efficientnet-architecture/ 
- GeeksforGeeks. (2025e, July 23). Mobilenet V2 Architecture in Computer Vision. GeeksforGeeks. https://www.geeksforgeeks.org/computer-vision/mobilenet-v2-architecture-in-computer-vision/ 
- GeeksforGeeks. (2025f, July 23). Vision Transformer in Computer vision. GeeksforGeeks. https://www.geeksforgeeks.org/computer-vision/vision-transformer-in-computer-vision/ 
- GeeksforGeeks. (2025g, July 23). Vision Transformers (VIT) in image recognition. GeeksforGeeks. https://www.geeksforgeeks.org/computer-vision/vision-transformers-vit-in-image-recognition/