# üìå Explicaci√≥n de Gradient-Based Training en Redes Neuronales

## **1Ô∏è‚É£ Definiendo la funci√≥n de p√©rdida**
En una red neuronal, tenemos un conjunto de par√°metros **Œ∏ (pesos y sesgos)** y queremos minimizar una **funci√≥n de p√©rdida** $L(\theta)$. Para una tarea de clasificaci√≥n multiclase, usamos **entrop√≠a cruzada**:

$$
L(\theta) = -\sum_{i=1}^{N} y_i \log(\hat{y}_i)
$$

donde:
- $ y_i $ es la etiqueta real (codificada en one-hot si hay varias clases).
- $ \hat{y}_i $ es la probabilidad predicha por la red (salida de la funci√≥n softmax).

El objetivo es encontrar los pesos $ \theta $ que minimicen $ L(\theta) $.

---

## **2Ô∏è‚É£ C√°lculo del Gradiente y Descenso del Gradiente**
Para minimizar $ L(\theta) $, calculamos su **gradiente**:

$$
\nabla_\theta L(\theta) = \left( \frac{\partial L}{\partial \theta_1}, \frac{\partial L}{\partial \theta_2}, \dots, \frac{\partial L}{\partial \theta_n} \right)
$$

El gradiente indica **la direcci√≥n de m√°ximo aumento de la p√©rdida**. Queremos movernos en la direcci√≥n opuesta:

$$
\theta \leftarrow \theta - \eta \nabla_\theta L(\theta)
$$

donde **$ \eta $ (tasa de aprendizaje)** es un hiperpar√°metro que controla cu√°nto modificamos los pesos en cada paso.

---

## **3Ô∏è‚É£ Backpropagation y actualizaci√≥n de pesos**
Durante el entrenamiento, usamos **backpropagation** para propagar los errores hacia atr√°s a trav√©s de la red:

1. **Capa de salida:**
   - Si usamos **softmax**, la derivada de la p√©rdida respecto a su entrada $ z_i $ es:

     $$
     \frac{\partial L}{\partial z_i} = \hat{y}_i - y_i
     $$

   - Esto indica cu√°nto ajustar cada peso para mejorar la clasificaci√≥n.

2. **Capas ocultas densas:**
   - Aplicamos la **regla de la cadena** para propagar gradientes hacia atr√°s.
   - Si usamos **ReLU** ($ f(z) = \max(0, z) $), su derivada es:

     $$
     f'(z) =
     \begin{cases} 
     1, & \text{si } z > 0 \\
     0, & \text{si } z \leq 0
     \end{cases}
     $$

   - Esto significa que **las neuronas inactivas no contribuyen al ajuste de pesos**.

---

## **4Ô∏è‚É£ Relaci√≥n con EfficientNetB3**
En **transfer learning**, EfficientNet ya tiene caracter√≠sticas aprendidas en **ImageNet**, por lo que:

- Primero **congelamos** las capas base (sus pesos no se actualizan).
- Entrenamos solo las nuevas **capas densas** agregadas.
- Luego, en **fine-tuning**, **descongelamos gradualmente las capas previas** y seguimos optimizando con una tasa de aprendizaje peque√±a.

---

## **üìå Resumen**
‚úÖ **Entrenar una red neuronal** implica minimizar una funci√≥n de p√©rdida usando **descenso del gradiente**.  
‚úÖ **Backpropagation** propaga los gradientes hacia atr√°s para actualizar los pesos.  
‚úÖ En **EfficientNetB3**, primero entrenamos capas nuevas y luego afinamos toda la red.  


In [None]:
#!pip install keras
#!pip install tensorflow_datasets

from tensorflow.keras.applications import EfficientNetB3
from tensorflow.keras.layers import Dense, GlobalAveragePooling2D
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam

In [None]:
num_classes = 4

In [None]:
# Base model
base_model = keras.applications.EfficientNetB3(
    weights='imagenet',  # Load weights pre-trained on ImageNet.
    input_shape=(300, 300, 3), # 300x300 RGB
    include_top=False)  # Do not include the ImageNet classifier at the top.

base_model.trainable = False # base_model running in inference mode

# New model
x = GlobalAveragePooling2D()(base_model.output) # Reduce dimensionalidad del resultado
# layers with 256 and 128 neurons fully connected (Dense()). ReLU para permitir el aprendizaje de relaciones no lineales
# Se suele elegir un decremento en potencias de 2 (por optimizar la utilizacion de GPUs)
x = Dense(128, activation="relu")(x)
x = Dense(256, activation="relu")(x)
# √öltima capa que nos da un array de probabilidades de cada tipo de ave (num_classes)
output = Dense(num_classes, activation="softmax")(x)

# Crear modelo final
model = Model(inputs=base_model.input, outputs=output)

# Ver estructura
model.summary()

In [None]:
# Compilar
model.compile(optimizer=Adam(learning_rate=0.001), loss="categorical_crossentropy", metrics=["accuracy"])