# 📌 Explicación de Gradient-Based Training en Redes Neuronales

## **1️⃣ Definiendo la función de pérdida**
En una red neuronal, tenemos un conjunto de parámetros **θ (pesos y sesgos)** y queremos minimizar una **función de pérdida** $L(\theta)$. Para una tarea de clasificación multiclase, usamos **entropía cruzada**:

$$
L(\theta) = -\sum_{i=1}^{N} y_i \log(\hat{y}_i)
$$

donde:
- $ y_i $ es la etiqueta real (codificada en one-hot si hay varias clases).
- $ \hat{y}_i $ es la probabilidad predicha por la red (salida de la función softmax).

El objetivo es encontrar los pesos $ \theta $ que minimicen $ L(\theta) $.

---

## **2️⃣ Cálculo del Gradiente y Descenso del Gradiente**
Para minimizar $ L(\theta) $, calculamos su **gradiente**:

$$
\nabla_\theta L(\theta) = \left( \frac{\partial L}{\partial \theta_1}, \frac{\partial L}{\partial \theta_2}, \dots, \frac{\partial L}{\partial \theta_n} \right)
$$

El gradiente indica **la dirección de máximo aumento de la pérdida**. Queremos movernos en la dirección opuesta:

$$
\theta \leftarrow \theta - \eta \nabla_\theta L(\theta)
$$

donde **$ \eta $ (tasa de aprendizaje)** es un hiperparámetro que controla cuánto modificamos los pesos en cada paso.

---

## **3️⃣ Backpropagation y actualización de pesos**
Durante el entrenamiento, usamos **backpropagation** para propagar los errores hacia atrás a través de la red:

1. **Capa de salida:**
   - Si usamos **softmax**, la derivada de la pérdida respecto a su entrada $ z_i $ es:

     $$
     \frac{\partial L}{\partial z_i} = \hat{y}_i - y_i
     $$

   - Esto indica cuánto ajustar cada peso para mejorar la clasificación.

2. **Capas ocultas densas:**
   - Aplicamos la **regla de la cadena** para propagar gradientes hacia atrás.
   - Si usamos **ReLU** ($ f(z) = \max(0, z) $), su derivada es:

     $$
     f'(z) =
     \begin{cases} 
     1, & \text{si } z > 0 \\
     0, & \text{si } z \leq 0
     \end{cases}
     $$

   - Esto significa que **las neuronas inactivas no contribuyen al ajuste de pesos**.

---

## **4️⃣ Relación con EfficientNetB3**
En **transfer learning**, EfficientNet ya tiene características aprendidas en **ImageNet**, por lo que:

- Primero **congelamos** las capas base (sus pesos no se actualizan).
- Entrenamos solo las nuevas **capas densas** agregadas.
- Luego, en **fine-tuning**, **descongelamos gradualmente las capas previas** y seguimos optimizando con una tasa de aprendizaje pequeña.

---

## **📌 Resumen**
✅ **Entrenar una red neuronal** implica minimizar una función de pérdida usando **descenso del gradiente**.  
✅ **Backpropagation** propaga los gradientes hacia atrás para actualizar los pesos.  
✅ En **EfficientNetB3**, primero entrenamos capas nuevas y luego afinamos toda la red.  


In [None]:
#!pip install keras
#!pip install tensorflow_datasets

from tensorflow.keras.applications import EfficientNetB3
from tensorflow.keras.layers import Dense, GlobalAveragePooling2D
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam

In [None]:
num_classes = 4

In [None]:
# Base model
base_model = keras.applications.EfficientNetB3(
    weights='imagenet',  # Load weights pre-trained on ImageNet.
    input_shape=(300, 300, 3), # 300x300 RGB
    include_top=False)  # Do not include the ImageNet classifier at the top.

base_model.trainable = False # base_model running in inference mode

# New model
x = GlobalAveragePooling2D()(base_model.output) # Reduce dimensionalidad del resultado
# layers with 256 and 128 neurons fully connected (Dense()). ReLU para permitir el aprendizaje de relaciones no lineales
# Se suele elegir un decremento en potencias de 2 (por optimizar la utilizacion de GPUs)
x = Dense(128, activation="relu")(x)
x = Dense(256, activation="relu")(x)
# Última capa que nos da un array de probabilidades de cada tipo de ave (num_classes)
output = Dense(num_classes, activation="softmax")(x)

# Crear modelo final
model = Model(inputs=base_model.input, outputs=output)

# Ver estructura
model.summary()

In [None]:
# Compilar
model.compile(optimizer=Adam(learning_rate=0.001), loss="categorical_crossentropy", metrics=["accuracy"])