# <b> 1. Dense Neural Network (ANN) model in Keras </b>

Una Red Neuronal Densa (ANN – Artificial Neural Network) es el tipo más simple de red neuronal artificial.
Está compuesta por capas totalmente conectadas, donde cada neurona de una capa se conecta con todas las neuronas de la siguiente.
Se utiliza en problemas de clasificación, regresión o predicción, donde los datos de entrada pueden representarse como vectores de características. (datos estructurados)

#### <b>Estructura básica de una red neuronal densa</b>

Una arquitectura de red neuronal densa consta de cuatro partes principales:

* Capa de entrada (Input layer): recibe los datos iniciales.

* Capas ocultas (Hidden layers): realizan transformaciones no lineales.

* Capa de salida (Output layer): genera la predicción final.

## Librerias necesarias

Antes de comenzar a construir una red neuronal, debemos importar las librerías esenciales para definir, entrenar y analizar el modelo.
Estas librerías cubren distintos aspectos: modelado, preprocesamiento, visualización y optimización.

In [None]:
import tensorflow as tf                                     # Framework principal
from tensorflow.keras import layers, models, optimizers     # Definición y compilación de modelos
from tensorflow.keras import callbacks                      # Herramientas de control durante el entrenamiento
import numpy as np                                          # Operaciones numéricas y arrays
import pandas as pd                                         # Manejo de datasets estructurados (CSV, DataFrames)
import matplotlib.pyplot as plt                             # Visualización de métricas y resultados
from sklearn.model_selection import train_test_split        # División del dataset en train/test
from sklearn.preprocessing import StandardScaler            # Normalización y escalado de variables numéricas
import keras_tuner as kt                                    # Búsqueda automática de hiperparámetros

## 1.1 Fase de Construcción
La construcción del modelo consiste en definir la arquitectura de la red neuronal, es decir, su estructura interna:
qué capas tendrá, cuántas neuronas incluirá y qué funciones de activación aplicará.

### 1.1.1. Capa de entrada

La capa de entrada define la forma de los datos que el modelo recibirá. No realiza cálculos ni activaciones, solo distribuye la información hacia las capas ocultas.

con la API Funcional

```python
inputs = layers.Input(shape=(n_features,), name='input_layer')
```

Con la API Secuencial:

```python
model = models.Sequential()
model.add(layers.Input(shape=(n_features,), name='input_layer'))
```

### 1.1.2. Capas ocultas (Hidden Layers)

Las capas ocultas son el núcleo de la red neuronal. Cada neurona combina las entradas mediante una suma ponderada más un sesgo (bias), y aplica una <b>función de activación</b> que introduce no linealidad, permitiendo a la red aprender relaciones complejas.

con la API Funcional:

```python
hidden_1 = layers.Dense(units=128, activation='relu', name='hidden_1')(inputs)
hidden_2 = layers.Dense(units=64, activation='relu', name='hidden_2')(hidden_1)
```

Con la API Secuencial
```python
model.add(layers.Dense(128, activation='relu', name='hidden_1'))
model.add(layers.Dense(64, activation='relu', name='hidden_2'))
```


#### Funciones de activación en capas ocultas

Las funciones de activación son parte estructural de las capas ocultas. Sin ellas, la red sería equivalente a una regresión lineal.

Encontramos las siguientes funciones de activación:

``ReLU (Rectified Linear Unit)``
- Fórmula: `f(x) = max(0, x)`  
- Evita el problema del gradiente desvanecido y acelera el entrenamiento.  
- Uso típico: capas ocultas (la más utilizada).
- Ejemplo de caso de uso: En un modelo de regresión para predecir precios de viviendas,.

Con la API Funcional
```python
x = layers.Dense(128, activation='relu')(inputs)
x = layers.Dense(64, activation='relu')(x)
```

Con la API Secuencial
```python
layers.Dense(128, activation='relu', name='hidden_1'),
layers.Dense(64, activation='relu', name='hidden_2'),
```


### 1.1.3. Capa de salida (Output Layer)

La capa de salida produce la predicción final del modelo. Su número de neuronas y función de activación depende del tipo de problema que se quiera resolver.

#### Funciones de activación en capas de salida (Output Layers)

##### <b> Clasificación binaria </b>
`Sigmoid`

* Devuelve valores entre 0 y 1.

* Se utiliza para estimar la probabilidad de pertenecer a una clase.

* Se combina con la función de pérdida binary_crossentropy.

* Ejemplo: Clasificar correos como spam (1) o no spam (0).

con la API Funcional
```python
output = layers.Dense(1, activation='sigmoid', name='output')(x)
````

con la API Secuencial
```python
layers.Dense(1, activation='sigmoid', name='output')
````

##### <b> Clasificaión multiclase </b>

``Softmax ``

* Convierte las salidas en probabilidades que suman 1.

* Cada neurona representa una clase distinta.

* Se combina con la función de pérdida categorical_crossentropy.

* Ejemplo: Clasificación de flores en tres categorías (setosa, versicolor, virginica).

con la API Funcional
```python
output = layers.Dense(numero de clases, activation='softmax', name='output')(x)
````

con la API Secuencial
```python
layers.Dense(numero de clases, activation='softmax', name='output')
````

##### <b> Regresión</b>

`Tanh` (Tangente hiperbólica) o Linear

* Devuelve valores entre -1 y 1, útil si los valores objetivo están normalizados.

* Se combina con funciones de pérdida como mse o mae.

* Ejemplo: Predicción de un valor continuo previamente normalizado a [-1, 1].

con la API Funcional
```python
output = layers.Dense(1, activation='tanh', name='output')(x)

````

con la API Secuencial
```python
layers.Dense(1, activation='tanh', name='output')
````
`linear`(sin activación)
* No aplica ninguna función de activación, por lo que la salida puede tomar cualquier valor real (positivo o negativo).
* Es la opción más común en problemas de regresión, donde el modelo debe predecir valores continuos sin límite.
* Se combina habitualmente con funciones de pérdida como MSE (mean squared error) o MAE (mean absolute error).
* Ejemplo: Predicción del precio de una vivienda o temperatura.

con la API Funcional
```python
output = layers.Dense(1, activation='linear', name='output')(x)
````

con la API Secuencial
```python
layers.Dense(1, activation='linear', name='output')
````


### 1.1.4. Construcción completa del modelo.

In [None]:
# API funcional
inputs = layers.Input(shape=(10,), name='input')
x = layers.Dense(128, activation='relu', name='hidden_1')(inputs)
x = layers.Dense(64, activation='relu', name='hidden_2')(x)
output = layers.Dense(3, activation='softmax', name='output')(x)

model = models.Model(inputs=inputs, outputs=output, name='ANN_model')
model.summary()

In [None]:
# API Secuencial:
model = models.Sequential([
    layers.Input(shape=(10,)),
    layers.Dense(128, activation='relu', name='hidden_1'),
    layers.Dense(64, activation='relu', name='hidden_2'),
    layers.Dense(3, activation='softmax', name='output')
])
model.summary()

## 1.2 Fase de compilación

Una vez construida la arquitectura de la red neuronal (definidas las capas, sus funciones de activación y conexiones), el siguiente paso es compilar el modelo.

Durante la compilación, se especifica cómo el modelo va a aprender. Para ello, se definen tres elementos esenciales:

1. La función de péridda (loss): indica qué mide el modelo y qué debe minimizar
2. El opimizador (optimizer): indica cómo se actualizan los pesos para reducir la pérdida.
3. Las métricas (metrics): sirven para moniotirizar el rendimiento durante el entrenamiento, pero no afectan al aprendizaje.

### <b>Función de pérdida (loss)</b>

La función de pérdida mide la diferencia entre las predicciones del modelo y los valores reales. El objetivo del entrenamiento es minizimar esta función.

Dependiendo del tipo de problema, se usa una función diferente:

<b> Classificación binaria </b>

* Activación de salida: `sigmoid`
* Función de pérdida: `binary_crossentropy`

```python
model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)
```

<b> Clasificación multiclase </b>

* Activación de salida: `softmax`
* Pérdida:`categorical_crossentropy` (si las etiquetas están codificadas en one-hot) o `sparse_categorical_crossentropy` (si las etiquetas son enteras)
```python
model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)
```

<b> Regresión
* Activación de salida: `linear`
* Pérdida: `mse`(eror cuadrático medio) o `mae`(arror absoluto medio)

```python
model.compile(
    optimizer='adam',
    loss='mse',       # o 'mae'
    metrics=['mae']
)

```


### <b> Optimizador </b>

El optimizador define cómo se ajustan los pesos del modelo en cada iteración.
Su función es minimizar la pérdida mediante el descenso del gradiente u otros métodos adaptativos.

Los más comunes son:

* `sgd`: Gradiente descendente estocástico
```python
model.compile(optimizer='sgd', loss='mse', metrics=['mae'])
```
* `adam`: Método adaptativo, rápido y estable (recomendado por defecto)
```python
model.compile(optimizer='adam', loss='mse', metrics=['mae'])
```
* `rmsprop`: Ideal para redes recurrentes o datos no estacionarios
```python
model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])
```

### <b> Métricas (metrics) </b>

Las métricas permiten evaluar el rendimiento del modelo durante el entrenamiento y la validación. No influeyn en el proceso de optimización, solo sirven como referencia.

Ejemplos:

* `accuracy`: Clasificación (binaria o multiclase): Mide el porcentaje de aciertos
```python
model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)
```
* `mae`: Regresión: Mide el promedio del valor absoluto de los errores
```python
model.compile(
    optimizer='adam',
    loss='mse',          # pérdida puede ser MSE
    metrics=['mae']      # seguimiento del error medio absoluto
)
```
* `mse`: Regresión: Calcula el promedio de los errores al cuadrado, por lo que penaliza más los errores grandes.
```python
model.compile(
    optimizer='adam',
    loss='mse',        # pérdida igual que la métrica
    metrics=['mse']
)
```

## 1.3 Fase de entrenamiento

Una vez que el modelo ha sido construido (definición de capas y activación) y compilado (selección de la función de pérdida, el optimizador y las métricas), llega el momento clave: la fase de entrenamiento.

Durante esta estapa, el modelo aprende de los datos, ajustando sus pesos internos para minimizar la función de pérdida definida en la fase de compilación.

### <b> Objetivo del entrenamiento </b>

El objetivo principal del entrenamiento es minimizar la pérdida (`loss`). Para ello, el modelo repite un cilo de pasos en cada época (`epoch`):

1. Realiza predicciones sobre los datos de entrenamienot.
2. Calcula el error (pérdida) entre las predicciones y los valores reales,.
3. Ajusta los pesos mediante el optimizador para reducir ese error.
4. Evalúa el rendimiento con los datos de validación (si se han definido)

### <b> Método </b>`model.fit()`

En keras, el entrenamiento se realiza con el método `fit()`, que ajusta el modelo a los datos de entrada.

```python
history = model.fit(
    x_train, y_train,      # Datos de entrenamiento
    epochs=20,             # Número de iteraciones completas sobre los datos
    batch_size=32,         # Tamaño de cada lote de entrenamiento
    validation_split=0.2,  # Porcentaje de datos usados para validación
    verbose=1              # Nivel de detalle del entrenamiento
)
```

### <b> Parámetros principales </b>

* `epochs`: número de veces que el modelo procesa todo el conjunto de entrenamiento. *Auméntalo si el modelo aún no ha aprendido lo suficiente (la pérdida sigue bajando);
redúcelo si el modelo empieza a sobreajustar (la pérdida de validación empeora).*
* `batch_size`: número de muestras procesadas antes de actualizar los pesos del modelo. *Auméntalo si el entrenamiento es inestable o tienes muchos datos y buena memoria;
redúcelo si el modelo no generaliza bien o el hardware es limitado.*
* `validation_split`: fracción del conjunto de entrenamiento reservada para validación (opcional). *Auméntalo si dispones de muchos datos y quieres una validación más fiable;
redúcelo si el conjunto de entrenamiento es pequeño y necesitas más muestras para aprender.*
* `validation_data`: alternativa a `validation_split`, permite especificar manualmente un conjunto `(x_val, y_val)`. *Auméntalo si dispones de muchos datos y quieres una validación más fiable;
redúcelo si el conjunto de entrenamiento es pequeño y necesitas más muestras para aprender.*
* `verbose`: controla la salida del proceso (0=silencio, 1=barra de progreso, 2=resumen por época). *Ponlo en 1 (barra de progreso) para entrenamientos normales y seguimiento visual;
úsalo en 2 si solo quieres un resumen por época (entrenamientos largos o en notebooks);
ponlo en 0 cuando no necesites mostrar información (por ejemplo, en ejecuciones automatizadas).*

### <b> Objeto </b>

El método `fit()` devuelve un objeto llamado `history`, que guarda la evolución de las métricas durante el entrenamiento y validación.

Este objeto se utiliza posteriormente para analizar el rendimiento del modelo.

```python
print(history.history.keys())
# Ejemplo de salida: dict_keys(['loss', 'accuracy', 'val_loss', 'val_accuracy'])
```

## 1.4 Fase de evaluación

Una vez que el modelo ha sido entrenado, el siguiente paso consiste en evaluar su rendimiento. El objetivo de esta fase es comprobar cómo se comporta el modelo con daatos que no ha visto durante el entrenamiento, es decir, su capacidad de generalización.

### <b> Objeto de la evaluación </b>

Durante el entrenamiento, el modelo mejora ajustando sus pesos para minimizar la función de péridda. Sin embargo, un modelo puede aprender demasiado bien los datos de entrenamiento ( fenómeno conocido como <b>overfitting</b>), perdiendo capacidad para generalizar.

Por eso, en esta fase se evalúa el modelo sobre un conjunto de datos de prueba (test) o de validación no usados durante el entrenamiento,

#### <b> Método `model.evaluate()`

Keras proporciona el método `evaluate()`  para medir la pérdida y las métricas definidas en la compilación.

```python
results = model.evaluate(X_test,
                        y_test, # Datos de prueba
                        verbose=1) # Nivel de detalle de la salida
print('Test Loss:', results)
```

### <b> Visualización del entrenamiento </b>

El objeto `history` devuelto por el `model.fit()` contiene el registro del proceso de aprendizaje. podemos usarlo para visualizar cómo evolucionaron la pérdida y la precisión a lo largo de las épocas. Aplicando la siguiente formula veremos el gráfico.

```python
def show_loss_evolution(history):
  hist = pd.DataFrame(history.history)
  hist['epoch'] = history.epoch

  plt.figure(figsize=(12,6))

  plt.xlabel('Epoch')
  plt.ylabel('MSE')
  plt.plot(hist['epoch'],hist['loss'],label='Train Error')
  plt.plot(hist['epoch'],hist['val_loss'],label='Val Error')
  plt.grid()
  plt.legend()
  plt.show()
```

Interpretación:

| **Patrón observado** | **Interpretación** | **Posible acción** |
|------------------------|--------------------|--------------------|
| Ambas bajan y se estabilizan | Aprendizaje correcto | Mantener configuración |
| `loss ↓` pero `val_loss ↑` | Overfitting | Aplicar `Dropout`, `EarlyStopping` o regularización (`L1`/`L2`) |
| Ambas altas y sin mejora | Underfitting | Aumentar épocas, añadir neuronas o ajustar la tasa de aprendizaje |
| Curvas inestables | Entrenamiento irregular | Ajustar `batch_size` o normalizar los datos |

## 1.5 Fase de mejora

Una vez evaluado el modelo, el siguiente paso consiste en mejorar su rendimiento y capacidad de generalización.
Esta fase busca evitar que el modelo memorice los datos de entrenamiento (overfitting) y ajustar sus hiperparámetros para obtener la mejor configuración posible.

### <b>1.5.1 Prevención del Overfitting</b> *Regularización*
El overfitting se produce cuando el modelo aprende demasiado los datos de entrenamiento, incluyendo su ruido, y pierde capacidad para generalizar a nuevos datos.

En esta situación, el error de entrenamiento (`loss`) sigue bajando mientras el error de validación (`val_loss`) empieza a subir.

Las principales técnicas aplicadas para prevenirlo son las siguientes:

#### a) <b>Reducción del `batch_size`</b>

Reducir el tamaño del *batch* introduce más variabilidad (ruido) en las actualizaciones de los pesos, lo que mejora la capacidad de generalziación y reduce el sobreajuste.

```python
history = model.fit(
    x_train, y_train,
    epochs=50,
    batch_size=16,        # Tamaño de lote reducido
    validation_split=0.2,
    verbose=1
)
```

Cuándo usarlo:
Cuando el modelo sobreajusta y las curvas loss y val_loss se separan mucho.

#### <b> b) Dropout </b>

El Dropout "apaga" aleatoriamente un porcentaje de neuronas durante el entrenamiento. Esto impide que el modelo dependa excesivamente de conexiones específicas y mejora su capacidad de generalización.

```python
from tensorflow.keras import layers, models

model = models.Sequential([
    layers.Input(shape=(10,)),
    layers.Dense(128, activation='relu'),
    layers.Dropout(0.3),  # desactiva el 30% de las neuronas
    layers.Dense(64, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])
```

Cuándo usarlo:
Cuando el modelo muestra buen rendimiento en entrenamiento pero bajo en validación.

#### <b>c) Batch Normalization </b>

La Batch Normalization normaliza las activaciones intermedias dentro del modelo, lo que estabiliza el entrenamiento y permite usar tasas de aprendizaje más altas sin divergencias.


```python
from tensorflow.keras import layers, models

model = models.Sequential([
    layers.Input(shape=(10,)),
    layers.Dense(128, activation='relu'),
    layers.BatchNormalization(),  # normaliza las activaciones
    layers.Dense(64, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])
```

Cuándo usarlo:
Cuando el entrenamiento es inestable o la pérdida oscila entre épocas.

#### <b> d) Layer Normalization</b>
 La Layer Normalization normaliza las activaciones a nivel de muestra (no por batch). Es útil cuando el tamaño de batch es pequeño o variable.

```python
from tensorflow.keras.layers import LayerNormalization

model = models.Sequential([
    layers.Input(shape=(10,)),
    layers.Dense(128, activation='relu'),
    LayerNormalization(),  # normalización por muestra
    layers.Dense(64, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])
```

Cuándo usarlo:
Cuando el tamaño del batch es muy pequeño o la red presenta inestabilidad (las métricas (como la pérdida loss o la precisión accuracy) suben y bajan de forma irregular).

#### <b> e) Regularización L1, L2 y Elastic Net</b>

Las téncias de regularización penalizan los pesos grandes añadiendo un término a la fundión de pérdida. Esto ayuda a mantener el modelo más simple y menos propenso al overfitting.

```python
from tensorflow.keras import regularizers

# Regularización L1
layers.Dense(64, activation='relu', kernel_regularizer=regularizers.l1(0.001))

# Regularización L2
layers.Dense(64, activation='relu', kernel_regularizer=regularizers.l2(0.001))

# Regularización Elastic Net (L1 + L2)
layers.Dense(64, activation='relu', kernel_regularizer=regularizers.l1_l2(l1=0.001, l2=0.001))
```

Cuándo usarlo:
Cuando el modelo tiene muchos parámetros o hay riesgo de sobreajuste.

#### <b> f) Early Stopping </b>

El Early Stopping es una téncica que detiene automáticamente el entrenamiento cuando el modelo deja de mejorar el conjunto de validación. Su oobjetivo es evitar el sobreajuste y ahorrar tiempo de entrenamiento innecesario.

*Funcionamiento*: Durante el entrenamiento, Keras monitoriza una métrica (por ejemplo, val_loss).
Si esa métrica no mejora después de varias épocas consecutivas, el entrenamiento se detiene y, opcionalmente, se restauran los pesos del mejor punto alcanzado.

```python
from tensorflow.keras.callbacks import EarlyStopping

# Definimos el callback de Early Stopping
early_stop = EarlyStopping(
    monitor='val_loss',         # métrica a observar
    patience=5,                 # nº de épocas sin mejora antes de detener
    restore_best_weights=True,  # vuelve a los mejores pesos
    verbose=1
)

# Entrenamiento con Early Stopping
history = model.fit(
    x_train, y_train,
    epochs=100,
    batch_size=32,
    validation_split=0.2,
    callbacks=[early_stop],
    verbose=1
)
```

Parametros princiaples:

* `monitor`:Métrica a vigilar (``val_loss``, ``val_accuracy``, etc.)
* `patience`: Número de épocas que puede pasar sin mejora antes de parar
* `restore_best_weights`: Si es ``True``, recupera automáticamente los pesos con mejor rendimiento
* `mode`: Determina si se busca minimizar o maximizar la métrica (``min`` o ``max``)

### <b>1.5.2 Ajuste de Hiperparámetros (Hyperparameter Tunning) </b> *Optimización*
Los hiperparámetros son valores que determinan cómo se entrena el modelo y no se aprenden automáticamente.

Ejemplos: número de neuronas, tasa de aprendizaje, número de capas, función de activación, etc.

Ajustarlos correctamente puede marcar una gran diferencia en el rendimiento del modelo.

Técnicas de ajuste:

#### <b>a) Búsqueda manual </b>

Consiste en probar diferentes configuraciones y observar el rendimiento del modelo en valdiación. Es la forma más simple pero también la más lenta.

Cuándo usarlo:
Para exploraciones rápidas o cuando los recursos de cómputo son limitados.

#### <b> b) Ajuste automático con Keras Tuner </b>

La librería Keras Tuner permite explorar automáticamente diferentes combinaciones de hiperparámetros y encontrar la configuración óptima.

Entendiendo las diferentes estrategias de tuneo:

Keras Tuner nos ofrece 4 principales tecnicas de optimización de hiperparámetros:

1. RandomSearch
    * Como funciona: Selecciona aleatoriamente muestras del espacio de hiperarámetros
    * Pros: Simple, fácilmente paralelizable, no hace suposiciones sobre la importancia de los parámetros
    * Cons: Puede ser ineficiente en espacios de búsqueda grandes.
    * Mejor para: exploración incial o cuando se sabe pcoo sobre el espacio de hiperparámetros.

2. Hyperband
    * Como funciona: Asigna recursos (epochs) de forma dinámica, descartando rápidamente los modelos con bajo rendimiento.
    * Pros: Más eficiente que la búsqueda aleatoria, especialmente para redes profundas
    * Cons: más complejo de configurar correctamente.
    * Mejor para: Cuando el entrenamiento es computacionalmente costoso y se quiere equilibrarexploración vs explotación.

3. BayesianOptimizatipon
    * Como funciona: construe un modelo de probabilidad de la función objetivo y lo usa para seleccionar hiperparámetros
    * Pros: uso más eiciente de los recursos, aprende de evaluaciones previas.
    * Cons: más compleo, requiere mayor costo computacional en cada iteración
    * Mejor para: cuando la evaluación es costosa y se tiene un espacio de búsqueda moderado.

4. Sklearn
    * Como funciona: interfaz para los métodos de búsqueda de hiperparámetros de scikit-learn.
    * Pros: API familiar para quienes provienen de scikit-learn.
    * Cons: limitado a las capacidades de ajuste de hiperparámetors de scikit-learn.
    * Mejor para: cuando se integra con pipelines existentes de scikit-learn.

```python
import keras_tuner as kt
from tensorflow.keras import layers, models

# Definición del modelo adaptable
def build_model(hp):
    model = models.Sequential()
    model.add(layers.Input(shape=(10,)))
    
    # Número de unidades variable
    model.add(layers.Dense(
        units=hp.Int('units', min_value=32, max_value=256, step=32),
        activation='relu'
    ))
    
    # Tasa de aprendizaje variable
    hp_learning_rate = hp.Choice('learning_rate', values=[1e-2, 1e-3, 1e-4])
    model.compile(
        optimizer=tf.keras.optimizers.Adam(learning_rate=hp_learning_rate),
        loss='mse',
        metrics=['mae']
    )
  return model

# Búsqueda aleatoria de combinaciones
tuner = kt.RandomSearch(
    build_model,
    objective='val_mae',
    max_trials=5,
    directory='tuning_results',
    project_name='Regression_Tuning'
)

# Ejecución del tuning
tuner.search(x_train, y_train, epochs=20, validation_split=0.2)

```

## 1.6. Fase de producción



# <b> 2. Convolutional Neural Network (CNN) model in Keras </b>

Una Red Neuronal Convolucional (CNN) es uun tipo de red neuronal diseñada para trabajar con datos que presentan estructura espacial, como imágenes o señales. Emplea filtros (kernales) que se deslizan sobre la entrada para extraer automáticmanete características relevantes, desde patrones simples hasta representaciones más complejas. Se utiliza principalmente en tareas de clasificación y reconocimiento de imágenes, detección, segmentación y, en general visión por computador.

#### <b> Estrucutra básica de una red neuronal convolucional </b> ####

Una arquitectura de red neuronal convolucional consta de las siguientes partes principales:

* Capa de entrada (Input Layer): recibe el tensor de los datos de entrada (por ejemplo, una imagen con dimesniones alto x ancho x canales).

* Capas concolucionales (Convolutional Layers): aplican filtros que extraen características locales (bordes, texturas, formas), generando mapas de características.

* Capas de reducción espacial (Pooling Layers): reducen la dimensión espacial de los mapas de características para disminuir parámetros y controalr el sobreajuste.

* Capa de aplanado o agregación global (FLatten / GlobalAveragePolling): transforma los mapas de características en un vector de características o realiza un promedio global por canal.

* Capas Densas (Fully connected Layers): combina las características extraídas para aprender relaciones de mayor nivel.

* Capa de salida (Output layer): Produce la predicción final.

## Librerías necesarias

Antes de comenzar a construir una red neuronal, debemos importar las librerías esenciales para definir, entrenar y analizar el modelo. Estas librerías cubren distintos aspectos: modelado, preprocesamiento, visualización y optimización.

In [None]:
# TensorFlow y Keras: construcción y entrenamiento del modelo
import tensorflow as tf
from tensorflow.keras import datasets, layers, models
from tensorflow.keras.preprocessing.image import ImageDataGenerator  # para data augmentation

# NumPy: operaciones matemáticas y manejo de arreglos numéricos
import numpy as np

# Matplotlib: visualización de imágenes, resultados y métricas
import matplotlib.pyplot as plt

# Scikit-learn: métricas adicionales de evaluación (precisión, matriz de confusión, etc.)
from sklearn.metrics import classification_report, confusion_matrix

## 2.1 Fase de construcción

En esta fase se define la arquitectura de la red neuronal convolucional, es decir, la secuencia de capas que la componen y la forma en la que se conectan entre sí. Cada capa tiene una función específica dentro del modelo, y juntas permiten que la red aprenda las características más relefantes de los datos.

A continuación se describen las capas mas counes utilizadas en la construcción de una CNN.

### <b> 2.1.1. Capa de entrada (Input Layer) </b>

(NOTA: Esta capa no utiliza función de activación)

La capa de entrada define la forma de los datos que recibe el modelo. En las CNN, los datos de entrada se representan como tensores tridimensionales con las dimensiones (alto,ancho,canales).

Por ejemplo, una imagen RGB de 32x32 píeles tiene forma de (32,32,3).

Parámetros principales:

* shaepe: dimensiones del tensor de entrada (alto,ancho,canales).
* name: nomdre identificador de la capa (opcional).

API Funcional

```python
inputs = layers.Input(shape=(32, 32, 3), name='input_layer')
````

API Secuencial

```python
model = models.Sequential()
model.add(layers.Input(shape=(32, 32, 3), name='input_layer'))
````


### <b> 2.1.2 Capas Convolucionales (Convolutional Layers) </b>

Las capas convolucionales son el núclo de una CNN.

Aplican filtros (kernels) que se desplazan sobre la imagen para extraer características locals como bordes, texturas o formas.

Cada filtro genera un mapa de características (feature map) que resalta la presencia de un patrín concreto.

<b>Parámetros principales:</b>

* `filters:` número de filtros o mapas de características.
* `kernel_size:` tamaño del filtro (por ejemplo, (3,3)).
* `strides:` paso de desplazamiento del filtro.
* `padding:` ``valid`` (sin relleno) o ``same`` (mantiene el tamaño)
* `activation:` función de activación utilizada (por ejemplo, ``relu``).
* `name:` nombre de la capa (opcional).

API Funcional

```python
x = layers.Conv2D(filters=32, kernel_size=(3,3), activation='relu',
                  padding='same', name='conv_1')(inputs)
x = layers.Conv2D(filters=64, kernel_size=(3,3), activation='relu',
                  padding='same', name='conv_2')(x)
````

API Secuencial

```python
model.add(layers.Conv2D(32, (3,3), activation='relu', padding='same', name='conv_1'))
model.add(layers.Conv2D(64, (3,3), activation='relu', padding='same', name='conv_2'))
````

<b>Funciones de activación </b>

* `ReLU`: la más utilizada en CNN. Ideal para clasificación de imágenes generales (por ejemplo, CIFAR-10 o MNIST).
* `LeakyReLU`: alternativa cuando hay riesgo de que muchas neuronas queden inactivas (problema de “ReLU muerta”).
* `ELU`: útil en modelos más profundos, mejora la convergencia manteniendo valores negativos pequeño
* `Tanh`: poco común en CNN modernas, pero útil si los datos están centrados entre -1 y 1 (por ejemplo, imágenes normalizadas).


### <b>2.1.3 Capas de reducción espacial (Polling Layers)</b>
(NOTA: estas capas no utilizan función de activación)

Las capas de *pooling* reducen el tamaño espacial de los mapas de características, conservando la información más importante.

Esto disminuye la complejidad computacional y ayuda a evitar el sobreajuste.

<b>Tipos más comunes:</b>

* `MaxPooling2D`: selecciona el valor máximo en cada región (más iusado en clasificación).
* `AveragePooling2D`: calcula el promedio de los valores (útil cuando se busca suavizar ruido).

<b>Parámetros princiaples:</b>

* `pool_size`:= tamaño de la ventana (por ejemplo, (2,2))
* `strides`: desplazamiento (por defecto igual a `pool_size`).
* `padding`: 'valid' o 'same'.
* `name`: nombre de la capa.

API Funcional

```python
x = layers.MaxPooling2D(pool_size=(2,2), name='pool_1')(x)
````

API Secuencial

```python
model.add(layers.MaxPooling2D((2,2), name='pool_1'))
````



### <b> 2.1.4. Capa de aplanado (Flatten Layer</b>
(NOTA: esta capa no utiliza función de activación)

Convierte los mapas de característicasbidimensionales en un vector unidminensional, para conectar las capas conolucionales con las capas desas finales.

API Funcional

```python
x = layers.Flatten(name='flatten')(x)
````

API Secuencual

```python
model.add(layers.Flatten(name='flatten'))
````


### <b>2.1.5. Capas densas (Fully Connected Layers) </b>

las capas densas combinan las características extraídas por las capas convolucionales.
Cada neurona se cpnecta con toas las neuronas de la capa siguiente, lo que permite al modelo aprender relaciones de alto nivel.

<b>Parámetros principales</b>

* `units`: número de neuronas
* `activation`: función de activación utilizada
* `name`: nombre de la capa

API Funcional

```python
x = layers.Dense(units=64, activation='relu', name='dense_1')(x)
````

API Secuencial

```python
model.add(layers.Dense(64, activation='relu', name='dense_1'))
````

<b>Funciones de activación</b>

* `ReLU`: opción general para capas ocultas intermedias. Ejemplo: clasificación de imágenes en varias clases.
* `Tanh`: útil cuando los datos o las salidas intermedias están centrados en 0 (por ejemplo, embeddings normalizados).
* `Sigmoid`: rara en capas ocultas, pero útil si se desea una salida intermedia entre 0 y 1 (por ejemplo, probabilidad parcial en modelos autoencoder).
* `ELU`: recomendable en modelos más profundos donde ReLU pueda saturarse.

### 2.1.6. Capa de salida (Ouput Layer)

la capa de salida genera la predicción final del modelo.

El número de neuronas y la función de activación dependen del tipo de problema que se quiera resolver.

<b>Funciones de activación </b>


| **Tipo de tarea**              | **Ejemplo**                                 | **Activación**             | **Cuándo usarla**                                                                 |
|--------------------------------|---------------------------------------------|-----------------------------|----------------------------------------------------------------------------------|
| **Clasificación binaria**      | Imagen con o sin gato                       | `Sigmoid`                  | Cuando hay solo dos clases posibles. Devuelve una probabilidad entre 0 y 1.     |
| **Clasificación multiclase**   | CIFAR-10 (10 categorías)                    | `Softmax`                  | Cuando las clases son excluyentes (una sola categoría por imagen).              |
| **Clasificación multietiqueta**| Imagen con varias etiquetas posibles        | `Sigmoid` *(una por clase)* | Cuando una imagen puede pertenecer a más de una clase (por ejemplo, “perro” y “exterior”). |
| **Regresión**                  | Predicción de coordenadas o valores continuos| `Linear / Tanh`            | `Linear` si los valores no tienen límite; `Tanh` si están normalizados en [-1,1]. |
| **Reconstrucción o generación**| Autoencoders o GANs                         | `Sigmoid / Tanh`           | Según el rango de valores de los píxeles de salida (`[0,1]` o `[-1,1]`).        |


<b>Clasificación binaria (`Sigmoid`)</b>

API Funcional

```python
outputs = layers.Dense(1, activation='sigmoid', name='output')(x)
````

API Secuencial

```python
layers.Dense(1, activation='sigmoid', name='output')
````

<b>Clasificación multiclase (`Softmax`)</b>

API Funcional

```python
outputs = layers.Dense(10, activation='softmax', name='output')(x)
````

API Secuencial

```python
    layers.Dense(10, activation='softmax', name='output')
````

<B>Clasificación multietiqueta (`Sigmoid` por clase)</B>

API Funcional

```python
outputs = layers.Dense(n_labels, activation='sigmoid', name='output')(x)
````

API Secuencial

```python
    layers.Dense(n_labels, activation='sigmoid', name='output')
````
<b>Regresión (``Linear`` o ``Tanh``) </b>

API Funcional

```python
outputs = layers.Dense(1, activation='linear', name='output')(x)
````

API Secuencial

```python
    layers.Dense(1, activation='linear', name='output')
````

### <b>2.1.7. Construcción completo del model (ejemplo CIFAR-10)</b>

Consturcción de un modelo CIFAR-10, es decir un problema de clasificación de multiclase de imágenes.

API Funcional

```python
inputs = layers.Input(shape=(32, 32, 3), name='input')
x = layers.Conv2D(32, (3,3), activation='relu', padding='same', name='conv_1')(inputs)
x = layers.MaxPooling2D((2,2), name='pool_1')(x)
x = layers.Conv2D(64, (3,3), activation='relu', padding='same', name='conv_2')(x)
x = layers.MaxPooling2D((2,2), name='pool_2')(x)
x = layers.Flatten(name='flatten')(x)
x = layers.Dense(64, activation='relu', name='dense_1')(x)
outputs = layers.Dense(10, activation='softmax', name='output')(x)

model = models.Model(inputs=inputs, outputs=outputs, name='CNN_model')
model.summary()````

API Secuencial

```python
model = models.Sequential([
    layers.Input(shape=(32, 32, 3), name='input'),
    layers.Conv2D(32, (3,3), activation='relu', padding='same', name='conv_1'),
    layers.MaxPooling2D((2,2), name='pool_1'),
    layers.Conv2D(64, (3,3), activation='relu', padding='same', name='conv_2'),
    layers.MaxPooling2D((2,2), name='pool_2'),
    layers.Flatten(name='flatten'),
    layers.Dense(64, activation='relu', name='dense_1'),
    layers.Dense(10, activation='softmax', name='output')
])

model.summary()````

## 2.2. Fase de Compilación

Una vez construida la arquitectura de la red neuronal (definidas las capas, sus funciones de activación y conexiones), el siguiente pasi es compilar el modelo.

Durante la compilación, se especifica cómo el modelo va a aprender. Para ello, sedefinen tres elementos esenciales:

1. La función de pérdida (loss): indica qué mide y qué debe minimizar.
2. El optimizador (optimizier): indica cómo se actualizan los pesos para reducr la pérdida.
3. Las métricas (metrisc). sirven para monitorizar el rendimiento durante el entrenamiento, pero no afectan al aprendizaje.

###<b> Función de péridda (loss) </b>

la función de pérdida mide la diferencia entre las predicciones del modelo y los valores reales. El objetivo del entrenamiento es minimizar esta función.

Dependiendo del tipo de problema, se usa una función diferente:

<b>Clasificación binari </b>

* Activación de salida: ``sigmoid``
* Función de pérdida: ``binary_crossentropy``
* ej.: “gato” vs “no gato”

```python
model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)
```

<b>Clasificación multiclase</b>

* Activación de salida: ``softmax``

* Pérdida:
    * ``categorical_crossentropy`` (si las etiquetas están codificadas en one-hot)
    * ``sparse_categorical_crossentropy`` (si las etiquetas son enteras)
* ej.: CIFAR-10: 10 clases exclusivas

```python
model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',  # o 'sparse_categorical_crossentropy'
    metrics=['accuracy']
)
```

<b>Clasificación multietiqueta</b>

* Activación de salida: ``sigmoid`` (una por clase)

* Función de pérdida: ``binary_crossentropy`` (aplicada de forma independiente a cada etiqueta)
* ej.: etiquetas no excluyentes: “perro”, “exterior”, “noche”…

```python
model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)
```

<b>Regresión</b>

* Activación de salida: ``linear``

* Pérdida:
    * ``mse`` (mean squared error – error cuadrático medio)
    * ``mae`` (mean absolute error – error absoluto medio)
* ej.: predecir un valor continuo: brillo, edad, ángulo…

```python
model.compile(
    optimizer='adam',
    loss='mse',       # o 'mae'
    metrics=['mae']
)
```


### <b> Optimizador (optimizer) </b>

El optimizador define cómo se ajustan los pesos del modelo en cada interación.

Su función es minimizar la pérdida mediante el descenso del gradiente o métodos adaptattivos.

Las más comunes son:

``Adam`` (Adaptive Moment Estimation)

* Método adaptativo, rápido y estable.
* Ajusta la tasa de aprendizaje de forma individual para cada parámetro.
* Recomendado por defecto para la mayoría de CNN.

```python
model.compile(optimizer='adam', loss='mse', metrics=['mae'])
```
``RMSprop``

* Variante de gradient descent adaptativa.
* Ideal para redes con datos no estacionarios (por ejemplo, secuencias o video).
* Controla la variabilidad de los gradientes.

```python
model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])

```

``SGD`` (Stochastic Gradient Descent)

* Gradiente descendente estocástico.
* Actualiza los pesos lentamente, con posibilidad de usar momentum.
* Ideal cuando se busca un entrenamiento controlado y estable.

```python
model.compile(optimizer='sgd', loss='mse', metrics=['mae'])
```


### <b>Métricas (metrics)</b>

Las métricas permiten evaluar el rendimeinto del modelo durante el entrenamiento y la validación. No influyen en el proceso de optimización, pero sirven como referencia para analizar el desempeño.

``Accuracy``
* Tipo de problema: Clasificación binaria o multiclase.
* Descripción: Mide el porcentaje de aciertos sobre el total de predicciones.

```python
model.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)
```

``mae (Mean Absolute Error)``
* Tipo de problema: Regresión.
* Descripción: Calcula el promedio del valor absoluto de los errores.

```python
model.compile(
    optimizer='adam',
    loss='mse',      # pérdida puede ser MSE
    metrics=['mae']  # seguimiento del error medio absoluto
)
```

``mse (Mean Squared Error)``
* Tipo de problema: Regresión.
* Descripción: Calcula el promedio de los errores al cuadrado (penaliza más los errores grandes)
```python
model.compile(
    optimizer='adam',
    loss='mse',      # pérdida igual a la métrica
    metrics=['mse']
)
```


## 2.3. Fase de entrenamiento

Una vez compilado el modelo, se procede a entrenarlo.

Durante esta fase, el modelo ajusta sus pesos internos para minimizar la función de péridad definda en la compilación y mejorar las métricas.

El enternamiento se realiza con el método `fit()`, que recibe los atos, el número de épocas, el tamaño de los lotes y, opcionalmente, un conjunto de validación.



<b> Parámetros del método </b>

* ``x, y``: datos de entrada y etiquetas verdaderas.

* ``epochs``: número de pasadas completas sobre el conjunto de entrenamiento.

* ``batch_size``: tamaño del lote (muestras procesadas antes de actualizar pesos).

* ``validation_data``: tupla (x_val, y_val) para evaluar al final de cada época.

* ``validation_split``: fracción de x/y usada automáticamente como validación (si no se pasa validation_data).

* ``verbose``: nivel de detalle (0: silencioso, 1: barra de progreso, 2: por época).

<b> Entrenamiento (clasificación – CNN con CIFAR-10) </b>

```python
history = model.fit(
    x_train, y_train,                 # Datos de entrenamiento
    epochs=20,                        # Número de épocas
    batch_size=64,                    # Tamaño del lote
    validation_data=(x_val, y_val),   # Conjunto de validación
    verbose=1                         # Mostrar progreso
)
```

* uso típico con saldia `softmax` y pérdida `categorical_crossentropy`/`spare_categorical_crossentropy`
* `history` almacena la evolución de loss y métricas por época (incluyendo las de validación si se proporcionan).


<b> Entrenamiento (regresión – predicción continua) </b>

```python
history = model.fit(
    x_train, y_train,
    epochs=50,
    batch_size=32,
    validation_split=0.2,  # Reserva automáticamente el 20% para validación
    verbose=1
)
```

* Uso típico con salida `linear` y pérdidas de regresión (`mse` o `mae`).

* `validation_split` es útil cuando no se dispone de un conjunto de validación separado.

## 2.4. Fase de Evaluación

Tras el entrenamiento, se evalúa el modelo para medir su rendimiento en datos no vistos y analizar su comportamiento (aciertos/errores).

La evaluación se realioza con:

* `model.evaluate()`: calcula la pérdida y las métricas en el conjunto de test.
* `model.predict()`: obtiene las probabilidades/logits para analizar predicciones (por ejemplo, clases previstas).

* Gráficas de evolución (a partir de `history`): ayudan a revisar cómo ha aprendido el modelo,
* Inspección de errores: visualziar ejemplos mal clasificados con sus probabilidades.




<b> Evolución cuantitativa con `evaluate()` </b>

```python
# Evalúa en el conjunto de test (p. ej., CIFAR-10)
results = model.evaluate(X_test_norm, y_test, verbose=1)
```
* results[0] → pérdida en test.

* results[1] → métrica principal (por ejemplo, accuracy).

<b> Prediccions con `predict()` y clases previstas </b>

```python
# Probabilidades/logits para cada imagen
predictions = model.predict(test_images)

# Clases previstas (si la salida es softmax/multiclase)
predicted_classes = np.argmax(predictions, axis=-1)
```
* Útil para analziar casos concretos, construir informes o generar visualizaciones


<b> Gráficas de entrenamiento (pérdida y precisión) </b>

Estas gráficas se generan a partir del objeto `history` devuelto por `model.fit()`.
Sirven para evaluar el proceso de aprendizaje (sesgo/varianza, sobreajuste, etc.).

```python
import pandas as pd
def show_loss_accuracy_evolution(history):
    # Convierte el historial a DataFrame y añade el índice de época
    hist = pd.DataFrame(history.history)
    hist['epoch'] = history.epoch

    # Dos subgráficos: pérdida y precisión
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

    # Pérdida
    ax1.set_xlabel('Epoch')
    ax1.set_ylabel('Loss')
    ax1.plot(hist['epoch'], hist['loss'], label='Train Loss')
    ax1.plot(hist['epoch'], hist['val_loss'], label='Val Loss')
    ax1.grid()
    ax1.legend()

    # Precisión (si está disponible en history)
    if 'accuracy' in hist and 'val_accuracy' in hist:
        ax2.set_xlabel('Epoch')
        ax2.set_ylabel('Accuracy')
        ax2.plot(hist['epoch'], hist['accuracy'], label='Train Acc')
        ax2.plot(hist['epoch'], hist['val_accuracy'], label='Val Acc')
        ax2.grid()
        ax2.legend()
    plt.show()

```

Lectura rápida de las curvas:

* Paralelas y descendentes (loss) con val_loss similar → buen aprendizaje.
* Train loss ↓ pero val_loss ↑ → posible sobreajuste (overfitting).


<b> Inspección cualitativa de errores </b>

Visualiza ejemplos del conjunto de validación mal clasificados, mostrando la clase predicha, la clase real y sus probabilidades.
(Requiere un `val_ds` de tipo `tf.data.Dataset` y `class_names_list` con los nombres de las clases).

```python
def show_errors(val_ds, model, class_names_list, n_images=10):
    n_plots = 0
    for images, labels in val_ds:
        # Predicciones para este batch
        pred_probs = model.predict(images)
        pred_classes = np.argmax(pred_probs, axis=-1)

        # Compara con etiquetas reales
        for ind in range(len(images)):
            if n_plots >= n_images:
                return

            real_idx = labels[ind].numpy()
            pred_idx = pred_classes[ind]

            # Si hay error, lo mostramos
            if pred_idx != real_idx:
                pred_class = class_names_list[pred_idx]
                real_class = class_names_list[real_idx]

                prob_pred = float(np.max(pred_probs[ind]))
                prob_real = float(pred_probs[ind][real_idx])

                plt.imshow(images[ind].numpy().astype("uint8"))
                plt.title(
                    f"Predicted: {pred_class}, prob: {prob_pred:.2f}\n"
                    f"Real: {real_class}, prob: {prob_real:.2f}"
                )
                plt.axis('off')
                plt.show()
                n_plots += 1

```

Utilidad:

* Detectar patrones de error (clases confundidas, fondos complejos, iluminación, etc.).

* Guiar decisiones en la Fase de Mejora (data augmentation específico, arquitectura, regularización)

## 2.5. Fase de mejora

Una vez evaluado el modelo de red neuronal convolucional (CNN), el siguiente paso consiste en optimizar su rendimiento y capacidad de generalización.

Esta fase busca reducir el sobreajuste (overfitting), mejorar la precisión en los datos de validación y ajusta la arquitectura y los hiperparámetros de las capas convolucionales para obtener el mejor desempeño posible.


### <b> 2.5.1. Prevención del Overfitting</b> *Regularización*

El overfitting ocurre cuando la CNN aprende demsiado los detalles y el ruido de las imágenes de entrenamiento, perdiendo capacidad de generalizar nuevas imagenes.

En este caso, la loss de entrenamiento continúa disminuyendo mientras la val_loss comienza a aumentar.

Las principales técnicas aplicadas para prevenirlo son las siguientes:



<b>a) Data Augmentation (Aumento de datos) </b>

El Data Augmentation genera nuevas imágenes a partir de las originales mediante transformaciones aleatorias (rotaciones, giros, zoom, traslaciones, etc.).
Esto amplía el conjunto de entrenamiento sin necesidad de recopilar más datos reales, lo que mejora la generalización del modelo.

```python
from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.1,
    height_shift_range=0.1,
    zoom_range=0.1,
    horizontal_flip=True
)

datagen.fit(x_train)
```

Cuándo usarlo: Cuando el conjunto de imágenes es pequeño o el modelo sobreajusta rápidamente (alta precisión en entrenamiento pero baja en validación).


<b> b) Dropout en capas convolucionales </b>

El Dropout desactiva aleatoriamente un porcentaje de neuronas durante el entrenamiento, lo que evita la dependencia excesiva de ciertas activaciones y mejora la robustez del modelo.

```python
from tensorflow.keras import layers, models

model = models.Sequential([
    layers.Conv2D(32, (3,3), activation='relu', input_shape=(64,64,3)),
    layers.MaxPooling2D((2,2)),
    layers.Dropout(0.25),  # desactiva el 25% de las neuronas
    layers.Conv2D(64, (3,3), activation='relu'),
    layers.MaxPooling2D((2,2)),
    layers.Dropout(0.25), # desactiva el 25% de las neuronas
    layers.Flatten(),
    layers.Dense(128, activation='relu'),
    layers.Dropout(0.5), # desactiva el 25% de las neuronas
    layers.Dense(10, activation='softmax')
])
```
Cuándo usarlo: Cuando el modelo muestra alta precisión en el entrenamiento y baja precisión en validación.

<b> c) Batch Normalization </b>

La Batch Normalization normaliza las activaciones intermedias en cada mini-lote, estabilizando el entrenamiento y acelerando la convergencia.
En las CNN, suele colocarse después de las capas convolucionales y antes de la función de activación.

```python
model = models.Sequential([
    layers.Conv2D(32, (3,3), activation='relu', input_shape=(64,64,3)),
    layers.BatchNormalization(),
    layers.MaxPooling2D((2,2)),
    layers.Conv2D(64, (3,3), activation='relu'),
    layers.BatchNormalization(),
    layers.MaxPooling2D((2,2)),
    layers.Flatten(),
    layers.Dense(128, activation='relu'),
    layers.Dense(10, activation='softmax')
])
```
Cuándo usarlo: Cuando el entrenamiento es inestable, la pérdida oscila entre épocas o la red tarda en converger.

<b> d) Early Stopping </b>

El Early Stopping detiene automáticamente el entrenamiento cuando el rendimiento en validación deja de mejorar, evitando el sobreentrenamiento y reduciendo el tiempo total de entrenamiento.

```python
from tensorflow.keras.callbacks import EarlyStopping

early_stop = EarlyStopping(
    monitor='val_loss',
    patience=5,
    restore_best_weights=True,
    verbose=1
)

history = model.fit(
    x_train, y_train,
    epochs=50,
    batch_size=32,
    validation_split=0.2,
    callbacks=[early_stop]
)
```

Parámetros principales:

* `monitor`: métrica a observar (por ejemplo, val_loss o val_accuracy).

* `patience`: número de épocas sin mejora antes de detener.

* `restore_best_weights`: recupera los mejores pesos previos al sobreajuste.

Cuándo usarlo: Siempre que el entrenamiento prolongado empiece a degradar el rendimiento de validación.

<b> e) Regularización L2 en capas convolucionales </b>

La regularización L2 penaliza los pesos grandes, fomentando una distribución más equilibrada de las activaciones.
En CNN se aplica frecuentemente a las capas convolucionales y densas.

```python
from tensorflow.keras import regularizers

model = models.Sequential([
    layers.Conv2D(64, (3,3), activation='relu',
                  kernel_regularizer=regularizers.l2(0.001),
                  input_shape=(64,64,3)),
    layers.MaxPooling2D((2,2)),
    layers.Flatten(),
    layers.Dense(128, activation='relu',
                 kernel_regularizer=regularizers.l2(0.001)),
    layers.Dense(10, activation='softmax')
])
```
Cuándo usarlo: Cuando la red tiene muchas capas o parámetros y se observa sobreajuste.

### 2.5.2. Ajuste de Hiperparámetros (Hyperparameter Tunning)

Los hiperparámetros en una CNN definen la estructura y el comportamiento de la red, y su correcta selección puede marcar una gran diferencia en el rendimiento final.

Ejemplos comunes:

* Tamaño del kernel (3×3, 5×5)

* Número de filtros por capa

* Tipo de pooling (Max o Average)

* Tasa de Dropout

* Tasa de aprendizaje (learning rate)

## 2.6. Fase de producción