# Dense Layers

La capa densa, también llamada capa completamente conectada,y se utiliza para representaciones abstractas de los datos de entrada. En esta capa, las neuronas se conectan con todas las neuronas de la capa anterior. En las redes perceptrónicas multicapa, estas capas se apilan.

## Problemas Comunes de las Dense Layers.

## 1. Sobreajuste (Overfitting)
El sobreajuste ocurre cuando el modelo se ajusta demasiado bien a los datos de entrenamiento, capturando el ruido y los detalles específicos de esos datos. Esto lleva a un mal rendimiento en nuevos datos no vistos. Las dense layers, debido a su gran capacidad de representación, son particularmente susceptibles al sobreajuste.

## 2. Sobrecarga Computacional
Las dense layers requieren una gran cantidad de parámetros, especialmente cuando se utilizan muchas neuronas. Esto puede resultar en un alto costo computacional tanto en términos de tiempo como de memoria durante el entrenamiento y la inferencia.

## 3. Vanishing Gradients
En redes profundas, el problema del desvanecimiento del gradiente puede ser severo. Esto pasa cuando los gradientes se vuelven extremadamente pequeños a medida que se propagan hacia atrás a través de las capas, ralentizando o incluso deteniendo el entrenamiento. Esto es especialmente problemático para las dense layers en redes muy profundas.

## 4. Exploding Gradients
Lo contrario del desvanecimiento del gradiente. Aquí, los gradientes se vuelven muy grandes y causan que los pesos se actualicen de forma abrupta, lo que puede hacer que el modelo se vuelva inestable.

## 5. Ineficiencia en la Representación de Datos Espaciales
Las dense layers no están diseñadas para manejar datos espaciales de manera eficiente. En tareas como el procesamiento de imágenes, donde las convoluciones son más efectivas, las dense layers tienden a no capturar bien las estructuras espaciales, resultando en un desempeño subóptimo.

## 6. Necesidad de Regularización
Debido a su tendencia al sobreajuste, las dense layers a menudo requieren métodos de regularización como Dropout, L2 regularization, entre otros, para mejorar su rendimiento en datos no vistos.

## 7. Dificultades en la Interpretación
Las dense layers, y en general las redes profundas, son difíciles de interpretar. No es sencillo entender qué características están siendo capturadas o cómo las decisiones están siendo tomadas, lo cual puede ser un problema en aplicaciones que requieren transparencia y explicabilidad.

## 8. Sensibilidad a la Inicialización de Pesos
La performance de las dense layers puede variar significativamente dependiendo de cómo se inicialicen sus pesos. Una mala inicialización puede llevar a un entrenamiento lento o a la convergencia en un mínimo local de baja calidad.

## 9. Dependencia del Tamaño del Lote (Batch Size)
El tamaño del lote utilizado durante el entrenamiento puede afectar fuertemente el rendimiento de las dense layers. Un tamaño de lote muy pequeño puede resultar en un entrenamiento ruidoso y una convergencia lenta, mientras que un tamaño de lote muy grande puede sobrecargar la memoria y también llevar al modelo a mínimos locales pobres.

# CNN

Una Convolutional Neural Network (CNN) es un tipo de red neuronal artificial que está diseñada para procesar datos con una topología de grilla (como una imagen) mediante el uso de operaciones de convolución. Las CNNs son particularmente efectivas para tareas de percepción visual, como clasificación de imágenes, detección de objetos y segmentación de imágenes.

## Arquitectura de una CNN

La arquitectura de una CNN está compuesta por varias capas, las más comunes son:

### 1. Capas Convolucionales (Convolutional Layers)
- **Descripción**: Estas capas aplican un conjunto de filtros (kernels) a las entradas para extraer características locales. Los filtros se deslizan sobre la entrada y realizan operaciones de convolución, generando mapas de características.
- **Función**: Capturan características locales como bordes, texturas y patrones pequeños al principio, y estructuras más complejas en capas más profundas.

### 2. Capas de Pooling (Pooling Layers)
- **Descripción**: Reducen la dimensionalidad de los mapas de características mediante operaciones como max pooling o average pooling.
- **Función**: Resumen las características fundamentales, reducen la cantidad de parámetros y controlan el sobreajuste.

### 3. Capas de Normalización (Normalization Layers)
- **Descripción**: Aparecen a veces después de las capas convolucionales para normalizar la activación. Un ejemplo es la Batch Normalization.
- **Función**: Facilitan el entrenamiento al acelerar la convergencia y estabilizar el proceso de aprendizaje.

### 4. Capas Densas (Fully Connected Layers)
- **Descripción**: Al final de la red, estas capas conectan todas las neuronas de la capa anterior con cada neurona de la capa siguiente.
- **Función**: Realizan la combinación final de las características extraídas para generar la salida del modelo, como la clasificación final de una imagen.


## Características Clave de las CNNs

### Receptive Field (Campo Receptivo)
Cada neurona en una capa convolucional está conectada solo a una región pequeña de la capa anterior, llamada campo receptivo, lo que permite capturar características locales.

### Compartición de Pesos (Weight Sharing)
Los mismos filtros (pesos) se aplican en diferentes partes de la entrada, lo que reduce la cantidad de parámetros y mejora la eficiencia y generalización.

### Hierarquía de Características
Las CNNs construyen una jerarquía de características desde las más simples hasta las más complejas, lo que es útil para tareas de reconocimiento.

## Ventajas de las CNNs

- **Eficiencia en el Procesamiento de Imágenes**: Al explotar la estructura espacial de las imágenes, las CNNs pueden aprender patrones complejos con menos parámetros.
- **Reducción de la Dimensionalidad**: Mediante técnicas como el pooling, las CNNs reducen la dimensionalidad de las características, disminuyendo la carga computacional.
- **Generalización**: La compartición de pesos y la capacidad de los filtros para detectar características en cualquier parte de la imagen mejoran la capacidad de generalización del modelo.

## Aplicaciones de las CNNs

- **Clasificación de Imágenes**: Identificar y categorizar objetos dentro de una imagen.
- **Detección de Objetos**: Localizar y clasificar múltiples objetos dentro de una imagen.
- **Segmentación de Imágenes**: Asignar una etiqueta a cada píxel de la imagen, diferenciando las diversas regiones o objetos.
- **Reconocimiento Facial**: Identificar y verificar rostros humanos en imágenes.
- **Visión en Vehículos Autónomos**: Interpretar el entorno a través de cámaras para la navegación segura.


## Arquitecturas Más Comunes de CNN

- **LeNet (LeNet-5)**
  - **Descripción**: Propuesta por Yann LeCun en los años 90, LeNet-5 es una de las primeras CNNs exitosas y se utilizó principalmente para el reconocimiento de caracteres escritos a mano, como los dígitos del MNIST.
  - **Arquitectura**:
    - Dos capas convolucionales seguidas por capas de pooling.
    - Capas densas totalmente conectadas.
    - Función de activación sigmoide o tanh.

- **AlexNet**
  - **Descripción**: Propuesta por Alex Krizhevsky et al. en 2012, ganó el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ese año. Fue una de las primeras redes en aprovechar GPU para el entrenamiento a gran escala.
  - **Arquitectura**:
    - Cinco capas convolucionales seguidas por capas de pooling.
    - Capas totalmente conectadas con ReLU como función de activación.
    - Uso de Dropout para regularización.

- **VGGNet (VGG16/VGG19)**
  - **Descripción**: Propuesta por el grupo de Visual Geometry Group (VGG) de la Universidad de Oxford en 2014. Conocida por su simplicidad y su profundidad, utilizó solo convoluciones de 3x3 píxeles.
  - **Arquitectura**:
    - Series de capas convolucionales de 3x3 seguidas por capas de pooling.
    - Capas totalmente conectadas al final.
    - VGG16 tiene 16 capas de peso y VGG19 tiene 19.

- **GoogLeNet (Inception)**
  - **Descripción**: Propuesta por Christian Szegedy et al. de Google en 2014 y ganador del ILSVRC de ese año. Introduce el bloque Inception que permite varias convoluciones en paralelo.
  - **Arquitectura**:
    - Uso de módulos Inception que aplican convoluciones de diferentes tamaños (1x1, 3x3, 5x5) y pooling en paralelo.
    - Red más profunda y ancha con menos parámetros comparado con AlexNet y VGG.

- **ResNet (Residual Networks)**
  - **Descripción**: Propuesta por Kaiming He et al. en 2015, ganó el ILSVRC. Introduce el concepto de residual learning para permitir la construcción de redes extremadamente profundas.
  - **Arquitectura**:
    - Uso de bloques residuales que permiten shortcuts o saltos de conexión.
    - Red muy profunda con versiones como ResNet-50, ResNet-101 y ResNet-152.

- **DenseNet (Densely Connected Networks)**
  - **Descripción**: Propuesta por Gao Huang et al. en 2017. Las densas conexiones entre capas mejoran el flujo de gradientes y reutilizan características.
  - **Arquitectura**:
    - Cada capa recibe entradas de todas las capas anteriores y pasa su salida a todas las capas siguientes.
    - Fortalecen el flujo de información y gradiente.

- **MobileNet**
  - **Descripción**: Propuesta por Google, diseñada para dispositivos móviles y sistemas embebidos. Usa convoluciones separables en profundidad para reducir el costo computacional.
  - **Arquitectura**:
    - Uso de convoluciones separables en profundidad (depthwise separable convolutions).
    - Variante ligera y eficiente en términos de parámetros y operaciones.

- **EfficientNet**
  - **Descripción**: Propuesta por Mingxing Tan y Quoc V. Le en 2019. Introduce un método sistemático para escalar las arquitecturas de las redes.
  - **Arquitectura**:
    - Modelos escalados de manera eficiente en términos de profundidad, anchura y resolución.
    - Mejor relación precisión-eficiencia.


##Ejemplo de CNN con KERAS





In [1]:

import numpy as np
import keras
from keras import layers



In [2]:
# Model / data parameters
num_classes = 10
input_shape = (28, 28, 1)

# Load the data and split it between train and test sets
(x_train, y_train), (x_test, y_test)= keras.datasets.fashion_mnist.load_data()

# Scale images to the [0, 1] range
x_train = x_train.astype("float32") / 255
x_test = x_test.astype("float32") / 255
# Make sure images have shape (28, 28, 1)
x_train = np.expand_dims(x_train, -1)
x_test = np.expand_dims(x_test, -1)
print("x_train shape:", x_train.shape)
print(x_train.shape[0], "train samples")
print(x_test.shape[0], "test samples")



Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
[1m29515/29515[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
[1m26421880/26421880[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
[1m5148/5148[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
[1m4422102/4422102[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
x_train shape: (60000, 28, 28, 1)
60000 train samples
10000 test samples


In [3]:
# convert class vectors to binary class matrices
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

model = keras.Sequential(
    [
        keras.Input(shape=input_shape),
        layers.Conv2D(32, kernel_size=(3, 3), activation="relu"),
        layers.MaxPooling2D(pool_size=(2, 2)),
        layers.Conv2D(64, kernel_size=(3, 3), activation="relu"),
        layers.MaxPooling2D(pool_size=(2, 2)),
        layers.Flatten(),
        layers.Dropout(0.5),
        layers.Dense(num_classes, activation="softmax"),
    ]
)

model.summary()




In [4]:
batch_size = 128
epochs = 15

model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])

model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, validation_split=0.1)



Epoch 1/15
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 13ms/step - accuracy: 0.7539 - loss: 0.6899 - val_accuracy: 0.8505 - val_loss: 0.4350
Epoch 2/15
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 13ms/step - accuracy: 0.8400 - loss: 0.4442 - val_accuracy: 0.8648 - val_loss: 0.3793
Epoch 3/15
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 13ms/step - accuracy: 0.8591 - loss: 0.3958 - val_accuracy: 0.8682 - val_loss: 0.3565
Epoch 4/15
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 14ms/step - accuracy: 0.8684 - loss: 0.3680 - val_accuracy: 0.8822 - val_loss: 0.3236
Epoch 5/15
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 13ms/step - accuracy: 0.8752 - loss: 0.3498 - val_accuracy: 0.8838 - val_loss: 0.3116
Epoch 6/15
[1m422/422[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 14ms/step - accuracy: 0.8796 - loss: 0.3317 - val_accuracy: 0.8900 - val_loss: 0.2995
Epoch 7/15
[1m422/422

<keras.src.callbacks.history.History at 0x317641790>

In [5]:
score = model.evaluate(x_test, y_test, verbose=0)
print("Test loss:", score[0])
print("Test accuracy:", score[1])

Test loss: 0.2714228630065918
Test accuracy: 0.8992000222206116


## Ejercicio de clase

En equipos, haga una CNN que pueda clasificar el set de [Fashion-MNIST](https://www.kaggle.com/datasets/zalando-research/fashionmnist) utilizando Keras.


# Data Augmentation

## ¿Qué es Data Augmentation?

El **Data Augmentation**, o aumento de datos, es una técnica utilizada en el campo del aprendizaje automático para aumentar la cantidad de datos de entrenamiento disponibles mediante la creación de nuevas muestras a partir de los datos existentes. Esto se logra aplicando diversas transformaciones a los datos originales, creando así una versión ampliada y diversa del conjunto de datos.

## ¿Por qué es importante?

1. **Mejora del Rendimiento del Modelo**: Al tener más datos disponibles, los modelos pueden aprender patrones más robustos y mejorar su precisión y generalización.
2. **Reducción del Overfitting**: Aumentar el tamaño del conjunto de datos ayuda a reducir el riesgo de sobreajuste (overfitting), donde un modelo aprende demasiado sobre los datos de entrenamiento y falla al generalizar a datos nuevos.
3. **Mayor diversidad**: Las transformaciones pueden introducir variaciones que los datos originales no tienen, ayudando así al modelo a ser más robusto frente a diversas situaciones de datos en el mundo real.

## Métodos Comunes de Data Augmentation

### Imágenes

1. **Rotación**: Girar la imagen en varios ángulos.
2. **Escalado**: Aumentar o disminuir el tamaño de la imagen.
3. **Traslación**: Desplazar la imagen en el eje X o Y.
4. **Volteo**: Voltear la imagen horizontal o verticalmente.
5. **Ajuste de Brillo y Contraste**: Modificar la iluminación y el contraste.
6. **Ruido Aleatorio**: Añadir ruido a la imagen para hacerla más robusta a imperfecciones.

### Audio

1. **Cambio de Tonalidad**: Modificar la frecuencia de la señal de audio.
2. **Agregación de Ruido de Fondo**: Añadir ruido de fondo para hacer la señal más realista.
3. **Estiramiento Temporal**: Alterar la velocidad de reproducción sin cambiar la tonalidad.
4. **Transformaciones de Fourier**: Aplicar modificaciones en el dominio de la frecuencia.

### Texto

1. **Sinónimos**: Reemplazar palabras con sus sinónimos.
2. **Insertar Palabras Aleatorias**: Añadir palabras al azar dentro del texto.
3. **Eliminar Palabras Aleatorias**: Quitar algunas palabras del texto.
4. **Parafraseo**: Reformular oraciones manteniendo el mismo significado.

## Herramientas y Bibliotecas

- **TensorFlow**: Ofrece funciones de data augmentation como parte de su API de transformación de datos.
- **Keras**: Incluye el `ImageDataGenerator` que proporciona muchas transformaciones para imágenes.
- **Albumentations**: Popular biblioteca para aumentación de imágenes en proyectos de visión por computadora.
- **nltk** y **Spacy**: Para tareas de NLP, estas bibliotecas pueden ser útiles para data augmentation textual.
- **Audiomentations**: Biblioteca específica para la aumentación de datos de audio.

## Ejemplo en Keras



In [8]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

# suponiendo que `train_images` son tus imágenes de entrenamiento
datagen.fit(train_images)