# Redes Neuronales y Deep Learning

## Tipos de capas
- Cada tipo de capa suele tener un uso (dependiente de la red a diseñar según el tipo de entrada y la aplicación):
 - **Dense** para tratar input vector o **datos estructurados** (2D tensor de samples,features)
 - **LSTM** (Recurrent Neural Networks) para tratar **secuencias lógicas** (3D tensores de samples(Eje x),timestep (Eje y),features (Eje z)). `Otro uso de las RNN es el texto para poder mantener la consistencia gramatical`. Actualmente se ven reemplazadas por los `Transformers`
 - **Convolucionales** (Convolutional Neural Network) para tratar **imagenes** (4D tensores de samples,height,weight,channels)

## Deep Learning y Deep vision - Redes convolucionales

Las redes convolucionales han jugado un papel importante en la historia del aprendizaje profundo. Las redes neuronales convolucionales fueron algunos de los primeros modelos profundos en funcionar bien,
mucho antes de que los modelos profundos arbitrarios se consideraran viables.

Las redes convolucionales también fueron de las primeras redes neuronales que resolvieron aplicaciones comerciales importantes y permanecen a la vanguardia de las aplicaciones comerciales de aprendizaje profundo en la actualidad. Por ejemplo, en la década de 1990, el grupo de investigación de redes neuronales de **AT&T** desarrolló una red convolucional para leer cheques bancarios.

A finales de la década de 1990, este sistema implementado por **NCR** leía más del diez por ciento de todos los cheques en los Estados Unidos. Más tarde, varios sistemas de reconocimiento de escritura y OCR basados en redes convolucionales fueron implementados por **Microsoft**.


Las redes convolucionales también se utilizaron para ganar muchos concursos. El interés comercial en el aprendizaje profundo comenzó cuando Krizhevsky, Sutskever y Hinton (2012) ganaron el desafío de reconocimiento de objetos **ImageNet**, pero es cierto que las redes convolucionales ya se habían utilizado para ganar otros concursos de aprendizaje automático y visión artificial con menos impacto años antes.

Las redes convolucionales fueron de las primeras redes profundas en ser entrenadas mediante retropropagación.
No está del todo claro por qué las redes convolucionales tuvieron éxito cuando se consideró que las redes neuronales generales fallaron en sus entrenamientos con retropropagación. Puede ser simplemente que las redes convolucionales fueran más eficientes computacionalmente que las redes totalmente conectadas o perceptrones multicapa, por lo que fue más fácil realizar múltiples experimentos con ellas y ajustar su
implementación e hiperparámetros.


![3](https://github.com/al34n1x/DataScience/blob/master/8.Machine_Learning/img/img_1.png?raw=true)

Con el hardware actual, grandes redes totalmente conectadas parecen funcionar razonablemente en muchas tareas, incluso cuando se utilizan conjuntos de datos que estaban disponibles y funciones de activación que eran populares durante los tiempos en que se creía que estas redes no funcionaban bien. Puede serque las principales barreras para el éxito de las redes neuronales fueran psicológicas (los profesionales no
esperaban que las redes neuronales funcionaran, por lo que no hicieron un esfuerzo serio para usarlas).

Sea cual fuere el caso, es una suerte que las redes convolucionales hayan funcionado bien desde hace décadas. 
En muchos sentidos, llevaron el peso del aprendizaje profundo y allanaron el camino para la aceptación de las redes neuronales en general.


![](./img/cnn.png)

**Las redes convolucionales están especializadas para trabajar con datos que tienen una topología claramente estructurada en cuadrícula y para escalar dichos modelos a un tamaño muy profundo.**

## Convolución

- Dense layers aprenden patrones globales (en toda la imagen)
- Convoluciones detectan patrones locales (resistente a traslaciones)
- Convoluciones permiten aprender jerarquías de patrones (patrones locales como lineas, curvas, etc. a círculos, rectangulos, a constelaciones)


### Cómo se logra?

![](./img/how_cnn.png)

Lo que esta más oscuro son los filtros - `(El Kernel del Filtro)`

Por ejemplo, el 19 del cuadro de la derecha viene de hacer:

`0 * 1 + 3 * 1 + 1 * 2 + 2 * 2 + 2 * 2 + 3 * 0 + 0 * 0 + 2 * 1 + 2 * 2 = 19`


- Divide el input (3D tensor) en parches y aplica la operación convolución (la misma en cada capa) a cada parche

- Output (3D tensor) es un mapa de features o **mapa de activaciones** (cada una el resultado de aplicar la transformacion). Dicho mapa tendra dimensiones **Height x Width x Nº filtros**. Cada capa del volumen (eje z) es el resultado de aplicar un filtro a cada parche del input. En la capa de convolución, hay varios filtros, eso significa que debo de parametrizar ese valor. Las W pasan a estar dentro de los filtros.

- Cada mapa de activación se traslada al siguiente layer convolucional que se encarga de encontrar otros mapas de activaciones.

- A medida que vamos subiendo en las jerarquía de los bloques convolucionales, los filtros se van a ir especializando. Se van a activar patrones más sofisticados.

- La convolución desliza cada parche sobre el input, parando en cada posible posicion y aplicando la transformacion (función kernel)


### Mapa de activación para RGB

![](./img/cnn_rgb_1.png)


Por cada filtro vamos a tener solo un mapa de activación donde se suman.

![](./img/cnn_rgb_2.png)

Además se suma el BIAS

![](./img/cnn_rgb_3.png)


![](./img/1_capa_cnn.png)


![](./img/2_capa_cnn.png)

## Filtros y mapa de caracteristicas

A medida que vamos avanzando en la extracción de características, las capas pueden aprender formas y patrones más complejos.

![](./img/filtros.png)

## Ejemplo
La siguiente lista muestra cómo se ve una `convnet` básica. Es una pila de capas `Conv2D` y `MaxPooling2D`. Verás en un minuto exactamente lo que hacen. Construiremos el modelo usando la API funcional.

```
>>> model.summary()

Model: "model" 

_________________________________________________________________

Layer (type)                 Output Shape              Param # 

================================================================= 

input_1 (InputLayer)         [(None, 28, 28, 1)]       0 

_________________________________________________________________

conv2d (Conv2D)              (None, 26, 26, 32)        320 

_________________________________________________________________

max_pooling2d (MaxPooling2D) (None, 13, 13, 32)        0 

_________________________________________________________________

conv2d_1 (Conv2D)            (None, 11, 11, 64)        18496 

_________________________________________________________________

max_pooling2d_1 (MaxPooling2 (None, 5, 5, 64)          0 

_________________________________________________________________

conv2d_2 (Conv2D)            (None, 3, 3, 128)         73856 

_________________________________________________________________

flatten (Flatten)            (None, 1152)              0 

_________________________________________________________________

dense (Dense)                (None, 10)                11530 

=================================================================

Total params: 104,202 

Trainable params: 104,202 

Non-trainable params: 0 

_________________________________________________________________
```

Puedes ver que la salida de cada capa `Conv2D` y `MaxPooling2D` es un tensor de forma de rango 3 (alto, ancho, canales). Las dimensiones de ancho y alto tienden a reducirse a medida que se profundiza en el modelo. La cantidad de canales está controlada por el primer argumento pasado a las capas de `Conv2D (32, 64 o 128)`.

Después de la última capa `Conv2D`, terminamos con una salida de forma `(3, 3, 128)`: un mapa de características de `3 × 3 de 128 canales`. El siguiente paso es introducir esta salida en un clasificador densamente conectado como los que ya conoces: una pila de capas densas. Estos clasificadores procesan vectores, que son `1D`, mientras que la salida actual es un tensor de rango 3. Para cerrar la brecha, aplanamos las salidas `3D` a `1D` con una capa Aplanar antes de agregar las capas Densa.

Finalmente, hacemos una clasificación de `10 vías`, por lo que nuestra última capa tiene `10 salidas` y una activación `softmax`.

## Diferencia entre Dense y Conv2d

La diferencia fundamental entre una capa densamente conectada y una capa convolucional es la siguiente: 
- las capas densas aprenden patrones globales en su espacio de características de entrada (por ejemplo, para un dígito MNIST, patrones que involucran a todos los píxeles)

- las capas convolucionales aprenden patrones locales, en el caso de imágenes, patrones encontrados en pequeñas ventanas 2D de las entradas. En el ejemplo anterior, estas ventanas eran todas de 3 × 3.

![](./img/cnn_mnist.png)

Esta característica clave le da a los `convnets` dos propiedades interesantes:

- Los patrones que aprenden son invariantes en la traducción. Después de aprender un determinado patrón en la esquina inferior derecha de una imagen, un convnet puede reconocerlo en cualquier lugar: por ejemplo, en la esquina superior izquierda. Un modelo densamente conectado tendría que aprender el patrón de nuevo si apareciera en una nueva ubicación. Esto hace que los convnets sean eficientes en términos de datos al procesar imágenes (porque el mundo visual es fundamentalmente invariante a la traducción): necesitan menos muestras de entrenamiento para aprender representaciones que tengan poder de generalización.

- Pueden aprender jerarquías espaciales de patrones. Una primera capa de convolución aprenderá pequeños patrones locales, como bordes, una segunda capa de convolución aprenderá patrones más grandes formados por las características de las primeras capas, y así sucesivamente. Esto permite a los convnets aprender de manera eficiente conceptos visuales cada vez más complejos y abstractos, porque el mundo visual es fundamentalmente espacialmente jerárquico.

![](./img/cnn_cat.png)

En las capas de Keras `Conv2D`, estos parámetros son los primeros argumentos pasados a la capa: 

- `Conv2D` (profundidad_salida, (altura_ventana, ancho_ventana)).

- Una convolución funciona deslizando estas ventanas de tamaño `3 × 3` o `5 × 5` sobre el mapa de características de entrada `3D`, deteniéndose en cada ubicación posible y extrayendo el parche `3D` de las características circundantes (forma (`alto_ventana`, `ancho_ventana`, `profundidad_entrada`)). 

- Luego, cada parche `3D` se transforma en un vector de forma `1D` (`profundidad_de_salida`), lo cual se realiza mediante un producto tensorial con una matriz de pesos aprendida, llamado núcleo de convolución: el mismo núcleo se reutiliza en cada parche. Todos estos vectores (uno por parche) luego se vuelven a ensamblar espacialmente en un mapa de forma de salida `3D` (`alto`, `ancho`, `salida_profundidad`). 

- Cada ubicación espacial en el mapa de características de salida corresponde a la misma ubicación en el mapa de características de entrada (por ejemplo, la esquina inferior derecha de la salida contiene información sobre la esquina inferior derecha de la entrada). Por ejemplo, con ventanas de `3 × 3`, la salida del vector `[i, j, :]` proviene de la entrada del parche `3D` `[i-1:i+1, j-1:j+1, :]`. El proceso completo se detalla en la figura.

![](./img/how_cnn_2.png)

## Combinación CNN y MLP

![](./img/cnn_mlp.png)

# Ejemplo

In [None]:
# SOLO PARA USO EN GOOGLE COLABORATORY
# Para conectar el notebook con la cuenta de gdrive
from google.colab import drive
drive.mount('/content/drive/', force_remount=True)

In [None]:
BASE_FOLDER = '/content/drive/MyDrive/Senpai/Data Science 2023/6.Deep Learning/1.Course Content/data' # Se debe garantizar que la carpeta docencia compartida se almacena en el directorio raíz de Google Drive. En caso contrario modificar este path

## **INTRODUCCIÓN A LAS CONVOLUTIONAL NEURAL NETWORKS: MNIST DATASET**

#### **- Cargando el conjunto de datos**

In [None]:
import tensorflow as tf
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
#print(x_train.shape)
#print(y_train.shape)
#print(x_test.shape)
#print(y_test.shape)

#### **- Acondicionando el conjunto de datos**

In [None]:
# Pre-procesado obligatorio cuando trabajo con redes neuronales
from tensorflow.keras.utils import to_categorical
from sklearn.model_selection import train_test_split
from tensorflow.keras.backend import expand_dims

x_train, x_te = x_train / 255.0, x_test / 255.0 #Cambio al rango 0-1 -> Disminuyo CC
print(y_train[0])
#y_train = to_categorical(y_train, num_classes=10) #One-hot encoding para minimizar error
#y_te = to_categorical(y_test, num_classes=10)

"""
Como no voy a utilizar el one-hot, debo de usar sparse_categorical_crossentropy
"""

x_tr, x_val, y_tr, y_val = train_test_split(x_train, y_train, test_size=0.1, random_state=42) # 3 subconjuntos es de vital importancia
#Expandir dimensiones porque en CNN tengo que especificar el número de canales
print(x_tr.shape)

"""
Le expando en axis=3 para poder mantenerlo en canal gris.
"""

x_tr = expand_dims(x_tr, axis=3)
x_val = expand_dims(x_val, axis=3)
x_te = expand_dims(x_te, axis=3)
print(x_tr.shape)

#### **- Creando la topología de Red Neuronal (CNN) y entrenándola**

In [None]:
# Construccion de una red CNN
from tensorflow.keras.models import Sequential
from tensorflow.keras import layers
# Red feedforward API secuencial
convnet = Sequential()

"""
Como se que el problema es solucionable, y como las imágenes vienen bien formadas,
ingreso 3 bloques convulocionales en el Base model.
"""


# BASE MODEL
convnet.add(layers.Conv2D(32,(3,3),input_shape=(28,28,1),activation='relu'))
convnet.add(layers.MaxPooling2D((2,2)))

convnet.add(layers.Conv2D(64,(3,3),activation='relu'))
convnet.add(layers.MaxPooling2D((2,2)))

convnet.add(layers.Conv2D(64,(3,3),activation='relu'))

#TOP MODEL
convnet.add(layers.Flatten())
convnet.add(layers.Dense(64,activation='relu'))
convnet.add(layers.Dense(10,activation='softmax'))

In [None]:
convnet.summary()

In [None]:
convnet.compile(optimizer='adam',
               loss='sparse_categorical_crossentropy', #If labels are integers
               #loss='categorical_crossentropy', #If labels are one-hot encoded
               metrics=['accuracy'])

In [None]:
H = convnet.fit(x_tr, y_tr, epochs=5, batch_size=128, validation_data=(x_val, y_val))

"""
batch_size de 128 imágenes por epoch
"""

#### **- Observando el proceso de entrenamiento para tomar decisiones**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
# Muestro gráfica de accuracy y losses
plt.style.use("ggplot")
plt.figure()
plt.plot(np.arange(0, 5), H.history["loss"], label="train_loss")
plt.plot(np.arange(0, 5), H.history["val_loss"], label="val_loss")
plt.plot(np.arange(0, 5), H.history["accuracy"], label="train_acc")
plt.plot(np.arange(0, 5), H.history["val_accuracy"], label="val_acc")
plt.title("Training Loss and Accuracy")
plt.xlabel("Epoch #")
plt.ylabel("Loss/Accuracy")
plt.legend()

#### **- Probando el conjunto de datos en el subset de test y evaluando el performance del modelo**

In [None]:
from sklearn.metrics import classification_report
# Evaluando el modelo de predicción con las imágenes de test
print("[INFO]: Evaluando red neuronal...")
predictions = convnet.predict(x_te, batch_size=128)
#print(y_te[0])
#print(predictions[0])
print(classification_report(y_test, predictions.argmax(axis=1)))

## **¿POR QUE CONVOLUTIONAL NEURAL NETWORKS?: CIFAR DATASET**

#### **- Cargando el conjunto de datos y acondicionándolo**

In [None]:
# Importando el set de datos CIFAR10
from tensorflow.keras.datasets import cifar10
from sklearn.preprocessing import LabelBinarizer
print("[INFO]: Loading CIFAR-10 data...")
((trainX, trainY), (testX, testY)) = cifar10.load_data()
trainX = trainX.astype("float") / 255.0
testX = testX.astype("float") / 255.0
labelNames = ["Avión", "Automóvil", "Pájaro", "Gato", "Ciervo", "Perro", "Rana", "Caballo", "Barco", "Camión"]
print(trainX.shape)
print(trainY.shape)

# Por si es necesario convertir a one-hot encoding
#lb = LabelBinarizer()
#trainY = lb.fit_transform(trainY)
#testY = lb.transform(testY)

In [None]:
print(testX.shape)
print(testY.shape)

#### **- Inspeccionando el conjunto de datos**

In [None]:
import matplotlib.pyplot as plt
fig = plt.figure(figsize=(14,10))
for n in range(1, 29):
    fig.add_subplot(4, 7, n)
    img = trainX[n]
    plt.imshow(img)
    plt.title(labelNames[trainY[n][0]])
    plt.axis('off')

#### **- Creando la topología de red neuronal y entrenándola: MLP**

In [None]:
# Imports necesarios
import numpy as np
from sklearn.metrics import classification_report
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Dropout
from tensorflow.keras.optimizers import SGD
import matplotlib.pyplot as plt

# Arquitectura de red
# Definimos el modo API Sequential
model = Sequential() #(X)
model.add(Flatten()) #(X)
# Primera capa oculta
model.add(Dense(2048, input_shape=(32*32*3,), activation="relu")) #(X)
#model.add(Dropout(0.5))
# Segunda capa oculta
model.add(Dense(1024, activation="relu")) #(X)
#model.add(Dropout(0.5))
# Tercera capa oculta
model.add(Dense(512, activation="relu")) #(X)
#model.add(Dropout(0.5))
# Cuarta capa oculta
model.add(Dense(128, activation="relu")) #(X)
#model.add(Dropout(0.5))
# Quinta capa oculta
model.add(Dense(32, activation="relu")) #(X)
# Capa de salida
model.add(Dense(10, activation="softmax")) #(X)


# Compilamos el modelo y entrenamos
print("[INFO]: Entrenando red neuronal...")
# Compilamos el modelo
model.compile(loss="sparse_categorical_crossentropy", optimizer=SGD(0.01), metrics=["accuracy"]) # Etiquetas en decimal #(X)
# model.compile(loss="categorical_crossentropy", optimizer=SGD(0.01), metrics=["accuracy"]) # Etiquetas binarias #(X)
# Entrenamos el perceptrón multicapa
H = model.fit(trainX, trainY, validation_split=0.2, epochs=50, batch_size=32) #(X)

# Evaluamos con las muestras de test
print("[INFO]: Evaluando modelo...")
# Efectuamos predicciones
predictions = model.predict(testX, batch_size=32) #(X)
# Obtenemos el report
print(classification_report(testY, predictions.argmax(axis=1), target_names=labelNames)) # Etiquetas en decimal #(X)
# print(classification_report(testY.argmax(axis=1), predictions.argmax(axis=1), target_names=labelNames)) # Etiquetas binarias

# Mostramos gráfica de accuracy y losses
plt.style.use("ggplot")
plt.figure()
plt.plot(np.arange(0, 50), H.history["loss"], label="train_loss")
plt.plot(np.arange(0, 50), H.history["val_loss"], label="val_loss")
plt.plot(np.arange(0, 50), H.history["accuracy"], label="train_acc")
plt.plot(np.arange(0, 50), H.history["val_accuracy"], label="val_acc")
plt.title("Training Loss and Accuracy")
plt.xlabel("Epoch #")
plt.ylabel("Loss/Accuracy")
plt.legend()

#### **- Creando la topología de red neuronal y entrenándola: CNN**

In [None]:
# Import the necessary packages
import numpy as np
from tensorflow.keras import backend as K
from tensorflow.keras.layers import Input, Conv2D, Activation, Flatten, Dense, Dropout, BatchNormalization, MaxPooling2D
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import SGD, Adam
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
from google.colab import drive

n_epochs=50
#########################################
###### Definimos la arquitectura ########
#########################################
#BASE MODEL
# Definimos entradas
inputs = Input(shape=(trainX.shape[1], trainX.shape[2], trainX.shape[3]))

# Primer set de capas CONV => RELU => CONV => RELU => POOL
x1 = Conv2D(32, (3, 3), padding="same", activation="relu")(inputs)
x1 = BatchNormalization()(x1)
x1 = Conv2D(32, (3, 3), padding="same", activation="relu")(x1)
x1 = BatchNormalization()(x1) # puedo codificar arquitecturas secuenciales con la funcional
x1 = MaxPooling2D(pool_size=(2, 2))(x1)
x1 = Dropout(0.25)(x1)

# Segundo set de capas CONV => RELU => CONV => RELU => POOL
x2 = Conv2D(64, (3, 3), padding="same", activation="relu")(x1) #(X)
x2 = BatchNormalization()(x2) #(X)
x2 = Conv2D(64, (3, 3), padding="same", activation="relu")(x2) #(X)
x2 = BatchNormalization()(x2) #(X)
x2 = MaxPooling2D(pool_size=(2, 2))(x2) #(X)
x2 = Dropout(0.25)(x2) #(X)

# Tercer set de capas CONV => RELU => CONV => RELU => POOL
x3 = Conv2D(256, (3, 3), padding="same", activation="relu")(x2) #(X)
x3 = BatchNormalization()(x3) #(X)
x3 = Conv2D(256, (3, 3), padding="same", activation="relu")(x3) #(X)
x3 = BatchNormalization()(x3) #(X)
x3 = MaxPooling2D(pool_size=(2, 2))(x3) #(X)
x3 = Dropout(0.25)(x3) #(X)

# TOP MODEL
# Primer (y único) set de capas FC => RELU
xfc = Flatten()(x3) #(X)
xfc = Dense(512, activation="relu")(xfc) #(X)
xfc = BatchNormalization()(xfc) #(X)
xfc = Dropout(0.5)(xfc) #(X)
# Clasificador softmax
predictions = Dense(10, activation="softmax")(xfc) #(X)

# Unimos las entradas y el modelo mediante la función Model con parámetros inputs y ouputs (Consultar la documentación)
model_cnn = Model(inputs=inputs, outputs=predictions) #(X)

# Compilar el modelo
print("[INFO]: Compilando el modelo...")
model_cnn.compile(loss="sparse_categorical_crossentropy", optimizer=Adam(lr=0.001,beta_1=0.9, beta_2=0.999, epsilon=1e-08), metrics=["accuracy"]) #(X)

# Entrenamiento de la red
print("[INFO]: Entrenando la red...")
H = model_cnn.fit(trainX, trainY, validation_split=0.2, batch_size=128, epochs=n_epochs, verbose=1) #(X)

# Almaceno el modelo en Drive
# Montamos la unidad de Drive
drive.mount('/content/drive') #(X)
# Almacenamos el modelo empleando la función mdoel.save de Keras
model_cnn.save(BASE_FOLDER+"deepCNN_CIFAR10.h5") #(X)

# Evaluación del modelo
print("[INFO]: Evaluando el modelo...")
# Efectuamos la predicción (empleamos el mismo valor de batch_size que en training)
predictions = model_cnn.predict(testX, batch_size=128) #(X)
# Sacamos el report para test
print(classification_report(testY, predictions.argmax(axis=1), target_names=labelNames)) #(X)

# Gráficas
plt.style.use("ggplot")
plt.figure()
plt.plot(np.arange(0, n_epochs), H.history["loss"], label="train_loss")
plt.plot(np.arange(0, n_epochs), H.history["val_loss"], label="val_loss")
plt.plot(np.arange(0, n_epochs), H.history["accuracy"], label="train_acc")
plt.plot(np.arange(0, n_epochs), H.history["val_accuracy"], label="val_acc")
plt.title("Training Loss and Accuracy")
plt.xlabel("Epoch #")
plt.ylabel("Loss/Accuracy")
plt.legend()
plt.show()

## **REDUCIENDO OVERFITTING MEDIANTE DATA AUGMENTATION**

La mejor manera de hacer que un modelo de aprendizaje automático generalice mejor es entrenarlo con más datos. Por supuesto, en la práctica, la cantidad de datos que tenemos es limitada. Una forma de solucionar este problema es crear datos sintéticos y agregarlos al conjunto de datos de entrenamiento. Para algunas tareas de aprendizaje automático, es razonablemente sencillo crear nuevos datos sintéticos.

Este enfoque es más sencillo cuando se trata de resolver una tarea de clasificación. Un clasificador necesita tomar una entrada x de múltiples dimensiones y mapearla a una identidad de categoría única y.

Esto significa que la tarea principal que enfrenta un clasificador es ser invariable para una amplia variedad de transformaciones. Podemos generar nuevos pares (x, y) fácilmente, simplemente hay que transformar las entradas x en nuestro conjunto de entrenamiento.

El aumento del conjunto de datos ha sido una técnica particularmente efectiva para un problema de clasificación específico: el reconocimiento de objetos. Las imágenes son de alta dimensionalidad y se caracterizan por un enorme grado de variabilidad, y muchos de estos efectos de variabilidad se pueden simular fácilmente. Las operaciones como realizar una translación de unos pocos píxeles en diferentes direcciones sobre las imágenes de entrenamiento a menudo pueden mejorar en gran medida la generalización, incluso si el modelo ya ha sido diseñado para ser parcialmente invariante a la translación mediante el uso de las técnicas de convolución y agregación.

- Permite incrementar el número de ejemplos para reducir el overfitting (junto con el dropout)
- Generar datos a partir de los presentes, a través de transformaciones geométricas y de intensidad:
	- Escalado
	- Zoom
	- Traslaciones
	- Rotaciones
	- Espejo
	- Trasformaciones de color
	- Histogram equialization

- Para implementarlo en la práctica se hace uso de `ImageDataGenerators`

[ImageDataGenerators](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/image/ImageDataGenerator)

El ImageDataGenerator implementa las siguientes funciones:
- Escalado
- Zoom
- Traslaciones
- Rotaciones
- Espejo
- Trasformaciones de color
- Histogram equialization

Me genero un objeto `ImageDataGenerator` con los parámetros que deseo alterar
de las imágenes.


>NOTE: **No se debe realizar data augmentation sobre datos de validación o test.**

#### **- Acondicionando dataset**

In [None]:
from sklearn.preprocessing import LabelBinarizer
# Por si es necesario convertir a one-hot encoding
lb = LabelBinarizer()
trainY = lb.fit_transform(trainY)
testY = lb.transform(testY)
print(trainY.shape)
print(testY.shape)

#### **- Creando un contenedor DataGenerator para el aumento automático de muestras**

In [None]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator

"""
Tengo que parametrizar bien los valores para evitar que las imágenes sintéticas no
se vean demasiado impactadas en las transformaciones respecto el label.
"""


datagen = ImageDataGenerator(
    rotation_range=15, # grados de rotacion aleatoria
    width_shift_range=0.2, # fraccion del total (1) para mover la imagen
    height_shift_range=0.2, # fraccion del total (1) para mover la imagen
    horizontal_flip=True, # girar las imagenes horizontalmente (eje vertical)
    # shear_range=0, # deslizamiento
    zoom_range=0.2, # rango de zoom
    # fill_mode='nearest', # como rellenar posibles nuevos pixeles
    # channel_shift_range=0.2 # cambios aleatorios en los canales de la imagen
)

#### **- Inspeccionando las muestras generadas sintéticamente**

In [None]:
from tensorflow.keras.preprocessing import image
import matplotlib.pyplot as plt
%matplotlib inline

sample = 13
plt.imshow(image.array_to_img(trainX[sample]))
plt.show()
print('Label = {}'.format(labelNames[trainY[sample].argmax(axis=0)]))

fig, axes = plt.subplots(2,2)
i = 0
for batch in datagen.flow(trainX[sample].reshape((1,32,32,3)),batch_size=1):
    #plt.figure(i)
    axes[i//2,i%2].imshow(image.array_to_img(batch[0]))
    i += 1
    if i == 4:
        break
plt.show()

#### **- Creando la topología de red neuronal y entrenándola: CNN**

In [None]:
# Import the necessary packages
import numpy as np
from tensorflow.keras import backend as K
from tensorflow.keras.layers import Input, Conv2D, Activation, Flatten, Dense, Dropout, BatchNormalization, MaxPooling2D
from tensorflow.keras.models import Model
from tensorflow.keras.models import Sequential
from tensorflow.keras.optimizers import SGD, Adam
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
from google.colab import drive

#########################################
###### Definimos la arquitectura ########
#########################################
# Definimos entradas
inp = Input(shape=(trainX.shape[1], trainX.shape[2], trainX.shape[3]))

# Primer set de capas CONV => RELU => CONV => RELU => POOL
x1 = Conv2D(32, (3, 3), padding="same", activation="relu")(inp)
x1 = BatchNormalization()(x1)
x1 = Conv2D(32, (3, 3), padding="same", activation="relu")(x1)
x1 = BatchNormalization()(x1)
x1 = MaxPooling2D(pool_size=(2, 2))(x1)
x1 = Dropout(0.25)(x1)

# Segundo set de capas CONV => RELU => CONV => RELU => POOL
x2 = Conv2D(64, (3, 3), padding="same", activation="relu")(x1)
x2 = BatchNormalization()(x2)
x2 = Conv2D(64, (3, 3), padding="same", activation="relu")(x2)
x2 = BatchNormalization()(x2)
x2 = MaxPooling2D(pool_size=(2, 2))(x2)
x2 = Dropout(0.25)(x2)

# Segundo set de capas CONV => RELU => CONV => RELU => POOL
x2 = Conv2D(256, (3, 3), padding="same", activation="relu")(x2)
x2 = BatchNormalization()(x2)
x2 = Conv2D(256, (3, 3), padding="same", activation="relu")(x2)
x2 = BatchNormalization()(x2)
x2 = MaxPooling2D(pool_size=(2, 2))(x2)
x2 = Dropout(0.25)(x2)

# Primer (y único) set de capas FC => RELU
xfc = Flatten()(x2)
xfc = Dense(512, activation="relu")(xfc)
xfc = BatchNormalization()(xfc)
xfc = Dropout(0.5)(xfc)
# Clasificador softmax
predictions = Dense(10, activation="softmax")(xfc)

# Unimos las entradas y el modelo mediante la función Model con parámetros inputs y ouputs (Consultar la documentación)
model_aug = Model(inputs=inp, outputs=predictions)

# Compilar el modelo
print("[INFO]: Compilando el modelo...")
model_aug.compile(loss="categorical_crossentropy", optimizer=Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08), metrics=["accuracy"])

# Entrenamiento de la red
print("[INFO]: Entrenando la red...")
H_aug = model_aug.fit(datagen.flow(trainX, trainY, batch_size=128),
                                steps_per_epoch = len(trainX)*2/ 128, epochs=50, validation_data=(testX, testY))
# Almaceno el modelo en Drive
# Montamos la unidad de Drive
drive.mount('/content/drive')
# Almacenamos el modelo empleando la función mdoel.save de Keras
model_aug.save(BASE_FOLDER+"deepCNN_CIFAR10_aug.h5")

# Evaluación del modelo
print("[INFO]: Evaluando el modelo...")
# Efectuamos la predicción (empleamos el mismo valor de batch_size que en training)
predictions = model_aug.predict(testX, batch_size=128)
# Sacamos el report para test
print(classification_report(testY.argmax(axis=1), predictions.argmax(axis=1), target_names=labelNames))

# Gráficas
# plt.style.use("ggplot")
# plt.figure()
# plt.plot(np.arange(0, 50), H_aug.history["loss"], label="train_loss")
# plt.plot(np.arange(0, 50), H_aug.history["val_loss"], label="val_loss")
# plt.plot(np.arange(0, 50), H_aug.history["accuracy"], label="train_acc")
# plt.plot(np.arange(0, 50), H_aug.history["val_accuracy"], label="val_acc")
# plt.title("Training Loss and Accuracy")
# plt.xlabel("Epoch #")
# plt.ylabel("Loss/Accuracy")
# plt.legend()
# plt.show()