# Proyecto Final - Deep Learning
## Parte 2 - Convolutional Network

**Curso:** Statistical Learning II

**Catedrático:** Ing. Luis Leal

**Estudiante:** Dany Rafael Díaz Lux (21000864)

**Objetivo:** Entrenar una o varias redes neuronales convolucionales para llevar a cabo clasificación de imágenes con una exactitud mínima de 85%.

In [142]:
# Import required libraries
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout, BatchNormalization
from keras.models import Sequential, load_model
from keras.preprocessing.image import ImageDataGenerator
#from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
import matplotlib.pylab as plt
import datetime as dt
#import math
import numpy as np 
import os, shutil
#import pandas as pd
import random as python_random
import sklearn.metrics as mts
import tensorflow as tf
#import time

## Conjunto de datos: Imágenes de animales del mar
Es un conjunto de imágenes de distintos animales marinos. Actualmente contiene 19 diferentes clases de animales, puede ser descargado aquí: https://www.kaggle.com/datasets/vencerlanz09/sea-animals-image-dataste

### Crear directorios e imágenes en caso de ser necesario
_(Ejecutar siguiente bloque de código sólo si se desea eliminar y crear de nuevo directorio de imágenes.)_

In [115]:
directorioFuente = 'directorio_original'
directorioPrincipal = 'sea_animals'
directorioEntrenamiento = os.path.join(directorioPrincipal, 'train')
directorioValidacion = os.path.join(directorioPrincipal, 'test')
# Eliminar directorio de imágenes si existe
if(os.path.isdir(directorioPrincipal)):
    shutil.rmtree(directorioPrincipal)
# Crear directorio
os.mkdir(directorioPrincipal)
# Crear sub-directorios para entrenamiento y validación
os.mkdir(directorioEntrenamiento)
os.mkdir(directorioValidacion)
# Obtener todos los subdirectorios del directorio fuente
directoriosAnimales = [d for d in os.listdir(directorioFuente) if os.path.isdir(os.path.join(directorioFuente, d))]
# Crear subdirectorios de animales para entrenamiento y validación
for animal in directoriosAnimales:
    os.mkdir(os.path.join(directorioEntrenamiento, animal))
    os.mkdir(os.path.join(directorioValidacion, animal))
# Copiar imágenes a directorios de entrenamiento y prueba
porcentajeTotalImagenesACopiar = 1
porcentajeValidacion = 0.15
# Para cada directorio de animales elegir el porcentaje a copiar y después el porcentaje que será de validación
for animal in directoriosAnimales:
    dirAnimalFuente = os.path.join(directorioFuente, animal)
    dirAnimalEntrenamiento = os.path.join(directorioEntrenamiento, animal)
    dirAnimalValidacion = os.path.join(directorioValidacion, animal)
    # Obtener nombre de todos los archivos del directorio
    nombreImagenes = [f for f in os.listdir(dirAnimalFuente) if os.path.isfile(os.path.join(dirAnimalFuente, f))]
    python_random.seed(21000864)
    imagenesACopiar = python_random.sample(nombreImagenes, int(len(nombreImagenes) * porcentajeTotalImagenesACopiar))
    python_random.seed(21000864)
    imagenesValidacion = python_random.sample(imagenesACopiar, int(len(imagenesACopiar) * porcentajeValidacion))
    imagenesEntrenamiento = [i for i in imagenesACopiar if i not in imagenesValidacion]
    for imagen in imagenesEntrenamiento:
        shutil.copyfile(os.path.join(dirAnimalFuente, imagen), os.path.join(dirAnimalEntrenamiento, imagen))
    for imagen in imagenesValidacion:
        shutil.copyfile(os.path.join(dirAnimalFuente, imagen), os.path.join(dirAnimalValidacion, imagen))

### Carga de imágenes con "ImageDataGenerator"
Se realizarán diversos cambios a las imágenes originales con el objetivo de enriquecer las imágenes de entrenamiento y mejorar el rendimiento de la red neuronal convolucional.

In [313]:
# Parámetros que serán utilizados por generadores
altura = 32
ancho = 32
tamanioBatch = 32
# Se crearán generadores de datos para imágenes, se aplicarán diversos cambios a las imágenes de entrenamiento
definicionGenEntrenamiento = ImageDataGenerator(\
      rescale=1./255,\
      rotation_range=30,\
      width_shift_range=0.2,\
      height_shift_range=0.2,\
      shear_range=0.1,\
      zoom_range=0.3,\
      horizontal_flip=True,\
      fill_mode='nearest')
generadorEntrenamiento = definicionGenEntrenamiento.flow_from_directory(\
                            directorioEntrenamiento,\
                            batch_size=tamanioBatch,\
                            class_mode='categorical',\
                            target_size=(altura, ancho))

Found 9990 images belonging to 19 classes.


In [314]:
# Generador para datos de validación
definicionGenValidacion = ImageDataGenerator(rescale=1./255)
generadorValidacion = definicionGenValidacion.flow_from_directory(\
                            directorioValidacion,\
                            batch_size=tamanioBatch,\
                            class_mode='categorical',\
                            target_size=(altura, ancho))

Found 1752 images belonging to 19 classes.


## Arquitectura de Red Neuronal Convolucional
A continuación se definirá una red neuronal convolucional específica para solucionar este problema de clasificación de imágenes. Las decisiones más importantes para esta arquitectura son:
* Se aplicarán 3 capas convolucionales.
* Se aplicarán 3 capas de de MaxPooling.
* Se aplicarán 2 capas finales completamente conectadas (fully-connected).
* La función de activación en las capas ocultas será 'ReLU'.
* La función de activación en la capa final será 'softmax' por tratarse de un problema de clasificiación múltiple.

In [315]:
# Especificar seed para reproducir resultados
np.random.seed(21000864)
tf.random.set_seed(21000864)
python_random.seed(21000864)
modeloCNN = Sequential([
    Conv2D(32, (3,3), activation='relu', input_shape=(altura, ancho, 3)),
    MaxPooling2D(2,2),
    Conv2D(128, (3,3), activation='relu'),
    MaxPooling2D(2,2),
    #Conv2D(128, (3,3), activation='relu'),
    #MaxPooling2D(2,2),
    Flatten(),
    Dense(256, activation='relu'),
    Dense(256, activation='relu'),
    Dense(19, activation='softmax')
])
modeloCNN.summary()

Model: "sequential_136"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_756 (Conv2D)         (None, 30, 30, 32)        896       
                                                                 
 max_pooling2d_426 (MaxPooli  (None, 15, 15, 32)       0         
 ng2D)                                                           
                                                                 
 conv2d_757 (Conv2D)         (None, 13, 13, 128)       36992     
                                                                 
 max_pooling2d_427 (MaxPooli  (None, 6, 6, 128)        0         
 ng2D)                                                           
                                                                 
 flatten_136 (Flatten)       (None, 4608)              0         
                                                                 
 dense_400 (Dense)           (None, 256)            

### Parámetros para entrenamiento
* El modelo utilizará optimizador adam.
* La función de costo será 'categorical_crossentropy' por ser un problema de clasificación múltiple.
* Se tomará en cuenta la métrica de 'accuracy' (exactitud).

In [316]:
# Especificar seed para reproducir resultados
np.random.seed(21000864)
tf.random.set_seed(21000864)
python_random.seed(21000864)
modeloCNN.compile(optimizer='adam',
                 loss='categorical_crossentropy',
                 metrics=['accuracy'])

### Entrenamiento de de modelo
* Se realizará un entrenamiento de 100 épocas.
* Se definirá puntos de revisión (checkpoints) para los modelos con mejor métrica en los datos de validación con respecto a la exactitud.
* Se detendrá el entrenamiento si después de 10 épocas no se produce mejora en el error de los datos de validación.

In [317]:
funcionesARevisar = []
# Detener entrenamiento si no mejora el error en los datos de validación después de 10 épocas.
funcionesARevisar.append(EarlyStopping(monitor='val_loss', patience=10))
funcionesARevisar.append(ModelCheckpoint('mejorModeloCnn-{epoch:02d}-{val_accuracy:.2f}.h5', monitor='val_accuracy', save_best_only=True))

# Especificar seed para reproducir resultados
np.random.seed(21000864)
tf.random.set_seed(21000864)
python_random.seed(21000864)
datosEntrenamiento = modeloCNN.fit(generadorEntrenamiento,
                                   epochs=100,
                                   validation_data=generadorValidacion,
                                   callbacks=funcionesARevisar)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100


In [318]:
np.random.seed(21000864)
tf.random.set_seed(21000864)
python_random.seed(21000864)
datosEntrenamiento = modeloCNN.fit(generadorEntrenamiento,
                                   epochs=100,
                                   validation_data=generadorValidacion,
                                   callbacks=funcionesARevisar)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100


### (No se continuo con esta segunda parte por limitaciones de tiempo y por no llegar a un 85% de exactitud.)