# Sprint 17 - Redes Neuronales (Sesiones)

**Versión para estudiantes**

En este caso vamos a trabajar con **redes neuronales** que constituyen un tipo particular de modelos predictivos que se caracterizan y distinguen de otras tipologías porque no surgen de un algoritmo predefinido como tal, sino que su funcionamiento se motiva en intentar replicar los procesos del sistema neurológico humano. De ahí justamente su nombre y el hecho que su implementación requiera de la definción de una arquitectura específica para solucionar cada problema de pronóstico que se le presente.

En este sentido, los modelos basados en redes neuronales, si bien tienen un sustento técnico lógico y coherente, suelen derivar en resultados extremadamente complejos que dificultan significativamente su interpretabilidad causal a partir de los atributos. Es por esta razón son llamados modelos "de caja negra", en los que incluso los científicos de datos que los desarrollan, desconocen los motivos o relaciones creados durante la etapa de entrenamiento.

Lo anterior en todo caso no se debe considerar una limitación, puesto que su capacidad predictiva ha demostrado ser extremadamente alta incluso en la resolución de casos particularmente dificiles (i.e. clasificación de imágenes), y no hay que olvidar que este es siempre el propósito final del aprendizaje computacional. 

De forma adicional, en este caso vamos a aprender cómo se deben procesar datos representados en formas no tabulares. Concretamente vamos a preparar archivos de audio para extraer a partir de los sonidos atributos que sirvan como insumos de nuestros modelos predictivos.

## Entendimiento del contexto

El dataset **RAVDESS** (*Ryerson Audio-Visual Database of Emotional Speech and Song*) fue creado en 2018 por Steven Livingstone y Frank Russo con el propósito de complementar investigaciones en ramas de la neurociencia, psicología y psiquiatría, así como el desarrollo de sistemas autónomos capaces de identificar emociones de seres humanos ya sea de manera visual o auditiva. Es así que RAVDESS cuenta con 7,356 archivos en los que actores vocalizan dos frases en idioma inglés y con un acento norteamericano neutro. En la totalidad de estos archivos hay versiones que son solamente audios, y otros que son videos sin sonido. Así también han versiones en las que los actores hablan y otras en las que cantan.

Nuestro objetivo como científicos de datos en este caso consiste en crear un modelo predictivo capaz de identificar las emociones transmitidas en aquellos archivos de audio hablado, aportando de esta manera con las diferentes investigaciones realizadas en los distintos campos de la medicina neurológica.

## Entendimiento de los datos

Carga las librerías que vamos a utilizar en nuestro proyecto. En primer lugar necesitaremos **pandas**, **numpy**, **matplotlib**, **re**, **warnings** y **glob**. Esta última nos ayudará a crear listas de los archivos que sean del mismo tipo y que estén contenidos en directorios específicos.

Para dar tratamiento a los audios, conviene que importes la librería **librosa**. Igualmente carga el módulo **IPython.display** para poder escuchar los audios.

De **Scikit-Learn** importa las funciones **MinMaxScaler**, **train_test_split**, **classification_report** y **accuracy_score**.

Dado que nuestro modelo utilizará una red neuronal, importa **models**, **Input**, **layers**, **optimizers** y **utils** desde el módulo **tensorflow.keras**.

Ahora bien, puedes descargar los archivos de audio con los que vamos a trabajar desde 

https://www.kaggle.com/datasets/uwrfkaggler/ravdess-emotional-speech-audio/data

Este dataset contiene 1,440 archivos de audio (extensión .wav) los cuales contienen las ya mencionadas grabaciones realizadas por 24 actores de dos posibles frases:

* *Kids are talking by the door*
* *Dogs are sitting by the door*

Adicional a esto, el nombre de cada archivo tiene una codificación dada por los criterios descritos a continuación:

* Tipo de archivo "03" (03 = audio).
* canal "01" (01 = hablado).
* Emoción expresada (01 = neutro, 02 = calma, 03 = alegría, 04 = tristeza, 05 = enojo, 06 = miedo, 07 = desagrado, 08 = sorpresa).
* Intensidad (01 = normal, 02 = alta).
* Frase enunciada (01 = "Kids are talking by the door", 02 = "Dogs are sitting by the door").
* Repetición de la grabación (01 = 1ra repetición, 02 = 2da repetición).
* Id del actor (01 to 24. Impares son hombres y pares son mujeres).

Así por ejemplo, el archivo *03-01-06-02-02-02-11.wav* implica lo siguiente:

* Tipo de archivo: audio
* canal: hablado
* Emoción expresada: miedo
* Intensidad: alta
* Frase enunciada: "Dogs are sitting by the door"
* Repetición: 2da repetición
* Id del actor: 11 (hombre)

Explora por tanto estos archivos y establece un objetivo técnico, el método y métricas a utilizar, y el plan de acción para preparación e ingeniería de datos.

**OBJETIVO TÉCNICO**

< Aquí tu respuesta >

**MÉTODO Y MÉTRICAS DE RENDIMIENTO**

< Aquí tu respuesta >

**PLAN DE ACCIÓN PARA PREPARACIÓN E INGENERÍA DE DATOS**

< Aquí tu respuesta >

## Preparación de datos

### Transformación de archivos de audio

Para comprender el procedimiento a realizar, primero transformemos sólo el audio de ejemplo. Extrae la información de este archivo con las características de duración deseadas.

Visualiza cómo se comporta el sonido a través del tiempo. Vale que sepas que el sonido en este punto se representa como una medida de la señal eléctrica asociada a la presión o amplitud de aire generada, por lo que se expresa en microvoltios ($\mu V$). 

Mejora la visualización de este comportamiento haciendo un acercamiento para conocer qué sucede con el sonido entre 1.5 y 1.51 segundos. 

Un vector de señal de sonido como el anterior podría ya considerarse utilizable como una observación tabulable, sin embargo presenta dos inconvenientes relevantes:

* En primer lugar, consta de aproximadamente 60,000 puntos o atributos lo cual podría ser riesgoso en cuanto a la confiabilidad de nuestro modelo al potencialmente incidir en la eficiencia computacional y en el surgimiento de sobreajuste. Por tanto hace falta un proceso de reducción dimensional.
* En segundo lugar, una representación a nivel de microvoltios no es fácilmente interpretable desde la perspectiva humana para lo que constituye un sonido. Por consiguiente, hace falta llevar esta información a una unidad más significativa conceptualmente, siendo la mejor alternativa un decibel (dB) que representa una medida de volumen audible.

Ante esto, se hace conveniente el empleo de un mecanismo específico para el tratamiento de audios llamado **Transformada de Fourier de tiempo corto (STFT por sus siglas en inglés)**. Esta transformación descompone la señal eléctrica del sonido en frecuencias sonoras representativas; y a partir de las frecuencias extraídas, es factible obtener los decibeles percibidos.

Extrae por tanto las frecuencias sonoras del audio a través de la función `librosa.stft`. Vale indicar que el resultado obtenido será una suerte de tensor de donde nos interesa únicamente la parte "real" en valores absolutos (la física como ciencia usa estos trucos matemáticos aunque no lo creas).   

Para tu conocimiento, la frecuencia es una medida de la tonalidad del sonido, por lo que si en el gráfico se observa una señal mayor en niveles de frecuencias más altos, esto representa que el audio en ese instante de tiempo sonará de forma más aguda. 

En todo caso, con la transformada de Fourier hemos reducido dimensionalmente nuestra observación de cerca de 60,000 atributos a solamente **130**. Aunque seguramente nos preocupa que hemos extraído en cada instante de tiempo **1,025** frecuencias, esto lo solucionaremos en los siguientes pasos.  

Ahora bien, para facilitar la comprensión conceptual de nuestro sonido, convierte las frecuencias observadas a decibeles mediante la función `librosa.amplitude_to_db`. Incorpora el argumento `ref = 0` pues es el "volumen" de audio más bajo que se debería considerar. 

Recordemos que el volumen audible por un humano suele ir entre 0 y 130 dB, por lo que en este instante de tiempo el audio es esuchado perfectamente por nuestros oídos.

Visto esto, consolida todos los resultados alcanzados hasta ahora en un espectrograma del sonido que muestre las frecuencias y los decibeles alcanzados a través del tiempo. Usa para esto la funcion `librosa.display.specshow`.

Finalmente, guarda una representación media de los decibeles del sonido para cada unidad de tiempo. Este resultado se constituye entonces en nuestra observación transformada del sonido con **130** atributos.

Estamos listos para transformar y tabular todos nuestros archivos de audio. Crea una función que ejecute el procedimiento expuesto tal que al implementarla en un bucle se cuente con una tabla que contenga 1,440 filas y 130 atributos.

### Extracción de atributos adicionales y variable objetivo

A partir del nombre de los archivos de audio, extrae todas las características y guárdalas en una tabla.

Excluye del dataframe aquellas variables poco relevantes para el análisis, es decir, las columnas que contienen el tipo, canal, frase y número de repetición de la grabación.

Ajusta las columnas restantes a fin de que:

* La variable objetivo emoción sea numérica e inicie en 0.
* La variable de intensidad tome valores 0 (intensidad normal) o 1 (intensidad alta).
* Se tenga una columna en sustitución del id del actor la cual indique si dicha persona es hombre (1) o es mujer (0).

Une finalmente esta información con el dataset de audios generado en la sección precedente.

## Ingeniería de datos

Ejecuta el plan de acción establecido para la ingeniería de los datos.

Antes de continuar, te sugiero guardar los subconjuntos de entrenamiento y prueba en archivos *csv*. 

## Modelo de red neuronal densa

Una red neuronal consiste en una secuencia de capas interconectadas en las que se pueden definir múltiples entradas y salidas. Cada capa consta de uno o más nodos (llamados "neuronas" o "unidades") en los cuales las entradas se operan y generan como resultado una salida.

Para comprender un poco mejor la idea expuesta, consideremos que una red neuronal básica es justamente la regresión lineal en la cual la matriz de atributos $X$ es la entrada. Esta se procesa en una única neurona que la multiplica por un vector de pesos $w_0$, generando como salida un nuevo vector $y_{p}$ al que llamamos predicción.

$$ y_{p} = X\cdot w_0 $$

A partir de aquí los valores de $w_0$ se ajustan al minimizar una función de pérdida $L$ dada por $L = f(y-y_{p})$, donde $y$ corresponde a la salida esperada u observada. Esto es lo que se conoce como **retropropagación** y es el mecanismo fundamental de aprendizaje que tienen las redes neuronales. Como ya debes suponer la retropropagación requiere de la técnica de descenso de gradiente tal que

$$ w_t = w_{t-1} - \tau g_w $$

donde $t$ es la iteración realizada, $\tau$ es una tasa de aprendizaje (regularización), y $g_w$ es el gradiente de la función de pérdida correspondiente.

![](NN_RegLin.png)

Asumamos ahora que $y$ es una variable categórica que toma valores 0 o 1, la red neuronal básica que podemos utilizar no es otra que la regresión logística la cual es igual a la vista antes solo que en esta ocasión adicionamos una segunda capa. En esta nueva capa existe igualmente una sola neurona en la que $y_p$ se opera mediante una función **sigmoidal** para obtener $y_p^{(2)}$ tal que

$$ y_p^{(2)} = \frac{1}{1+\exp{(-y_p)}} $$

![](NN_RegLog.png)

Notemos entonces que la regresión logística cuenta con las siguientes naturalezas distintas de capas en su arquitectura:

* La primera contiene los atributos de entrada, por lo que en el contexto de redes neuronales tiene por nombre justamente *CAPA DE ENTRADA*. 
* La segunda que genera la salida $y_p$ a través de una combinación lineal adaptable a través de parámetros $w$, y que se conoce como *CAPA DENSA*.
* La tercera que genera la salida $y_p^{(2)}$ a través de una transformación sigmoidal no adaptable, y que se denota como *CAPA DE ACTIVACIÓN*.

Estos tipos son las que utilizaremos inicialmente para construir nuestro modelo predictor de emociones.

### Red neuronal básica

Esta red neuronal base que vamos a construir se denomina más comúnmente **Perceptrón** y tendrá las siguientes particularidades para corresponderse con el contexto de mejor forma:

* Dado que se desean pronosticar 8 emociones distintas, su capa densa contendrá 8 neuronas. Cada una de ellas está encargada de encontrar aquellos patrones de una emoción en específico.
* En vista que no se puede utilizar una función sigmoidal en la capa de activación pues esta solamente funciona para clasificaciones binarias, se aplicará la activación **softmax** dada por

$$ y_{i,p}^{(2)} = \frac{\exp{(y_{i,p})}}{\sum_j \exp{(y_{j,p})}} $$

donde $i$ y $j$ son índices que representan son cada una de las 8 emociones.

Crea entonces la red neuronal con esta arquitectura (capas y retropropagación) y las funciones correspondientes de la librería **tensorflow**. Para la definición como tal de la red utiliza la función `models.Sequential`. Para la creación de las capas utiliza el método `add` y las funciones `Input`, `layers.Dense` y `layers.Activation` según corresponda. Para la definición del método de retropropagación considera el método `compile` con los siguientes argumentos:

* `loss = "sparse_categorical_crossentropy"` que indica que se utilizará **entropía cruzada** como función de pérdida.
* `optimizer = "sgd"` que indica que se aplicará descenso de gradiente como método de optimización.
* `metrics = ["acc"]` que indica que se validará el rendimiento del modelo mediante la métrica de exactitud.

El modelo definido consta de 1,064 parámetros propios de la capa densa, los mismos que surgen de tener 8 neuronas, cada una con 132 pesos (más un peso adicional representativo de la constante o intercepto de cualquier regresión). Entonces se cumple que

$$ 8 \times (132 + 1) =  1064 $$

Lo anterior da cuenta de la complejidad que alcanzan los modelos basados en redes neuronales y que los transforma consecuentemente en "cajas negras".

Ahora bien, para entrenar nuestro modelo base debemos considerar algunas particularidades de las redes neuronales:

* En primer lugar, el aprendizaje de las mismas se da como en otros modelos con los datos de entrenamiento.
* Sin embargo, las redes neuronales aprenden de forma dinámica y permanente visto que usan retropropagación. Por tanto, también es importante establecer cuantas *epocas* o iteraciones de entrenamiento se desean.
* Tercero, cada una de estas épocas requiere de una validación por lo que igualmente se deben tomar en cuenta los datos de prueba.

Visto esto, entrena el modelo mediante el método `fit` pero tomando en cuenta las particularidades expuestas y con al menos 250 épocas. Guarda los resultados en una variable llamada `train1`.

Visualiza la evolución de la exactitud a medida que las épocas fueron avanzando. Puedes extraer esta información del diccionario `train1.history` en la clave val_acc.

Genera ahora las predicciones con el modelo utilizando el método `predict`. Ten en cuenta que las predicciones de cada observación evidencian vectores de probabilidad para las 8 emociones.

Crea una matriz de confusión y un reporte de clasificación con las predicciones alcanzadas por el modelo. Al finalizar guarda la métrica de exactitud alcanzada.

### Red neuronal multicapa

Un aspecto interesante en la creación de redes neuronales es que no existe limitación en cuanto a las capas de neuronas a incorporar dentro de su arquitectura, lo cual si bien incrementa la complejidad del modelo, abre la posibilidad a un mejoramiento del rendimiento.

En este sentido, para la definición del siguiente modelo adiciona dos capas densas que busquen extraer los detalles más representativos de los datos de entrada, y con sus correspondientes capas de activación de tipo **ReLu**, que surgen de la función siguiente:

$$ y_p^{(2)} = \max{(0,y_p)} $$

Estas nuevas capas colócalas a continuación de aquella de entradas.

Entrena el modelo y visualiza la evolución de la exactitud dado el entrenamiento. Contrasta esta evolución con la exactitud del modelo base anterior. 

Evalúa el rendimiento del modelo y guarda la métrica de exactitud alcanzada.

### Red neuronal multicapa con otros hiperparámetros

Al igual que en otros modelos, parte importante en el diseño de redes neuronales radica en la búsqueda de hiperparámetros que mejoren su rendimiento. En este sentido, en la siguiente red a crear ajusta lo siguiente a partir de la arquitectura anterior:

* Cambia las dos primeras capas de activación de forma que utilicen funciones **tangente hiperbólica** y **sigmoidal**, respectivamente. Al respecto de la primera, la función que aquí se utiliza está dada por:

$$ y_p^{(2)} = \frac{e^{y_p} - e^{-y_p}}{e^{y_p} + e^{-y_p}} $$

* Cambia el método numérico de optimización a uno conocido como **Adam (Optimizador de Momento Adaptativo)** que tiende a funcionar mejor cuando el número de atributos es alto. Para esto emplea la función `optimizers.Adam` con el argumento `learning_rate = 0.001`.

Entrena el modelo y visualiza la evolución de su exactitud.

Es importante que notes que tanto el uso de un optimizador tipo "Adam" como de neuronas de activación de tangentes hiperbólicas tienden a agilizar el aprendizaje al inicio de las épocas; sin embargo, a partir de cierto punto el ritmo de mejora del modelo es más lento, pudiendo requerir de un mayor número de iteraciones para estabilizarse.

Evalúa el rendimiento del modelo y guarda la métrica de exactitud alcanzada.

## Modelo de red neuronal convolucional

Las capas **convolucionales** son un tipo diferente en la arquitectura de redes neurales que procesan las entradas recibidas a modo de filtros que extraen características distintivas de los mismos. Para entender su funcionamiento, tomemos como ejemplo a una capa convolucional previamente utilizada y que se corresponde con la descomposición de una serie temporal. En este escenario, las entradas son justamente cada una de las observaciones $x_t$ a través del tiempo $[0,T]$. La capa en cuestión contaría con una sola neurona y 3 filtros, generando como salida lo siguiente considerando una ventana $K$ alrededor de cada tiempo $t$:

1. Tendencia (media móvil): Dada por la expresión $ \tau_{t} = \sum_{i \in K} w_{1,i}x_i $, donde los pesos $w_{1,i}$ son aquellos parámetros a optimizar por retropropagación al igual que en las redes densas vistas antes. 

2. Estacionalidad: Dada por la expresión $ \sigma_{t} = \sum_{i \in K} w_{2,i}(x_i - \tau_i) $, donde $w_{2,i}$ son los pesos a optimizar por retropopagación en este filtro.

3. Residuo o factor aleatorio: Dado por la expresión $ \rho_{t} = x_t - \tau_t - \sigma_t $ y que no tiene pesos.

Es importante notar que en estas capas existen 3 hiperparámetros importantes:

* La ventana $K$ conocida como *kernel*.
* El salto o *stride* que especifica la cantidad de elementos que el *kernel* debe recorrer en el espacio temporal $[0,T]$ al momento de ejecutar los filtros. 
* El relleno o *padding* que define si la dimensión de la salida de la neurona será menor o igual a la de la entrada (Recuerda que al descomponer una serie podían generarse valores perdidos).  

![](NN_Conv.png)

Diseña entonces una red neuronal para la clasificación de emociones que utilice el siguiente orden de capas:

* Una capa de entrada ajustada para ser utilizada por capas convolusionales.
* Una capa convolucional de tipo `Conv1D` que funciona de forma equivalente a la descomposición de series evidenciada antes. Usa en este caso 5 filtros, un kernel de 10, un salto de 1 y un relleno de "same".
* Una capa de activación tipo ReLu.
* Una capa de tipo `Dropout` la cual convierte las salidas obtenidas en la capa precedente a 0 cuando las mismas tienen un valor menor a un umbral específico. Usa un valor de 0.1 para este umbral.  
* Una de tipo `MaxPooling1D` que es de tipo convolusional y solamente consta de un filtro que extrae el máximo móvil. Usa en este caso un kernel de 10, un salto de 2 y un relleno de "valid" (menor dimensionalidad).
* Nuevamente una capa `Dropout` con las mismas características a la anterior de este tipo.
* Un capa de tipo `Flatten` que simplemente prepara el resultado obtenido para ser utilizado como entrada de una capa densa.
* Una capa de tipo densa con 8 neuronas.
* Una capa de activacion tipo softmax.  

Notemos que las redes que utilizan capas convolucionales tienden a ser menos complejas puesto que la convolución como tal es una operación matemática de tipo agregadora. En nuestra arquitectura, ya no se consideran 132 atributos individuales sino que ahora existen 10 grupos dados por el *kernel* (más 1 correspondiente al intercepto) y 5 filtros. Por tanto, se deben otpimizar un total de $(10 + 1) \times 5 = 55$ pesos.

Entrena entonces esta red neuronal y visualiza la evolución de la métrica de exactitud.

Evalúa el modelo creado y guarda la exactitud alcanzada.

## Resultados alcanzados

Para concluir con nuestro caso de estudio, visualicemos la capacidad predictiva de nuestra red neuronal mediante ejemplos concretos. Para esto en primer lugar escoge cualquier ejemplo del los datos de prueba, digamos el audio en la posición 20. 

Extrae la emoción real y predicha de este ejemplo.

Finalmente grafica la probabilidad predicha de cada una de las emociones por el modelo.

Siéntete libre de probar con cualquier otro ejemplo proveniente de los datos.

Si es de tu interés, puedes guardar el modelo ya entrenado mediante el siguiente código:

```py
mod_rn4.save("modelo_final.keras")
```

Y cargarlo mediante en otro notebook o programa de Python mediante este otro:

```py
modelo = models.load_model("modelo_final.keras")
```

¡Todo listo! Has creado un modelo capaz de identificar las emociones de archivos de audio con una asertividad significativamente alta. Considera que otro modelo que prediga emociones al azar entre las 8 posibles de este caso, podría alcanzar únicamente valores de exactitud cercanos a 12%, así que estar cerca de un 60% es una mejora considerable. Sin embargo, el trabajo no concluye aquí intenta de probar distintas arquitecturas y configuraciones de redes neuronales con el propósito de intentar superar el rendimiento alcanzado hasta ahora.