# Reconocimiento de patrones y aprendizaje automático

## Tarea 3: Redes neuronales y árboles de decisión

#### Profesor: Andrés Aldana Gonzáles<br> Ayudante: Felipe Navarrete Córdova<br> Alumno: Ricardo Eduardo Rivas Roa
Fecha de entrega: Lunes 24 de enero de 2022

## 1. Investigación
Realiza un breve resumen donde contestes las siguientes preguntas:
<br>$a)$¿Qué son las redes neuronales recurrentes (RNN’s)?

$R.$ Una red neuronal recurrente (RNN) es un tipo de red neuronal artificial que utiliza datos secuenciales o datos de series temporales. Estos algoritmos de aprendizaje profundo se usan comúnmente para problemas ordinales o temporales, como traducción de idiomas, procesamiento de lenguaje natural (nlp), reconocimiento de voz y subtítulos de videos. Al igual que las redes neuronales convolucionales (CNN), las redes neuronales recurrentes utilizan datos de entrenamiento para aprender. Se distinguen por su "memoria", ya que toman información de entradas anteriores para influir en la entrada y salida actual.


<br>$b)$Describe los diferentes tipos de RNN’s

$R.$ Hay bastantes tipos de RRN's, particularmente aquí sólo vamos a explicar 4 tipos. 
* Primero, el tipo one-to-one: Un modelo one-to-one produce un valor de salida para cada valor de entrada.
  ![one-to-one.png](one-to-one.png)

El estado interno para el primer paso de tiempo es cero; a partir de ese momento, el estado interno se acumula sobre los pasos de tiempo anteriores así progresivamente. En el caso de una predicción de secuencia, este modelo produciría un pronóstico de un paso de tiempo para cada paso de tiempo observado recibido como entrada.

* Un modelo one-to-many a muchos produce múltiples valores de salida para un valor de entrada.
  ![one-to-many.png](one-to-many.png)
  El estado interno se acumula a medida que se produce cada valor en la secuencia de salida.

Este modelo se puede utilizar para subtítulos de imágenes en los que se proporciona una imagen como entrada y se genera una secuencia de palabras como salida.

* Un modelo de many-to-one produce múltiples valores de salida para un valor de entrada.
![many-to-one.png](many-to-one.png)
El estado interno se acumula con cada valor de entrada antes de que se produzca un valor de salida final.

En el caso de series de tiempo, este modelo usaría una secuencia de observaciones recientes para pronosticar el próximo paso de tiempo. Esta arquitectura representaría el modelo clásico de series temporales autorregresivas.

* Un modelo de many-to-many produce múltiples salidas después de recibir múltiples valores de entrada.

![many-to-many.png](many-to-many.png)

Al igual que en el caso de many-to-one, el estado se acumula hasta que se crea la primera salida, pero en este caso se generan varios pasos de tiempo.

Es importante destacar que el número de pasos de tiempo de entrada no tiene que coincidir con el número de pasos de tiempo de salida. Piense en los pasos de tiempo de entrada y salida que operan a diferentes velocidades.

En el caso del pronóstico de series de tiempo, este modelo usaría una secuencia de observaciones recientes para hacer un pronóstico de varios pasos.

<br>$c)$¿Qué tipo de problemas se pueden resolver a través de RNN’s?

$R.$ Como se menciono en la primer pregunta esta red neuronal se usa en traducción de idiomas, procesamiento de lenguaje natural (nlp), reconocimiento de voz y genración de subtítulos; estas se incorporan a aplicaciones populares como Siri, búsqueda por voz y Google Translate.

<br>$d)$¿Qué son las redes de tipo Long Short-Term Memory (LSTM)?

$R.$ Es una variable de RNN que pretende resolver problema del gradiente de fuga de información. Esta variante agrega una manera para transportar información a través de muchos pasos de tiempo. La idea de este algoritmo es como tener una cinta transportadora corriendo paralela a la secuencia que se está procesando. La información de la secuencia puede saltar a la cinta transportadora en cualquier punto, ser transportado a un paso de tiempo posterior y saltar, intacto, cuando lo necesites. Esto es esencialmente lo que hace LSTM: guarda información para más adelante, evitando así que las señales más antiguas desaparezcan gradualmente durante el procesamiento.

<br>$e)$Describe la arquitectura principal de una red LSTM

$R.$ Para entender esto en detalle, comencemos desde la celda SimpleRNN. Debido a que tendrá muchas matrices de peso, indexe las matrices W y U en la celda con la letra o (Wo y Uo) para la salida.
![lstm1.png](lstm1.png)
Agreguemos a esta imagen un flujo de datos adicional que transporta información a través de pasos de tiempo. Llame a sus valores en diferentes intervalos de tiempo Ct, donde C significa acarreo. Esta información tendrá el siguiente impacto en la celda: se combinará con la entrada conexión y la conexión recurrente (a través de una transformación densa: un producto escalar
con una matriz de ponderación seguida de una adición de sesgo y la aplicación de una función de activación), y afectará el estado que se envía al siguiente paso de tiempo (a través de una activación una función y una operación de multiplicación). Conceptualmente, el flujo de datos de acarreo es una forma de modular la siguiente salida y el siguiente estado.
![lstm2.png](lstm2.png)
Ahora la sutileza: la forma en que se calcula el siguiente valor del flujo de datos de acarreo. implica
tres transformaciones distintas. Los tres tienen la forma de una celda SimpleRNN: $y = activation(dot(state_t, U) + dot(input_t, W) + b$ 
<br>Pero las tres transformaciones tienen sus propias matrices de peso, que indexará con las letras i, f y k. Esto es lo que tiene hasta ahora<br>
$output_t = activation(dot(state_t, Uo) + dot(input_t, Wo) + dot(C_t, Vo) + bo)$<br>
$i_t = activation(dot(state_t, Ui) + dot(input_t, Wi) + bi)$<br>
$f_t = activation(dot(state_t, Uf) + dot(input_t, Wf) + bf)$<br>
$k_t = activation(dot(state_t, Uk) + dot(input_t, Wk) + bk)$<br>
Obtiene el nuevo estado de acarreo (el siguiente c_t) combinando i_t, f_t y k_t<br>
$c_t+1 = i_t * k_t + c_t * f_t$<br>
Agregue esto como se muestra en la figura. Y eso es todo.
![lstm3.png](lstm3.png)


<br>$f)$¿Cuál es la ventaja de usar LSTM en la predicción de series de tiempo sobre otros tipos de redes neuronales?

$R.$ Como se mencionó anteriormente, no se tienen pérdidas de información debido al problema inherente de gradiente que tienen las RNN.

## 2. Implementación de redes neuronales
El objetivo de este ejercicio es construir una red neuronal para clasificar el tipo de actividad que realiza una persona, usando como entrada los datos de un acelerómetro, que se encuentran en el archivo dataset2.zip. 

Los datos fueron recolectados de un acelerómetro puesto en el pecho de 15 participantes que realizan siete actividades. Los datos están separados por participante, por lo que hay 15 diferentes archivos, uno por cada participante con sus diferentes actividades.

Estos datos fueron grabados con una frecuencia de 52 hz en tres direcciones x,y,z, por lo que cada segundo de registro del acelerómetro contiene 52 datos en tres dimensiones de la actividad que la persona está realizando.
Cada columna es un atributo de la medición que representa:
* Número serial o identificador
* Aceleración x
* Aceleración y
* Aceleración z
* Actividad
La actividad está codificada por un número del 1-7:

1. Trabajo en computadora
2. Pararse, caminar y subir/bajar escaleras
3. Mantenerse en pie
4. Caminar
5. Subir/bajar escaleras
6. Caminar y hablar con alguien
7. Hablar estando de pie

### 2.1. Ejercicios
1. Crea una red neuronal capaz de realizar la clasificación de la actividad. Recuerda dividir los datos en subconjuntos de entrenamiento y prueba.

2. Determina el n ́umero  ́optimo de capas y neuronas por capa para este problema. Reporta tus
resultados
3. Prueba con diferentes funciones de activaci ́on: paso, sigmoide, tangente hiperb ́olica y relu.
Reporta tus resultados
4. Elabora un reporte en el que se indique:
El preprocesamiento efectuado sobre los datos.
El n ́umero de elementos utilizados como conjunto de entrenamiento y prueba.
Matriz de confusi ́on e interpretaci ́on.
Reporta el valor de las m ́etricas precisi ́on, exhaustividad (recall), exactitud (accuracy)
y valor F1 (F1-Score) de este clasificador.
¿C ́omo utilizar ́ıas funciones de activaci ́on continuas (como la sigmoide) para calibrar el
rendimiento de la red neuronal?

## Referencias
* Education, I., 2022. What are Recurrent Neural Networks?. [online] ibm.com. Available at: <https://www.ibm.com/cloud/learn/recurrent-neural-networks> [Accessed 21 January 2022].
* Chollet, F., 2018. Deep learning with Python. Shelter Island, NY: Manning.
* Amidi, A., 2019. CS 230 - Recurrent Neural Networks Cheatsheet. [online] Stanford.edu. Available at: <https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks> [Accessed 21 January 2022].
* 
* Grus, J., 2015. Data Science from Scratch. 1st ed. 1005 Gravenstein Highway North, Sebastopol, CA 95472: O'Reilly Media, Inc. https://pdfroom.com/books/data-science-from-scratch/315v8qzPgYy