<a href="https://colab.research.google.com/github/financieras/ai/blob/main/multicapa/subject_es/Proyecto_Perceptron_Multicapa_es.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto de Aprendizaje Automático
## Perceptrón Multicapa
Este proyecto es una introducción a las redes neuronales artificiales: con la implementación de perceptrones multicapa.

Versión: 5.0

## Contenidos
1. Introducción
    - Un poco de historia
    - Perceptrón multicapa
    - Perceptrón
2. Objetivos
3. Instrucciones generales
4. Parte obligatoria
    - Preámbulo
    - Conjunto de datos (dataset)
    - Implementación
    - Entrega
5. Parte bonus
6. Entrega y evaluación por pares

## Capítulo I
### Introducción
En el lenguaje de tu elección vas a implementar un perceptrón multicapa para predecir si un cáncer es maligno o benigno en un conjunto de datos de diagnóstico de cáncer de mama en Wisconsin.

### 1.1 Un poco de historia
El aprendizaje automático es un campo vasto del cual las redes neuronales artificiales son solo un pequeño subconjunto. Sin embargo, vamos a abordarlo ya que es una herramienta muy poderosa que resurgió hace unos años.

Contrariamente a lo que uno podría pensar, las redes neuronales artificiales han existido durante mucho tiempo. En su artículo de 1948 "[Intelligent Machinery](https://www.alanturing.net/intelligent_machinery)", Alan Turing introdujo un tipo de redes neuronales llamadas "B-Type Unorganised Machine" que él consideraba como el modelo más simple posible del sistema nervioso.

El perceptrón fue inventado por Frank Rosenblatt en 1957; es un clasificador lineal de una sola capa, y también una de las primeras redes neuronales en ser implementadas. Desafortunadamente los resultados no fueron tan buenos como se esperaba y la idea fue abandonada. Un poco más de 10 años después, el algoritmo fue mejorado como el *perceptrón multicapa* y se utilizó nuevamente.

### 1.2 Perceptrón Multicapa
El perceptrón multicapa es una red feedforward (lo que significa que los datos fluyen desde la capa de entrada hacia la capa de salida) definida por la presencia de una o más capas ocultas así como una interconexión de todas las neuronas de una capa a la siguiente.

<img src="https://github.com/financieras/ai/blob/main/multicapa/subject_es/multicapa.png?raw=1" alt="cuadrados con puntos" width="800"/>

El diagrama representa una red que contiene 4 capas densas (también llamadas capas totalmente conectadas). Sus entradas consisten en 4 neuronas y su salida de 2 (perfecto para clasificación binaria). Los pesos de una capa a la siguiente están representados por matrices bidimensionales notadas como $W_{l_{j}l_{j+1}}$. La matriz $W_{l_{0}l_{1}}$ es de tamaño (3, 4) por ejemplo, ya que contiene los pesos de las conexiones entre la capa $l_0$ y la capa $l_1$.

El sesgo (bias) a menudo se representa como una neurona especial que no tiene entradas y con una salida siempre igual a 1. Como un perceptrón, está conectado a todas las neuronas de la siguiente capa (las neuronas de sesgo están notadas como $b^{l_j}$ en el diagrama). El sesgo generalmente es útil ya que permite "controlar el comportamiento" de una capa.

### 1.3 Perceptrón
El perceptrón es el tipo de neurona del que está compuesto el *perceptrón multicapa*. Se define por la presencia de una o más conexiones de entrada, una función de activación y una única salida. Cada conexión contiene un peso (también llamado parámetro) que se aprende durante la fase de entrenamiento.

<img src="https://github.com/financieras/ai/blob/main/multicapa/subject_es/perceptron.png?raw=1" alt="cuadrados con puntos" width="480"/>

Son necesarios dos pasos para obtener la salida de una neurona. El primero consiste en calcular la suma ponderada de las salidas de la capa anterior con los pesos de las conexiones de entrada de la neurona, lo que da:

$$\textit{Suma ponderada} = \sum_{k=0}^{N-1}(w_k \cdot x_k) + bias$$



El segundo paso consiste en aplicar una función de activación a esta suma ponderada, siendo la salida de esta función la salida del perceptrón, y puede entenderse como el umbral por encima del cual la neurona se activa (las funciones de activación pueden tomar muchas formas, eres libre de elegir la que quieras dependiendo del modelo a entrenar, aquí hay algunas de las más frecuentemente utilizadas para darte una idea: sigmoide, tangente hiperbólica, unidad lineal rectificada).

## Capítulo II
### Objetivos
El objetivo de este proyecto es darte una primera aproximación a las redes neuronales artificiales y hacer que implementes los algoritmos en el corazón del proceso de entrenamiento. Al mismo tiempo, vas a tener que familiarizarte nuevamente con la manipulación de derivadas y álgebra lineal ya que son herramientas matemáticas indispensables para el éxito del proyecto.

## Capítulo III
### Instrucciones Generales
- Este proyecto solo será evaluado por humanos. Eres libre de organizar y nombrar tus archivos como desees mientras respetes las restricciones listadas a continuación.
- Eres libre de usar cualquier lenguaje que quieras, no tienes restricciones en ese punto.
- No se permiten bibliotecas que manejen la implementación de redes neuronales artificiales o los algoritmos subyacentes, debes codificar todo desde cero, sin embargo, puedes usar bibliotecas para manejar álgebra lineal y para mostrar las curvas de aprendizaje.
- En el caso de un lenguaje compilado, debes enviar un Makefile. Este Makefile debe compilar el proyecto y debe contener las reglas de compilación usuales. Debe recompilar y reenlazar el programa solo cuando sea necesario. Las dependencias también deben descargarse/instalarse con el Makefile según sea necesario.
- La norma no se aplica en este proyecto. Sin embargo, se te pedirá que seas claro y estructurado en la concepción de tu código fuente.

## Capítulo IV
### Parte Obligatoria

#### 4.1 Preámbulo
Una parte no negligible de la evaluación se basará en tu comprensión de la fase de entrenamiento (también llamada fase de aprendizaje) y los algoritmos subyacentes. Se te pedirá que expliques a tu corrector las nociones de **feedforward**, **backpropagation** y **gradient descent**. Los puntos se atribuirán dependiendo de la claridad de tus explicaciones. Estas nociones son importantes para los siguientes proyectos de la rama y representarán un verdadero activo si deseas continuar en este campo.

#### 4.2 Conjunto de datos (dataset)
El conjunto de datos se proporciona en los recursos. Es un archivo `csv` de 32 columnas, siendo la columna diagnosis la etiqueta que quieres aprender dados todos los otros atributos de un ejemplo, puede ser el valor `M` o `B` (por maligno o benigno).

Los atributos del conjunto de datos describen las características de un núcleo celular de masa mamaria extraída con [aspiración por aguja fina](https://en.wikipedia.org/wiki/Fine-needle_aspiration). (Para información más detallada, ve [aquí](https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.names)).

Como verás, hay un importante trabajo de comprensión de datos antes de comenzar a implementar el algoritmo que será capaz de clasificarlo. Una buena práctica sería comenzar jugando con el conjunto de datos mostrándolo con gráficos, visualizando y manipulando sus diferentes características.

Tienes que separar tu conjunto de datos en dos partes por ti mismo, una para entrenamiento y otra para validación.

> Los datos están en bruto y deben ser preprocesados antes de ser utilizados para la fase de entrenamiento.

#### 4.3 Implementación
Tu implementación de red neuronal debe contener al menos dos capas ocultas por defecto.

La idea es hacer que escribas un programa un poco más modular (puedes usar un archivo o directamente como argumentos).

Por ejemplo, agregando una capa oculta en archivo:

```python
network = model.createNetwork([
    layers.denseLayer(input_shape, activation="sigmoid"),
    layers.denseLayer(25, activation="sigmoid", weights_initializer="he_Uniform"),
    layers.denseLayer(25, activation="sigmoid", weights_initializer="he_uniform"),
    layers.denseLayer(25, activation="sigmoid", weights_initializer="he_uniform"),
    layers.denseLayer(output_shape, activation="softmax", weights_initializer="he_uniform")
])
model.fit(network, dt_train, dt_valid, loss="binary_crossentropy", learning_rate=0.0165, batch_size=8, epochs=85)
```

O por ejemplo con argumentos:
```bash
python train.py --layer 25 25 25 --epochs 85 --loss binary_crossentropy --batch_size 8 --learning_rate 0.0165
```

También debes implementar la función softmax en la capa de salida para obtener la salida como una distribución probabilística.

Para evaluar el rendimiento de tu modelo de manera robusta durante el entrenamiento, dividirás tu conjunto de datos en dos partes: una para el entrenamiento y otra para la validación (el conjunto de datos de validación se usa para determinar la precisión de tu modelo en ejemplos desconocidos).

También implementarás dos gráficos de curvas de aprendizaje que se mostrarán al final de la fase de entrenamiento (eres libre de usar cualquier biblioteca que quieras para este propósito).

Por ejemplo:

<table>
  <tr>
    <td width="50%">
      <figure>
        <img src="https://github.com/financieras/ai/blob/main/multicapa/subject_es/loss.png?raw=1" alt="cuadrados con puntos" width="100%"/>
        <figcaption>Figura 4.1: Pérdida</figcaption>
      </figure>
    </td>
    <td width="50%">
      <figure>
        <img src="https://github.com/financieras/ai/blob/main/multicapa/subject_es/accuracy.png?raw=1" alt="cuadrados con puntos" width="100%"/>
        <figcaption>Figura 4.2: Precisión</figcaption>
      </figure>
    </td>
  </tr>
</table>

#### 4.4 Entrega
Entregarás tres programas:
- Un programa para separar el conjunto de datos en dos partes, una para entrenamiento y otra para validación
- Un programa de entrenamiento
- Un programa de predicción
(O puedes entregar un solo programa con una opción para cambiar entre las tres fases)

Para visualizar el rendimiento de tu modelo durante el entrenamiento, mostrarás en cada época las métricas de entrenamiento y validación.

Por ejemplo:
```
python mlp.py --dataset dt_training.csv
x_train shape : (352, 30)
x_valid shape : (87, 30)
epoch 01/80 - loss: 0.6882 - val_loss: 0.6988
...
epoch 39/80 - loss: 0.0870 - val_loss: 0.0506
epoch 50/80 - loss: 0.0859 - val_loss: 0.0505
epoch 51/80 - loss: 0.0858 - val_loss: 0.0500
...
epoch 80/80 - loss: 0.0650 - val_loss: 0.0585
# saving model "./saved_model.npy" to disk...
```

- Para el programa de separación se te permite usar una semilla para obtener un resultado repetible, porque muchos factores aleatorios entran en juego (la inicialización de pesos y sesgos por ejemplo)
- El programa de entrenamiento usará backpropagation y gradient descent para aprender en el conjunto de datos de entrenamiento y guardará el modelo (topología de la red y pesos) al final de su ejecución.
- El programa de predicción cargará los pesos aprendidos en la fase anterior, realizará una predicción en un conjunto dado (que también será cargado), luego lo evaluará usando la función de error de entropía cruzada binaria:

$$L = -\sum[y_m \log p_m + (1 - y_m) \log(1 - p_m)]$$

## Capítulo V
### Parte Bonus
La parte bonus solo será evaluada si la parte obligatoria fue perfectamente realizada.

Eres libre de implementar cualquier funcionalidad que creas que podría ser interesante. Sin embargo, aquí hay una lista no exhaustiva de bonificaciones:
- Una función de optimización más compleja (por ejemplo: Nesterov momentum, RMSprop, Adam, ...).
- Visualización de múltiples curvas de aprendizaje en el mismo gráfico (realmente útil para comparar diferentes modelos).
- Un histórico de las métricas obtenidas durante el entrenamiento.
- La implementación de early stopping.
- Evaluar la fase de aprendizaje con múltiples métricas.

La parte bonus solo será evaluada si la parte obligatoria es perfecta. Perfecto significa que la parte obligatoria ha sido integralmente realizada y funciona sin fallos. Si no has pasado todos los requisitos obligatorios, tu parte bonus no será evaluada en absoluto.

## Capítulo VI
### Entrega y Evaluación por Pares
Entrega tu trabajo en tu repositorio Git como de costumbre. Solo el trabajo dentro de tu repositorio será evaluado durante la defensa. No dudes en verificar dos veces los nombres de tus carpetas y archivos para asegurarte de que sean correctos.