# **Curso de Inteligencia Artificial**
---
<div style="width: 100%; clear: both;">
<div style="float: left; width: 50%;">
<img src="https://github.com/AntonioEscamilla/images-in-readMe/raw/master/Curso%20IA/upb%20logo.jpg", align="left", width="350">
</div>

### **Facultad en Tecnologías de la Información y la Comunicación**

### Escuela de Ingenierías

### Universidad Pontificia Bolivariana

---

## **Docente: Ph.D. Antonio Escamilla**

# **Redes Neuronales: Perceptrón Multi-capa**

En este cuaderno, se cubriran los siguientes temas:

### 1. Perceptrón Multi-capa para clasificación binaria


*   Descenso del Gradiente Estocástico
*   Tasa de Aprendizaje Adaptativa


### 2. Perceptrón Multi-capa para problemas de regresión


*   Curva de Pérdida
*   Representación de Pesos en la Red



---


# 1. Perceptrón Multi-capa para clasificación binaria

## Acerca del Conjunto de Datos
### Introducción
Este es un archivo csv que contiene información relacionada con 5172 archivos de correo electrónico seleccionados al azar y sus respectivas etiquetas para clasificación de spam o no spam.

### Acerca del Conjunto de Datos
El archivo csv contiene 5172 filas, cada fila para cada correo electrónico. Hay 3002 columnas. La primera columna indica el nombre del correo electrónico. El nombre se ha establecido con números y no con nombres de destinatarios para proteger la privacidad. La última columna tiene las etiquetas para la predicción: 1 para spam, 0 para no spam. Las 3000 columnas restantes son las 3000 palabras más comunes en todos los correos electrónicos, después de excluir los caracteres/palabras no alfabéticos. Para cada fila, se almacena en las celdas respectivas el recuento de cada palabra (columna) en ese correo electrónico (fila). Por lo tanto, la información sobre los 5172 correos electrónicos se almacena en un marco de datos compacto en lugar de como archivos de texto separados.


In [None]:
import pandas as pd
import numpy as np
from sklearn.neural_network import MLPClassifier

In [None]:
print("Descargando Assets a Colab")
!wget --quiet --show-progress --output-document=emails.csv https://drive.google.com/uc?id=1e74lWI-di-Ryjj9KhKlFz2FOxv1qliaX&export=download

Descargando Assets a Colab


In [None]:
data=pd.read_csv('emails.csv')
data.head()

Unnamed: 0,Email No.,the,to,ect,and,for,of,a,you,hou,...,connevey,jay,valued,lay,infrastructure,military,allowing,ff,dry,Prediction
0,Email 1,0,0,1,0,0,0,2,0,0,...,0,0,0,0,0,0,0,0,0,0
1,Email 2,8,13,24,6,6,2,102,1,27,...,0,0,0,0,0,0,0,1,0,0
2,Email 3,0,0,1,0,0,0,8,0,0,...,0,0,0,0,0,0,0,0,0,0
3,Email 4,0,5,22,0,5,1,51,2,10,...,0,0,0,0,0,0,0,0,0,0
4,Email 5,7,6,17,1,5,2,57,0,9,...,0,0,0,0,0,0,0,1,0,0


In [None]:
# Eliminamos las columnas innecesarias
data.drop(columns=['Email No.'], inplace=True)
data.head()

## Preparación de Datos

In [None]:
data.info()

In [None]:
data.isnull().any().value_counts()          # Columnas con valores nulos y columnas con valores no nulos

In [None]:
# Todas las columnas excepto 'Prediction'
X = data.drop('Prediction', axis=1)

# Solo la columna 'Prediction'
y = data['Prediction']

print(X.shape, y.shape)

## Escalamiento de las variables de entrada

El tipo de escalamiento puede estar relacionado con el tipo de función de activación utilizada en una red neuronal. Las funciones de activación juegan un papel crucial en cómo se propagan y transforman las señales a través de las diferentes capas de una red neuronal, y esto puede influir en la forma en que se preprocesan los datos.

**Funciones de activación sigmoide y tanh:** Estas funciones son sensibles a la escala de los datos. Si los datos de entrada no están en una escala apropiada (por ejemplo, si tienen una amplia gama de valores), las activaciones pueden saturarse en los extremos, lo que dificulta el entrenamiento. En tales casos, la estandarización de los datos puede ser beneficiosa para evitar este problema.

Al estandarizar los datos (es decir, hacer que tengan una media de cero y una desviación estándar de uno), se coloca la mayoría de los datos dentro del rango donde la función sigmoide tiene una pendiente razonable. Esto puede ayudar a evitar problemas de saturación y mejorar la convergencia del modelo durante el entrenamiento.

**Función de activación ReLU (Rectified Linear Unit):** ReLU es menos sensible a la escala de los datos en comparación con las funciones sigmoide y tanh. Sin embargo, puede sufrir del problema de "mortalidad de neuronas" si las entradas son negativas. La normalización, especialmente la normalización de lotes, puede ayudar a mitigar este problema al mantener la distribución de las activaciones más estable durante el entrenamiento.

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Dividir los datos en conjuntos de entrenamiento y prueba
# SU CÓDIGO AQUI

# Escalar los datos, el modelo solo ve datos de entrenamiento
# SU CÓDIGO AQUI

## Creación del modelo y entrenamiento del MLP


### Argumentos de MLPClassifier

- **solver:** Este parámetro especifica el algoritmo de optimización utilizado para entrenar la red neuronal.

    - **'sgd':** Indica que se utiliza el descenso de gradiente estocástico (Stochastic Gradient Descent).
    - **'adam':** Se refiere a un optimizador basado en descenso de gradiente estocástico propuesto por Kingma, Diederik y Jimmy Ba.

> Para entender mejor el concepto de Stochastic Gradient Descent, es importante resaltar la diferencia entre (Batch, Mini-Batch y Stochastic) Gradient Descent. Los invito a ver este video: [Gradiente Descendente: Batch vs Estocástico vs Mini-batch](https://youtu.be/Bap0WNIaYHQ)
>
>
> Para una comparación entre el optimizador Adam y SGD, consulte [Comparación de estrategias de aprendizaje estocástico para MLPClassifier](https://scikit-learn.org/stable/auto_examples/neural_networks/plot_mlp_training_curves.html#sphx-glr-auto-examples-neural-networks-plot-mlp-training-curves-py).


- **activation:** Este parámetro especifica la función de activación utilizada en las capas ocultas de la red neuronal.

    - **'identity':** Función de activación lineal.
    - **'logistic':** Función logística. Útil para problemas de clasificación binaria.
    - **'tanh':** Función tangente hiperbólica. Útil para problemas de clasificación y regresión.
    - **'relu':** Unidad lineal rectificada. Especialmente útil en redes neuronales profundas debido a su capacidad para mitigar el problema de gradiente desvaneciente.

- **hidden_layer_sizes:** Este parámetro especifica la arquitectura de la red neuronal, es decir, el número de neuronas en cada capa oculta.

- **learning_rate:** Este parámetro controla la tasa de aprendizaje utilizada durante el entrenamiento. `'adaptive'` indica que la tasa de aprendizaje se adaptará durante el entrenamiento según el progreso del modelo.

- **learning_rate_init:** Este parámetro especifica la tasa de aprendizaje inicial.

#### **Nota:**
Estos son los principales argumentos utilizados para configurar el MLPClassifier en scikit-learn. Ajustar estos parámetros puede afectar significativamente el rendimiento y la convergencia del modelo, por lo que es importante experimentar con diferentes valores para obtener los mejores resultados en función de tu conjunto de datos y requisitos específicos.


In [None]:
# Instanciar MLP con 10 neuronas en una sola capa oculta, activación sigmoide y tasa de aprendizaje = 0.3
# SU CODIGO AQUI

In [None]:
# Ajustar modelos con datos de entrenamiento
# SU CODIGO AQUI

**Aclaración:**

Cuando se utiliza `learning_rate='adaptive'` en algoritmos de optimización como SGD (Stochastic Gradient Descent) en un MLP (Perceptrón Multicapa), la tasa de aprendizaje se adapta dinámicamente durante el entrenamiento según el progreso del modelo.

`'adaptive'` mantiene la tasa de aprendizaje constante en `learning_rate_init` siempre que el *training loss* siga disminuyendo. Cada vez que `n_iter_no_change` épocas consecutivas no logran disminuir  el *training loss* en al menos `tol`, o no logran aumentar el *validation score* en al menos `tol` si 'early_stopping' está activado, la tasa de aprendizaje actual se divide por 5.

In [None]:
from sklearn.metrics import accuracy_score

# Calcular la exactitud del modelo
# SU CODIGO AQUI

print(f"Accuracy para modelo MLP: {acc}")

## Trabajo Autónomo: La Arquitectura de la Red Neuronal

### **Reto:**

En el trabajo autónomo, se debe experimentar con la arquitectura de un Perceptrón Multicapa (MLP) para mejorar el desempeño de una red neuronal o el proceso de entrenamiento utilizando un modelo más óptimo. Utilizando el estimador MLP de scikit-learn, los estudiantes deben modificar la arquitectura de la red: el número de capas ocultas y el número de neuronas en cada capa. Se busca explorar diferentes combinaciones y realizar experimentos para evaluar cómo afectan al rendimiento de la red y al tiempo de entrenamiento.

### **Contexto:**

La arquitectura de una red neuronal de perceptrón multicapa (MLP) es fundamental ya que influye significativamente en el rendimiento y la capacidad de la red para aprender y generalizar a partir de los datos. La elección adecuada de la arquitectura puede determinar si la red neuronal es capaz de capturar las relaciones complejas presentes en los datos y evitar problemas como el sobreajuste o el subajuste.

El número de capas ocultas en una MLP es un aspecto crítico de su arquitectura. Aunque no existe un criterio universalmente aceptado para determinar el número óptimo de capas ocultas, se pueden considerar varios factores al tomar esta decisión. Uno de los enfoques comunes es evaluar la complejidad del problema que se está abordando y la complejidad de los patrones presentes en los datos. Problemas más complejos pueden requerir una mayor profundidad de la red para capturar adecuadamente las características relevantes. Además, el tamaño del conjunto de datos y la disponibilidad de recursos computacionales también pueden influir en la elección del número de capas ocultas, ya que redes más profundas suelen requerir más recursos para entrenar y evaluar.

### **Punto de partida:**

El parámetro `hidden_layer_sizes` en el **MLPClassifier** se utiliza para especificar la arquitectura de la red neuronal, es decir, el número de capas ocultas y el número de neuronas en cada capa oculta.

Para especificar tres capas ocultas con 5, 3 y 2 neuronas respectivamente, puedes pasar una tupla con los números deseados de neuronas para cada capa oculta. `hidden_layer_sizes=(5, 3, 2)` indica que la red neuronal tendrá tres capas ocultas, con la primera capa oculta conteniendo 5 neuronas, la segunda capa oculta conteniendo 3 neuronas, y la tercera capa oculta conteniendo 2 neuronas.

Puedes personalizar la arquitectura de la red neuronal según tus necesidades específicas ajustando los números de neuronas en cada capa oculta. Es importante experimentar con diferentes arquitecturas para encontrar la que mejor se adapte a tu conjunto de datos y al problema que estás abordando.

# 2. Perceptrón Multi-capa para problemas de regresión

En clase, hemos aprendido sobre el uso de Multilayer Perceptrons (MLP) para problemas de clasificación, donde el objetivo es predecir la clase a la que pertenece una observación. Sin embargo, los MLP también pueden ser utilizados para resolver problemas de regresión, donde el objetivo es predecir un valor numérico.

## Cambios en la Función de Costo
Para adaptar un MLP a un problema de regresión, necesitamos utilizar una función de costo diferente. En lugar de la **binary cross-entropy** utilizada para clasificación, en regresión utilizamos una función de costo como el **error cuadrático medio** (MSE, Mean Squared Error). Esta función de costo nos permite evaluar la discrepancia entre las predicciones del modelo y los valores reales en un contexto de regresión.

## Funciones de Activación y Capa de Salida
Además, en problemas de regresión, la capa de salida del MLP generalmente no utiliza una función de activación específica, ya que queremos predecir valores numéricos en lugar de probabilidades de clase. Por lo tanto, la capa de salida simplemente produce una salida lineal.

## Ejemplo Práctico: Predicción de Emisiones de CO2
Para ilustrar cómo usar un MLP para predecir las emisiones de CO2 de vehículos basado en características como el tamaño del motor, el número de cilindros y el consumo de combustible, entrenaríamos un MLP en un conjunto de datos de vehículos con emisiones de CO2 conocidas. Utilizaríamos el error cuadrático medio como nuestra función de costo. Una vez entrenado, podríamos usar el modelo para predecir las emisiones de CO2 de nuevos vehículos basados en estas características.


In [None]:
print("Descargando Assets a Colab")
!wget --quiet --show-progress --output-document=CO2_Emissions.csv https://drive.google.com/uc?id=1cfK-lHayzGrEoDU2RXSR0juSok2K0k3H&export=download

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neural_network import MLPRegressor

In [None]:
# Cargamos los datos
data = pd.read_csv("CO2_Emissions.csv")
data.head()

## Preparación de Datos

In [None]:
data.info()

In [None]:
data['Vehicle Class']=data['Vehicle Class'].astype('category')
data.info()

In [None]:
# Descripción de variables numéricas
data.describe()

In [None]:
# Descripción gráfica de variables categóricas con kind='barh'
data['Vehicle Class'].value_counts().plot(kind="barh")

In [None]:
# Descripción gráfica de variables númericas con hist
data.hist(figsize=(10, 10));

In [None]:
# Descripción gráfica de variables númericas con boxplots
some_columns = data.drop(['CO2 Emissions(g/km)', 'Vehicle Class'], axis=1)
some_columns.boxplot(figsize=(16, 4))

In [None]:
# Descripción gráfica de variable objetivo con boxplot
data[['CO2 Emissions(g/km)']].boxplot(figsize=(6, 4))

**Nota:** si bien los MLP pueden ser capaces de manejar cierto grado de outliers en los datos, es importante identificar y evaluar la necesidad de eliminar outliers antes de entrenar el modelo. La eliminación de outliers puede mejorar la calidad de los datos y, en última instancia, conducir a un mejor rendimiento del modelo. Sin embargo, la eliminación de outliers debe realizarse de manera cuidadosa y justificada, teniendo en cuenta el contexto del problema y el impacto potencial en los resultados del modelo.

In [None]:
# MLP sólo analiza variables numéricas. Transformar variables categóricas con dummies
data = pd.get_dummies(data, columns=['Vehicle Class'], drop_first=False, dtype=int)
data.head()

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

# Separar Variable objetivo de variables independientes
X = data.drop('CO2 Emissions(g/km)', axis = 1)
y = data['CO2 Emissions(g/km)']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# Escalar los datos, el modelo solo ve datos de entrenamiento
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

## Creación del modelo y entrenamiento del MLP

In [None]:
# Instanciar modelo con solver:adam, activacion:relu, 2 capas ocultas con 10 y 2 neuronas, lr_init=0.1, lr='adaptive'
# SU CODIGO AQUI

# Ajustar a los datos el modelo
# SU CODIGO AQUI

### Curva de Pérdida

El atributo `loss_curve_` en un modelo de MLP se refiere a la curva de pérdida durante el proceso de entrenamiento. Esta curva representa cómo cambia la función de pérdida del modelo en cada iteración del entrenamiento. La función de pérdida es una medida de cuánto difieren las predicciones del modelo de los valores reales durante el entrenamiento. Por lo general, durante el entrenamiento de un modelo de MLP, se busca minimizar esta función de pérdida, lo que implica que la curva de pérdida debería disminuir gradualmente con cada iteración.

In [None]:
# Graficar el 'loss': desviación entre y_train y el y_pred (squared error)
# SU CODIGO AQUI

In [None]:
# Evaluación de NN
from sklearn import metrics

# Predicciones del modelos sobre conjunto de prueba
# SU CODIGO AQUI

# Medidas de error
# SU CODIGO AQUI

In [None]:
# Gráfica Valor Real vs Predicción
plt.scatter(y_test, y_pred)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=2)
plt.xlabel('Valor real')
plt.ylabel('Valor del modelo')
plt.title('Valor Real vs Predicción Red Neuronal')
plt.show()

 ### Representación de Pesos en la Red

 Representar visualmente una red neuronal con sus pesos y sesgos después del entrenamiento proporciona una valiosa intuición para los estudiantes. Al observar la arquitectura de la red con sus conexiones y valores de peso, los estudiantes pueden comprender de manera más concreta cómo la información se propaga a través de la red y cómo se realizan las decisiones en cada capa. Esto les permite internalizar conceptos abstractos de aprendizaje automático de una manera más tangencial y práctica.

In [None]:
# intercepts_ y coefs_ son listas, según la cantidad de capas en el MLP
# SU CODIGO AQUI

print(f'pesos en la red en una lista de tamaño: {capas}')
print(f'biases en la red en una lista de tamaño:{capas}')

In [None]:
# Imprimir las matrices de pesos y bias en cada capa
# SU CODIGO AQUI

## Trabajo Autónomo: La Arquitectura de la Red Neuronal


El trabajo consiste en que los estudiantes representen visualmente la arquitectura de una red neuronal en papel, junto con las matrices de pesos y sesgos para cada capa. Esto permitirá ganar intuición sobre cómo se estructuran y manipulan los datos en una red neuronal a nivel matricial, lo que facilitará su comprensión de los cálculos que ocurren en cada capa durante el proceso de aprendizaje.