Autor:  
Manuel Eugenio Morocho Cayamcela, PhD

# **Prueba práctica:**  
## Clasificación de Pinguinos de la Isla Palmer con un perceptrón multicapa (MLP)

### **Objetivo y alcance del trabajo:**

**Objetivo:**

El objetivo de este Jupyter Notebook es desarrollar y evaluar un modelo de clasificación utilizando un Perceptrón Multicapa (MLP). El modelo se entrenará utilizando un conjunto de datos de entrenamiento y luego se utilizará para hacer predicciones en un conjunto de datos de prueba.

**Alcance:**

Este Jupyter Notebook cubrirá los siguientes aspectos:

1. Importación de las bibliotecas necesarias.
2. Carga y exploración inicial de los datos.
3. Preprocesamiento de los datos, si es necesario.
4. División de los datos en conjuntos de entrenamiento y prueba.
5. Creación de un MLPClassifier.
6. Entrenamiento del MLPClassifier con el conjunto de entrenamiento.
7. Uso del MLPClassifier entrenado para hacer predicciones en el conjunto de prueba.
8. Evaluación del rendimiento del modelo.

![image.png](attachment:image.png)

El conjunto de datos de Palmer Penguins fue introducido en 2020 por Allison Horst, Alison Hill y Kristen Gorman. Este conjunto de datos es a menudo utilizado para tareas de clasificación en aprendizaje automático.

El conjunto de datos contiene 344 pingüinos observados en tres diferentes islas del archipiélago de Palmer, en la Antártida. Los datos fueron recogidos por el proyecto Palmer Long Term Ecological Research y la Fundación Nacional para la Ciencia de los Estados Unidos.

Cada pingüino se clasifica en una de las tres especies: Adelie, Chinstrap y Gentoo. Para cada pingüino, el conjunto de datos incluye siete características: 

1. Especie: Adelie, Chinstrap, Gentoo.
2. Isla: Torgersen, Biscoe, Dream.
3. Longitud del pico (mm).
4. Profundidad del pico (mm).
5. Longitud de la aleta (mm).
6. Masa corporal (g).
7. Sexo: masculino, femenino.

El objetivo principal al trabajar con este conjunto de datos es a menudo construir un modelo de clasificación que pueda predecir la especie de un pingüino basándose en las características que se tienen en la base de datos.

![image.png](attachment:image.png)

### **Fase I:** Carga y procesamiento de la base de datos

In [54]:
# Importamos las librerías necesarias
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [None]:
# Cargamos la base de datos 'palmer_penguins.csv' en un DataFrame de Pandas de nombre 'pinguinos'
____ = pd.____(____)

# Mostremos las primeras 5 filas de la base de datos
pinguinos.____()

In [None]:
# Usamos el método 'isnull()' para identificar los valores nulos y el método 'sum()' para sumarlos
pinguinos.____.sum()

In [None]:
# Usamos el método 'dropna()' para eliminar las filas con valores nulos del DataFrame 'pinguinos'
pinguinos = pinguinos.____

# Usamos el método 'head()' para mostrar las primeras 5 filas de la base de datos
____.____

In [None]:
# Usamos el método 'unique()' para encontrar los valores únicos en la columna 'sex'
pinguinos['____'].____

In [59]:
# Eliminamos las filas con el valor '.' en la columna 'sex' usando el método de filtrado por comparación negada '!='
pinguinos = pinguinos[pinguinos['____'] != '.']

### **Fase II:** Preparamos los datos para ser usados en un perceptrón multicapa (MLP)

In [None]:
# Aislamos las variables predictoras que son todas menos la variable objetivo
# Usamos el método 'drop()' para eliminar la columna 'species' del DataFrame 'pinguinos' 
X = pinguinos.____('____', axis=1)

# Convertimos las variables categóricas en variables numéricas mediante el método 'LabelEncoder()'
# Usamos el método 'apply()' para aplicar la función 'LabelEncoder().fit_transform' a cada columna de 'X'
X = X.____(LabelEncoder().fit_transform)

# Mostremos las primeras 5 filas de la base de datos
X.____()

In [None]:
# Aislamos la variable objetivo 'species' en la variable 'y' 
____ = pinguinos['____']

# Mostramos las primeras 5 filas de la base de datos
y.____

In [68]:
# Dividimos los datos 'X' y 'y' en entrenamiento y prueba con el método 'train_test_split' 
# Usamos el 0.2 (20%) de los datos para prueba
# Guardamos los datos de entrenamiento en las variables 'X_train' y 'y_train'
# Guardamos los datos de prueba en las variables 'X_test' y 'y_test'
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____)

### **Fase III:** Clasificación de pinguinos con un perceptrón multicapa (MLP)

In [None]:
# Creamos un clasificador de tipo MLPClassifier con 2 capas ocultas de 100 neuronas cada una
# Usamos la función de activación 'relu' y el optimizador 'adam'
mlp = ____(hidden_layer_sizes=(____, ____), activation='____', solver='____')

# Usamos el método 'fit()' para entrenar el clasificador
# Entrenamos el clasificador con los datos de entrenamiento 'X_train' y 'y_train'
mlp.____(____, ____)

# Predecimos las etiquetas de los datos de prueba 'X_test' usando el método 'predict()' del clasificador entrenado
y_pred = mlp.____(____)
y_pred

In [None]:
# Calculamos la precisión del modelo de clasificación 'mlp' con el método 'accuracy_score' 
# Usamos los datos 'y_test' y 'y_pred' como argumentos de la función 'accuracy_score'
# Guardamos el resultado en la variable 'accuracy'
accuracy = ____(____, ____)
accuracy

In [None]:
# Mostramos la matriz de confusión del modelo de clasificación 'mlp' con el método 'confusion_matrix'
# Usamos los datos 'y_test' y 'y_pred' como argumentos de la función 'confusion_matrix'
confusion_matrix(____, ____)

In [None]:
# Imprimimos el reporte de clasificación del modelo de clasificación 'mlp' con el método 'classification_report'
# Usamos los datos 'y_test' y 'y_pred' como argumentos de la función 'classification_report'
# Imprimimos el reporte de clasificación en la consola con la función 'print'
print(____(____, ____))

In [None]:
# Hacemos una prueba de predicción de especie con valores de un nuevo pinguino (no visto por el modelo)
# Creamos una lista con los valores de las variables predictoras del nuevo pinguino
# Puedes usar estos valores de ejemplo o cambiarlos por los valores aleatorios de un nuevo pinguino: 
#   island = 1 (Biscoe)
#   culmen_length_mm = 45
#   culmen_depth_mm = 58
#   flipper_length_mm = 11
#   body_mass_g = 22
#   sex = 0 (FEMALE)
# Guardamos la lista en la variable 'nuevo_pinguino'
nuevo_pinguino = [[____, ____, ____, ____, ____, ____]]

# Hacemos una predicción de la especie del 'nuevo_pinguino' con el método 'predict' del modelo 'mlp'
# Guardamos la predicción en la variable 'nueva_prediccion'
nueva_prediccion = mlp.____(____)
nueva_prediccion