<img src="../img/viu_logo.png" width="200">

# 01MIAR - Actividad Whitepapers

### “Pedregosa et al., Scikit-learn: Machine Learning in Python, Journal of Machine Learning Research, 2011”.


## Introducción

En la última década, el crecimiento exponencial de los datos y el avance en el poder de cómputo han impulsado el desarrollo y la aplicación de modelos de Machine Learning (ML) en una gran variedad de áreas, desde la medicina hasta las finanzas. Estos modelos permiten extraer patrones y realizar predicciones a partir de datos complejos, ayudando a resolver problemas que anteriormente eran intratables.

En este contexto, el procesamiento de datos es una de las fases más críticas en el flujo de trabajo de Machine Learning. Las etapas de limpieza, normalización, selección de características y preparación de datos son esenciales para que los modelos aprendan y generalicen correctamente. Python se ha consolidado como uno de los lenguajes de programación preferidos para el desarrollo de modelos de ML, en parte debido a la accesibilidad y flexibilidad que ofrecen sus bibliotecas especializadas en procesamiento de datos, tales como NumPy, Pandas y Scikit-Learn.

En particular, la biblioteca Scikit-Learn, desarrollada por Pedregosa et al. y presentada en el artículo "Scikit-learn: Machine Learning in Python" (2011), se ha convertido en una herramienta clave en el ecosistema de Python. Scikit-Learn ofrece una amplia variedad de algoritmos de ML, así como funcionalidades para el preprocesamiento de datos, selección de modelos y validación cruzada, lo que la convierte en una opción ideal tanto para principiantes como para expertos en ML. Su diseño modular y su integración con otras bibliotecas de procesamiento de datos, como NumPy y SciPy, facilitan su uso en tareas de ciencia de datos y aprendizaje automático, desde experimentos académicos hasta aplicaciones en la industria.

Este notebook se centra en explorar las funcionalidades de Scikit-Learn relacionadas con el procesamiento de datos, siguiendo los conceptos y ejemplos presentados en el artículo de Pedregosa et al. A través de ejemplos prácticos, abordaremos cómo utilizar Scikit-Learn para realizar las etapas de preprocesamiento y selección de modelos, y compararemos el rendimiento de distintos algoritmos de clasificación. De este modo, se pretende ilustrar cómo Python, junto con sus librerías de procesamiento de datos, se ha consolidado como una herramienta fundamental en el ámbito de la Inteligencia Artificial y el Machine Learning.

## Resumen del artículo

El artículo "Scikit-learn: Machine Learning in Python" de Pedregosa et al. (2011) describe el desarrollo, diseño y funcionalidades de Scikit-Learn, una biblioteca de Machine Learning para Python. La biblioteca fue creada con el objetivo de ofrecer una interfaz simple, eficiente y consistente para el desarrollo de modelos de aprendizaje automático, siendo accesible tanto para investigadores como para profesionales de la industria. Scikit-Learn ha ganado popularidad gracias a su integración con otras bibliotecas de Python como NumPy, SciPy y matplotlib, que proporcionan una base sólida para el procesamiento de datos y la visualización.

Los principales aspectos abordados en el artículo incluyen:

- **Modularidad y Estandarización**: La arquitectura de Scikit-Learn se basa en objetos modulares, con interfaces comunes para la mayoría de los algoritmos de aprendizaje automático. Esto permite a los usuarios cambiar rápidamente entre algoritmos y experimentar con diferentes modelos sin necesidad de modificar significativamente el código. Todos los modelos en Scikit-Learn siguen una interfaz coherente (fit, predict, transform), lo que facilita su uso y su comprensión.

- **Funcionalidades de Preprocesamiento**: Scikit-Learn ofrece un conjunto de herramientas para el preprocesamiento de datos, que incluye técnicas como el escalado, la normalización, la imputación de valores perdidos y la codificación de variables categóricas. Estas técnicas son esenciales para preparar los datos antes de aplicarlos a los modelos de ML y mejoran la precisión y la estabilidad de los algoritmos.

- **Selección de Modelos y Validación Cruzada**: El artículo destaca las funciones de selección de modelos y validación cruzada de Scikit-Learn, que permiten evaluar el rendimiento de diferentes modelos y seleccionar el que mejor se adapte a los datos. La validación cruzada es fundamental para evitar el sobreajuste y obtener estimaciones confiables de la precisión del modelo.

- **Amplia Variedad de Algoritmos de Machine Learning**: Scikit-Learn incluye una gran variedad de algoritmos de aprendizaje supervisado y no supervisado, como regresión lineal, máquinas de soporte vectorial, vecinos más cercanos, árboles de decisión y métodos de ensamble. Esta diversidad permite que los usuarios experimenten y comparen diferentes enfoques, ajustando cada modelo a las características particulares de sus datos.

- **Compatibilidad y Escalabilidad**: Al estar construido sobre NumPy y SciPy, Scikit-Learn permite el procesamiento eficiente de datos en matrices multidimensionales y es compatible con operaciones vectorizadas, lo que reduce el tiempo de cómputo y hace que la biblioteca sea adecuada para trabajar con grandes volúmenes de datos.

El artículo concluye que Scikit-Learn no solo proporciona una infraestructura sólida para construir y evaluar modelos de Machine Learning, sino que también contribuye a la reproducibilidad y accesibilidad del aprendizaje automático, haciendo que sea más sencillo aplicar técnicas avanzadas en una variedad de dominios. Gracias a su diseño bien estructurado y a su rica colección de algoritmos y utilidades, Scikit-Learn sigue siendo una de las herramientas más influyentes y utilizadas en el ecosistema de Python para Machine Learning.

## Ejemplos

In [25]:
# Importación de NumPy, Pandas y Scikit-learn
import numpy as np
import pandas as pd
from sklearn import datasets, model_selection, preprocessing

### Carga y Preprocesamiento de Datos

En el aprendizaje automático, el preprocesamiento de datos es una etapa crucial que garantiza que los datos sean consistentes, relevantes y adecuados para los algoritmos. Scikit-Learn proporciona varias herramientas para realizar estas tareas de preprocesamiento, tales como escalado, normalización y codificación de variables categóricas, entre otras. A continuación, cargaremos un conjunto de datos de ejemplo y demostraremos algunas técnicas de preprocesamiento con Scikit-Learn.

Para este ejercicio, usaremos el conjunto de datos Iris, que es una colección clásica en la que se registran diferentes características de tres tipos de flores Iris. Las características incluyen el largo y el ancho del sépalo y el pétalo. Este conjunto es útil para tareas de clasificación y análisis.

1. **Carga del Conjunto de Datos**

Scikit-Learn incluye varios conjuntos de datos de prueba, como el conjunto Iris, que se pueden cargar directamente para experimentación y desarrollo.

In [17]:
# Cargar el conjunto de datos Iris
iris = datasets.load_iris()
X, y = iris.data, iris.target

# Visualización rápida de las características y las etiquetas
print("Características (primeras 5 filas):\n", X[:5])
print("Etiquetas (primeras 5 filas):", y[:5])

Características (primeras 5 filas):
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
Etiquetas (primeras 5 filas): [0 0 0 0 0]


2. **Escalado de Datos**

El escalado de datos es una técnica de preprocesamiento que ajusta las características a una escala común, lo cual es especialmente importante para algoritmos sensibles a las escalas, como el k-vecinos más cercanos y la regresión logística. Utilizaremos StandardScaler de Scikit-Learn, que ajusta los datos a una media de 0 y una desviación estándar de 1.

In [4]:
from sklearn.preprocessing import StandardScaler

# Escalar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print("Características escaladas (primeras 5 filas):\n", X_scaled[:5])

Características escaladas (primeras 5 filas):
 [[-0.90068117  1.01900435 -1.34022653 -1.3154443 ]
 [-1.14301691 -0.13197948 -1.34022653 -1.3154443 ]
 [-1.38535265  0.32841405 -1.39706395 -1.3154443 ]
 [-1.50652052  0.09821729 -1.2833891  -1.3154443 ]
 [-1.02184904  1.24920112 -1.34022653 -1.3154443 ]]


3. **Normalización de Datos**

La normalización ajusta los valores de los datos para que todos estén en el rango [0, 1] o [-1, 1], dependiendo de la técnica empleada. Esto es útil cuando se quiere reducir la influencia de las diferentes escalas de las características. Usaremos MinMaxScaler para escalar los datos en el rango [0, 1].

In [5]:
from sklearn.preprocessing import MinMaxScaler

# Normalizar los datos al rango [0, 1]
normalizer = MinMaxScaler()
X_normalized = normalizer.fit_transform(X)

print("Características normalizadas (primeras 5 filas):\n", X_normalized[:5])

Características normalizadas (primeras 5 filas):
 [[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 [0.11111111 0.5        0.05084746 0.04166667]
 [0.08333333 0.45833333 0.08474576 0.04166667]
 [0.19444444 0.66666667 0.06779661 0.04166667]]


4. **Codificación de Variables Categóricas**

En conjuntos de datos que contienen variables categóricas (por ejemplo, nombres de ciudades o tipos de productos), es necesario transformar esas variables en un formato numérico que los algoritmos puedan procesar. Aunque el conjunto Iris no tiene variables categóricas, mostraremos cómo se haría usando OneHotEncoder.

In [20]:
from sklearn.preprocessing import OneHotEncoder

# Ejemplo de codificación One-Hot
encoder = OneHotEncoder(sparse_output = False)
# Supongamos que 'y' es una variable categórica con valores 0, 1, 2
y_encoded = encoder.fit_transform(y.reshape(-1, 1))

print("Etiquetas codificadas con One-Hot (primeras 5 filas):\n", y_encoded[:5])

Etiquetas codificadas con One-Hot (primeras 5 filas):
 [[1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


### Selección de Modelo y Validación Cruzada

La selección de modelos y la validación cruzada son pasos fundamentales en el proceso de Machine Learning. Nos ayudan a elegir el modelo que mejor se adapta a los datos y a estimar el rendimiento real del modelo en datos no vistos, evitando problemas como el sobreajuste o subajuste.

En este apartado, utilizaremos el conjunto de datos Iris que preprocesamos anteriormente para comparar dos algoritmos de clasificación:

- k-vecinos más cercanos (KNeighborsClassifier)

- Árbol de decisión (DecisionTreeClassifier)

Utilizaremos la validación cruzada para evaluar el rendimiento de ambos modelos y seleccionar el mejor. Scikit-Learn facilita este proceso mediante el módulo model_selection, que incluye la función cross_val_score para realizar validación cruzada de forma sencilla.

1. **División del Conjunto de Datos**

Primero, dividiremos el conjunto de datos en conjuntos de entrenamiento y prueba para simular cómo se comportará nuestro modelo en datos nuevos.

In [8]:
from sklearn.model_selection import train_test_split

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)
print("Tamaño del conjunto de entrenamiento:", X_train.shape)
print("Tamaño del conjunto de prueba:", X_test.shape)

Tamaño del conjunto de entrenamiento: (105, 4)
Tamaño del conjunto de prueba: (45, 4)


2. **Entrenamiento y Validación del Modelo con k-Vecinos Más Cercanos (KNN)**

El clasificador de k-vecinos más cercanos (KNN) es un algoritmo de aprendizaje supervisado que clasifica una instancia basada en la clase mayoritaria de sus vecinos más cercanos. Evaluaremos el rendimiento de este modelo utilizando validación cruzada con 5 particiones (5-fold cross-validation).

In [9]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

# Crear un modelo de K-Vecinos Más Cercanos
knn = KNeighborsClassifier(n_neighbors=3)

# Realizar validación cruzada con 5 particiones
scores_knn = cross_val_score(knn, X_train, y_train, cv=5)

print("Puntajes de validación cruzada para KNN:", scores_knn)
print("Precisión promedio de KNN:", scores_knn.mean())

Puntajes de validación cruzada para KNN: [0.95238095 0.95238095 0.85714286 1.         0.95238095]
Precisión promedio de KNN: 0.9428571428571428


3. **Entrenamiento y Validación del Modelo con Árbol de Decisión**

El clasificador de árbol de decisión es un modelo que segmenta el espacio de las características mediante reglas de decisión, lo que permite realizar predicciones basadas en las condiciones aprendidas en los datos de entrenamiento. Este modelo también será evaluado mediante validación cruzada.

In [10]:
from sklearn.tree import DecisionTreeClassifier

# Crear un modelo de Árbol de Decisión
tree = DecisionTreeClassifier(random_state=42)

# Realizar validación cruzada con 5 particiones
scores_tree = cross_val_score(tree, X_train, y_train, cv=5)

print("Puntajes de validación cruzada para Árbol de Decisión:", scores_tree)
print("Precisión promedio del Árbol de Decisión:", scores_tree.mean())

Puntajes de validación cruzada para Árbol de Decisión: [0.95238095 0.9047619  0.9047619  0.95238095 0.95238095]
Precisión promedio del Árbol de Decisión: 0.9333333333333333


4. **Comparación de Resultados**

Ahora que hemos evaluado ambos modelos, podemos comparar sus precisiones promedio obtenidas en la validación cruzada para ver cuál se adapta mejor a nuestros datos.

In [11]:
print("Comparación de precisión promedio:")
print("K-Vecinos Más Cercanos:", scores_knn.mean())
print("Árbol de Decisión:", scores_tree.mean())

Comparación de precisión promedio:
K-Vecinos Más Cercanos: 0.9428571428571428
Árbol de Decisión: 0.9333333333333333


### Comparación de Modelos y Métricas de Evaluación

Después de seleccionar el modelo con mejor rendimiento mediante validación cruzada, el siguiente paso es entrenarlo utilizando el conjunto completo de datos de entrenamiento y evaluar su desempeño final en el conjunto de prueba. Esto nos proporciona una estimación de cómo se comportará el modelo en datos nuevos y ayuda a validar la elección realizada en la etapa de selección de modelos.

Para este ejercicio, supongamos que el modelo con mejor rendimiento fue el KNN. Entrenaremos este modelo en el conjunto de entrenamiento y evaluaremos su precisión y otras métricas de clasificación en el conjunto de prueba.

1. **Entrenamiento del Modelo Seleccionado**

Entrenamos el modelo de KNN en los datos de entrenamiento completos para aprovechar toda la información disponible.

In [22]:
# Entrenar el modelo seleccionado en el conjunto de entrenamiento completo
knn.fit(X_train, y_train)

2. **Predicciones en el Conjunto de Prueba**

Usamos el modelo entrenado para predecir las clases de las muestras en el conjunto de prueba. Esto nos permitirá medir la precisión y otras métricas de rendimiento.

In [23]:
# Realizar predicciones en el conjunto de prueba
y_pred = knn.predict(X_test)

3. **Evaluación del Rendimiento del Modelo**

Para evaluar el rendimiento del modelo, utilizaremos varias métricas de clasificación, como la precisión, la matriz de confusión, la precisión de cada clase y la puntuación F1, utilizando funciones de Scikit-Learn.

In [24]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Calcular la precisión en el conjunto de prueba
accuracy = accuracy_score(y_test, y_pred)
print("Precisión en el conjunto de prueba:", accuracy)

# Mostrar el informe de clasificación detallado
print("\nInforme de clasificación:\n", classification_report(y_test, y_pred, target_names=iris.target_names))

# Mostrar la matriz de confusión
print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred))

Precisión en el conjunto de prueba: 1.0

Informe de clasificación:
               precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        19
  versicolor       1.00      1.00      1.00        13
   virginica       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

Matriz de confusión:
 [[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


4. **Interpretación de Resultados**

La precisión del modelo, el informe de clasificación y la matriz de confusión nos proporcionan una visión integral del rendimiento del modelo en el conjunto de prueba:

- Precisión: La precisión general nos indica el porcentaje de predicciones correctas que realizó el modelo.

- Informe de Clasificación: Ofrece un desglose detallado de métricas como precisión, exhaustividad (recall) y puntuación F1 para cada clase. Esto es útil para entender cómo se desempeña el modelo en la clasificación de cada tipo de flor de Iris.

- Matriz de Confusión: La matriz de confusión muestra los verdaderos positivos, falsos positivos y falsos negativos para cada clase, ayudándonos a identificar posibles errores específicos en la clasificación.

## Conclusiones

En este notebook, hemos explorado el flujo de trabajo típico de un proyecto de Machine Learning en Python utilizando la biblioteca Scikit-Learn. Los principales pasos abordados incluyen la carga y preprocesamiento de datos, la selección de modelos, la validación cruzada y la evaluación final del rendimiento del modelo. A través de este ejercicio, hemos demostrado cómo Scikit-Learn simplifica estos procesos y permite aplicar técnicas avanzadas de Machine Learning de manera coherente y eficaz.

Al aplicar diferentes técnicas de preprocesamiento (escalado, normalización y codificación), se logró optimizar la preparación de los datos para el modelado, mejorando así la estabilidad y precisión de los modelos. La validación cruzada resultó ser una herramienta fundamental para comparar distintos algoritmos, permitiéndonos seleccionar el modelo de KNN como el más adecuado para clasificar las especies de flores Iris en este conjunto de datos.

Los resultados finales del modelo de KNN en el conjunto de prueba mostraron una buena precisión y un rendimiento equilibrado en todas las clases, lo cual sugiere que este modelo puede generalizar bien a datos no vistos. La combinación de modularidad y simplicidad en Scikit-Learn facilita el proceso de experimentación y selección de modelos, lo que es esencial en proyectos de Machine Learning.

## Referencias

- Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825-2830. Disponible en: https://www.jmlr.org/papers/volume12/pedregosa11a/pedregosa11a.pdf

- Van Der Walt, S., Colbert, S. C., & Varoquaux, G. (2011). The NumPy Array: A Structure for Efficient Numerical Computation. Computing in Science and Engineering, 13(2), 22-30. Disponible en: https://www.researchgate.net/publication/224223550_The_NumPy_Array_A_Structure_for_Efficient_Numerical_Computation

- McKinney, W. (2010). Data Structures for Statistical Computing in Python. Proceedings of the 9th Python in Science Conference, 56-61. Disponible en: https://www.researchgate.net/publication/265001241_Data_Structures_for_Statistical_Computing_in_Python

- Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2nd ed.). O'Reilly Media

- Buitinck, L., Louppe, G., Blondel, M., Pedregosa, F., Mueller, A., Grisel, O., … Varoquaux, G. (2013). API design for machine learning software: experiences from the scikit-learn project. arXiv preprint arXiv:1309.0238. Disponible en: https://arxiv.org/abs/1309.0238