# Praáctica 201 - Flujo del Aprendizaje Automático

> Machine Learning
>
> [Alan Badillo Salas](mailto:alan@nomadacode.com)
>
> Github: [https://github.com/dragonnomada/ml-2023](https://github.com/dragonnomada/ml-2023)

## Introducción

En esta práctica aprederemos el flujo básico de los proyectos de Machine Learning.

Un flujo más completo es el siguiente

1. Adquisición de datos
2. Exploración de datos (Visualización)
3. Limpieza de datos
4. Preprocesamiento / Estructuración de datos
5. Selección del Modelo de Machine Learning
6. Ajustar / Entrenar el Modelo
7. Validar el Modelo (Análisis de resultados)
8. Generación de Resultados (Reporte del Análisis)

## 1. Adquisición de datos

La adquisición de datos consiste en obtener o generar datos de diversas fuentes, por ejemplo:

- Archivos de texto: Como logs del sistema, conversaciones de mensajería, correos, tweets o noticias almacenadas como texto.
- Archivos binarios: Como imágenes, música, video.
- Archivos CSV o de Excel: Como hojas de cálculo o reportes de ventas.
- Bases de datos: Como MySQL, Oracle, SQL Server y Mongo.
- Sitios Web: Como la página oficial de Walmart para extraer los precios y ofertas del día.

> En este ejemplo usamos la librería de [Pandas](https://pandas.pydata.org) para leer un archivo CSV extraído desde internet.

El archivo contiene 150 muestras de medidas sobre platas tipo Iris en 3 diferentes familias:

> Características

- Longitud de sépalo
- Ancho de sépalo
- Longitud de pétalo
- Ancho de pétalo

> Objetivo: Clasificación
>
> Debemos encontrar la familia a la que pertenece la planta Iris

- Longitud de sépalo

In [1]:
import pandas as pd

iris = pd.read_csv("https://gist.github.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv")

iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


Extraemos los valores de las muestras, sólo en las características de análisis, como una matriz de datos.

> Seleccionamos las columnas indicadas del dataset

In [3]:
X = pd.DataFrame(iris, 
                 columns=["sepal.length", 
                          "sepal.width",
                          "petal.length",
                          "petal.width"]).values

X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

Inspeccionamos la matriz de 150 muestras en 4 características

In [4]:
X.shape

(150, 4)

Recuperamos la columna objetivo, transformando las familias a números:

1. Setosa
2. Versicolor
3. Virginica

In [11]:
y = iris["variety"].map({ 
    "Setosa": 1, 
    "Versicolor": 2,
    "Virginica": 3 }).values

y

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

Inspeccionamos el vector columna con 150 muestras

In [12]:
y.shape

(150,)

## 2. Seleccionar el modelo de ML

Como nos enfrentamos a un problema de clasificación, podemos usar uno de los tantos algorimos de clasificación disponibles en la librería de [Sci-Kit Learn](https://scikit-learn.org/stable/).

Algunos clasificadores comunes son:

- `DecisionTreeClassifier` - Clasifica las características al objetivo mediante la construcción de árboles de decisión basados en probabilidad.
- `SVC` - Clasifica las características al objetivo mediante la construcción de soportes vectoriales que separan el espacio.
- `MLPClassifier` - Clasifica las características al objetivo mediante la construcción de redes neuronales multicapa de tipo perceptrón.

> Seleccionamos el modelo de `DecisionTreeClassifier`

In [14]:
from sklearn.tree import DecisionTreeClassifier

modelo = DecisionTreeClassifier()

## 3. Ajustar/Entrenar al modelo

Cuándo se trata de una regresión hablamos de ajuste y en una clasificación hablamos de entrenamiento.

En este caso entrenamos al clasificador de árboles de decisión para que aprenda que las características `X` llevan a las categorías `y`.

> Entrenamos el modelo para que aprenda a clasificar las `X's` en `y's`

In [15]:
modelo.fit(X, y)

## 4. Predicción de valores

Una vez que el modelo está ajustado o entrenado, podemos hacer predicciones de nuevas muestras, por ejemplo, si quisieramos saber a qué familia pertenecen las siguientes nuevas muestras de `X'`.

> Construye una matriz `X'` con nuevas muestras y predice `y'`

In [16]:
Xp = [
    [3.2, 1.5, 2.3, 0.8], # Setosa
    [4.5, 2.1, 0.9, 3.4], # Versicolor
    [6.8, 3.4, 2.9, 6.4], # Virginica
]

yp = modelo.predict(Xp)

yp

array([1, 2, 3])

Observa que la primer muestra se clasificó como familia `1 - Setosa`, la segunda muestra se clasificó como `2 - Versicolor` y la última nueva muestra se clasificó como `3 - Virginica`.

## 5. Validación del Modelo

Para saber cuántas muestras se clasificaron correctamente, podemos utilizar un método de validación en bloques, el cuál tomará muestras aleatorias y entrenará el modelo varias veces (5 veces por defecto), para en cada una validar con las muestras restantes (las que no se usaron para el entrenamiento), cuántas de ellas fueron correctas.

> Esto nos da un arreglo de puntuaciones o porcentajes de éxito, el cuál varia entre cada prueba

In [17]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(modelo, X, y)

scores

array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ])

El promedio de las pruebas se aproxima a la presición que tendrá el modelo aprendiendo a clasificar los datos.

> Una precisión del 96% es altamente significativa y quiere decir que de 100 características que se predigan, sólo 4 fallarán en promedio

In [19]:
scores.mean() * 100

96.00000000000001