# **AYUDANTÍA #01:** Introducción al Machine Learning

<!-- ![a](https://blog.anybox.fr/content/images/2020/01/scikit-learn-1.png) -->
<img src="https://blog.anybox.fr/content/images/2020/01/scikit-learn-1.png" width="40%" />

Dentro de las librerías más populares para implementar modelos de machine learning encontramos a [scikit-learn](https://scikit-learn.org/stable/) (también conocido como *sklearn*), una librería de Python que, en razgos generales, nos permite entrenar, probar e implementar modelos de aprendizaje de máquina de forma fácil, rápida y eficiente. En particular, nos permite llevar a cabo tareas de [regresión](https://scikit-learn.org/stable/supervised_learning.html#supervised-learning), [clasificación](https://scikit-learn.org/stable/supervised_learning.html#supervised-learning), [clustering](https://scikit-learn.org/stable/modules/clustering.html#clustering), [selección de modelos](https://scikit-learn.org/stable/model_selection.html#model-selection) y [preprocesamiento de datos](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing).

No te preocupes si todavía no te manejas con estos conceptos, ya que serán indagados y trabajados durante el resto del curso.

## 1. Instalación de la librería

La implementación de scikit-learn está construida encima de múltiples librerías, siendo las dos principales [Numpy](https://numpy.org/) y [SciPy](https://scipy.org/) (específicamente, aprenderemos más sobre Python más adelante en este tutorial). Afortunadamente, al instalar la librería nuestro instalador de paquetes automáticamente instalará todas las dependencias necesarias para su apropiado funcionamiento.

Dependiendo de nuestro instalador de preferencia (el autor recomienda usar `pip`), podemos descargar sklearn mediante el siguiente comando en nuestra consola:
- `pip install -U scikit-learn`
- `conda install scikit-learn`

Además, aprovecharemos de instalar la librería de manejo de datos [Pandas](https://pandas.pydata.org/), que nos permite trabajar los datos de numpy de una forma más ordenada y comprensible y aprenderemos a utilizar en este notebook. Es ampliamente utilizada en el mundo de la ciencia de datos y será una buena herramienta para saber en caso de querer trabajar con datos reales.

Instalamos *pandas* de forma muy similar a *sklearn*, dependiendo de nuestro instalador:
- `pip install -U pandas`
- `conda install pandas`

Cabe mencionar que algunas distribuciones de Python como [*Anaconda*](https://www.anaconda.com/products/distribution) ya incluyen la última versión de scikit-learn y pandas, por lo que no necesitan de su instalación.

In [None]:
!pip install pandas
if 'google.colab' not in str(get_ipython()):
    !pip install jupyterlab_widgets
    !pip install ipywidgets
    !jupyter nbextension enable --py widgetsnbextension
if 'google.colab' not in str(get_ipython()):
    from ipywidgets import FloatProgress
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
ruta = "/content/drive/MyDrive/IA-Ayudante/dataframe_patos.csv"

## 2. Importando la librería a nuestro proyecto

Una vez instalada, podemos importar la librería scikit-learn a nuestro proyecto de Python mediante la siguiente línea:

In [None]:
import sklearn

Por lo general, al trabajar en proyectos de machine learning también nos gustaría importar directamente librerías como Numpy y Pandas para poder trabajar con las estructuras de datos directamente. Esto lo haremos mediante las líneas:

In [None]:
import numpy as np      # Por convención importamos numpy bajo el nombre np
import pandas as pd     # Similar a numpy, generalmente importamos pandas con el nombre pd

# 3. Uso de Numpy y Pandas

A continuación se llevará a cabo una introducción al uso de estas dos librerías de gran utilidad, para una explicación más en profundidad, se recomienda revisar la documentación de cada una de ellas.

- [Documentación de Numpy](https://numpy.org/doc/stable/)
- [Documentación de Pandas](https://pandas.pydata.org/docs/)

### 3.1 Numpy

Numpy es una librería de uso matemático en Python que nos permite trabajar con matrices y vectores bajo el nombre de *arrays*. Estructuras que ganan especial importancia en el contexto del aprendizaje de máquina ya que nos permiten representar información en base a múltiples características.

Por ejemplo, pensemos en un grupo de cuatro patos de los que buscamos guardar su edad.

<!-- ![a](https://beautyalongtheroad.files.wordpress.com/2015/04/four-ducks.jpg?w=640) -->
<p align="center">
    <img src="https://beautyalongtheroad.files.wordpress.com/2015/04/four-ducks.jpg?w=640" width="30%"/>
</p>

Podríamos pensar en almacenar la edad de cada pato en una lista, con cada posición correspondiendo a la edad de un pato (en meses):

In [None]:
edad_patos = [13, 8, 5, 28]

edad_patos

[13, 8, 5, 28]

Ahora bien, si buscamos añadir otras características como por ejemplo, el tamaño y el peso, nos damos cuenta de que no es tan fácil almacenar esta información (podríamos usar diccionarios en una lista, pero nuevamente se trata de una estructura más compleja).

Es debido a esto que se ha hecho la convención de utilizar estructuras del tipo matricial para representar este tipo de datos donde **cada fila corresponderá a un elemento distinto y cada columna corresponderá a una característica distinta**.

De este modo, una matriz de m x n elementos (partiendo la cuenta desde el cero) se vería de la forma:

|  x<sub>0,0</sub>  | x<sub>0,1</sub> | ... | x<sub>0,n-1</sub> |
|:---:|:-:|:---:|:-:|
|  x<sub>1,0</sub>  | x<sub>1,1</sub> | ... | x<sub>1,n-1</sub> |
| ... | ... | ... | ... |
|  x<sub>m-1,0</sub>  | x<sub>m-1,1</sub> | ... | x<sub>m-1,n-1</sub> |

En el caso de la matriz de características de los patos, esta tendría 4x3 elementos (no contamos el título de la tabla) y se vería algo así:

|  Edad  | Peso | Tamaño |
|:---:|:-:|:---:|
| 13 | 3.2 | 24 |
| 8 | 2.1 | 13 |
| 5 | 1.4 | 8 |
| 28 | 4.1 | 23 |

Para representarla en Python utilizamos la librería numpy, generando una matriz a partir de una lista de listas de la siguiente forma:

In [None]:
info_patos = np.array([[13, 3.2, 24],
                        [8, 2.1, 13],
                        [5, 1.4, 8],
                        [28, 4.1, 23]])

info_patos

array([[13. ,  3.2, 24. ],
       [ 8. ,  2.1, 13. ],
       [ 5. ,  1.4,  8. ],
       [28. ,  4.1, 23. ]])

Notamos que podemos acceder a las características del i-ésimo pato indexando el *array* en su i-ésimo elemento (contando desde el cero).

In [None]:
info_patos[0]   # Información del primer pato

array([13. ,  3.2, 24. ])

De forma similar, podemos acceder a la j-ésima columna de información (la j-ésima característica), al pedir todas las filas (usando dos puntos ":") y seleccionando entre las columnas

In [None]:
info_patos[:, 0]    # Primera característica (edad) de cada pato

array([13.,  8.,  5., 28.])

Para acceder al i-ésimo pato y su j-ésima característica, podemos indexar de forma similar a como lo haríamos en una lista de listas, o bien separando cada índice por comas

In [None]:
info_patos[2][1]    # Segunda característica (peso) del tercer pato
info_patos[2, 1]    # Nomenclatura equivalente, más ordenada

1.4

Numpy también nos permite obtener información sobre las tablas con cuales trabajemos mediante algunas funciones construidas directamente en la librería, aquí se encuentran algunas de las más destacadas:

In [None]:
# Nos retorna las dimensiones del array trabajado en una tupla
print(np.shape(info_patos))

(4, 3)


In [None]:
print(np.max(info_patos))                     # Nos retorna el valor máximo de todo el array
print(np.argmax(info_patos, axis = 0))         # Nos retorna el índice del valor máximo del array en cierto eje (0 para filas, 1 para columnas) en forma de una lista

28.0
[3 3 0]


In [None]:
print(np.min(info_patos))                      # Nos retorna el valor mínimo de todo el array
print(np.argmin(info_patos, axis = 1))         # Nos retorna el índice del valor mínimo del array en cierto eje (0 para filas, 1 para columnas) en forma de una lista

1.4
[1 1 1 1]


In [None]:
print(np.mean(info_patos))  # Nos retorna el valor promedio de todos los datos en el array
print("--------------------------------")
print(np.std(info_patos))                    # Nos retorna la desviación estándar de todos los datos en el array
print("--------------------------------")
print(np.median(info_patos))                   # Nos retorna el valor medio de todos los datos en el array

11.066666666666668
--------------------------------
8.868326912232218
--------------------------------
8.0


In [None]:
print(np.sort(info_patos)) # Nos permite ordenar el array según los valores de algún eje, por defecto usa la última dimensión
print("--------------------------------")
print(np.sort(info_patos, axis = 0))   # Ordena el array según el valor de sus filas
print("--------------------------------")
print(np.sort(info_patos, axis = 1))           # Ordena el array según el valor de sus columnas

[[ 3.2 13.  24. ]
 [ 2.1  8.  13. ]
 [ 1.4  5.   8. ]
 [ 4.1 23.  28. ]]
--------------------------------
[[ 5.   1.4  8. ]
 [ 8.   2.1 13. ]
 [13.   3.2 23. ]
 [28.   4.1 24. ]]
--------------------------------
[[ 3.2 13.  24. ]
 [ 2.1  8.  13. ]
 [ 1.4  5.   8. ]
 [ 4.1 23.  28. ]]


In [None]:
print(np.reshape(info_patos, (1, 12)))         # Reordena el array a las dimensiones deseadas (en este caso, de 4x3 a 1x12)

[[13.   3.2 24.   8.   2.1 13.   5.   1.4  8.  28.   4.1 23. ]]


In [None]:
print(np.vstack((info_patos, (1, 1, 1))))
print("--------------------------------")            # Apila todos los arrays entregados (dentro de una tupla) de forma vertical (por filas), retornando un nuevo elemento
print(np.append(info_patos, [(1, 1, 1)], axis = 0))
print("--------------------------------")       # Muy similar a lo anterior, añade los segundos elementos al primero en el eje electo (filas)
print(np.append(info_patos, [[1], [1], [1], [1]], axis = 1))
   # En este caso, añadimos una columna nueva, ojo con la forma en que se forman las columnas

[[13.   3.2 24. ]
 [ 8.   2.1 13. ]
 [ 5.   1.4  8. ]
 [28.   4.1 23. ]
 [ 1.   1.   1. ]]
--------------------------------
[[13.   3.2 24. ]
 [ 8.   2.1 13. ]
 [ 5.   1.4  8. ]
 [28.   4.1 23. ]
 [ 1.   1.   1. ]]
--------------------------------
[[13.   3.2 24.   1. ]
 [ 8.   2.1 13.   1. ]
 [ 5.   1.4  8.   1. ]
 [28.   4.1 23.   1. ]]


Estas funciones también pueden ser llamadas directamente desde el array con que trabajamos, aplicándose directamente sobre sí mismo. Por ejemplo, el uso de `np.shape()`, normalmente se hace directamente sobre el array.

In [None]:
print(info_patos.shape) # También nos retorna las dimensiones del array trabajado, en este caso es una propiedad del array

print(info_patos.min()) # El método min se trata de una función y no una propiedad del array, por lo que debe llamarse con paréntesis

(4, 3)
1.4


Es importante destacar que todos estos métodos pueden ser aplicados en secciones del array, como las selecciones de ciertas características que llevamos a cabo anteriormente. Esto nos permite realizar consultas sobre la información de forma eficiente y ordenada.

Por otro lado, numpy también nos otorga funciones para poder generar arrays de forma rápida:

In [None]:
np.random.randint(low = 0, high = 10, size = (2, 3))    # Genera un array de números enteros aleatorios, con mínimo en low y máximo en high,
                                                        # de dimensiones size (en este caso 2x3)

array([[6, 8, 9],
       [3, 8, 4]])

In [None]:
np.random.random(size = (3, 4))  # Genera un array de valores aleatorios entre los números 0 y 1 y de dimensiones size (en este caso, 3x4)

array([[0.18519057, 0.83250067, 0.5650048 , 0.86854737],
       [0.08300164, 0.69897415, 0.93013306, 0.62382335],
       [0.24915154, 0.54609909, 0.65475632, 0.82140814]])

In [None]:
np.zeros(shape = (2, 10))    # Genera un array llena de ceros de dimensiones shape (en este caso 2x10)

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [None]:
np.zeros_like(info_patos)   # Genera un array de ceros con las mismas dimensiones que otro array

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

Con todo lo aprendido anteriormente ya deberías poder manejarte de forma bastante cómoda con la librería. Recuerda que siempre puedes buscar ayuda en la documentación o en línea.

### 3.2 Uso de Pandas

Como puedes haber notado, puede ser algo confuso representar información solo en la forma de matrices ya que uno debe mantener rastro de a qué columna pertenece cada característica y en general las operaciones son mucho menos intuitivas.

Es bajo este problema que nace la librería Pandas, que nos permite trabajar matrices (y muchas otras estructuras de datos) en forma de tablas o *dataframes*. Estas nos permiten nombrar los atributos de las columnas y llevar a cabo operaciones dentro de la tabla.

Por ejemplo, si deseamos representar los datos de los patos en una tabla:

In [None]:
pd.DataFrame([[13, 3.2, 24], [8, 2.1, 13], [5, 1.4, 8], [28, 4.1, 23]],
             index = ["Pato 1", "Pato 2", "Pato 3", "Pato 4"], columns = ["Edad", "Peso", "Tamaño"])

Unnamed: 0,Edad,Peso,Tamaño
Pato 1,13,3.2,24
Pato 2,8,2.1,13
Pato 3,5,1.4,8
Pato 4,28,4.1,23


También podemos generar la tabla a partir de la matriz que creamos anteriormente

In [None]:
df_patos = pd.DataFrame(info_patos, index = ["Pato 1", "Pato 2", "Pato 3", "Pato 4"], columns = ["Edad", "Peso", "Tamaño"])

df_patos

Unnamed: 0,Edad,Peso,Tamaño
Pato 1,13.0,3.2,24.0
Pato 2,8.0,2.1,13.0
Pato 3,5.0,1.4,8.0
Pato 4,28.0,4.1,23.0


Trabajar con *DataFrames* de Pandas resulta en una herramienta muy útil y cómoda, ya que nos permite filtrar nuestros datos de forma intuitiva.

In [None]:
df_patos["Edad"]    # Accedemos solo a la columna "Edad" de la dataframe

Pato 1    13.0
Pato 2     8.0
Pato 3     5.0
Pato 4    28.0
Name: Edad, dtype: float64

In [None]:
df_patos["Edad"][0] # Notamos que también podemos indexar las columnas

13.0

Una de las comodidades que trae trabajar con esta estructura de datos, es que nos permite filtrar dependiendo de múltiples criterios. Para ello utilizamos el método de la clase DataFrame: [DataFrame.loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html). Este nos permite filtrar datos según una serie que contenga nombres de columnas (es decir, recibe un conjunto de nombres de distintas filas y muestra solo aquellos datos).

In [None]:
df_patos.loc["Pato 1"]  # Si queremos mostrar un solo dato, podemos ingresar el nombre de aquella fila y listo

Edad      13.0
Peso       3.2
Tamaño    24.0
Name: Pato 1, dtype: float64

En caso de querer obtener más filas (o filtrarlas por una condición), primero encontramos aquellas filas que cumplan la determinada condición

In [None]:
df_patos["Edad"] > 10   # Retorna para cada pato si su edad es mayor a 10 o no

Pato 1     True
Pato 2    False
Pato 3    False
Pato 4     True
Name: Edad, dtype: bool

Ahora, usamos este elemento para filtrar la dataframe usando el método *loc*

In [None]:
df_patos.loc[df_patos["Edad"] > 10] # Así obtenemos todos los patos con más de 10 meses de edad

Unnamed: 0,Edad,Peso,Tamaño
Pato 1,13.0,3.2,24.0
Pato 4,28.0,4.1,23.0


De este modo, podemos filtrar los datos mediante múltiples condiciones, lo que será especialmente útil cuando trabajemos en procesamiento de datos.

### **[IMPORTANTE]**
Pandas también nos permite leer datos de archivos en múltiples formatos, siendo el más común para almacenar información el formato [.csv](https://www.w3schools.com/python/pandas/pandas_csv.asp), primero, escribiremos un archivo con esta extensión utilizando el siguiente método:

In [None]:
df_patos.to_csv(ruta)

Podemos leer el archivo que acabamos de crear utilizando la siguiente línea:

In [None]:
pd.read_csv(ruta)

Unnamed: 0.1,Unnamed: 0,Edad,Peso,Tamaño
0,Pato 1,13.0,3.2,24.0
1,Pato 2,8.0,2.1,13.0
2,Pato 3,5.0,1.4,8.0
3,Pato 4,28.0,4.1,23.0


Notamos que nuestros índices ahora figuran como columnas, esto tiene relación por la forma en que se almacenan los datos en un archivo .csv (Pandas no tiene como saber cual columna es el índice y cuál no).

Una forma de solucionar este problema sería guardando el índice con un cierto nombre y luego reasignandolo a la dataframe:

In [None]:
df_patos.to_csv(ruta, index_label = 'Indice')  # Asignamos un nombre a la columna de los indices

In [None]:
patos_csv = pd.read_csv(ruta)  # Leemos el .csv nuevamente
patos_csv

Unnamed: 0,Indice,Edad,Peso,Tamaño
0,Pato 1,13.0,3.2,24.0
1,Pato 2,8.0,2.1,13.0
2,Pato 3,5.0,1.4,8.0
3,Pato 4,28.0,4.1,23.0


In [None]:
patos_csv = patos_csv.set_index('Indice')   # Podemos asignar el índice a la dataframe utilizando este comando
patos_csv

Unnamed: 0_level_0,Edad,Peso,Tamaño
Indice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Pato 1,13.0,3.2,24.0
Pato 2,8.0,2.1,13.0
Pato 3,5.0,1.4,8.0
Pato 4,28.0,4.1,23.0


Cabe mencionar que normalmente utilizamos los índices por defecto de pandas (números desde el cero al infinito), pero para algunas aplicaciones cambiar los índices puede ser útil (en este caso, para fines didácticos)

# 4. Módulos destacados de scikit-learn

Si bien entraremos en detalle sobre cada módulo en su respectiva semana, aquí hay una lista "resumen" de los principales que usaremos en este curso (a modo de introducción, no esperamos que te manejes con ellos solamente por verlos en este notebook).

En el próximo tutorial aprenderemos a utilizar estos módulos en el contexto del entrenamiento y evaluación de modelos de aprendizaje de máquina.

*(Existe una descripción en detalle de todos los módulos de la librería [en la siguiente página](https://scikit-learn.org/stable/modules/classes.html)).*

### 4.1) Vecinos más cercanos

Podemos importar todo el módulo mediante la línea `from sklearn import neighbors`, este contiene herramientas para trabajar con el algoritmo de vecinos más cercanos (el cual estudiaremos en el curso).

En particular, [el clasificador](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) de este tipo que puede ser importado mediante la línea:

In [None]:
from sklearn.neighbors import KNeighborsClassifier

Y que luego podemos instanciar mediante la línea

In [None]:
KNeighborsClassifier()

### 4.2) Árboles de decisión

Podemos importar todo el módulo mediante la línea `from sklearn import tree`, este contiene herramientas para trabajar con el algoritmo de árboles de decisión  (el cual estudiaremos en el curso).

En particular, [el clasificador](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) de este tipo que puede ser importado mediante la línea:

In [None]:
from sklearn.tree import DecisionTreeClassifier

Y que luego podemos instanciar mediante la línea

In [None]:
DecisionTreeClassifier()

### 4.3) Random Forest

Podemos importar todo el módulo mediante la línea `from sklearn import ensemble`, este contiene herramientas para trabajar con el algoritmo de random forest (el cual estudiaremos en el curso).

En particular, [el clasificador](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) de este tipo que puede ser importado mediante la línea:

In [None]:
from sklearn.ensemble import RandomForestClassifier

Y que luego podemos instanciar mediante la línea

In [None]:
RandomForestClassifier()

### 4.4) Support-Vector Machine (SVM)

Podemos importar todo el módulo mediante la línea `from sklearn import svm`, este contiene herramientas para trabajar con el algoritmo de vector de soporte (el cual estudiaremos en el curso).

En particular, [el clasificador](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html) de este tipo que puede ser importado mediante la línea:

In [None]:
from sklearn.svm import SVC

Y que luego podemos instanciar mediante la línea

In [None]:
SVC()

### 4.5) Perceptron

Podemos importar todo el módulo mediante la línea `from sklearn import linear_model`, este contiene herramientas para trabajar con un perceptrón (el cual estudiaremos en el curso).

En particular, [el clasificador](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html) de este tipo que puede ser importado mediante la línea:

In [None]:
from sklearn.linear_model import Perceptron

Y que luego podemos instanciar mediante la línea

In [None]:
Perceptron()

### 4.6) Multi-Layer Perceptron

Podemos importar todo el módulo mediante la línea `from sklearn import neaural_network`, este contiene herramientas para trabajar con un Multi-Layer Perceptron o MLP (el cual estudiaremos en el curso).

En particular, [el clasificador](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html) de este tipo que puede ser importado mediante la línea:

In [None]:
from sklearn.neural_network import MLPClassifier

Y que luego podemos instanciar mediante la línea

In [None]:
MLPClassifier()

### 4.7) K-Means Clustering

Podemos importar todo el módulo mediante la línea `from sklearn import cluster`, este contiene herramientas para hacer clustering usando el método de K-Means (el cual estudiaremos en el curso).

En particular, [el algoritmo](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) de este tipo que puede ser importado mediante la línea:

In [None]:
from sklearn.cluster import KMeans

Y que luego podemos instanciar mediante la línea

In [None]:
KMeans()

# 5. Utilizando scikit-learn

## 5.1) Ejemplo Rápido

In [None]:
# Añadimos una nueva columna, esta será la que trataremos de predecir para nuevos patos

df_patos.insert(3, "Sabe volar", [1, 0, 0, 1])
df_patos

Unnamed: 0,Edad,Peso,Tamaño,Sabe volar
Pato 1,13.0,3.2,24.0,1
Pato 2,8.0,2.1,13.0,0
Pato 3,5.0,1.4,8.0,0
Pato 4,28.0,4.1,23.0,1


Lógicamente nuestro modelo no será de muy buena calidad, dado que estamos entrenando con muy pocos datos

In [None]:
clasificador = KNeighborsClassifier(3)

# Qué datos usamos para predecir
X = df_patos.loc[:, df_patos.columns != "Sabe volar"]

# Qué cosa queremos predecir
y = df_patos["Sabe volar"]

clasificador.fit(X, y)

Ahora, si le entregamos un nuevo pato al clasificador (en forma de sus características Edad, Peso y Tamaño), debería entregarnos una clasificación sobre si el pato sabe o no volar

In [None]:
# Array con información de distintos patos, cada fila son los datos de un pato distinto
test_patos = np.array([[5.4, 2.3, 10], [12.0, 3.5, 18.0], [7.3, 1.2, 5.7], [17.4, 3.6, 19.4]])

In [None]:
clasificador.predict(test_patos)



array([0, 0, 0, 1])

Por lo tanto, según nuestro clasificador solo el último pato testeado sabría volar (en base a la información de los patos que sí conocemos)

## 5.2) Preprocesamiento

La base de datos tiene 4 columnas, las cuales sirven para caracterizar plantas en 3 clases diferentes:


Features:
- sepal length (cm)
- sepal width (cm)
- petal length (cm)
- petal width (cm)

Class:
- Iris-Setosa
- Iris-Versicolour
- Iris-Virginica

Al trabajar con variables cuantitativas, es importante normalizar estas. Esto ppermite que los distintos modelos de machine learning logren un entrenamiento más rápido y efectivo.

Acá veremos métodos de normalización.

In [None]:
!pip3 install scikit-learn



In [None]:
import pandas as pd
import numpy as np
import sklearn

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


Antes de hacer cualquier tipo de clasificación, debemos preprocesar los datos tal que el modelo de machine learning a usar los pueda trabajar efectivamente.

1) StandardScaler()

Este método ajusta los datos a una distribución gaussiana, con media = 0 y varianza = 1. Usaremos este método especialmente con modelos de machine learning que asumen una distribución gaussiana de los datos a trabajar.

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
standard_iris = scaler.fit_transform(iris_df)
standard_iris = pd.DataFrame(standard_iris, columns = iris.feature_names)
standard_iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444
...,...,...,...,...
145,1.038005,-0.131979,0.819596,1.448832
146,0.553333,-1.282963,0.705921,0.922303
147,0.795669,-0.131979,0.819596,1.053935
148,0.432165,0.788808,0.933271,1.448832


2) MinMaxScaler()

Este segundo método mapea los valores de cada columna a un valor entre 0 y 1. Puede ser útil si tenemos columnas con distintos grados de magnitud.

In [None]:
from sklearn.preprocessing import MinMaxScaler
minmax = MinMaxScaler()
minmax_iris = minmax.fit_transform(iris_df)
minmax_iris = pd.DataFrame(minmax_iris, columns = iris.feature_names)
minmax_iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


StandarScaler y MinMaxScaler nos sirven para ajustar las variables cuantitativas, pero ¿qué sucede con las cualitativas?

Veamos el siguiente ejemplo:

In [None]:
frutas = ['apple', 'orange', 'grape', 'strawberry', 'melon', 'plum', 'banana', 'melon', 'plum', 'plum', 'grape', 'watermelon', 'melon', 'orange']

3) LabelEncoder()

Se encarga de transofrmar variables categóricas a valores numéricos.  

In [None]:
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
encoder.fit_transform(frutas)

array([0, 4, 2, 6, 3, 5, 1, 3, 5, 5, 2, 7, 3, 4])

Luego, para saber que valor numérico corresponde a cada clase:

In [None]:
for i in range(len(encoder.classes_)):
    print(encoder.classes_[i], "-->", i)

apple --> 0
banana --> 1
grape --> 2
melon --> 3
orange --> 4
plum --> 5
strawberry --> 6
watermelon --> 7


Pero, el LabelEncoder no será siempre lo mejor, pues por ejemplo en el caso de las frutas, no queremos darle un valor superior a unas sobre otras, nos sería mejor tener variables que indiquen si se encuentra dicha fruta o si está ausente en el conjunto. Para eso utilizaremos el OneHotEncoder(), el cual para cada posible valor (fruta), creará una nueva columna con valores binarios, 0 o 1.

In [None]:
from sklearn.preprocessing import OneHotEncoder

frutas = ['apple', 'orange', 'grape', 'strawberry', 'melon', 'plum', 'banana', 'melon', 'plum', 'plum', 'grape', 'watermelon', 'melon', 'orange']
encoder = LabelEncoder()
labels = encoder.fit_transform(frutas).reshape(-1, 1)
onehot_encoder = OneHotEncoder()
onehot_labels = onehot_encoder.fit_transform(labels)
onehot_labels.toarray()

array([[1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0.]])

Podemos notar que ahora cada dato en el array de frutas corresponde a un vector de 0s y 1s, indicando con un 1 la fruta representada.

Este procedimiento se puede hacer también con un método de la librería pandas, el cual además permite una mejor visualización:

In [None]:
df = pd.DataFrame(frutas, columns = ['fruta'])
pd.get_dummies(df, dtype=int)

Unnamed: 0,fruta_apple,fruta_banana,fruta_grape,fruta_melon,fruta_orange,fruta_plum,fruta_strawberry,fruta_watermelon
0,1,0,0,0,0,0,0,0
1,0,0,0,0,1,0,0,0
2,0,0,1,0,0,0,0,0
3,0,0,0,0,0,0,1,0
4,0,0,0,1,0,0,0,0
5,0,0,0,0,0,1,0,0
6,0,1,0,0,0,0,0,0
7,0,0,0,1,0,0,0,0
8,0,0,0,0,0,1,0,0
9,0,0,0,0,0,1,0,0


Para este breve ejemplo utilizaremos la base de datos Iris, la cual se puede importar a través la librería scikit-learn.

Podemos entrenar un clasificador utilizando su método *fit* sobre un conjunto de datos y una serie de valores proyectados. En este caso, vamos a implementar un ejemplo simple con la base de datos Iris:

## 5.3) Clasificación

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)
iris_df['target'] = iris.target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


Nótese que el dataset de sklearn ya viene con los valores de clases en formato numérico, donde:

0 -> Iris-Setosa

1 -> Iris-Versicolour

2 -> Iris-Virginica



In [None]:
y = iris_df['target']
X = iris_df.drop('target', axis=1)

In [None]:
# Separamos en datos de entrenamiento y testeo
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

print(f'Tamaño set entrenamiento: {len(X_train)}')
print(f'Tamaño set test: {len(X_test)}')

Tamaño set entrenamiento: 105
Tamaño set test: 45


In [None]:
X_train

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
25,5.0,3.0,1.6,0.2
53,5.5,2.3,4.0,1.3
4,5.0,3.6,1.4,0.2
70,5.9,3.2,4.8,1.8
31,5.4,3.4,1.5,0.4
...,...,...,...,...
67,5.8,2.7,4.1,1.0
143,6.8,3.2,5.9,2.3
2,4.7,3.2,1.3,0.2
58,6.6,2.9,4.6,1.3


In [None]:
y_train

25     0
53     1
4      0
70     1
31     0
      ..
67     1
143    2
2      0
58     1
145    2
Name: target, Length: 105, dtype: int64

DecisionTreeClassifier

In [None]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X_train, y_train)

In [None]:
# Ahora el modelo ya está entrenado y podemos realizar la clasificación
y_pred = model.predict(X_test)
y_pred

array([1, 0, 2, 2, 1, 2, 1, 1, 0, 1, 2, 1, 1, 2, 2, 2, 0, 1, 1, 2, 2, 2,
       1, 2, 0, 1, 1, 1, 0, 0, 2, 0, 1, 1, 1, 0, 1, 0, 0, 2, 2, 0, 0, 1,
       0])

Ya vimos los valores predichos de y, ahora queremos saber que tan buena fue esa evaluación a través de distintas métricas:

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       1.00      1.00      1.00        18
           2       1.00      1.00      1.00        14

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45



In [None]:
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       1.00      0.94      0.97        18
           2       0.93      1.00      0.97        14

    accuracy                           0.98        45
   macro avg       0.98      0.98      0.98        45
weighted avg       0.98      0.98      0.98        45



In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

confusion_df = pd.DataFrame(confusion_matrix(y_test, y_pred), columns=iris.target_names, index=iris.target_names)
confusion_df

Unnamed: 0,setosa,versicolor,virginica
setosa,13,0,0
versicolor,0,17,1
virginica,0,0,14


# 6. Conclusión

Felicitaciones! Además de tener la librería scikit-learn instalada y corriendo, ahora deberías tener una intuición de cómo trabajar con datos utilizando las librerías Numpy y Pandas y de como instanciar algunos de los clasificadores que utilizaremos a lo largo de todo el curso. En próximas ayudantías entraremos en más detalle sobre la lógica detrás de ellos y como implementarlos directamente.