In [3]:
# Load libraries
import numpy as np;

# Intro to Scikit-Learn
Este notebook es una breve introducción a scikit-learn, una de las librerías más populares, y probablemente la más completa, que tiene Python para realizar Machine Learning. Para más información visita http://scikit-learn.org.

## Sobre Scikit-Learn

Scikit-Learn es un paquete de Python diseñado para dar acceso a populares algoritmos de aprendizaje automático desde Python, a través de una API limpia y bien pensada. Fue construido por cientos de colaboradores de todo el mundo y se utiliza en toda la industria y en el mundo académico.

Scikit-Learn se basa en las bibliotecas NumPy (Python numérico) y SciPy (Python científico) de Python, que permiten la computación numérica y científica eficiente a través de Python.



## Datasets en Scikit-Learn

La mayoría de los algoritmos de aprendizaje automático implementados en scikit-learn esperan que los datos se almacenen en una matriz bidimensional. Las matrices serán normalmente numpy arrays. Se espera que el tamaño de la matriz sea [n_samples, n_features], donde:

- **n_samples:** el número de muestras. Cada muestra es un elemento para procesar. Una muestra puede ser un documento, una imagen, un sonido, un video, un objeto astronómico, una fila en la base de datos o cualquier cosa que pueda describir con un conjunto fijo de rasgos cuantitativos.
    
- **n_features:** la cantidad de características o rasgos distintos que se pueden usar para describir cada elemento de manera cuantitativa. Las características generalmente tienen un valor real, pero pueden ser booleanas o discretas en el caso de algunos modelos.

### Ejemplo: El dataset Iris

Scikit-Learn tiene pre-cargados varios datasets listos para ser usados. Uno de los más conocidos es el dataset iris. Vamos a importarlo.

In [1]:
from sklearn.datasets import load_iris;
iris = load_iris();
dat = iris.data;
target = iris.target;
target_names = iris.target_names;

Veamos el contenido del target.

In [4]:
unique, counts = np.unique(target, return_counts=True);
print(np.asarray((unique, counts)).T);

[[ 0 50]
 [ 1 50]
 [ 2 50]]


50 ejemplos de cada tipo de flor, donde cada código numérico representa el correspondiente tipo de flor iris de este vector:

In [5]:
target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

Iris Setosa
<img src="figures/iris_setosa.jpg" width="50%">

Iris Versicolor
<img src="figures/iris_versicolor.jpg" width="50%">

Iris Virginica
<img src="figures/iris_virginica.jpg" width="50%">

Ahora podemos ver las dimensiones del dataset.

In [6]:
dat.shape

(150, 4)

Vemos que contiene  150 instancias y 4 columnas o variables. Veamos el contenido de las primeras 5 filas.

In [7]:
dat[0:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

Observamos que tenemos 4 variables para cada flor. Estas se corresponden con:

- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm

Representamos cada ejemplo de flor como una fila en nuestra matriz de datos, y las columnas (características) representan las medidas de la flor en centímetros. Por ejemplo, podemos representar el *dataset* Iris, que consiste en 150 ejemplos y 4 características, como un array de dos dimensiones o matriz en $\mathbb{R}^{150 \times 4}$ con el siguiente formato:
$$\mathbf{X} = \begin{bmatrix}
    x_{1}^{(1)} & x_{2}^{(1)} & x_{3}^{(1)} & \dots  & x_{4}^{(1)} \\
    x_{1}^{(2)} & x_{2}^{(2)} & x_{3}^{(2)} & \dots  & x_{4}^{(2)} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{1}^{(150)} & x_{2}^{(150)} & x_{3}^{(150)} & \dots  & x_{4}^{(150)}
\end{bmatrix}.
$$

(el superíndice denota la *i*ésima columna, y el subíndice denota la $j$ésima característica, respectivamente.

Para información sobre todos los datasets disponibles, visita esta url: https://scikit-learn.org/stable/datasets/index.html

## Modelos

Scikit-Learn dispone de una extensa batería de modelos de Machine Learning disponible, siendo esta una de las grandes ventajas que tiene el uso de esta librería.

Otra de las razones de su popularidad es que proporciona un framework de uso que es general para todos los tipos de modelos. Básicamente consiste de 6 pasos:

1. Importar modelo que se quiere emplear. Ver lista de modelos supervisados en: https://scikit-learn.org/stable/supervised_learning.html

2. Importa métrica a emplear. Ver lista de métricas disponibles en https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics.

3. Definir modelo.

4. Llamar al método fit para entrenar el modelo.

5. Llamar al método predict para generar las predicciones.

6. Calcular métrica usando las predicciones obtenidas en el paso anterior.

Veamos todos estos pasos con un ejemplo sencillo

### Ejemplo: KNN

Cuando se emplea un modelo de clasificación k-nearest neighbors, KNN, la predicción asignada a una estancia es la clase más común entre las k instancias más cercanas (o parecidas, según algún tipo de distancia de similitud). Si k = 1, entonces a cada muestra simplemente se le asigna la clase de la instancia más cercana.

<img src="figures/knn.png" width="50%">

Aplicado a regresión, el funcionamiento es el mismo solo que en lugar de la clase más común se asignará a cada instancia la media del target para los k vecinos más cercanos.

Entrenemos ahora un modelo de KNN de clasificación para el dataset iris siguiendo los 6 pasos anteriores (**nota**: no dividiremos en conjunto de train/validación/test al ser un ejemplo meramente ilustrativo):

1) Importar modelo que se quiere emplear.

In [8]:
from sklearn.neighbors import KNeighborsClassifier

2) Importar métrica a emplear.

In [9]:
from sklearn.metrics import accuracy_score as metric

3) Definir modelo.

In [10]:
model = KNeighborsClassifier(n_neighbors=1)

4) Llamar al método fit para entrenar el modelo.

In [11]:
model.fit(dat, target)

KNeighborsClassifier(n_neighbors=1)

5) Llamar al método predict para generar las predicciones.

In [12]:
pred = model.predict(dat)
pred[0:5]

array([0, 0, 0, 0, 0])

6) Calcular métrica usando las predicciones obtenidas en el paso anterior.

In [13]:
metric(target, pred)

1.0