# Introducción al aprendizaje automático con scikit-learn

El aprendizaje automático es un tipo de inteligencia artificial (AI) que proporciona a las computadoras la capacidad de aprender, sin ser programadas explícitamente. El aprendizaje automático se centra en el desarrollo de programas informáticos que pueden cambiar cuando se exponen a nuevos datos.

<img src="..\images\AI.png" style="width: 450px;"/>

El aprendizaje automático utiliza esos datos para detectar patrones en los datos y ajustar las acciones del programa en consecuencia. Los algoritmos del aprendizaje automático se clasifican a menudo como supervisados o no supervisados.

En este cuaderno se utilizará el paquete `scikit-learn` de Python para crear modelos predictivos a partir de datos de una manera rápida y sencilla.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

np.random.seed(42)

## Regresión lineal
El objetivo es ajustar una recta a un conjunto de datos. Esto difícilmente se puede llamar _machine learning_, pero ayudará a comprender la forma de trabajar con `scikit-learn`, cómo se entrenan los modelos y cómo se calculan las predicciones.

En primer lugar se crean datos sintéticos con distribución normal

In [None]:
x = np.random.randn(50)
y = 2.0 * x + 0.8 * np.random.randn(50)

plt.scatter(x, y);

El proceso para usar `scikit-learn` es el siguiente:

1. Separar los datos en matriz de características `features` y variable a predictora `y`
2. Seleccionar el modelo
3. Elegir los hiperparámetros
4. Ajustar o entrenar el modelo (`model.fit`)
5. Predecir con datos nuevos (`model.predict`)

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression(fit_intercept=True)

<div class="alert alert-info">Hacer `reshape` para transformar el arreglo x en un vector columna, X. </div>

In [None]:
X = x.reshape(-1, 1)

In [None]:
#Realizar el ajuste del modelo con los datos X, y
model.fit(X, y)

In [None]:
#Realizar predicciones
y_hat = model.predict(X)

Para realizar las pruebas de desempeño se utilza el módulo `sklearn.metrics` el cual tiene varias funciones útiles:

In [None]:
from sklearn import metrics

In [None]:
abs_error = metrics.mean_absolute_error(y, y_hat)
abs_error

Y ahora predecimos con datos nuevos:

In [None]:
x_new = np.linspace(x.min(), x.max(), 10)

In [None]:
y_pred = model.predict(x_new.reshape(-1, 1))

In [None]:
plt.scatter(x, y)

plt.plot(x_new, y_pred, 'k--')
plt.scatter(x_new, y_pred, marker='x', lw=3, zorder=10)

plt.fill_between(x_new, y_pred + abs_error, y_pred - abs_error, color="C0", alpha=0.3);

## Introducción rápida al aprendizaje automático

En aprendizaje automático hay dos tipos de problemas:

* **Aprendizaje supervisado**, cuando existen datos _etiquetados_, es decir: se conoce la variable a predecir de un cierto número de observaciones. Pasando esta información al algoritmo, este será capaz de predecir dicha variable cuando reciba observaciones nuevas. Dependiendo de la naturaleza de la variable a predecir, se tiene a su vez:
  - **Regresión**, si es continua (como el caso anterior), o
  - **Clasificación**, si es discreta o categórica (sí/no, color de ojos, etc)
* **Aprendizaje no supervisado**, cuando no hay datos _etiquetados_ y por tanto no se dispone de información _a priori_. En este caso se emplean los algoritmos para descubrir patrones en los datos y agruparlos.

En función de la naturaleza del problema, `scikit-learn` proporciona una gran variedad de algoritmos que se pueden elegir.

![Machine Learning map](../images/ml_map.png)

[scikit-learn](https://scikit-learn.org/stable/)

## Clasificación

En `scikit-learn` proporciona datasets clásicos que se pueden utilizar para practicar. Uno de ellos es el dataset MNIST, que consiste en imágenes escaneadas de números escritos a mano por funcionarios de los EEUU. Para cargarlo, se importa la función correspondiente de `sklearn.datasets`:

In [None]:
from sklearn.datasets import load_digits

In [None]:
digits = load_digits()
print(digits["DESCR"])

Se tienen los datos separados en matriz de características y vector de predicción. En este caso, son 64 = 8x8 características (un valor numérico por cada pixel de la imagen) y la variable a predecir será el número en sí.

### Creación de dataset de entrenamiento y prueba

En aprendizaje supervisado, se recomomienda dividir el dataset original en una parte para entrenamiento y otra para test.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# X_train, X_test, Y_train, Y_test =
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, train_size=0.75)

In [None]:
# Dimesiones del conjunto de entrenamiento
X_train.shape, y_train.shape

In [None]:
# Dimesiones del conjunto de prueba
X_test.shape, y_test.shape

Para visualizar las imágenes se tiene que hacer un `.reshape` para representar la imagen de 8X8:

In [None]:
num_ = X_test[42] # un vector
label_ = y_test[42] #la etiqueta de número
print(num_)
print(label_)

In [None]:
#recrear imagen de 8X8
num_.reshape(8, 8).astype(int) 

In [None]:
#Mostrar imagen
plt.figure(figsize=(2, 2))
plt.imshow(num_.reshape(8, 8), cmap=plt.cm.gray_r)

In [None]:
label_

<div class="alert alert-block alert-warning">
Un humano puede saber qué número es cada imagen. La computadora lo sabe porque están etiquetadas, pero ¿qué pasa si viene una imagen nueva? Para eso se tiene que construir un modelo de clasificación. En este caso se aplicará la <b>regresión logística</b>
</div>

### Regresión logística 
El algoritmo de regresión logística es uno de los más utilizados actualmente en aprendizaje automático. Siendo su principal aplicación los problemas de clasificación binaria. Es un algoritmo simple en el que se pueden interpretar fácilmente los resultados obtenidos e identificar por qué se obtiene un resultado u otro. A pesar de su simplicidad funciona realmente bien en muchas aplicaciones y se utiliza como referencia de rendimiento. Por lo tanto, este es un algoritmo con el que los científicos de datos han de estar familiarizados. Ya que comprender los conceptos básicos de la regresión logística son útiles para la entender de otras técnicas más avanzadas.
[Referencia](https://www.analyticslane.com/2018/07/23/la-regresion-logistica/)

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
# Crear una instancia, i.e. un objeto de la clase LogisticRegression
logmodel = LogisticRegression(solver='lbfgs')

In [None]:
# Ajustar el modelo usando los datos de entrenamiento
logmodel.fit(X_train, y_train)

Y una vez ajustado el modelo, comprobar cuáles son sus predicciones usando los mismos datos de entrenamiento:

In [None]:
# Ver los resultados para los datos de test
y_pred = logmodel.predict(X_test)

De nuevo emplear `sklearn.metrics` para medir la eficacia del algoritmo:

In [None]:
metrics.accuracy_score(y_pred, y_test)

¡Parece que el modelo ha acertado prácticamente todas! Se revisará este porcentaje de éxito, que bien podría ser engañoso. De momento, obtener otra medida de éxito que es la matriz de confusión:

In [None]:
metrics.confusion_matrix(y_pred, y_test)

In [None]:
plt.imshow(metrics.confusion_matrix(y_pred, y_test), cmap=plt.cm.Blues_r)