<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/sklearn-logo.png" height="100"></center>

# 1.5 Machine Learning con scikit-learn

Profesor: Juan Ramón Rico (<juanramonrico@ua.es>)

## Resumen
---
 **scikit-learn**: es el principal paquete de aprendizaje automático (Machine Learning) de propósito general en `Python`. Tiene gran cantidad de algoritmos y módulos para el pre-procesamiento, validación cruzada y ajuste de hiper-parámetros de modelos, clasificación/regresión, etc.
- Documentación <http://scikit-learn.org/stable/documentation.html>
- Tutorial de inicio rápido <http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn>

---

# Paquete scikit-learn

- Funciones simples y eficientes para minería de datos y análisis de datos en general.
- Contiene gran variedad de algoritmos de Machine Learning. Además, tiene funciones de preprocesado, filtrado y transformación de datos.
- Construida sobre NumPy, SciPy, y Matplotlib
- Código abierto, se permite su uso comercial - Licencia BSD

# Conceptos básicos sobre Machine Learning

## Tipos de algoritmos


Un esquema resumen de los tipos de algoritmos de `Machine Learning` sería el siguiente

<!-- source https://docs.google.com/drawings/d/1yGLRoDCTwZy7GGSl8rqui92SZzmKSxIAw46jAihKE-U/edit -->
<center>
<img src="https://docs.google.com/drawings/d/e/2PACX-1vQLsr-OobW1vG7ZBEDWqCNc3CzpNaDEdhFiXfWaKZ6nWDv0y7gLml4KHbSwa8D7_ZGeYFG6502PmC_E/pub?w=771&amp;h=314">
</center>

### Aprendizaje supervisado

Típicamente son los algoritmos de clasificación o regresión donde se necesita conocer los datos de las entradas y su resultado (objetivo o salida) donde el sistema de aprendizaje trata de predecir los resultados de entradas que nunca ha visto.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/supervised_learning.png"></center>


### Aprendizaje no supervisado

El aprendizaje de estos algoritmos solo se aplica a los datos de entrada, ya que se desconocen sus resultados. Son típicos los algoritmos de agrupación (clustering) para conocer los grupos que se forman con los datos de entrada.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/unsupervised_learning.png"></center>


### Aprendizaje por refuerzo

El algoritmo aprende observando el mundo que le rodea. Tiene mayor dificultad que los dos tipos anteriores y necesita más datos. La información de entrada es la retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema aprende a base de ensayo-error. Se aplica entornos simulados típicamente vídeo juegos para recoger tanta cantidad de datos como se necesiten, o en robótica para que el sistema interactue con el entorno.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/reinforcement_learning.png"></center>

## ¿Cómo evaluar un modelo de clasificación o regresión?

* Existen varias técnicas para evaluar un modelo antes de usarlo en producción, o bien para comparlo con otro y saber que grado de acierto tiene.

* La técnica más usada actualmente se llama de [**validación cruzada**](https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada) (cros-validation en inglés).

* La idea básica es dividir los datos disponibles en **dos grupos**: un grupo se usaría para entrenar el modelo y el otro grupo para comprobar el grado de acierto (tasa de aciertos en clasificación, o medir el error cometido en regresión).

* Este proceso se repite varias veces (normalmente 10) y de forma ordenada.

* Finalmente se calcula su media aritmética que nos servirá para conocer el grado de predicción del modelo.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/10_fold_cv.png"></center>


En todos los modelos que se aprenden hay que tener presente **dos conceptos clave**.

La capacidad de un modelo de reconocer o pronosticar un valor en base a nuevos datos que no se han usado en la fase de entrenamiento (**generalización**), o bien, en base datos que sí se han usado en el entrenamiento (**memorización**).

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/balanza_mg.png" height="200"></center>




# Pruebas sobre clasificación y regresión

## Importar paquetes que vamos a usar

In [None]:
import numpy as np   # Manejo de vectores
import pandas as pd  # Manipulación de tablas de datos
import sklearn       # Gran colección de algorimos de Machine Learning juntos a otros de filtrado, preprocesado y cálculo de resultados

## Copiar conjuntos de datos

In [None]:
# Hay que copiar los archivos de ejemplo
!wget https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/data/basic_data.zip
!unzip basic_data

## Cargar iris.csv

En 1935 Edgar Anderson hizo un estudio en el que recolectó las diferencias en las medidas (ancho y largo de los pétalos y sépalos) de tres variedades de flores tipo iris que están estrechamente relacionadas. Este [ejemplo sencillo de 150 muestras de flores tipo iris](https://en.wikipedia.org/wiki/Iris_flower_data_set) se incluye en la mayoría de libros y programas relacionados con análisis o predicción de datos.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/iris-ml.png"></center>


In [None]:
data = pd.read_csv('./basic_data/iris.csv')
display(data.head())
display(data.dtypes)

In [None]:
# Convirtiendo los tipos de 64 a 32 bits
pairs = {'int64':'int32', 'float64':'float32'}
for i in data.columns:
  data[i]= data[i].astype(pairs.get(str(data[i].dtype), data[i].dtype))

data['class'] = data['class'].astype('category')
data.dtypes

## Visualización de los datos


In [None]:
# Diagrama de cajas general
data.boxplot()

In [None]:
# Diagrama de cajas por clases
data.groupby('class').boxplot(layout=(1,3),figsize=(20,5))

## Clasificación

### Preparar datos para la clasificación

In [None]:
X = data[['sepallength','sepalwidth','petallength','petalwidth']].values
y = data['class'].values

### Calcular los aciertos de un solo clasificador

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=123)
model = KNeighborsClassifier(3)
model.fit(X_train, y_train)
score = model.score(X_test, y_test)
print(f'aciertos: {score:.2f}')

In [None]:
# Nueva muestra
x_new = [[6.7, 3.2, 6.1, 2.3]]

print(f'Decisión: {model.predict(x_new)}')
print(f'Posibilidades: {data["class"].cat.categories}')
print(f'Probabilidades: {model.predict_proba(x_new)}')

> **Nota**: la función `train_test_split()` se usa a modo de de ejemplo. Para la evaluación de un modelo predictivo lo habitual es usar funciones de validación cruzada en la que un modelo es evaluado varias veces para estimar su comportamiento.

### Calcular los aciertos de  varios clasificadores

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression

names = ["Nearest Neighbors", "Linear SVM", "RBF SVM",
         "Decision Tree", "Random Forest", "MLP", "AdaBoost",
         "Naive Bayes", "Logistic Regression"]

classifiers = [
    KNeighborsClassifier(3),
    SVC(kernel="linear"),
    SVC(),
    DecisionTreeClassifier(),
    RandomForestClassifier(),
    MLPClassifier(),
    AdaBoostClassifier(),
    GaussianNB(),
    LogisticRegression()]

### Resultados con validación cruzada

In [None]:
%%capture --no-stdout
from sklearn.model_selection import cross_val_score, KFold

cv = KFold(n_splits=10, shuffle=True, random_state=123)
# iterate over classifiers
for name, model in zip(names, classifiers):
  results = cross_val_score(model, X, y, cv=cv)
  print(f'{name:20s} media: {results.mean():.02f} resultados: {np.round(results,2)}')

## Regresión

### Preparar los datos para calcular la regresión

Para realizar una predicción basada en valores vamos a usar el siguiente conjunto de datos que relaciona la calidad del aire y la mortalidad.

La ficha de este conjunto de datos es:
- Data from OpenML (<https://www.openml.org/search?type=data&sort=runs&id=542&status=active>)
- Description: This is the pollution data so loved by writers of papers on ridge regression.
- Source: McDonald, G.C. and Schwing, R.C. (1973) 'Instabilities of regression estimates relating air pollution to mortality', Technometrics, vol.15, 463-482.
- Variables in order:
    - PREC   Average annual precipitation in inches
    - JANT   Average January temperature in degrees F
    - JULT   Same for July
    - OVR65  % of 1960 SMSA population aged 65 or older
    - POPN   Average household size
    - EDUC   Median school years completed by those over 22
    - HOUS   % of housing units which are sound & with all facilities
    - DENS   Population per sq. mile in urbanized areas, 1960
    - NONW   % non-white population in urbanized areas, 1960
    - WWDRK  % employed in white collar occupations
    - POOR   % of families with income < $3000
    - HC     Relative hydrocarbon pollution potential
    - NOX    Same for nitric oxides
    - SO@    Same for sulphur dioxide
    - HUMID  Annual average % relative humidity at 1pm
    - MORT   Total age-adjusted mortality rate per 100,000

In [None]:
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

data = pd.read_csv('./basic_data/pollution.csv')
display(data.head())

data_X, data_y = data.iloc[:,:-1].values, data.iloc[:,-1].values

# Cantidad de datos
print('data shape: ',data_X.shape, data_y.shape)
plt.hist(data_y)
plt.show()

# Dividir entre entrenamiento y test
X_train, X_test, y_train, y_test = train_test_split(data_X, data_y, test_size=0.1, random_state=123)

> **Nota**: la función `train_test_split()` se usa a modo de de ejemplo. Para la evaluación de un modelo predictivo lo habitual es usar funciones de validación cruzada en la que un modelo es evaluado varias veces para estimar su comportamiento.

### Aplicar un algoritmo de regresión

In [None]:
import sklearn
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import train_test_split

model = KNeighborsRegressor(3)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
score = sklearn.metrics.mean_absolute_error(y_test, y_pred)
print(f'mean absolute error (mae): {score:.2f}')

In [None]:
# Suponemos que queremos predecir una nueva muestra

print(data.columns)
x_new = np.array([X_test[-1]]) # Última muestra de test
print(f'Características: {x_new[0]}')
print(f'Predicción: {model.predict(x_new)[0]}')
print(f'Valor real: {y_test[-1]}')

### Aplicar varios algoritmos de regresión

In [None]:
from sklearn.neural_network import MLPRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, AdaBoostRegressor
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.linear_model import LinearRegression

regressors = [
  ("Nearest Neighbors", KNeighborsRegressor(3)),
  ("Linear Regression", LinearRegression()),
  ("Decision Tree",     DecisionTreeRegressor()),
  ("Random Forest",     RandomForestRegressor()),
  ("Neural Net",        MLPRegressor()),
  ("AdaBoost",          AdaBoostRegressor()),
  ("Gaussina Proc.",    GaussianProcessRegressor()),
  ("SVM Linear",        SVR(kernel='linear')),
  ("SVM Radial",        SVR(kernel='rbf')),
]

### Resultados con validación cruzada

In [None]:
%%capture --no-stdout
import numpy as np
from sklearn.model_selection import cross_val_score, KFold
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# iterate over classifiers
cv = KFold(n_splits=10, shuffle=True, random_state=123)
estimators = [ ('standardize', StandardScaler()), () ]
for name, reg in regressors:
  estimators[1]=(name, reg)
  pipeline = Pipeline(estimators)

  results = -cross_val_score(pipeline, data_X, data_y, scoring='neg_mean_absolute_error', cv=cv)
  print(f'{name:20s} media: {results.mean():.02f} resultados: {np.round(results,2)}')


---

# Resumen

* Aprendizaje **supervisado** y **no supervisado**.

* Evaluación de modelos con la técnica de **validación cruzada**.

* Planteamiento de problemas como una función **mapeado $ f(X) = y $** (supervisado), teniendo un conjunto de características $X$ queremos obtener la clase o el valor $y$.

* Ejemplos sencillos de **clasificación** y **regresión**, además de como aplicar varios algoritmos sobre el mismo conjunto de datos.

* **scikit-learn** paquete de referencia en Python para usar ténicas de Machine Learning. Contiene los principales algoritmos de clasificación, regresión así como otros complementarios de evaluación de modelos, filtrado, escalado, deteccción de atípicos, etc.