<a href="https://colab.research.google.com/github/aszapla/Curso-DL/blob/master/1_4_Machine_Learning_con_sklearn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/sklearn-logo.png" height="100"></center>

# 1.4 Machine Learning con sklearn

Profesor: Juan Ramón Rico (<juanramonrico@ua.es>)

## Resumen
---
 **Scikit-Learn**: es el principal paquete de aprendizaje automático (Machine Learning) de propósito general en `Python`. Tiene gran cantidad de algoritmos y módulos para el pre-procesamiento, validación cruzada y ajuste de hiper-parámetros de modelos, clasificación/regresión, etc.
- Documentación <http://scikit-learn.org/stable/documentation.html>
- Tutorial de inicio rápido <http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn>

---

# Paquete sklearn

- Funciones simples y eficientes para minería de datos y análisis de datos en general.
- Contiene gran variedad de algoritmos de Machine Learning. Además, tiene funciones de preprocesado, filtrado y transformación de datos.
- Construida sobre NumPy, SciPy, y matplotlib
- Código abierto, se permite su uso comercial - Licencia BSD

# Conceptos básicos sobre Machine Learning

## Tipos de algoritmos


### Aprendizaje supervisado

Típicamente son los algoritmos de clasificación o regresión donde se necesita conocer los datos de las entradas y su resultado (objetivo o salida) donde el sistema de aprendizaje trata de predecir los resultados de entradas que nunca ha visto.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/supervised_learning.png"></center>


### Aprendizaje no supervisado

El aprendizaje de estos algoritmos solo se aplica a los datos de entrada, ya que se desconocen sus resultados. Son típicos los algoritmos de agrupación (clustering) para conocer los grupos que se forman con los datos de entrada.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/unsupervised_learning.png"></center>


### Aprendizaje por refuerzo

El algoritmo aprende observando el mundo que le rodea. Tiene mayor dificultad que los dos tipos anteriores y necesita más datos. La información de entrada es la retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema aprende a base de ensayo-error. Se aplica entornos simulados típicamente vídeo juegos para recoger tanta cantidad de datos como se necesiten, o en robótica para que el sistema interactue con el entorno.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/reinforcement_learning.png"></center>

## ¿Cómo evaluar un modelo de clasificación o regresión?

* Existen varias técnicas para evaluar un modelo antes de usarlo en producción, o bien para comparlo con otro y saber que grado de acierto tiene.

* La técnica más usada actualmente se llama de [**validación cruzada**](https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada) (cros-validation en inglés). 

* La idea básica es dividir los datos disponibles en **dos grupos**: un grupo se usaría para entrenar el modelo y el otro grupo para comprobar el grado de acierto (tasa de aciertos en clasificación, o medir el error cometido en regresión).

* Este proceso se repite varias veces (normalmente 10) y de forma ordenada.

* Finalmente se calcula su media aritmética que nos servirá para conocer el grado de predicción del modelo.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/10_fold_cv.png"></center>


En todos los modelos que se aprenden hay que tener presente **dos conceptos clave**.

La capacidad de un modelo de reconocer o pronosticar un valor en base a nuevos datos que no se han usado en la fase de entrenamiento (**generalización**), o bien, en base datos que sí se han usado en el entrenamiento (**memorización**).

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/balanza_mg.png" height="200"></center>




# Pruebas sobre clasificación y regresión

## Importar paquetes que vamos a usar

In [0]:
import numpy as np   # Manejo de vectores
import pandas as pd  # Manipulación de tablas de datos
import sklearn as sk # Gran colección de algorimos de Machine Learning juntos a otros de filtrado, preprocesado y cálculo de resultados

## Copiar conjuntos de datos

In [0]:
# Hay que copiar los archivos de ejemplo
!wget https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/data/basic_data.zip
!unzip basic_data

## Cargar iris.csv

En 1935 Edgar Anderson hizo un estudio en el que recolectó las diferencias en las medidas (ancho y largo de los pétalos y sépalos) de tres variedades de flores tipo iris que están estrechamente relacionadas. Este [ejemplo sencillo de 150 muestras de flores tipo iris](https://en.wikipedia.org/wiki/Iris_flower_data_set) se incluye en la mayoría de libros y programas relacionados con análisis o predicción de datos.

<center><img src="https://www.dlsi.ua.es/~juanra/UA/curso_verano_DL/images/iris-ml.png"></center>


In [0]:
data = pd.read_csv('./basic_data/iris.csv')
display(data.head())
display(data.dtypes)

In [0]:
# Convirtiendo los tipos de 64 a 32 bits
pares = {'int64':'int32', 'float64':'float32'}
for i in data.columns:
  pareja = pares.get(str(data[i].dtype))
  if pareja != None:
    data[i]= data[i].astype(pareja)

data['class'] = data['class'].astype('category')
data.dtypes

## Visualización de los datos


In [0]:
# Diagrama de cajas general
data.boxplot()

In [0]:
# Diagrama de cajas por clases
data.groupby('class').boxplot(layout=(1,3),figsize=(20,5))

## Clasificación

### Preparar datos para la clasificación

In [0]:
x = data[['sepallength','sepalwidth','petallength','petalwidth']]
y = data[['class']]

### Calcular los aciertos de un solo clasificador

In [0]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, random_state=123)
clf = KNeighborsClassifier(3)
clf.fit(x_train, y_train)
score = clf.score(x_test, y_test)
print('aciertos: {:.2f}'.format(score))

In [0]:
# Nueva muestra
x_new = [[6.7, 3.2, 6.1, 2.3]]

print('Decisión: {}'.format(clf.predict(x_new)))
print('Posibilidades: {}'.format(y['class'].cat.categories))
print('Probabilidades: {}'.format(clf.predict_proba(x_new)))

### Calcular los aciertos de  varios clasificadores

In [0]:
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression

names = ["Nearest Neighbors", "Linear SVM", "RBF SVM",
         "Decision Tree", "Random Forest", "MLP", "AdaBoost",
         "Naive Bayes", "Logistic Regression"]

classifiers = [
    KNeighborsClassifier(3),
    SVC(kernel="linear", C=0.025),
    SVC(gamma=2, C=1),
    DecisionTreeClassifier(max_depth=5),
    RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1),
    MLPClassifier(alpha=1),
    AdaBoostClassifier(),
    GaussianNB(),
    LogisticRegression()]

### Resultados con validación cruzada

In [0]:
%%capture --no-stdout
from sklearn.model_selection import cross_val_score

# iterate over classifiers
for name, clf in zip(names, classifiers):
  results = np.round(cross_val_score(clf, x, y, cv=10),2)
  print('{:20s} media: {:.2} resultados: {}'.format(name,results.mean(), results))

## Regresión

### Cargar datos para calcular la regresión

Vamos a cargar los datos de correspondientes a los precios de las casas en Boston (house-prices dataset) que está en `sklearn`.

In [0]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston

boston = load_boston()
boston_x, boston_y = boston.data.astype('float32'), boston.target.astype('float32')
x_train, x_test, y_train, y_test = train_test_split(boston_x, boston_y, test_size=0.1, random_state=123)
print(boston.DESCR)

### Aplicar un algoritmo de regresión

In [0]:
import sklearn as sk
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import train_test_split

reg = KNeighborsRegressor(3)
reg.fit(x_train, y_train)
y_pred = reg.predict(x_test)
score = sk.metrics.mean_absolute_error(y_test, y_pred)
print('mean absolute error: {:.2f}'.format(score))

In [0]:
# Suponemos que queremos predecir una nueva muestra

print(boston.feature_names)
x_new = np.array([x_test[-1]]) # Última muestra de test
print('Características: {}'.format(x_new[0]))
print('Predicción: {}'.format(reg.predict(x_new)[0]))
print('Valor real: {}'.format(y_test[-1]))

### Aplicar varios algoritmos de regresión

In [0]:
from sklearn.neural_network import MLPRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, AdaBoostRegressor
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.linear_model import LinearRegression

names = ["Nearest Neighbors", "Linear SVM", "RBF SVM",
         "Decision Tree", "Random Forest", "Neural Net", "AdaBoost",
         "Gaussina Proc.", "Linear Regression"]

regressors = [
    KNeighborsRegressor(3),
    SVR(kernel="linear", C=0.025),
    SVR(gamma=2, C=1),
    DecisionTreeRegressor(max_depth=5),
    RandomForestRegressor(max_depth=5, n_estimators=10, max_features=1),
    MLPRegressor(alpha=1),
    AdaBoostRegressor(),
    GaussianProcessRegressor(),
    LinearRegression()]

### Resultados con validación cruzada

In [0]:
%%capture --no-stdout
from sklearn.model_selection import cross_val_score, KFold
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# iterate over classifiers
cv = KFold(n_splits=10, random_state=123)
estimators = [ ('standardize', StandardScaler()), () ]
for name, reg in zip(names, regressors):
  estimators[1]=(name, reg)
  pipeline = Pipeline(estimators)

  results = -np.round(cross_val_score(pipeline, boston_x, boston_y, scoring='neg_mean_absolute_error', cv=cv),2)
  print('{:20s} media: {:.02} resultados: {}'.format(name,results.mean(), results))


---

# Resumen

* Aprendizaje **supervisado** y **no supervisado**.

* Evaluación de modelos con la técnica de **validación cruzada**.

* Planteamiento de problemas como una función **mapeado $ f(x) = y $** (supervisado), teniendo un conjunto de características $x$ queremos obtener la clase o el valor $y$.

* Ejemplos sencillos de **clasificación** y **regresión**, además de como aplicar varios algoritmos sobre el mismo conjunto de datos.

* **sklearn** paquete de referencia en Python para usar ténicas de Machine Learning. Contiene los principales algoritmos de clasificación, regresión así como otros complementarios de evaluación de modelos, filtrado, escalado, deteccción de atípicos, etc.