# **Introducción a Scikit-learn**
-----

Scikit-learn (sklearn) es la librería Python más popular para el Aprendizaje Automático. Incluye gran cantidad de modelos predictivos como:
* Modelos de vecinos
* Árboles de decisión
* Ensembles
* Modelos lineales generalizados
* Máquinas de vectores de soporte
* Redes neuronales artificiales clásicas
* Procesos gaussianos
* Transformación lineal de variables
y una gran cantidad de utilidades como técnicas de búsqueda de meta-parámetros, de validación cruzada, cargadores de datasets de juguete, etc.

La clase más importante de sklearn y la base de toda su estructura es el ``estimator``. Esta clase incluye tanto modelos predictivos, de la clase ``predictor``, como transformadores de variables, de la clase ``transformer``.

Los objetos de la clase ``estimator`` siempre tienen los siguientes métodos:
* __init__: recibe como argumentos los meta-parámetros del modelo y los guarda como atributos
* fit: recibe como argumentos los datos de entrenamiento (las features ``X`` y si el modelo es supervisado también los targets ``y``)
* score: recibe como argumentos los datos de test (``X`` y si el modelo es supervisado también ``y``) y estima la bondad del modelo entrenado con una métrica apropiada

A su vez, los objetos de la clase ``predictor`` tienen el método
* predict: recibe como argumento las features ``X`` y calcula predicciones para las ``y``
y los objetos de la clase ``transformer`` tienen el método
* transform: recibe como argumento las features ``X`` y calcula sus transformaciones

La clase ``predictor`` se divide a su vez en las clases ``classifier``, ``regressor`` y ``cluster``, que tienen los mismos métodos pero están adaptadas a problemas de clasificación, regresión o clustering, respectivamente. La diferencia fundamental entre ellos es que las métricas usadas por score son distintas en cada caso, y los objetos de la clase ``cluster`` no reciben el argumento ``y`` en sus métodos.

### Clasificador básico para el dataset Iris

Vamos a construir un modelo básico de vecinos para el dataset de clasificación de Iris. Este problema consiste en predecir categorías, así que hay que utilizar modelos de clase ``classifier``.

In [1]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [2]:
from sklearn.neighbors import KNeighborsClassifier
predictor = KNeighborsClassifier(n_neighbors=3)

In [3]:
predictor.fit(X, y)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [4]:
predictor.predict(X)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [5]:
predictor.score(X, y)

0.96

0.96 de accuracy es muy buen resultado, pero estamos cometiendo un error metodológico que nos lleva a sobreestimar la calidad del modelo entrenado: no se debe hacer score con los mismos datos con los que se ha hecho fit. Lo recomendable es hacer validación cruzada o al menos particiones de train y test.

In [6]:
from sklearn.model_selection import train_test_split
X, X_test, y, y_test = train_test_split(X, y, test_size=0.25)

In [7]:
predictor.fit(X, y)
predictor.score(X_test, y_test)

0.9473684210526315

Ahora sí estamos haciendo una estimación razonable de la accuracy del modelo.

### Regresor básico para el dataset de Boston Housing

Vamos ahora con un modelo lineal de tipo ridge para resolver el problema de regresión de Boston Housing. En esta ocasión toca predecir una cantidad numérica en lugar de unas categorías, así que los modelos a utilizar serán los del tipo ``regressor``.

In [8]:
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target
print(boston.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

Este modelo necesita que las variables de entrada estén estandarizadas para funcionar correctamente. Sklearn proporciona el transformador de variables StandardScaler y la clase Pipeline para facilitar la tarea.
StandardScaler es un modelo de tipo ``transformer`` que estandariza datos. Pipeline es una clase que permite aplicar secuencialmente models tipo ``transformer`` para acabar con un modelo tipo ``predictor``. Un pipeline una vez montado funciona exactamente igual que un ``predictor``, y tiene métodos ``fit``, ``predict`` y ``score``.

In [9]:
from sklearn.linear_model import Ridge
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
predictor = Pipeline([('trans', StandardScaler()),
                      ('pred', Ridge(alpha=0.01))])

Vamos a evaluar la calidad del modelo utilizando validación cruzada en esta ocasión.

In [13]:
from sklearn.model_selection import cross_validate, KFold
scores = cross_validate(predictor, X, y, cv=KFold(shuffle=True))
scores

{'fit_time': array([0.04472876, 0.00222707, 0.00199103, 0.00279069, 0.00228262]),
 'score_time': array([0.00157094, 0.0009656 , 0.00094461, 0.0012002 , 0.0009923 ]),
 'test_score': array([0.80587697, 0.65836311, 0.66750924, 0.74570704, 0.70510289])}