<img src="../img/crowdlearning-etic.png" alt="Logo ETIC" align="right">


<h1><font color="#004D7F" size=6>Introducción a SciKit Learn</font></h1>

<br>
<br>
<br>
<br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Fundamentos de Machine Learning</font><br>

</div>

---

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>


* [1. Introducción](#section1)
* [2. Bases de datos](#section2)
* [3. Regresión/Clasificación con SciKit Learn](#section3)


---

<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

En esta primera práctica vamos a ver algunos conceptos básicos para trabajar con SciKit Learn (http://SciKit-learn.org/stable/ ). Se trata de una librería de Python que incluye una gran variedad de algoritmos de Machine Learning, además de otras herramientas que nos ayudarán tanto al prepocesamiento de los datos, como al testeo y validación de los modelos que obtengamos. Todas las prácticas de este curso y algunos apuntes de teoría utilizarán esta librería. 
También hay que destacar que SciKit Learn trabaja por defecto con las siguientes estructuras:
* Array de numpy
* DataFrame de pandas

Es cierto que existen multitud de algoritmos y muchos de los que veremos en este curso ya se encuentran implementados. Sin embargo, es importante conocer la estructura que estos tienen dependiendo de si se trata de un clasificador, un preprocesamiento de datos, o una métrica. Esto es especialmente útil, ya que cuando nos enfrentemos a problemas reales relativos al Machine Learning.

SciKit Learn dispone de un gran conjuto de datasets ( https://scikit-learn.org/stable/datasets/index.html ) En la siguiente sección de este notebook cargaremos algunos para su exploración.

Para aquellos que deseen explorar, existe un gran conjunto de ejemplos relacionados con todos los algoritmos disponibles en SciKit Learn ya implementados ( https://scikit-learn.org/stable/auto_examples/ )

Existen 4 interfaces principales que representan determinadas etapas del aprendizaje automático. Estas componentes no son excluyentes, por lo que los algoritmos pueden definir diferentes funciones en base a ellas:

### <font color="#004D7F">Estimador </font>
Se trata de la base de SciKit Learn ya que define el método `fit`, encargado de aprender a partir de datos de entrada. 
La función `fit` en la que se basa el estimador tiene como parámetros de entrada los datos y, opcionalmente, un target de salida, que puede representar la __clase__ en un problema de clasificación o un __valor numérico__ en un problema de regresión:
    
    our_estimator.fit(data)

ó

    our_estimator.fit(data, targets)


### <font color="#004D7F">Predictor </font>
Para el aprendizaje supervisado y, en algunos casos, en problemas no supervisados queremos obtener un __output__ a partir de nuestros datos de entrada. En este caso necesitamos un predictor, en este caso la función que deberemos incluir en nuestra clase es `predict`. A partir de lo aprendido en la función `fit`, esta función tomará como entrada nuevos casos y obtendrá una predicción para ellos. 

    prediction = our_predictor.predict(data)
    
En clasificación es común que además de la clase se obtenga un valor de la certeza de esa clasificación, para ello existe la función opcional `predict_proba`, que nos permite obtener la certeza de un output con los mismos datos de entrada.

    probability = our_predictor.predict_proba(data)



### <font color="#004D7F">Transformador </font>
Todos aquellos algoritmos dedicados a la transformación de los datos, como puede ser una eliminación de variables o el cálculo de valores perdidos, y que devuelven un conjunto modificado de los mismos son considerados transformadores. En este caso la función que hay que implementar es `transform`, que toma como parámetro los datos:
    
    new_data = our_transformer.transform(data)
    
Sin embargo, en el caso de las funciones de transformación __supervisadas__, hay que hacer un paso previo de entrenamiento con la función `fit`. En todos aquellos casos en los que realizar el entrenamiento y la transformación de los datos al mismo tiempo sea más eficiente se debe usar la función `fit_transform`:
    
    new_data = our_transformer.fit_transform(data)



### <font color="#004D7F">Modelo </font>	
Aquellos algoritmos capaces de dar un valor de lo bien o mal que se ajusta su entrenamiento ante nuevos datos de entrada sobre los que se conoce su salida pueden implementar una función `score`. Valores como la __tasa de aciertos__ o la __matriz de confusión__ son algunos de los scores más utilizados para medir el rendimiento de los algoritmos.
    
    score = obj.score(data, target)

---

<a id="section2"></a>
# <font color="#004D7F"> 2. Bases de datos</font>

Las bases de datos que es capaz de manejar SciKit Learn pueden tener diferentes formatos, lo más común es que utilicemos estructuras como el Array de numpy o el DataFrame de pandas. Estas bases de datos son de dos dimensiones, donde las filas representan cada uno de los casos o instancias y las columnas son los atributos o variables.

Dependiendo del problema que estemos tratando, tendremos unas determinadas propiedades en la base de datos. Por ejemplo, en un problema de clasificación supervisado, dispondremos de una base de datos con casos donde cada uno tendrá datos de entrada (input) y una salida (output) que será discreta. En un problema de regresión, el caso es muy parecido, donde la salida es un valor continuo. Y en un problema de clasificación no supervisada, sólo tendremos datos de entrada.

En este tutorial vamos a ver algunos ejemplos de bases de datos y con ellos vamos a utilizar algunas de los algoritmos ya implementados en SciKit Learn utilizando las funciones explicadas en la introducción. Estas bases de datos son pequeños ejemplos de algunos problemas reales, gracias a las funciones que vienen en SciKit Learn, es posible cargarlas sin mucho problema. Sin embargo, de la misma forma que usamos estas bases de datos podremos utilizar las nuestras propias que estén en pandas o numpy.

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"></i> 
Hay distintas formas de llamar a los "atributos" de un base de datos, como es __features__, datos de entrada, __input__, columnas, variables, etc. Por lo que si encontráis estos nombres, nos estamos refiriendo a lo mismo. Algo parecido ocurre cuando hablamos del "valor a predecir", que también se le conoce como __target__, output, salida, __label__, clase, etc.
</div>

<a id="section21"></a> 
## <font color="#004D7F">Base de datos Pima </font>

Pima es una base de datos compuesta por casos de diabetes. Atributos como el peso o la presión sanguínea son los datos de entrada y la progresión de la diabetes a lo largo de un año es la salida. Se trata de un problema de __regresión__, ya que la salida son valores continuos. SciKit Learn incluye esta base de datos en sus funciones datasets. Ya que esta base de datos es un diccionario, podemos acceder a la descripción del problema con la clave `'DESCR'` y a los datos con `'data'` y `'target'`.

In [None]:
import sklearn.datasets
pima = sklearn.datasets.load_diabetes()
pima.keys()

In [None]:
print(pima['DESCR'])

In [None]:
pima_data = pima['data']
print(pima_data.shape)
print(pima_data)

In [None]:
pima_target = pima['target']
print(pima_target.shape)
print(pima_target)

In [None]:
import pandas as pd
pima_pandas = pd.DataFrame(pima['data'],columns = pima['feature_names'])
pima_pandas['class'] = pd.Categorical(pima['target'])
pima_pandas

Podemos ver que esta base de datos viene en un array de numpy y que se ha modificado en un DataFrame de pandas, para que sea más entendible. Observamos que hay un total de 10 atributos de entrada (input) y 1 target (output), que se corresponden con las 11 columnas de nuestro dataset. También, que tenemos un total de 442 filas, que corresponde con el número de casos.

Tanto el formato de array de numpy como el de DataFrame de pandas son aceptados por los algortimos de SciKit Learn, como veremos más adelante.

<a id="section22"></a> 
## <font color="#004D7F">Base de datos Boston </font>
Se trata de un problema de __regresión__, ya que la salida son valores continuos, es un dicionario que contiene gran cantidad de datos relacionados:

* CRIM: crime rate per capita
* ZN: proportion of residential land zoned
* INDUS: proportion of non-retail business acres
* CHAS: binary variable. 1 for tract bounds river and 0 otherwise
* NOX: nitric oxides concentration
* RM: average number of rooms
* AGE: owner occupied units
* DIS: weighted distance to employment centers.
* RAD: index of accessibility
* TAX: full value property tax rate
* PTRATIO: pupil-teacher ratio
* B: proportion of blacks
* LSTAT: lower status of population
* MEDV: owner occupied homes

In [None]:
import sklearn.datasets
boston = sklearn.datasets.load_boston()
print(boston.data.shape)
boston.keys()

In [None]:
boston.DESCR

In [None]:
# Get the attributes or features of the data
boston.feature_names

In [None]:
boston.target[0:5]

In [None]:
boston_data = boston['data']
boston_target = boston['target']
#bostondf = pd.DataFrame(boston.data, columns=boston.feature_names)
#bostondf.head(4)
#bostondf.shape

<a id="section23"></a> 
## <font color="#004D7F">Base de datos Wisconsin </font>

Wisconsin es una base de datos basada en un problema de __clasificación supervisada__. El objetivo es tratar de diagnosticar un bulto en el pecho como benigno o maligno a partir de 10 variables. 

SciKit Learn incluye esta base de datos en sus funciones datasets, cargamos la base de datos original de SciKit Learn con `sklearn.datasets.load_breast_cancer()`. Tiene una estructura de diccionario igual que en el caso anterior con Pima.

A la base de datos original se le han aplicado una serie de transformaciones. Más adelante trabajaremos con otra vez de la original. Será cargada otra versión de un csv con pandas.

In [None]:
#import sklearn.datasets
wisconsin = sklearn.datasets.load_breast_cancer()
wisconsin.keys()

In [None]:
print(wisconsin['DESCR'])

In [None]:
wisconsin_data = wisconsin['data']
print(wisconsin_data.shape)
print(wisconsin_data)

In [None]:
wisconsin_target = wisconsin['target']
print(wisconsin_target.shape)
print(wisconsin_target)

In [None]:
# import pandas as pd
# wisconsin = pd.read_csv('wisconsin.csv', dtype={ "label": 'category'})
# wisconsin

Al igual que antes, volvemos a tener 10 atributos y una clase. En este caso hay 699 filas o casos.

<a id="section24"></a> 
## <font color="#004D7F">Base de datos MNIST </font>

Esta es la última base de datos. Es algo más compleja, pero su estructura es igual que las anteriores. Se trata de MNIST, un problema de clasificación supervisada con imágenes. Los datos de entrada son un conjunto de capturas (imágenes) de tamaño 28x28 pixels donde hay un dígito del 0 al 9 dibujado en cada una de ellas. Este dígito viene anotado con la etiqueta o clase correspondiente al número que se muestra en la imagen. La estructura es igual que en los casos anteriores, sólo que ahora tenemos los 784 pixels (28x28) que forman la imagen como atributos/columnas y 70000 imágenes.

Para aquellos que no estéis familiarizados con la representación de imágenes, las de estas bases de datos se encuentran en escala de grises, lo que quiere decir que los únicos colores de las imágenes son el blanco, el negro y todos los grises que se encuentran en medio. Esta representación es más sencilla que una representación a color como puede ser RGB. Además, para reconocer dígitos sólo nos interesa su forma, no su color, por eso la escala de grises es más adecuada. Los valores de los atributos se encuentran en el intervalo [0,255] siendo el 0 la representación del negro y el 255 el blanco.

Lo primero que vamos a hacer es descargar la base de datos y a previsualizar algunas de las imágenes para ver un poco más en detalle los diferentes dígitos:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

%matplotlib inline

In [None]:
from sklearn.datasets import fetch_openml

# esta base de datos se puede descargar directamente de
# https://www.openml.org/d/554
# y le podemos indicar la ubicación en la que queremos que se almacene con data_home
mnist = fetch_openml('mnist_784', version=1, data_home=".")

# la base de datos descargada consiste en un diccionario con diferentes parámetros, de los
# cuales sólo nos quedamos con data y target.

# data consiste en una matriz donde cada fila es una imagen y las columnas representan los
# pixels que la componen
mnist_data = mnist['data']
print("Número de imágenes: {0}\tPixels por imagen: {1}".format(mnist_data.shape[0],mnist_data.shape[1]))

# target contiene las etiquetas de cada una de las imágenes, donde el valor de la clase 
# corresponde con el dígito que se muestra en la imagen
mnist_target = mnist['target']
print("Número de etiquetas: {0}".format(mnist_target.shape[0]))

Si vemos los datos, se trata de un numpy array de shape (70000, 784)

In [None]:
print(mnist_data.shape)
print(mnist_data)
len(np.unique(mnist_data))

In [None]:
# First row is first image
first_image = mnist_data[0]
first_label = mnist_target[0]

# 784 columns correspond to 28x28 image
plottable_image = np.reshape(first_image, (28, 28))

# Plot the image
plt.imshow(plottable_image, cmap='gray')
plt.title('Digito: {}'.format(first_label))
plt.show()

In [None]:
import random

images_to_plot = 9
random_indices = random.sample(range(70000), images_to_plot)

sample_images = mnist_data[random_indices, :]
sample_labels = mnist_target[random_indices]

In [None]:
plt.clf()
plt.style.use('seaborn-muted')

fig, axes = plt.subplots(3,3, 
                         figsize=(5,5),
                         sharex=True, sharey=True,
                         subplot_kw=dict(adjustable='box', aspect='equal'))
for i in range(images_to_plot):
    
    # axes (subplot) objects are stored in 2d array, accessed with axes[row,col]
    subplot_row = i//3 
    subplot_col = i%3  
    ax = axes[subplot_row, subplot_col]

    # plot image on subplot
    plottable_image = np.reshape(sample_images[i,:], (28,28))
    ax.imshow(plottable_image, cmap='gray_r') # Si se quiere usar invertido = 'gray'
    
    ax.set_title('Digito: {}'.format(sample_labels[i]))
    ax.set_xbound([0,28])

plt.tight_layout()
plt.show()

---

<a id="section3"></a>
# <font color="#004D7F"> 3. Regresión/Clasificación con SciKit Learn</font>

De momento, cuando hablamos de clasificación y regresión nos referimos a problemas de __predicción supervisada__, donde tenemos casos en los que se conoce la salida que queremos obtener. En todas las bases de datos que hemos visto, hay una columna que es el `target` o la clase.

En SciKit Learn, muchos de los algoritmos más utilizados ya vienen implementados, cómo la __regresión lineal__ y la __regresión logística__. Todos los algoritmos de predicción implementan dos funciones: `fit` y `predict`. En algunos casos, es posible obtener una __métrica__ de lo buena o mala que es la predicción utilizando la función `score`. Esta función, que ya se ha explicado en la introducción, recibe como datos de entrada los atributos y los target. Sobre el primero realiza una predicción y luego compara con el target, para obtener una métrica cómo la tasa de aciertos en los problemas de clasificación o el error cuadrático medio en regresión.

<a id="section31"></a> 
## <font color="#004D7F">Regresión lineal en Pima</font>

La base de datos Pima es un problema de regresión, ya que el `target` o clase tiene __valores continuos__, por lo que hay que utilizar un algoritmo de regresión.

Para ello, vamos a ver el primer estimador de SciKit Learn, el __regresor lineal__, que viene implementado en `sklearn.linear_model.LinearRegression`. Vamos a utilizar las funciones `fit`, `predict` y `score`.

In [None]:
# Importamos la clase LinearRegression
from sklearn.linear_model import LinearRegression

# creamos un objeto con los parámetros por defecto
lr = LinearRegression()

# entrenamos con los datos de entrada y la salida
lr.fit(pima_data,pima_target)

# obtenemos una predicción para los datos de pima
pima_prediction = lr.predict(pima_data)

# comparamos estos datos con el error cuadrático medio
from sklearn.metrics import mean_squared_error
print('Error cuadrático medio:')
print(mean_squared_error(pima_target, pima_prediction))

In [None]:
# Por defecto, la función score devuelve el coeficiente de determinación R2
# no es objetivo de esta práctica explicarlo, sólo sirve de ejemplo para ver cómo se usa la función score

# Volvemos a crear un objeto con los parámetros por defecto
lr = LinearRegression()

# entrenamos con los datos de entrada y la salida
lr.fit(pima_data,pima_target)

# y obtenemos directamente el score
print('Coeficiente R2 de la función score:')
print(lr.score(pima_data,pima_target))

<a id="section32"></a> 
## <font color="#004D7F">Regresión lineal en Boston</font>

En este caso, tenemos un problema de clasificación supervisada. Para resolver este problema vamos a cambiar al regresor logístico y cómo vamos a ver, el problema se resuelve de forma identica al caso anterior, por lo que esta parte le toca al alumno completarlo. 


### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio 1: Regresión logística para Boston</font> 

Para este ejercicio, importamos de `sklearn.linear_model.LinearRegression` el algoritmo y utilizando `fit` y `predict`. Y utilizando `boston_data` y `boston_target` hay que calcular la tasa de aciertos y compararla con la salida de `score`, que en este caso, también se trata de la tasa de aciertos.


In [None]:
# Importamos la clase LinearRegression
from sklearn.linear_model import LinearRegression
# ToDo

<a id="section33"></a> 
## <font color="#004D7F">Regresión logística en MNIST</font>

Aunque se traten de imágenes, la estructura del problema es el de uno de clasificación supervisada. Vamos a volver a utilizar el regresor logístico y cómo vamos a ver, el problema se resuelve de forma identica al caso anterior, por lo que otra vez será el alumno el que lo complete. 

https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
_Logistic regression, despite its name, is a linear model for classification rather than regression. Logistic regression is also known in the literature as logit regression, maximum-entropy classification (MaxEnt) or the log-linear classifier. In this model, the probabilities describing the possible outcomes of a single trial are modeled using a logistic function._


### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio 2: Regresión logística para MNIST</font> 

Para este ejercicio, importamos de `sklearn.linear_model.LogisticRegression` el algoritmo y utilizando `fit` y `predict`. Y utilizando `mnist_data` y `mnist_target` hay que calcular la tasa de aciertos y compararla con la salida de `score`, que en este caso, también se trata de la tasa de aciertos.

<div class="alert alert-block alert-warning">
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
__Importante__: Al ser un problema mucho mayor, deberemos modificar algunos parámetros de entrada del clasificador. Para ello recomendamos mirar la documentación de http://SciKit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html. Como pista, para que el algoritmo se ejecute en un tiempo razonable, con multiplicar por 100 el campo `tol` es más que suficiente.
</div>


In [None]:
# Importamos la clase LinearRegression
from sklearn.linear_model import LogisticRegression
# ToDo

<a id="section34"></a> 
## <font color="#004D7F">Regresión logística en Wisconsin</font>

En este caso, tenemos un problema de clasificación supervisada. Para resolver este problema vamos a cambiar al regresor logístico y cómo vamos a ver, el problema se resuelve de forma identica al caso anterior, por lo que esta parte le toca al alumno completarlo. 


### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio 3: Regresión logística para Wisconsin</font> 

Para este ejercicio, importamos de `sklearn.linear_model.LogisticRegression` el algoritmo y utilizando `fit` y `predict`. Y utilizando `wisconsin_data` y `wisconsin_target` hay que calcular la tasa de aciertos y compararla con la salida de `score`, que en este caso, también se trata de la tasa de aciertos.

Con esto, ya hemos visto algunos tipos de predictores de SciKit Learn y que independientemente de si es un problema de clasificación o regresión, las funciones son las mismas. Además, hemos visto como pueden utilizarse tanto datos de numpy o pandas. Aunque hay que tener en cuenta que tanto las transformaciones como las predicciones de SciKit Learn van a estar en un array de numpy.

In [None]:
# Importamos la clase LinearRegression
from sklearn.linear_model import LogisticRegression
# ToDo

No vamos a detenernos en lo bueno o malo que son los clasificadores, ya que tendremos una práctica en la que analizaremos diferentes clasificadores y trataremos de mejorar los resultados. Estos ejemplos sirven para ver cómo utilizar SciKit Learn.
