## Tutorial sobre SKLEARN
Scikit Learn (o Sklearn) es uno de las librerías más utilizadas de Python en el mundo del Aprendizaje Automático (Machine Learning)
Tiene implementadas la mayoría de los algorimos clásicos y alguno de los más avanzados. Aunque no es la mejor librería para DeepLearning, donde podeis encontrar librerías más específicas como TensorFlow [https://www.tensorflow.org/?hl=es-419](https://www.tensorflow.org/?hl=es-419) o Keras [https://keras.io/](https://keras.io/) entre otras muchas. Pero SKLearn es un buen punto para empezar y proporciona implementaciones para la mayorái de algoritmos que vamso a ver en clase.

SKLearn trae las siguientes funciones:
- Preprocesamiento de los datos que junto con pandas nos va a permitir preparar los datos para ser procesados por los algoritmos.
- Creación de modelos tanto supervisados como no supervisados
- Optimización de hiperparámetros de los modelos

Para el ejemplo vamos a utilizar uno de los datasets que trae sklearn (WINE) para el ejemplo.

Wine es un datase de clasificación que tiene 3 clases con la siguiente distribución de clases:
Para la clase 0 tiene 59 ejemplos, para la clase 1 71 y para la clase 2 48. En total tiene 178 ejemplos.

Tiene 13 parámetros de entrada (dimensionalidad 13) y el dataset original lo podéis encontrar aquí:

[https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data](https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data)

Por tanto, en el dataset hay tres tipos de vino ne funció nde sus propiedades y composición. Lo que vamos a intentar es encontrar un algoritmos de ML que claseifique los vinos y nos permita predecir en base a estos atributos que tipo de vino es. Para ello cargamos el datase ton load_wine()

https://anderfernandez.com/blog/tutorial-sklearn-machine-learning-python/
https://www.alldatascience.com/classification/wine-dataset-analysis-with-python/

In [93]:
from sklearn import datasets
import pandas as pd
import numpy as np

wine = datasets.load_wine()


Lo que se carga es una estructura con los siguientes campos:
- Data: que son la colección de ejemplos de cada vino. Es de tipo Dataframe de Pandas.
- targets: que son las clases de cada uno de los datos anmteriores en el mismo orden que las entradas del dataframe.
- feature_names: que son los nombres de las características del dataframe.
- targe_name: que son los nombres de las clases de vino que disponemos.
- frame: solo está presente cuando as_frame = true y se almacena un dataframe con el dato y el target.


In [94]:
data = pd.DataFrame(data= wine['data'],
                    columns= wine['feature_names'])

y = wine['target']
print(y[:178])
print(wine['target_names'])
data.head()

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
['class_0' 'class_1' 'class_2']


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


Normalmente para entrenar un algoritmo de Machine Learning se necesita un conjunto de datos de entrenamiento y otro de evaluación que nos permite medir si el modelo ha conseguido generalizar una solución razonable en datos diferentes de los utilizado para entrenar. Si no tenemos dos datasets, cosa muy habitual, lo normal es separar el dataset en dos, unos datos para entrenamiento y otros para la validación de dicho entrenamiento.

Sklearn tiene diferentes métodos que nos ayudan a dividir los datos entre entrenamiento y test, como por ejemplo la función train_test_split.

In [95]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data, y, train_size = 0.8, random_state = 1234)

- random_state: Es la semilla para el barajado de datos. En nuestro caso las clases estan todas juntas así que debemos barajar los datos antes de hacer la partición para que la proporción de entrenamiento y validación tenga un número proporcional de elementos de cada clase.
- train_size: el tamaño de la muestra dedicado a entrenamineto.
- test_size: el tamaño de la muestra dedicado a validación. 

Nota, el algoritmo asume que el orden de la clase y de los datos es el mismo.

In [96]:
print(x_train.shape)
print(x_test.shape)

(142, 13)
(36, 13)


Algunos datasets tienen valores nulos o no válidos. Vamos a comprobar si en nuestro caso tenemos o no usando la función de pandas isna().

Este método contabiliza como TRUE aquellos elementos en cada columna que sea o None o numpy.NaN

In [97]:
x_train.isna().sum()

alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
dtype: int64

Si tenemos valores nulos, podemos hacer varias cuestiones:
- Eliminar las observaciones: Si hay pocos datos no es recomendable
- Inputarle al campo o característica un valor que tenga sentido en función de los datos que disponemos. Por ejemplo el valor medio del campo si se puede calcular o la moda.
- Inputación multivariable: Buscar el elemento más cercano al que tiene el dato incompleto y quedarnos con dicho dato (o con la media de los K datos más similares)

En nuestro caso no es así, pero para ver como se hace vamos a copiarnos el dataset y artificialmente vamos a crear algun campo vacío.
Para ello vamos a utilizar la función sample(). Esta función genera de manera aleatoria una columna. Asi pues por cada columna vamos a invocar de forma aleatoria sampler como se ve a continuación (nora frack = 0.1 indica

In [98]:
data_copy = x_train.copy()
for field in data_copy.columns:
    sampleX_train = data_copy.sample(frac=0.1)
    data_copy.loc[sampleX_train.index, field] = np.nan

display(data_copy)

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
54,13.74,1.67,2.25,16.4,118.0,2.60,2.90,,1.62,5.85,0.92,3.20,
144,12.25,3.88,2.20,18.5,112.0,1.38,0.78,0.29,,8.21,0.65,2.00,855.0
27,,1.72,2.14,17.0,94.0,2.40,2.19,0.27,1.35,3.95,1.02,2.77,1285.0
40,13.56,1.71,2.31,16.2,117.0,3.15,3.29,0.34,2.34,,0.95,3.38,795.0
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
152,13.11,1.90,2.75,25.5,,2.20,1.28,0.26,1.56,7.10,0.61,1.33,425.0
116,11.82,1.47,1.99,20.8,86.0,1.98,1.60,0.30,1.53,1.95,0.95,3.33,495.0
53,13.77,1.90,2.68,17.1,115.0,3.00,,0.39,1.68,,,2.93,1375.0
38,13.07,,2.10,15.5,98.0,2.40,2.64,,1.37,3.70,1.18,2.69,1020.0


In [99]:
data_copy.isna().sum()

alcohol                         14
malic_acid                      14
ash                             14
alcalinity_of_ash               14
magnesium                       14
total_phenols                   14
flavanoids                      14
nonflavanoid_phenols            14
proanthocyanins                 14
color_intensity                 14
hue                             14
od280/od315_of_diluted_wines    14
proline                         14
dtype: int64

Ahora vamos a explicar como hacer la inputación de valores con sklearn y pandas. Vamos a inputar la moda o la mediana en vez de la media para que no sea tan dependiente de valores outlierst. Por dentro simpleImputer utiliza KNN y hya un Future Warning para obviarlo vamos a hacer lo siguiente:

In [100]:
from warnings import simplefilter
simplefilter(action='ignore', category=FutureWarning)

Despues ejecutamos el siguiente código

In [101]:
from sklearn.impute import SimpleImputer
mode_imputer = SimpleImputer(strategy = 'most_frequent') # moda
#nos copiamos los datos para más adelante
data_copy2 = data_copy.copy()
# Hacer inputación por cada columna
for column in data_copy.columns:
    values = data_copy[column].values.reshape(-1,1)
    mode_imputer.fit(values)
    data_copy[column] = mode_imputer.transform(values)

# Comprobamos que hayamos eliminadolos atípicos o erroneos.
data_copy.isna().sum()


alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
dtype: int64

# ----- ESTO QUITARLO DE LA PRACTICA ----
# Imputación multivariante
SKLearn aún tiene esta funcionalidad en fase de experimentación. Para opder usarla necesitamos importar enable_iterative_imputer. Aquí sklearn intentará en la fase fit calcular un modelo que nos premita predecir cual será le valor de los elementos vacíos.

In [102]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer 

print(data_copy2.isna().sum())
# Create imputer
iterativeImputer = IterativeImputer(max_iter=15, random_state=1234)

# Transform data
iterativeImputerFit = iterativeImputer.fit(data_copy2.values)
data_copy3 = iterativeImputerFit.transform(data_copy2)
dataFrameClean = pd.DataFrame(data_copy3, columns = data_copy2.columns)
print(dataFrameClean.isna().sum())

alcohol                         14
malic_acid                      14
ash                             14
alcalinity_of_ash               14
magnesium                       14
total_phenols                   14
flavanoids                      14
nonflavanoid_phenols            14
proanthocyanins                 14
color_intensity                 14
hue                             14
od280/od315_of_diluted_wines    14
proline                         14
dtype: int64
alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
dtype: int64




## Imputación usando KNN
Aquí sklearn intentará en la fase fit calcular un modelo que nos premita predecir cual será el valor de los elementos vacíos en base a sos k vecinos más cercanos.

El valor de K podemos elegirlo de tres formas:

- La raíz cuadrada de las observaciones, asegura que no eliges un valor ni demasiado pequeño ni demasiado grande.
- Método del codo. Consiste en calcular el error para diferentes valores de k y elegir aquél valor que lo minimice.

Lo hacemos con la raiz cuadrada de las observaciones por simplicidad (utilizamos la shape, forma y de esta nos quedamos con el primer campo quje nos da el tamaño)

In [103]:
from sklearn.impute import KNNImputer

print(data_copy2.isna().sum())
print(data_copy2.shape[0])


k = int(np.round(np.sqrt(data_copy2.shape[0])))
print("El k elegido es "+str(k))

# Create imputer
knn_imputer = KNNImputer(n_neighbors=k)

# Transform data
knn_imputer_fit = knn_imputer.fit(data_copy2.values)

imputed_data = knn_imputer_fit.transform(data_copy2)

pd.DataFrame(imputed_data, columns = data_copy2.columns).isna().sum()

alcohol                         14
malic_acid                      14
ash                             14
alcalinity_of_ash               14
magnesium                       14
total_phenols                   14
flavanoids                      14
nonflavanoid_phenols            14
proanthocyanins                 14
color_intensity                 14
hue                             14
od280/od315_of_diluted_wines    14
proline                         14
dtype: int64
142
El k elegido es 12




alcohol                         0
malic_acid                      0
ash                             0
alcalinity_of_ash               0
magnesium                       0
total_phenols                   0
flavanoids                      0
nonflavanoid_phenols            0
proanthocyanins                 0
color_intensity                 0
hue                             0
od280/od315_of_diluted_wines    0
proline                         0
dtype: int64

Ahora vamos a ver que pinta tiene la distribución de las variables.

In [104]:
display(X_train)
X_train.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
54,13.74,1.67,2.25,16.4,118.0,2.60,2.90,0.21,1.62,5.85,0.92,3.20,1060.0
144,12.25,3.88,2.20,18.5,112.0,1.38,0.78,0.29,1.14,8.21,0.65,2.00,855.0
27,13.30,1.72,2.14,17.0,94.0,2.40,2.19,0.27,1.35,3.95,1.02,2.77,1285.0
40,13.56,1.71,2.31,16.2,117.0,3.15,3.29,0.34,2.34,6.13,0.95,3.38,795.0
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
152,13.11,1.90,2.75,25.5,116.0,2.20,1.28,0.26,1.56,7.10,0.61,1.33,425.0
116,11.82,1.47,1.99,20.8,86.0,1.98,1.60,0.30,1.53,1.95,0.95,3.33,495.0
53,13.77,1.90,2.68,17.1,115.0,3.00,2.79,0.39,1.68,6.30,1.13,2.93,1375.0
38,13.07,1.50,2.10,15.5,98.0,2.40,2.64,0.28,1.37,3.70,1.18,2.69,1020.0


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,142.0,142.0,142.0,142.0,142.0,142.0,142.0,142.0,142.0,142.0,142.0,142.0,142.0
mean,13.001831,2.238732,2.375211,19.401408,100.669014,2.300141,2.041549,0.359577,1.596479,5.077606,0.966803,2.600352,763.478873
std,0.821968,1.029645,0.253236,3.23134,14.667338,0.62598,0.971252,0.12413,0.589462,2.336131,0.238202,0.719683,316.092291
min,11.03,0.74,1.7,11.2,70.0,0.98,0.34,0.13,0.41,1.74,0.48,1.27,278.0
25%,12.3325,1.6025,2.2225,17.125,89.0,1.7575,1.2275,0.27,1.25,3.255,0.7725,1.97,510.0
50%,13.04,1.81,2.36,19.45,98.0,2.375,2.155,0.335,1.535,4.6,0.98,2.78,680.0
75%,13.6775,2.875,2.58,21.0,109.5,2.8,2.875,0.43,1.9375,6.1825,1.1275,3.185,1008.75
max,14.83,5.65,2.92,30.0,162.0,3.88,3.93,0.66,3.58,13.0,1.71,4.0,1680.0


## One-hot encoding con Sklearn
Cuando trabajamos con variables categóricas, una de las cuestiones más importantes es transformar nuestras variables categóricas en numéricas. Para ello, aplicamos one-hot encoding, la cual consiste en crear tantas nuevas variables menos una como opciones tiene la variable y darle valor de 1 o 0. Si nos encontramos con datos de este tipo, debemos hacer la trasformación. En nuestro caso no disponemos, pero vamos a simularlo:

In [105]:
provincias = np.array(['Madrid','Barcelona', 'Toledo', 'Sevilla','Madrid','Toledo','Cadiz',
                  'Madrid', 'Madrid','Barcelona','Caceres'])

provincias

array(['Madrid', 'Barcelona', 'Toledo', 'Sevilla', 'Madrid', 'Toledo',
       'Cadiz', 'Madrid', 'Madrid', 'Barcelona', 'Caceres'], dtype='<U9')

In [106]:
from sklearn.preprocessing import OneHotEncoder

# Create encoder
oneHotEncoder = OneHotEncoder(drop='first')

# Fit the encoder
oneHotEncoderFit = oneHotEncoder.fit(provincias.reshape(-1,1))

# Transform the data
oneHotEncoderFit.transform(provincias.reshape(-1,1)).toarray()

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.]])

## Creamos un modelo de machine learning
En nuestro caso por los pocos datos que tenemos usaremos decision tree. Tambien podemos utilizar Randon Forest pero para ejemplificar como se hace nos vale con este. Cada modelo tiene sus peculariadades y debeis mirarlos en la documentación de SKLearn.

Para entrenar tenemos que usar x_train y apra predecir X_test


In [107]:
from sklearn.tree import DecisionTreeClassifier

# Create the model
dtClass = DecisionTreeClassifier()
dtClassFit = dtClass.fit(x_train, y_train)
yPreditclass = dtClassFit.predict(x_test)
print(yPreditclass)

[1 1 1 1 2 1 2 1 0 2 2 2 0 1 1 0 0 2 2 2 0 1 1 2 1 2 1 0 0 1 0 2 1 1 1 1]


## Evaluación de los modelos
Los modelos tenemos que evaluarlos para saber si son correctos o no. Hay multitud de métodos de predicción como confusion matrix, precision score, recallscore o accuracy como hemos visto o veremos en clase. Como ejemplo vamos a usar la matríz de confusión y el accuracy

In [108]:
from sklearn.metrics import confusion_matrix, accuracy_score
print(f'Acuraccy: {accuracy_score(y_test, yPreditclass)}')
print(confusion_matrix(y_test, yPreditclass))

Acuraccy: 0.8888888888888888
[[ 8  2  0]
 [ 0 15  2]
 [ 0  0  9]]


En las pruebas que he realizado el accuracy ha sido de entorno al 88% que es un valor bastante aceptable en función de l oque queramos predecir. La matriz de confusión nos da lso elementos clasificados correctamente de cada class. Como tenemos 3 clases nos dará una matriz 3x3 que nos indica los elementos clasificados correctamente segun su clase en la diagonal principal. Los valores que se salgan de la diagonal principal nos darán los valores que se han clasificado incorrectamente y en que clase se han clasificado.