# Principios de machine learning -- utilizando scikit-learn
Estudio y flujo de cómo trabajar con machine learning en python con las bibliotecas y librerias scikit-learn

Scikit-learn es una librería de Machine Learning de código abierto que contiene herramientas para pre-procesamiento de datos, entrenamiento y generación de predicciones con diferentes modelos clásicos y selección y validación de modelos, entre otras.

![flujo_de_selección_de_métodos_de_machine_learning](ml_map.png)

Imagen superior: Distintos modelos de algoritmos de machine learning que ofrece scikit-learn como:
- **Modelos de regresión**: para predecir valores continuos.
- **Aprendizaje supervisado** (Algoritmos de clasificación): asignan categorías o etiquetas según los datos proporcionados. 
- **Aprendizaje no supervisado** (clustering): El modelo se encarga de agrupar y encontrar los conjuntos de categorías.
- **Algoritmos de reducción de dimensionalidad**: se usan para simplificar la representación de los datos para entrenar a un modelo.

## Flujo de trabajo báscio utilizando scikit learn
Flujo principal que se realiza a la hora de crear modelos y entrenarlos para realizar predicciones en base a unos datos

![Flujo_ML_scikit-learn](Flujo_sckiti-learn-ML.png)

## Creación de un modelo de ML, con aprendizaje supervisado, sin utilizar pipelines

-------------------

### 1. **Pre-procesamiento**: generamos las particiones de los datos de entrenamiento, validación y testeo o prueba
- utilizaremos el método `train_test_split`, que te genera 2 particiones de datos.

In [7]:
import numpy as np #necesitamos la librería numpy para poder trabajar con arrays

# Cargamos los datos con arreglos realizados en numpy y los adjudicamos a una variable X y otra Y
X = np.load('particiones-datos-balanceados.npz')['X']
Y = np.load('particiones-datos-balanceados.npz')['Y']

print(X.shape) # El arreglo de entrada al modelo (20 datos,3 características)
print(Y.shape) # Esta será la variable que deberá aprender el modelo y predecir sus características (20,)

(20, 3)
(20,)


In [8]:
X # Para ver los datos que componen al array, datos numéricos de entre 

array([[-0.75275929,  1.11852895, -7.5592353 ],
       [ 2.70428584, -3.60506139, -0.0964618 ],
       [ 1.39196365, -2.07855351, -9.31222958],
       [ 0.59195091, -1.33638157,  8.18640804],
       [-2.06388816, -0.43930016, -4.82440037],
       [-2.06403288,  2.85175961,  3.25044569],
       [-2.65149833, -3.00326218, -3.76577848],
       [ 2.19705687,  0.14234438,  0.40136042],
       [ 0.60669007,  0.92414569,  0.93420559],
       [ 1.24843547, -4.53549587, -6.30291089],
       [-2.87649303,  1.07544852,  9.39169256],
       [ 2.81945911, -3.29475876,  5.50265647],
       [ 1.99465584, -4.34948407,  8.78997883],
       [-1.72596534,  4.48885537,  7.89654701],
       [-1.9090502 ,  4.65632033,  1.95799958],
       [-1.89957294,  3.08397348,  8.4374847 ],
       [-1.17454654, -1.95386231, -8.23014996],
       [ 0.14853859, -4.02327886, -6.08034275],
       [-0.40832989,  1.84233027, -9.09545422],
       [-1.25262516, -0.59847506, -3.49339338]])

In [9]:
Y # Los datos que componen a la variable Y, siendo datos entre binarios 0 y 1

array([1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0])

#### 1.1 Script de pre-procesamiento - **generador de particiones**

In [8]:
# Primero seleccionamos el modelo: train_test_split
from sklearn.model_selection import train_test_split

# Primera partición: 60% entrenamiento - 40% resto
x_train, x_resto, y_train, y_resto = train_test_split(
    X, Y, test_size=0.40, random_state=123
) # test_size es para hacer la division porcentual. 
  # random_state para crear la semilla aleatoria y no los obtenga siempre de las primeras filas

# Segunda partición: del 40%, 20% para la validación - 20% para testeo
x_val, x_test, y_val, y_test = train_test_split(
    x_resto, y_resto, test_size=0.5, random_state=321
)

# Verificación de datos:
print('Tamaños: ')
print('\tDataset original: ', X.shape, Y.shape)
print('\tEntrenamiento: ', x_train.shape, y_train.shape)
print('\tValidación: ', x_val.shape, y_val.shape)
print('\tTesteo: ', x_test.shape, y_test.shape)

print('\tProporciones de las categorias (entre 0/1): ')
print(f'\tDataset original: {np.sum(Y==0)/len(Y)}/{np.sum(Y==1)/len(Y)}') # Con esto comprobaremos la relacion entre 0 y 1 y veremos si esta desbalanceada
print(f'\tEntrenamiento: {np.sum(y_train==0)/len(y_train)}/{np.sum(y_train==1)/len(y_train)}') # len() es para la longitud del array
print(f'\tValidación: {np.sum(y_val==0)/len(y_val)}/{np.sum(y_val==1)/len(y_val)}')
print(f'\tTesteo: {np.sum(y_test==0)/len(y_test)}/{np.sum(y_test==1)/len(y_test)}')


Tamaños: 
	Dataset original:  (20, 3) (20,)
	Entrenamiento:  (12, 3) (12,)
	Validación:  (4, 3) (4,)
	Testeo:  (4, 3) (4,)
	Proporciones de las categorias (entre 0/1): 
	Dataset original: 0.55/0.45
	Entrenamiento: 0.5833333333333334/0.4166666666666667
	Validación: 0.5/0.5
	Testeo: 0.5/0.5


- Con datos desbalanceados quedaría de la siguiente manera:

In [5]:
# Cargamos los datos con arreglos realizados en numpy y los adjudicamos a una variable X y otra Y
X = np.load('particiones-datos-desbalanceados.npz')['X']
Y = np.load('particiones-datos-desbalanceados.npz')['Y']

# Esto sería para comprobar los array de datos desbalanceados
print(X)
print(Y) 

[[-0.75275929  1.11852895 -7.5592353 ]
 [ 2.70428584 -3.60506139 -0.0964618 ]
 [ 1.39196365 -2.07855351 -9.31222958]
 [ 0.59195091 -1.33638157  8.18640804]
 [-2.06388816 -0.43930016 -4.82440037]
 [-2.06403288  2.85175961  3.25044569]
 [-2.65149833 -3.00326218 -3.76577848]
 [ 2.19705687  0.14234438  0.40136042]
 [ 0.60669007  0.92414569  0.93420559]
 [ 1.24843547 -4.53549587 -6.30291089]
 [-2.87649303  1.07544852  9.39169256]
 [ 2.81945911 -3.29475876  5.50265647]
 [ 1.99465584 -4.34948407  8.78997883]
 [-1.72596534  4.48885537  7.89654701]
 [-1.9090502   4.65632033  1.95799958]
 [-1.89957294  3.08397348  8.4374847 ]
 [-1.17454654 -1.95386231 -8.23014996]
 [ 0.14853859 -4.02327886 -6.08034275]
 [-0.40832989  1.84233027 -9.09545422]
 [-1.25262516 -0.59847506 -3.49339338]]
[1 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0]


In [6]:
print(f'\tDataset original: {np.sum(Y==0)/len(Y)}/{np.sum(Y==1)/len(Y)}')

# Con esta línea de código, comprobamos que existe un desbalance de 80 - 20 de los datos.


	Dataset original: 0.8/0.2


#### 1.2 Script de **pre-procesamiento** - transformadores

- Con los transformadores conseguiremos escalar (`RobustScaler`, `MinMaxScaler`, `StandardScaler`), codificar(`LabelEncoder`, `OneHotEncoder`) y/o reducir (`PCA`) los datos a lo que necesitemos para realizar un correcto entrenamiento del modelo

- En este caso vamos a trabajar con los valores **máximos y minimos** de nuestro set de entrenamiento para escalarlo

In [13]:
# Primero vemos los valores max y min del array, en el set de entrenamiento, validacion y testeo
print(f'x_train: {x_train.min(axis=0)}/{x_train.max(axis=0)}')
print(f'x_val: {x_val.min(axis=0)}/{x_val.max(axis=0)}')
print(f'x_test: {x_test.min(axis=0)}/{x_test.max(axis=0)}')

x_train: [-2.87649303 -4.53549587 -9.31222958]/[2.81945911 4.48885537 9.39169256]
x_val: [-2.06403288 -4.34948407 -4.82440037]/[1.99465584 2.85175961 8.78997883]
x_test: [-1.9090502  -4.02327886 -6.08034275]/[2.19705687 4.65632033 1.95799958]


Se hará un escalamiento de los valores max y min para que los valores, por ejemplo 9.39 sea 0.939 --> valores entre 0 - 1

Para nuestro modelo, nos vendrá bien reducir la escala x 0.1

- Se crea la **instancia** del transformador

In [16]:
# Importamos el método MinMaxScaler
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(-1,1)) #seleccionamos el rango que deseamos 

# Aplicamos el método fit_transform sobre el set de entrenamiento
x_train_s = scaler.fit_transform(x_train)

# Verificamos las transformaciones
print(f'Mínimos de "x_train": {x_train.min(axis=0)}')
print(f'Mínimos calculados por el escalador: {scaler.data_min_}')
print(f'-'*50)
print(f'Máximos de "x_train": {x_train.max(axis=0)}')
print(f'Máximos calculados por el escalador: {scaler.data_max_}')

# Verificamos la transformación
print(f'-'*50)
print(f'x_train_s: {x_train_s.min(axis=0)}/{x_train_s.max(axis=0)}')

Mínimos de "x_train": [-2.87649303 -4.53549587 -9.31222958]
Mínimos calculados por el escalador: [-2.87649303 -4.53549587 -9.31222958]
--------------------------------------------------
Máximos de "x_train": [2.81945911 4.48885537 9.39169256]
Máximos calculados por el escalador: [2.81945911 4.48885537 9.39169256]
--------------------------------------------------
x_train_s: [-1. -1. -1.]/[1. 1. 1.]


- Algo importante es saber que solo se aplica `fit_transform()` en `x_train` y el método `transform()` en `x_val` y `x_test`

In [28]:
x_val_s = scaler.transform(x_val)
x_test_s = scaler.transform(x_test)

# Verificamos que se ha realizado el cambio
print(f'x_val_s: {x_val_s.min(axis=0)}/{x_val_s.max(axis=0)}')
print(f'x_test_: {x_test_s.min(axis=0)}/{x_test_s.max(axis=0)}')

x_val_s: [-0.71472367 -0.95877558 -0.52011892]/[0.71038968 0.63718262 0.93565909]
x_test_: [-0.66030514 -0.88648114 -0.65441614]/[0.78145805 1.03711402 0.20511934]


--------------

### 2. Crear, entrenar y validar el modelo: **Estimadores**
Los modelos se denominan estimadores, el proceso es el siguiente:
- Crear la instancia del modelo
- Entrenar el modelo con el set de entrenamiento y el método `fit()`
- Validar el modelo con los sets de entrenamiento y validación usando el método `score()`
- Poner a prueba el modelo con el set de prueba y usando los métodos `predict()` y `score()`

#### 2.1 Script de creación, entrenamiento y validación

In [29]:
# Importamos el módulo
from sklearn.ensemble import RandomForestClassifier

# Creamos la instancia
bosque = RandomForestClassifier()

# Entrenamos el modelo -- Utilizamos el método fit()
bosque.fit(x_train, y_train)

In [30]:
bosque.score

<bound method ClassifierMixin.score of RandomForestClassifier()>

Vemos que el desempeño se está midiendo con la exactitud promedio (*mean accuracy*).

Así que calculemos el desempeño con los sets de entrenamiento y validación:

In [31]:
print(f'Exactitud promedio entrenamiento: {bosque.score(x_train, y_train)}')
print(f'Exactitud promedio de validación: {bosque.score(x_val, y_val)}')

Exactitud promedio entrenamiento: 1.0
Exactitud promedio de validación: 0.75


En este caso vemos que el modelo tiene overfitting, pues alcanza un 100% de exactitud con el set de entrenamiento y tan sólo un 75% con el set de prueba. Como último paso; ver el score del modelo.

In [33]:
bosque.score(x_test, y_test)

0.25

#### 2.2 Validación y predicción de los resultados

In [35]:
# hacemos la preedición de y
y_pred = bosque.predict(x_test)

# Imprimimos los resultados comparados con el del test
print('Categorías reales:   ', y_test)
print('Categorías predichas:', y_pred)

Categorías reales:    [0 0 1 1]
Categorías predichas: [0 1 0 0]


Vemos que de 4 intentos, solo ha acertado el 1º resultado [0,0]

------------------------------------

### 3. Trabajar con PipeLines
scikit-learn nos da la posibilidad de trabajar con pipelines, que nos sirven para compactar el código y hacer uniones entre los distintos procesos del ML de sklearn

Una pipeline nos permite hacer lo mismo que con los bloques separados, pero tiene ciertas ventajas:
- El código es más compacto
- Evita lo que se conoce como la fuga de datos (data leakage): que los datos de validación sean "vistos" por el modelo cuando hacemos el entrenamiento

## Script completo de flujo de trabajo de machine-learning con **scikit-learn** utilizando pipelines

Modelo de aprendizaje asistido

En este script se **utilizan** en concreto ----------------------------------------
- model seleccion --> `train_test_split`
- procesamiento y transformación --> `MinMaxScaler`
- tipo de modelo de machine learning --> `RandomForestClassifier`

**¿Qué hace?** --------------------------------------------------------------------
- Divide nuestro set de datos en 3: 
    - Set de entrenamiento (`x_train`, `y_val`)
    - Set de validación (`x_val`, `y_test`)
    - Set de testeo (`x_test`, `y_test`)
- Escala (`MinMaxScaler(feature_range=(num,num)`) y clasifica (`RandomForestClassifier`)
- Entrena el modelo (`.fit()`)
- Evalua la calidad del modelo (`.score()`)
- Genera predicciones (`.predict()`)

In [38]:
# Con pipelines
import numpy as np #numpy para poder trabajar con arrays
from sklearn.pipeline import Pipeline                   # Módulo para realizar las pipelines
from sklearn.model_selection import train_test_split    # Módulo de selección, puede ser otra metodología
from sklearn.preprocessing import MinMaxScaler          # Módulo de transformación, puede ser otra metodología
from sklearn.ensemble import RandomForestClassifier     # Módulo de creación de molelo ML, puede ser otra metodología o algoritmo

# Leer datos
X = np.load('particiones-datos-balanceados.npz')['X']
Y = np.load('particiones-datos-balanceados.npz')['Y']

# Partición en entrenamiento, validación y prueba
x_train, x_resto, y_train, y_resto = train_test_split(
    X, Y, test_size=0.4, random_state=123
)
x_val, x_test, y_val, y_test = train_test_split(
    x_resto, y_resto, test_size=0.5, random_state=321
)

#------- PIPELINE: SE INTERCONECTAN PREPROCESAMIENTO Y MODELO -------

# Instanciar la pipeline
pipeline = Pipeline([
    ('scaler', MinMaxScaler(feature_range=(-1,1))),
    ('classifier', RandomForestClassifier())
])

# Entrenar la pipeline
pipeline.fit(x_train, y_train)

# Evaluar la pipeline
print(pipeline.score(x_test, y_test))

# Y generar predicciones
print(pipeline.predict(x_test))

0.25
[0 1 0 0]
