# Workflow en Scikit-Learn

Este cuaderno es una parada rápida para ver todas las funciones y módulos de Scikit-Learn para cada sección descrita.

<img src="../../assets/section-7/sklearn-workflow.png"/>

## 0. Importar librerías

Para todos los proyectos de ML, a menudo tendrás estas librerías (Matplotlib, NumPy y pandas) importadas en la parte superior.

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

Usaremos 2 datasets:
* `heart_disease` - un dataset de clasificación (predecir si alguien tiene enfermedad cardíaca o no)
* `housing_df` - un dataset de regresión (predecir el precio medio de las viviendas de la ciudad de California)

In [11]:
# Classification data
heart_disease = pd.read_csv("../../data/raw/heart-disease.csv")

# Regression data
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing() # cargar como diccionario
print(housing.data.shape, housing.target.shape)

(20640, 8) (20640,)


In [12]:
housing.feature_names

['MedInc',
 'HouseAge',
 'AveRooms',
 'AveBedrms',
 'Population',
 'AveOccup',
 'Latitude',
 'Longitude']

In [13]:
# Convertir el diccionario en DataFrame
housing_df = pd.DataFrame(housing["data"], columns=housing["feature_names"])
housing_df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


In [15]:
# Obtener la variable objetivo
housing_df["target"] = pd.Series(housing["target"])
housing_df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,target
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


## 1. Preparar los datos

In [16]:
# Dividir los datos en X & y
X = heart_disease.drop("target", axis=1) # usar todas las columnas excepto 'target'
y = heart_disease["target"] # queremos predecir y usando X

In [17]:
# Dividir los datos en conjunto de entrenamiento y prueba
from sklearn.model_selection import train_test_split
# Ejemplo de caso de uso (requiere X & y)
X_train, X_test, y_train, y_test = train_test_split(X, y)

## 2. Elegir un modelo/estimador (que se adapte a tu problema)
Para elegir un modelo, utilizamos el [mapa de aprendizaje automático de Scikit-Learn](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html).

<img src="../../assets/section-7/ml_map.svg" width=700/>

**Nota:** Scikit-Learn se refiere a los modelos y algoritmos de aprendizaje automático como estimadores.

In [18]:
# Random Forest Classifier (para problemas de clasificación)
from sklearn.ensemble import RandomForestClassifier
# Instanciando un Random Forest Classifier (clf abreviatura de classifier)
clf = RandomForestClassifier()

In [19]:
# Random Forest Regressor (para problemas de regresión)
from sklearn.ensemble import RandomForestRegressor
# Instanciando un Random Forest Regressor
model = RandomForestRegressor()

## 3. Ajustar el modelo a los datos de entrenamiento y hacer predicciones

In [20]:
# Todos los modelos/estimadores tienen la función fit() incorporada.
clf.fit(X_train, y_train)

# Una vez que se llama a fit, puedes hacer predicciones utilizando predict()
y_preds = clf.predict(X_test)

# También puedes predecir con probabilidades (en modelos de clasificación)
y_probs = clf.predict_proba(X_test)

# Ver predicciones/probabilidades
y_preds, y_probs

(array([0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1,
        1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0,
        1, 0, 1, 1, 1, 1, 1, 1, 1, 0]),
 array([[0.73, 0.27],
        [0.34, 0.66],
        [0.03, 0.97],
        [0.91, 0.09],
        [0.88, 0.12],
        [0.92, 0.08],
        [0.91, 0.09],
        [0.39, 0.61],
        [0.  , 1.  ],
        [0.82, 0.18],
        [0.44, 0.56],
        [0.06, 0.94],
        [0.66, 0.34],
        [0.29, 0.71],
        [0.56, 0.44],
        [0.8 , 0.2 ],
        [0.65, 0.35],
        [0.61, 0.39],
        [0.89, 0.11],
        [0.54, 0.46],
        [0.92, 0.08],
        [0.94, 0.06],
        [0.15, 0.85],
        [0.17, 0.83],
        [0.26, 0.74],
        [0.49, 0.51],
        [0.24, 0.76],
        [0.1 , 0.9 ],
        [0.09, 0.91],
        [0.55, 0.45],
        [0.11, 0.89],
        [0.94, 0.06],
        [0.15, 0.85],
        [0.5

## 4. Evaluar el modelo

Cada modelo de Scikit-Learn tiene una métrica predeterminada que se puede acceder a través de la función `score()`.

Sin embargo, hay una variedad de diferentes métricas de evaluación que puedes utilizar dependiendo del modelo que estés usando.

Una lista completa de métricas de evaluación se puede [encontrar en la documentación](https://scikit-learn.org/stable/modules/model_evaluation.html).

In [21]:
# Todos los modelos/estimatores tienen una función score()
clf.score(X_test, y_test)

0.8421052631578947

In [22]:
# Evaluar un modelo usando cross-validation es posible con cross_val_score
from sklearn.model_selection import cross_val_score

# scoring=None significa que se utiliza la métrica score() por defecto
print(cross_val_score(estimator=clf, 
                      X=X, 
                      y=y, 
                      cv=5, # utiliza validación cruzada de 5 pliegues
                      scoring=None)) 

# Evalúa un modelo con un método de puntuación diferente
print(cross_val_score(estimator=clf, 
                      X=X, 
                      y=y,
                      cv=5, # utiliza validación cruzada de 5 pliegues
                      scoring="precision"))

[0.80327869 0.90163934 0.78688525 0.81666667 0.76666667]
[0.82352941 0.87878788 0.84375    0.84848485 0.74358974]


In [23]:
# Diferentes métricas de clasificación

# Accuracy
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, y_preds))

# Reciver Operating Characteristic (ROC curve)/Area under curve (AUC)
from sklearn.metrics import roc_curve, roc_auc_score
false_positive_rate, true_positive_rate, thresholds = roc_curve(y_test, y_probs[:, 1])
print(roc_auc_score(y_test, y_preds))

# Confusion matrix
from sklearn.metrics import confusion_matrix
print(confusion_matrix(y_test, y_preds))

# Classification report
from sklearn.metrics import classification_report
print(classification_report(y_test, y_preds))

0.8421052631578947
0.8415770609318997
[[26  5]
 [ 7 38]]
              precision    recall  f1-score   support

           0       0.79      0.84      0.81        31
           1       0.88      0.84      0.86        45

    accuracy                           0.84        76
   macro avg       0.84      0.84      0.84        76
weighted avg       0.84      0.84      0.84        76



In [25]:
# Diferentes métricas de regresión

# Make predictions first
X = housing_df.drop("target", axis=1)
y = housing_df["target"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestRegressor()
model.fit(X_train, y_train)
y_preds = model.predict(X_test)

# R^2 (pronounced r-squared) or coefficient of determination
from sklearn.metrics import r2_score
print(r2_score(y_test, y_preds))

# Mean absolute error (MAE)
from sklearn.metrics import mean_absolute_error
print(mean_absolute_error(y_test, y_preds))

# Mean square error (MSE)
from sklearn.metrics import mean_squared_error
print(mean_squared_error(y_test, y_preds))

0.8095490024022622
0.3328311853439925
0.25375360897693694


## 5. Mejorar a través de la experimentación

Dos de los principales métodos para mejorar las métricas base de un modelo (las primeras métricas de evaluación que obtienes).

Desde una perspectiva de datos pregunta:
* ¿Podríamos recopilar más datos? En el aprendizaje automático, más datos son generalmente mejores, ya que le dan a un modelo más oportunidades para aprender patrones.
* ¿Podríamos mejorar nuestros datos? Esto podría significar completar valores faltantes o encontrar una mejor estrategia de codificación (convertir cosas en números).

Desde una perspectiva de modelo pregunta:
* ¿Hay un mejor modelo que podríamos usar? Si has comenzado con un modelo simple, ¿podrías usar uno más complejo? (vimos un ejemplo de esto al observar el [mapa de aprendizaje automático de Scikit-Learn](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html), los métodos de conjunto se consideran generalmente modelos más complejos)
* ¿Podríamos mejorar el modelo actual? Si el modelo que estás utilizando funciona bien directamente de la caja, ¿se pueden ajustar los **hiperparámetros** para hacerlo aún mejor?

Los **hiperparámetros** son como configuraciones en un modelo que puedes ajustar, de modo que algunas de las formas en que utiliza para encontrar patrones se alteren y potencialmente mejoren. Ajustar hiperparámetros se conoce como ajuste de hiperparámetros.

In [None]:
# How to find a model's hyperparameters
clf = RandomForestClassifier()
clf.get_params() # returns a list of adjustable hyperparameters

In [None]:
# Example of adjusting hyperparameters by hand

# Split data into X & y
X = heart_disease.drop("target", axis=1) # use all columns except target
y = heart_disease["target"] # we want to predict y using X

# Split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y)

# Instantiate two models with different settings
clf_1 = RandomForestClassifier(n_estimators=100)
clf_2 = RandomForestClassifier(n_estimators=200)

# Fit both models on training data
clf_1.fit(X_train, y_train)
clf_2.fit(X_train, y_train)

# Evaluate both models on test data and see which is best
print(clf_1.score(X_test, y_test))
print(clf_2.score(X_test, y_test))

In [None]:
# Example of adjusting hyperparameters computationally (recommended)

from sklearn.model_selection import RandomizedSearchCV

# Define a grid of hyperparameters
grid = {"n_estimators": [10, 100, 200, 500, 1000, 1200],
        "max_depth": [None, 5, 10, 20, 30],
        "max_features": ["auto", "sqrt"],
        "min_samples_split": [2, 4, 6],
        "min_samples_leaf": [1, 2, 4]}

# Split into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Set n_jobs to -1 to use all cores (NOTE: n_jobs=-1 is broken as of 8 Dec 2019, using n_jobs=1 works)
clf = RandomForestClassifier(n_jobs=1)

# Setup RandomizedSearchCV
rs_clf = RandomizedSearchCV(estimator=clf,
                            param_distributions=grid,
                            n_iter=10, # try 10 models total
                            cv=5, # 5-fold cross-validation
                            verbose=2) # print out results

# Fit the RandomizedSearchCV version of clf
rs_clf.fit(X_train, y_train);

# Find the best hyperparameters
print(rs_clf.best_params_)

# Scoring automatically uses the best hyperparameters
rs_clf.score(X_test, y_test)

## 6. Save and reload your trained model
You can save and load a model with `pickle`.

In [None]:
# Saving a model with pickle
import pickle

# Save an existing model to file
pickle.dump(rs_clf, open("rs_random_forest_model_1.pkl", "wb"))

In [None]:
# Load a saved pickle model
loaded_pickle_model = pickle.load(open("rs_random_forest_model_1.pkl", "rb"))

# Evaluate loaded model
loaded_pickle_model.score(X_test, y_test)

You can do the same with `joblib`. `joblib` is usually more efficient with numerical data (what our models are).

In [None]:
# Saving a model with joblib
from joblib import dump, load

# Save a model to file
dump(rs_clf, filename="gs_random_forest_model_1.joblib") 

In [None]:
# Import a saved joblib model
loaded_joblib_model = load(filename="gs_random_forest_model_1.joblib")

In [None]:
# Evaluate joblib predictions 
loaded_joblib_model.score(X_test, y_test)

## 7. Putting it all together (not pictured)

We can put a number of different Scikit-Learn functions together using `Pipeline`.

As an example, we'll use `car-sales-extended-missing-data.csv`. Which has missing data as well as non-numeric data. For a machine learning model to work, there can be no missing data or non-numeric values.

The problem we're solving here is predicting a cars sales price given a number of parameters about the car (a regression problem).

In [None]:
# Getting data ready
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

# Modelling
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split, GridSearchCV

# Setup random seed
import numpy as np
np.random.seed(42)

# Import data and drop the rows with missing labels
data = pd.read_csv("../data/car-sales-extended-missing-data.csv")
data.dropna(subset=["Price"], inplace=True)

# Define different features and transformer pipelines
categorical_features = ["Make", "Colour"]
categorical_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="constant", fill_value="missing")),
    ("onehot", OneHotEncoder(handle_unknown="ignore"))])

door_feature = ["Doors"]
door_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="constant", fill_value=4))])

numeric_features = ["Odometer (KM)"]
numeric_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="mean"))
])

# Setup preprocessing steps (fill missing values, then convert to numbers)
preprocessor = ColumnTransformer(
    transformers=[
        ("cat", categorical_transformer, categorical_features),
        ("door", door_transformer, door_feature),
        ("num", numeric_transformer, numeric_features)])

# Create a preprocessing and modelling pipeline
model = Pipeline(steps=[("preprocessor", preprocessor),
                        ("model", RandomForestRegressor())])

# Split data
X = data.drop("Price", axis=1)
y = data["Price"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Fit and score the model
model.fit(X_train, y_train)
model.score(X_test, y_test)