### Entrenamiento de modelo XGboost 
#####Autor: Unidad de Ciencia de Datos (UCD)

El presente cuaderno muestra los pasos a seguir para entrenar el modelo XGboost elaborado en el piloto DataSandbox Colombia. 

La estructura del cuaderno consta de 3 etapas:
1. Importación de paquetes y conjuntos de datos necesarios para el análisis.
2. Definición del modelo de clasificación XGboost. 
3. Proceso de entrenamiento y predicción.

##### 1. Importación de paquetes y conjuntos de datos necesarios para el análisis.

In [0]:
'''Antes de importar los paquetes instale las siguientes librerías:

    numpay version 1.18.1
    pandas version 1.0.1
    mlflow version 1.11.0
    xgboost version 1.2.0 
    scikit-learn version 0.22.1 

''' 
import numpy as np
from numpy import arange, argmax
import pandas as pd
import math
from math import exp

import mlflow                                                              
import mlflow.pyfunc
from mlflow.models.signature import infer_signature
from mlflow.tracking import MlflowClient
import mlflow.xgboost

import xgboost as xgb                                                    
from sklearn.metrics import roc_auc_score, f1_score, make_scorer

import hyperopt
from hyperopt import fmin, tpe, hp, SparkTrials, Trials, STATUS_OK, rand
from hyperopt.pyll import scope

Para replicar el proceso de clasificación de imágenes satelitales es necesario que importe los conjuntos de [datos](https://github.com/ucd-dnp/inudaciones_ucd/tree/master/dataSandbox/3_Datos_entrenamiento) *Train* y *Test* de la carpeta del Piloto DataSandbox Colombia que puede encontrar en el [repositorio](https://github.com/ucd-dnp/inudaciones_ucd/tree/master/dataSandbox) de Github. Estos conjuntos de datos surgen de una división aleatoria con proporción 0.85 correspondiente al conjunto de entrenamiento y 0.15 correspondiente al conjunto de prueba.

In [0]:
test = pd.read_csv("/dbfs/FileStore/shared_uploads/aburitica@dnp.gov.co/Test.csv")
train = pd.read_csv("/dbfs/FileStore/shared_uploads/aburitica@dnp.gov.co/Train-1.csv")

#A continuación se dividen los datos de entrenamiento y prueba en X(conjunto de atributos) e Y(conjunto de etiquetas).
X_train = train.drop(['construc'], axis = 1)
X_test = test.drop(['construc'], axis = 1)
y_train = train.construc.astype(int)
y_test = test.construc.astype(int)

##### 2. Definición del modelo de clasificación XGboost.

A continuacion se define el conjunto de parámetros deseado del modelo XGboost y la función con la cual se ejecuta el entrenamiento del modelo.

In [0]:
params = {
  'max_depth': 19,
  'learning_rate': 0.0695596075784221, 
  'reg_alpha': 0.341448738908714,
  'reg_lambda': 0.155133834122141,
  'min_child_weight': 11.995066302931669,
  'objective': 'binary:logistic',
  'seed': 123, # Establezca una semilla para el que el entrenamiento sea replicable
}

In [0]:
def train_model(params):
  '''
  Esta función ejecuta el entrenamiento del modelo XGboost tomando como insumo el conjunto de parámetros deseado. 
  '''
  #hyperparameters and the trained model to MLflow.
  mlflow.xgboost.autolog()
  with mlflow.start_run(nested=True):
    
    train = xgb.DMatrix(data=X_train, label=y_train)
    test = xgb.DMatrix(data=X_test, label=y_test)
    
    booster = xgb.train(params=params,
                        dtrain=train,
                        num_boost_round=1000,\
                        evals=[(test, "test")],
                        early_stopping_rounds=50)
    
    predictions_test = booster.predict(test)
    auc_score = roc_auc_score(y_test, predictions_test)
    f1 = f1_score(y_test, predictions_test.round())
    mlflow.log_metric('auc', auc_score)
    mlflow.log_metric('f1', f1)
 
    signature = infer_signature(X_train, booster.predict(train))
    mlflow.xgboost.log_model(booster,
                             "model",
                             signature=signature)
    
    #los:-1*f1 so fmin maximizes the f1
    return {'status': STATUS_OK, 'loss': -1*f1, 'booster': booster.attributes()}

Por último, ejecute la función definida y registre el modelo usando la API de seguimiento de MLflow. Para mayor información puede consultar el siguiente [tutorial](https://docs.microsoft.com/en-us/azure/databricks/applications/mlflow/tracking#tracking-machine-learning-training-runs).

In [0]:
train_model(params)