## Modelamiento de la máquina de soporte (SVC) y el modelo XGBoost usando GPU (SMOTE)

En esta sección son ejecutados las simulaciones de los modelos SVC y XGBoost a partir del uso de GPU. Este recurso fue proporcionado por la plataforma Kaggle, donde son habilidatos 30 horas semanales para su uso. Adiocionalmente y es importante mencionar, fue usada una librería de máquina de soporte que permite la paralelización de este modelo y usar recursos como GPU. En la documnetación se puede encontrar más información al respecto https://docs.rapids.ai/api/cuml/stable/. Para el uso de este recurso de SVC, es necesaria la instalación del módulo `pip install cuml`.

Las librerías de los módulos en esta sección son los mismos de los archivo `03` y `04`.

Para la ejecución de este notebook, es importante tener una cuenta de usuario en la plataforma kaggle y en el perfil de la persona, crear un nuevo notebook donde apareceran los recursos que se desean usar. Allí puede ser habilitada la GPU.

Las librerías instaladas en los notebooks `03` y `04`, deben ser instaladas también en esta sección.

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

## Importación de librerías

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib
import scipy.stats as stats
from sklearn.model_selection import KFold, StratifiedKFold, StratifiedShuffleSplit, ShuffleSplit
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.metrics import accuracy_score, f1_score, balanced_accuracy_score, plot_confusion_matrix, confusion_matrix, log_loss
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
from skmultilearn.model_selection import iterative_train_test_split
from sklearn.svm import SVC
from sklearn.metrics._plot.confusion_matrix import ConfusionMatrixDisplay
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
import seaborn as sn
from xgboost import XGBClassifier
from sklearn.pipeline import Pipeline
from skmultilearn.model_selection import IterativeStratification
from cuml.svm import SVC as svc
from imblearn.over_sampling import SMOTE

### Carga de los datos

In [None]:
pip install cuml

In [None]:
train_features = pd.read_csv('../input/train-feature-p/train_features_p.csv')
# train_target = pd.read_csv('/kaggle/input/lish-moa/train_targets_scored.csv')
train_target = pd.read_csv('../input/train-target-p/train_targets_scored_.csv')

In [None]:
train_features.shape

In [None]:
train_features_=train_features.copy()
# train_features_['cp_type'] = train_features_['cp_type'].map({'trt_cp':0, 'ctl_vehicle':1})
train_features['cp_time'] = train_features['cp_time'].map({24:1, 48:2, 72:3})
train_features['cp_dose'] = train_features_['cp_dose'].map({'D1':0, 'D2':1})

In [None]:
data_train = pd.concat([train_features, train_target], axis = 1)
train = data_train[data_train['cp_type'] == 'trt_cp']
# evaluar = test_features[test_features['cp_type'] == 'trt_cp']

In [None]:
data_train.head()

In [None]:
X = data_train.iloc[:,2:876]
y = data_train.iloc[:,877:]

In [None]:
X_real = pd.get_dummies(X)

In [None]:
higher = [col for col in y.columns if (y[col].sum() > 100)]
ytarget = y[higher]

## Split iterativo

In [None]:
X_train, y_train, X_test, y_test = iterative_train_test_split(np.array(X), np.array(ytarget), test_size = 0.3)

In [None]:
X_train.shape, X_test.shape, y_test.shape, y_train.shape

## SMOTE Multilabel

In [None]:
x_train_n, y_train_n = [], []
for i, c in enumerate(ytarget.columns):
    perc = np.count_nonzero(y_train[:,i:i+1])*1.2/(len(y_train[:,i:i+1])-np.count_nonzero(y_train[:,i:i+1]))
    over = SMOTE(sampling_strategy=perc)
    xtrain, ytrain = over.fit_resample(X_train, y_train[:,i:i+1])
    x_train_n.append(xtrain)
    y_train_n.append(ytrain)

In [None]:
nfolds = 5
cv = StratifiedShuffleSplit(n_splits = nfolds)
# cv = StratifiedKFold(n_splits = nfolds)

In [None]:
def loga_loss(y_test, y_pred, eps=1e-15):
    """función para el cálculo de la perdida logarítmica establecida en el concurso de kaggle
    
    y_test --> Variable de salida de prueba
    
    y_pred --> Variable predicha (Predicción de probabilidad de activación)"""
    
    los = np.zeros(y_test.shape)
    n, m = y_test.shape
    y_true = np.clip(y_test, eps, 1-eps)
    for M in range(m):
        for N in range(n):
            log_los = -((y_true[N,M]*np.log(y_pred[N,M]+eps))+((1-y_true[N,M])*np.log(1-y_pred[N,M]+eps)))
            los[N,M] = log_los
    return los

In [None]:
def ML_mol(x_train, y_train, parameters, modelo, ML_model=None):
    ''' Función para la evaluación de modelos mediante la aplicación de GridSerachCV que permite la combinación de hiperparámetros y cross-validation:

    x_train --> df de entrenamiento para todas las proteínas creados de manera iterativa y estratificada

    y_train --> Variable de salida de entrenamiento para cada proteína

    parameters --> Hiperparámetros de cada modelo de clasificación

    ML_model --> Modelos de clasificación

    modelo --> Lista que debe ser retornada, almacenando los modelos para cada proteína y que será usada para la construcción de las matrices de confusión'''

    for i, col in enumerate(ytarget.columns):
        
        #Esalamiento
        scaler = MinMaxScaler()
        pipe = Pipeline(steps=[('scaler', scaler),('ML_model', ML_model)])
        ##Entrenamiento del modelo con combinaciones de hiperparámetros
        print("PROTEINA =", col)
        gridt = GridSearchCV(estimator=pipe, param_grid=parameters, cv=cv, scoring='neg_log_loss', return_train_score=True, verbose=5, n_jobs=-1)
        gridt.fit(x_train[i], np.ravel(y_train[i]))

        ## Mejor puntuación (score) para las diferentes cross-validation realizadas
        score = gridt.best_score_ 
        print("Score = ", round(score, 3))

        ## Almacenamiento de los modelos para cada proteína
        modelo.append(gridt)

In [None]:
def matrix_conf(modelo, x_test, y_test, prediction, c_mat):
    ''' Función para la construcción de las funciones de las matrices de confusión para cada uno de las etiquetas (proteínas) que están siendo evaluadas:

    modelo -> Una lista donde se encuentran guardados los modelos entrenados de cada proteína del paso anterior

    x_test -> df creada para pruebas (de forma iterativa para que funcione para todas las proteínas de forma estratificada)

    y_test -> variable de salida por proteína de forma debidamente estritifica

    prediction -> Lista que debe retornarse con cada una de las predicciones 
    
    c_mat -> Retorna las matrices de confusión para cada proteínas para evaluar una métrica global'''

    for i, col in enumerate(ytarget.columns):

        ##Predicciones
        pred_test = modelo[i].predict(x_test)
#         pred_proba = modelo[i].predict_proba(x_test)
        ## Métricas usadas para medir la eficiencia del modelo (para cada proteína)
        accuracy = accuracy_score(y_test[:,i:i+1],pred_test)
        bal_accuracy = balanced_accuracy_score(y_test[:,i:i+1],pred_test)
        recall = recall_score(y_test[:,i:i+1],pred_test)
        precision = precision_score(y_test[:,i:i+1],pred_test)
#         log_loss_ = loga_loss(y_test[:,i:i+1].reshape(-1,1), pred_proba[:,1].reshape(-1,1), eps=1e-15)
        print("PROTEINA =", col)
        print("Accuracy =", round(accuracy, 3))
        print("Balanced Accuracy =", round(bal_accuracy, 3))
        print("Recall score =", round(recall, 3))
        print("Precision score =", round(precision, 3))
        f1 = f1_score(y_test[:,i:i+1], pred_test)
        print("F1 =", round(f1,3))
#         print("Log_loss =", round(np.mean(log_loss_),3))

        ##Matriz de confusión
        con_max = confusion_matrix(y_test[:,i:i+1], pred_test)
        disp = plot_confusion_matrix(modelo[i], x_test, y_test[:,i:i+1], display_labels=np.unique(np.unique(y_test[:,i:i+1])), cmap=plt.cm.Blues, normalize=None) #normalize='true')
        disp.ax_.set_title(col)
        plt.show()

        ## Listas creadas para almacenar las predicciones y matrices de confusión
        prediction.append(pred_test)
        c_mat.append(con_max)
        print("-------------------------")

In [None]:
def global_metric(ytest, prediction, con_mat, metric=None):
    '''Función para la medición de una métrica global sopesada para cada uno de los modelo evaluados sobre las proteínas:

    ytest --> Variable de salida para cada una de las proteínas

    predictions --> predicciones calculadas para cada de las proteínas

    con_mat --> Matrices de confusión de donde serán extraídos los valores obtenidos para cada uno de los modelos de clasificación'''
    lista = []
    for i in range(y_test.shape[1]):
    
        ##Cálculo de las métricas
        g_m = metric(y_test[:,i:i+1],np.array(prediction[i]))

        ##Valor predichos correctamente
        w_cla = con_mat[i][1,1]
        b_cla = con_mat[i][1,0]

        ##Métrica global
        g_met = (w_cla/(b_cla+w_cla)) * g_m
        lista.append(g_met)

    g_metric = round((np.sum(lista)/len(lista)),3)
    print(f'El valor global de {metric.__name__} es {g_metric}')

In [None]:
def global_logloss(xtest, ytest, modelo):
    """Función para calcular la perdida logarítmica (cross-entropy) para cada uno de los modelos. Es importante que esta perdida se mide en función de la probabilidad de que una proteína se active a la aplicación de un fármaco:

    xtest --> dataset de prueba con cada una de las variables (génicas y celulares)

    y_test --> dataset de prueba para cada una de las proteínas

    conmat --> Lista con las matrices de confusión para cada una de las proteínas (es usada para tener una métrica sopesada en función de las activaciones)
    
    modelo --> Lista con los modelos para cada una de las proteínas"""
    
    lista = []
    for i in range(y_test.shape[1]):

        pred_proba = modelo[i].predict_proba(xtest)
        ##Cálculo de las métricas
        g_m = loga_loss(ytest[:,i:i+1], pred_proba[:,1].reshape(-1,1))

        ##Valor predichos correctamente
#         w_cla = conmat[i][1,1]
#         b_cla = conmat[i][1,0]

        ##Métrica global
#         g_met = (w_cla/(b_cla+w_cla)) * g_m
        lista.append(np.mean(g_m))

    g_metric = round((np.sum(lista)/len(lista)),4)
    # print(f'El valor global la perdida logarítmica para el {modelo.__name__} es {g_metric}')
    print(f'Global log loss --> {g_metric}')

In [None]:
def global_multiLabel_confusion_matrix(y_test_g,y_est_g):
    n_samples, n_class = y_test_g.shape
    CM = np.zeros((n_class,n_class))
    Temp = np.zeros((1,n_class))
    def acum_CM(y_test,y_est,CM,Temp):
        ind_real = np.asarray(y_test > 0).nonzero()[0]
        ind_est = np.asarray(y_est > 0).nonzero()[0]
        #--------------------------------
        if ind_real.size == 0:
            #In case in the ground truth not even one class is active
            Temp = Temp + y_est
        elif ind_est.size == 0:
            return CM, Temp
        else:
            mesh_real = np.array(np.meshgrid(ind_real,ind_real))
            comb_real = mesh_real.T.reshape(-1, 2)
            ind_remove_real = comb_real[:,0] != comb_real[:,1]
            comb_real = comb_real[ind_remove_real]
            #--------------------------------
            mesh_est = np.array(np.meshgrid(ind_real,ind_est))
            comb_est = mesh_est.T.reshape(-1, 2)
            #--------------------------------
            comb_real2 = comb_real[:,0] + comb_real[:,1]*1j
            comb_est2 = comb_est[:,0] + comb_est[:,1]*1j
            ind_remove = np.in1d(comb_est2,comb_real2)
            comb_est = comb_est[np.logical_not(ind_remove)]
            #--------------------------------
            CM[comb_est[:,0],comb_est[:,1]] += 1
        return CM, Temp
    
    for i in range(n_samples):
        CM,Temp = acum_CM(y_test_g[i,:],y_est_g[i,:],CM,Temp)
        
    return CM,Temp

# Modelamiento

## 1. Support vector machine (SVC)

Para este primer caso, fue realizada la ejecución del modelo SVC sin activar la probabilidad, con el objetivo de revisar resultados y poder compararlos con los obtenidos en la ejecución de los archivos `03` y `04`.

In [None]:
clf_svm = svc(class_weight = 'balanced', gamma = 'scale')
model_svm = []
parameters_svm = {'ML_model__kernel':['linear','rbf'], 'ML_model__C':[0.01, 0.1, 1, 10]}
ML_mol(x_train_n, y_train_n, parameters_svm, model_svm, ML_model=clf_svm)

In [None]:
prediction_svm, con_mat_svm = [], []
matrix_conf(model_svm, X_test, y_test, prediction_svm, con_mat_svm)

In [None]:
print('Las métricas globales para el modelo de máquinas de soporte son:')
global_metric(y_test, prediction_svm, con_mat_svm, metric=f1_score)
global_metric(y_test, prediction_svm, con_mat_svm, metric=accuracy_score)
global_metric(y_test, prediction_svm, con_mat_svm, metric=balanced_accuracy_score)
global_metric(y_test, prediction_svm, con_mat_svm, metric=recall_score)
global_metric(y_test, prediction_svm, con_mat_svm, metric=precision_score)

In [None]:
CM_svm, Temp = global_multiLabel_confusion_matrix(y_test, np.array(prediction_svm).T)

# #Normalized
suma = CM_svm.sum(axis=0) + Temp
for value, col in enumerate(suma.T):
    if col == 0:
        suma[value] = 1
    else:
        suma
CM_svm_no = CM_svm/suma

plt.figure(figsize=(30,30))
protein_names = np.arange(41)
protein = ytarget.columns
ax = sn.heatmap(CM_svm_no, annot=True, fmt='.1g', xticklabels = protein, yticklabels = protein_names)

plt.title('Global multi-label confusion matrix - Support Vector Classifier')
plt.show()

## 2. Probability for SVC (GPU)

Aquí, es activada la probabilidad como hiperparámetro del modelo.

In [None]:
clf_svm = svc(class_weight = 'balanced', gamma = 'scale', probability=True)
model_svm = []
parameters_svm = {'ML_model__kernel':['linear','rbf'], 'ML_model__C':[0.01, 0.1, 1, 10]}
ML_mol(x_train_n, y_train_n, parameters_svm, model_svm, ML_model=clf_svm)

In [None]:
print('The global log loss for the SVC models is:')
global_logloss(X_test, y_test, model_svm)

## 3. XGBOOST

In [None]:
from sklearn.utils.class_weight import compute_class_weight
classes = []
for i in range(len(ytarget.columns)):
    class_we = compute_class_weight(class_weight='balanced', classes=[0,1], y=y_train[:,i:i+1].flatten())
    classes.append(class_we)

In [None]:
for val in classes:
    mean_1 = np.mean(val[1])
    mean_2 = np.mean(val[0])

In [None]:
# parameters_gb = {'n_estimators':[20,40,60,80,100],'base_estimator__max_depth':[4,6,8,10]}
parameters_xgb = {'ML_model__n_estimators':[20,60,100,150,200],'ML_model__max_depth': [4,7,10,13], 'ML_model__learning_rate':[1,0.1,0.04], 'ML_model__reg_lambda':[0.2]}
estimator = XGBClassifier(objective='binary:logistic', scale_pos_weight=mean_1/mean_2, random_state=0,use_label_encoder=False, eval_metric='logloss', max_delta_step= 2.0706, subsample= 0.8639, min_child_weight= 31.5800, tree_method = 'gpu_hist')#, max_delta_step=3)
xgb_model = []
ML_mol(x_train_n, y_train_n, parameters_xgb, xgb_model, ML_model=estimator)

In [None]:
prediction_xgb, con_mat_xgb = [], []
matrix_conf(xgb_model, X_test, y_test, prediction_xgb, con_mat_xgb)

In [None]:
print('The global log loss for the XGBoost model is:')
global_logloss(X_test, y_test, xgb_model)