En este cuaderno realizaré la selección de las características y la selección del modelo de predicción con las variables transformadas según lo concluido en el análisis exploratorio. Como primer paso importo algunas de las librerías necesarias:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

Cargo el dataset de la competición de Kaggle:

In [2]:
kobe_df = pd.read_csv("data.csv")

Creo una máscara para seleccionar sólo los datos de entrenamiento (los que usaré para la selección de características). La variable abajo creada (la máscara), indica si los datos de shot_made_flag son nulos (True. Los datos son de test) o no (False. Los datos son de entrenamiento):

In [5]:
shot_nan = kobe_df['shot_made_flag'].isnull() #variable que indica si los valores son Nans o no Nans.

### TRANSFORMACIÓN DE LAS VARIABLES 

Transformamos teniendo en cuenta los resultados del ánálisis exploratorio y ciertas consideraciones para una buena predicción. Primero elimino del dataset aquellas variables que no me van a resultar necesarias:

In [10]:
kobe_df.drop(['game_event_id', 'game_id', 'lat', 'lon', 'team_id','shot_id', 'team_name', 'game_date'], 
               axis=1, inplace=True)

Transformo la variable shot_distance de manera que aquellos valores superiores a 45 pies entren dentro de un mismo valor (45), debido a que existen pocos registros superiores a este valor:

In [11]:
kobe_df['shot_distance'] = kobe_df.apply(lambda row: row['shot_distance']  if row['shot_distance']<45\
                                             else 45, axis=1)

Creo una nueva variable, donde se refleje  si el equipo de Kobe era visitante (@/0) o residente (vs/1), ya que estos datos parecen ser relevantes según el análisis exploratorio:

In [13]:
kobe_df['transformed_matchup'] = kobe_df.apply(lambda row: 0 if '@' in row['matchup'] else 1, axis=1 )

In [14]:
kobe_df = kobe_df.drop('matchup', axis=1) # Borro 'matchup' ya que no me será de más relevancia.

Transformo la variable action_type. Para ello, primero creo una variable donde aparece la ocurrencia de cada categoría de action_type en el dataset. 

In [15]:
action_count = kobe_df['action_type'].value_counts() 

Posteriormente, modifico la variable para que aparezcan las categorías de action_type con registros en el dataset superiores a 150, mientras que aquellas categorías con menos de 150 registros serán sustituidas por una categoría global llamada 'other'. Utilizo en el proceso la variable 'action_counts', antes definida:

In [16]:
kobe_df['action_type'] = kobe_df.apply(lambda row:row['action_type'] if action_count[row['action_type']]>150\
                                             else 'other', axis=1)

Ya que minutes_remaining se refiere a los últimos 11 minutos del periodo y seconds_remaining al último periodo de este, creo una variable donde se resuma y condense esta información, donde aparezcan los doce minutos del  último periodo:

In [None]:
kobe_df['time_remaining'] = kobe_df.apply(lambda row: row['minutes_remaining'] * 60 + row['seconds_remaining'], 
                                          axis=1)

En el análisis exploratorio vimos que en los últimos segundos de partido el rendimiento de los tiros bajaba de forma muy llamativa. Para visibilizar mejor este cambio creo la siguiente variable:

In [17]:
kobe_df['last_moments'] = kobe_df.apply(lambda row: 1 if row['time_remaining'] < 3 else 0, axis=1)

A continuación  realizaré una codificación ordinal sobre las variables categóricas del dataset, con el fin de poder utilizarlas en los algoritmos que a continuación usaré para la selección de las variables y del modelo. Como indico en el trabajo escrito, esto lo llevaré a cabo con LabelEnconder de scikit learn:

In [19]:
from sklearn.preprocessing import LabelEncoder

Este LabelEncoder lo usaré sobre el conjunto de train de la competición, seleccionado mediante la máscara shot_nan, que indica si los valores del dataset para shot_made_flag son nulos o no. El resultado será un nuevo dataset (kobe_select) con las variables categóricas codificadas:

In [22]:
kobe_train = kobe_df[~shot_nan] #Selecciono aquellos registros que no poseen valores nulos para sus valores de 
                                 # shot_made_flag: los datos del conjunto de entrenamiento.

kobe_select = kobe_train  #Renombro al conjunto de entrenamiento como kobe_select.

le = LabelEncoder() #Variable con el LabelEncoder.

categorical_features = [ 'action_type','combined_shot_type', 'period', 'season','playoffs','transformed_matchup','shot_type',
                         'shot_zone_area', 'shot_zone_basic', 'shot_zone_range','opponent'] # Lista con las 
                                                                                            # variables categóricas.


#Utilizo la lista de las variables categóricas para transformar cada una de ellas en un bucle con LabelEncoder(le):

for i in categorical_features: 
    
    kobe_select[i] = le.fit_transform(kobe_select[i])

### SELECCIÓN DE CARACTERÍSTICAS

Realizadas las transformaciones, procedo a seleccionar las características más relevantes (en base al dataset kobe_select), que más información aportan al modelo y por tanto permitirán una mejor predicción.

La selección se llevará a cabo a través de RFE. Sólo seleccionaremos las variables que tengan puesto 1 en el ranking.

In [24]:
from xgboost import XGBClassifier
from sklearn.feature_selection import RFE
xgb = XGBClassifier() # El estimador utilizado será XGBOOST.

# Establezco 'x' e 'y' para llevar a cabo la selección:

x = kobe_select.drop('shot_made_flag', axis=1)
y = kobe_select['shot_made_flag']

# Procedo a ejecutar la selección:

rfe = RFE(xgb, step=1)
rfe = rfe.fit(x,y)


Creo un dataset con las variables a analizar y el resultado del ranking para mostrar los resultados de manera interpretable:

In [25]:
ranking=pd.DataFrame({'Attributes': x.columns ,
              'Ranking': rfe.ranking_})  

In [26]:
ranking # Aquí los resultados.

Unnamed: 0,Attributes,Ranking
0,action_type,1
1,combined_shot_type,1
2,loc_x,2
3,loc_y,1
4,minutes_remaining,9
5,period,8
6,playoffs,3
7,season,1
8,seconds_remaining,7
9,shot_distance,1


Según el criterio que antes he establecido, las variables seleccionadas son **action_type**, **combined_shot_type**,**loc_y**, **season**, **shot_distance**, **shot_zone_area**,**shot_zone_range**, **transformed_matchup**, **time_remaining**.

### SELECCIÓN DEL MODELO

Con las variables seleccionadas, procedo a seleccionar el mejor modelo para el problema a resolver. Los modelos a comparar serán **Random Forest**, **XGBoost**, **AdaBoost**, **Support Vector Machine**, **KNN** y **Red Neuronal**:

Creo con la librería keras la red neuronal. Cuatro capas: la capa de entrada de 12 neuronas, la primera capa oculta de 8, la segunda oculta de 6 y la capa de salida de 1:

In [32]:
from keras.models import Sequential #Import los métodos de keras necesarios.
from keras.layers import Dense
from keras import losses

def neural_model(): #la red neuronal-
    
    model=Sequential()
    model.add(Dense(12, input_dim=9, activation='relu')) # Capa de entrada. Input_dim= 9 porque las variables 
                                                         # seleccionadas son 9.
    model.add(Dense(8, activation='relu')) #Capa oculta.
    model.add(Dense(6, activation='relu')) #Capa oculta.
    model.add(Dense(1, activation='sigmoid')) #Capa de salida.
    
    #Función de pérdida log_loss, optimizador adam y métrica accuracy:
    
    model.compile(loss= losses.binary_crossentropy, optimizer='adam', metrics=['accuracy']) 
    
    return model

Como el problema es de clasificación y también para poder usar cross validation en la red neuronal uso KerasClassifier (al ser el modelo de otra librería, necesita de un método "adaptador" para poder usar en él métodos de otra librería):

In [33]:
from keras.wrappers.scikit_learn import KerasClassifier
n_classifier=KerasClassifier(build_fn=neural_model, epochs=150,batch_size=10) # En este KerasClassifier establezco 
                                                                             # el valor de epochs y de batch_size.

Establezco **x** (x_1. Con las variables seleccionadas) e **y** (y_1. Con la variable respuesta) para los distintos distintos modelos a comparar:

In [34]:
x_1 = kobe_select[['action_type', 'combined_shot_type','loc_y', 'season', 'shot_distance', 
                   'shot_zone_area','shot_zone_range', 'transformed_matchup', 'time_remaining']]

y_1 = kobe_select['shot_made_flag']

Establezco un **x** (x_n) e **y** (y_n) aparte para la red neuronal, donde sólo existen los valores y no las etiquetas (nombres de columnas) de estos, pues así es necesario para que la red neuronal pueda procesar los datos:

In [36]:
x_n = x_1.values

y_n = y_1.values

Definido y establecido todo lo anterior, creo una lista con los nombres de los modelos y sus clasificadores. Esta lista la usaré durante la comparación de modelos con cross validation:

In [37]:
# Aquí Llamo ya al KFold que usaré en el cross validation (Kfold establece las divisiones en las que se partirá 
# el conjunto de datos en el proceso de cross validation:

from sklearn.model_selection import KFold 

from sklearn.ensemble import RandomForestClassifier #Clasificador Random Forest.
from sklearn.ensemble import AdaBoostClassifier #Clasificador AdaBoost.
from sklearn.neighbors import KNeighborsClassifier #Clasificador KNN.
from sklearn.svm import SVC #Clasificador Support Vector Machine.

# Como XGBoost pertenece a otra librería ajena a scikit learn, para poder usar cross validation en él, importo su 
# librería de python y su clasificador XGBClassifier (esto es necesario para que XGBoost no de problemas al 
# aplicarle el método de cross validation):

import xgboost 
from xgboost import XGBClassifier # y su clasificador XGBoost

xgb = xgboost.XGBClassifier() # guardo lo anteriormente importado de la librería XGBoost en una variable, de manera
                              # que así pueda usar cross validation en XGBoost. Esta variable la guardaré en la 
                               # lista de modelos como clasificador de XGBoost.

clf = SVC(probability=True) # Para usar el clasificador de Support Vector Machine, es recomendable que le dé a su 
                            # atributo "probability" el valor True. Guardo la selección en una variable. 


modelos = [] #Creo la lista de modelos.

#Y le añado los modelos (tupla:(nombre, método de clasificación)):

modelos.append(('RandomForest', RandomForestClassifier()))
modelos.append(('Adaboost', AdaBoostClassifier()))
modelos.append(('XGBOOST',xgb ))
modelos.append(('KNN', KNeighborsClassifier()))
modelos.append(('SVC', clf))
modelos.append(('Neural Network model', n_classifier))

Hecho esto, procedo a ejecutar los modelos usando cross validation (para evitar sobreaprendizaje). La métrica usada para realizar la comparación será negativa_log_loss, un equivalente a log_loss (métrica a optimizar en la competición) pero con valores negativos, por lo que el modelo a seleccionar será aquel que maximice la métrica usada (es decir, que dé un negative log loss mayor):

In [56]:
#Importo cross validation (cross_val_score) desde scikit learn:

from sklearn.model_selection import cross_val_score 

num_folds = 10
score = 'neg_log_loss' #Establezco la métrica con la que compararé los modelos: negative log loss.



results = [] #Lista donde se guardarán los resultados de cada iteración de cross_validation. 
nombres = [] #Lista donde guardo los nombres de los modelos.

neg_loglossdf = [] # lista donde guardo cada uno de los valores de negative log loss emitidos por cross validation. 10 por cada modelo.
                  # Esta lista la usaré después para guardar en un dataframe los resultados desglosados por 
                  # iteración.
modeldf = [] # Lista que usaré en el dataframe antes mencionado. Esta lista está destinada a guardar el nombre del modelo corres-
           # pondiente por cada iteración de cross_val_score, de manera que así sabremos a qué modelo corresponde cada 
           # resultado de neg_log_loss en los resultados de cross_val_score.



#Por cada modelo ejecutamos cross_val_score:

for nombre, modelo in modelos:
    cv = KFold(n_splits=num_folds, random_state=10) # n_splits (número de divisiones)=10, establecemos una semilla 
                                                    # fija (random_state=10)
    if nombre=='Neural Network model': #Si el modelo es la red neuronal
        cv_results=cross_val_score(modelo, x_n, y_n, cv=cv, scoring='neg_log_loss') #Uso x_n e y_n
        results.append(cv_results) #añado resultados en array por cada modelo a lista results.
        nombres.append(nombre) #añado modelo usado a lista nombres.
        msg = "%s -> media: %f varianza: %f" % (nombre, cv_results.mean(), cv_results.std()) # Imprimo el resultado 
                                                                                             # de cross_val_score 
        print(msg)                                                                           # por cada modelo.
        
        for i in cv_results: # por cada resultado de cada iteración de cross_val_score
            modeldf.append(nombre) # añado el modelo correspondiente a modeldf
            neg_loglossdf.append(i) # y el resultado a neg_loglossdf
        
    
            
    else: # Procedo exactamente igual con el resto de modelos.
        
        cv = KFold(n_splits=num_folds, random_state=10)
        cv_results = cross_val_score(modelo,x_1,y_1 ,      # Pero uso x_1 e y_1.
                                     cv=cv, scoring='neg_log_loss')
        results.append(cv_results)
        nombres.append(nombre)
        msg = "%s -> media: %f varianza: %f" % (nombre, cv_results.mean(), cv_results.std())
        print(msg)
        
        for i in cv_results:
            modeldf.append(nombre)
            neg_loglossdf.append(i)
         



RandomForest -> media: -0.673417 varianza: 0.024723




Adaboost -> media: -0.688801 varianza: 0.000467




XGBOOST -> media: -0.626136 varianza: 0.013309




KNN -> media: -1.986807 varianza: 0.116187




SVC -> media: -0.668714 varianza: 0.006722
Epoch 1/150




Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 7

Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoc

Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoch 82/150
Epoch 83/150
Epoch 84/150
Epoch 85/150
Epoch 86/150

Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoch 82/150
Epoch 83/150
Epoch 84/150
Epoch 85/150
Epoch 86/150
Epoch 87/150
Epoch 88/150
Epoch 89/150
Epoch 90/150

Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoch 82/150
Epoch 83/150
Epoch 84/150
Epoch 85/150
Epoch 86/150
Epoch 87/150
Epoch 88/150
Epoch 89/150
Epoch 90/150
Epoch 91/150
Epoch 92/150
Epoch 93/150
Epoch 94/150

Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoch 82/150
Epoch 83/150
Epoch 84/150
Epoch 85/150
Epoch 86/150
Epoch 87/150
Epoch 88/150
Epoch 89/150
Epoch 90/150
Epoch 91/150
Epoch 92/150
Epoch 93/150
Epoch 94/150
Epoch 95/150
Epoch 96/150
Epoch 97/150

Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoch 82/150
Epoch 83/150
Epoch 84/150
Epoch 85/150
Epoch 86/150
Epoch 87/150
Epoch 88/150
Epoch 89/150
Epoch 90/150
Epoch 91/150
Epoch 92/150
Epoch 93/150
Epoch 94/150
Epoch 95/150
Epoch 96/150
Epoch 97/150
Epoch 98/150
Epoch 99/150
Epoch 100/150
Epoch 101/1

Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoch 82/150
Epoch 83/150
Epoch 84/150
Epoch 85/150
Epoch 86/150
Epoch 87/150
Epoch 88/150
Epoch 89/150
Epoch 90/150
Epoch 91/150
Epoch 92/150
Epoch 93/150
Epoch 94/150
Epoch 95/150
Epoch 96/150
Epoch 97/150
Epoch 98/150
Epoch 99/150
Epoch 100/150
Epoch 101/150
Epoch 102/150
Epoch 103/150
Epoch 104/150
Epoch 1

Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoch 82/150
Epoch 83/150
Epoch 84/150
Epoch 85/150
Epoch 86/150
Epoch 87/150
Epoch 88/150
Epoch 89/150
Epoch 90/150
Epoch 91/150
Epoch 92/150
Epoch 93/150
Epoch 94/150
Epoch 95/150
Epoch 96/150
Epoch 97/150
Epoch 98/150
Epoch 99/150
Epoch 100/150
Epoch 101/150
Epoch 102/150
Epoch 103/150
Epoch 104/150
Epoch 105/150
Epoch 106/150
Epoch 107/150
Epoc

Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78/150
Epoch 79/150
Epoch 80/150
Epoch 81/150
Epoch 82/150
Epoch 83/150
Epoch 84/150
Epoch 85/150
Epoch 86/150
Epoch 87/150
Epoch 88/150
Epoch 89/150
Epoch 90/150
Epoch 91/150
Epoch 92/150
Epoch 93/150
Epoch 94/150
Epoch 95/150
Epoch 96/150
Epoch 97/150
Epoch 98/150
Epoch 99/150
Epoch 100/150
Epoch 101/150
Epoch 102/150
Epoch 103/150
Epoch 104/150
Epoch 105/150
Epoch 106/150
Epoch 107/150
Epoch 108/150
Epoch 109/150
Epoch 110/150
Epoch 111/150


El resultado de cada modelo, por orden descendente de negative log loss es: 

    - XGBOOST -> media  neg log loss: -0.626136, varianza: 0.013309
    - Red neuronal  ->  media  neg log loss: -0.626848, varianza: 0.025067.
    - SVC -> media   neg log loss: -0.668714, varianza: 0.006722.
    - RandomForest -> media  neg log  loss:  -0.673417, varianza: 0.024723.
    - Adaboost -> media neg log loss: -0.688801, varianza: 0.000467.
    - KNN -> media neg log loss: -1.986807, varianza: 0.116187.
    
Elijo como mejor modelo XGBoost, ya que es el que tiene mayor negative log loss.

Para crear el dataframe antes mencionado con el valor de negative log loss por cada iteración de cross_val_score, junto con información del modelo al que pertenece, creo un diccionario donde guardo el contenido de las listas antes mencionadas destinadas a crear el dataframe:

In [57]:
dic_cv = {} #Creo un diccionario

#Donde guardo el contenido de las listas antes mencionadas destinadas a crear el dataframe:

dic_cv['modelos'] = modeldf 
dic_cv['neg_log_loss'] = neg_loglossdf

El diccionario creado lo transformo en el dataframe:

In [59]:
cv_df = pd.DataFrame.from_dict(dic_cv) 

Y lo guardo como csv para guardar de manera más "sólida" los resultados de cross_val_score, y así poder usarlo en un proceso posterior de visualización:

In [62]:
cv_df.to_csv('resultados_cv.csv', index=False) 