In [1]:
import pandas as pd
# Data partition
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

In [2]:
# Datos de entrenamiento
trainFNC = pd.read_csv("data/train_FNC.csv")
trainSBM = pd.read_csv("data/train_SBM.csv")
train_labels = pd.read_csv("data/train_labels.csv")

# DataFrame con ambas fuentes de datos
train = pd.merge(left=trainFNC, right=trainSBM, left_on='Id', right_on='Id')
data = pd.merge(left=train_labels, right=train, left_on='Id', right_on='Id')
data.drop("Id", inplace=True, axis=1)

# Shuffle de los datos de train
data = data.sample(frac=1, random_state=0)
data.head(5)

Unnamed: 0,Class,FNC1,FNC2,FNC3,FNC4,FNC5,FNC6,FNC7,FNC8,FNC9,...,SBM_map55,SBM_map61,SBM_map64,SBM_map67,SBM_map69,SBM_map71,SBM_map72,SBM_map73,SBM_map74,SBM_map75
2,0,0.24585,0.21662,-0.12468,-0.3538,0.1615,-0.002032,-0.13302,-0.035222,0.25904,...,-0.257114,0.597229,1.220756,-0.059213,-0.435494,-0.092971,1.09091,-0.448562,-0.508497,0.350434
13,1,0.41073,-0.031925,0.2107,0.24226,0.3201,-0.41929,-0.18714,0.16845,0.59979,...,-0.050862,0.870602,0.609465,1.181878,-2.279469,-0.013484,-0.012693,-1.244346,-1.080442,-0.788502
53,1,0.070919,0.034179,-0.011755,0.019158,0.024645,-0.032022,0.00462,0.31817,0.21255,...,-1.539922,-1.495822,1.643866,1.68778,1.521086,-1.988432,-0.267471,0.510576,1.104566,-1.067206
41,0,0.087377,-0.052462,-0.007835,-0.11283,0.38938,0.21608,0.063572,-0.25123,-0.080568,...,-0.077353,-0.459463,-0.204328,-0.619508,-1.410523,-0.304622,-1.521928,0.593691,0.073638,-0.26092
74,0,0.20275,0.19142,-0.056662,-0.15778,0.24404,0.03978,-0.001503,0.001056,-0.048222,...,0.044457,0.593326,1.063052,0.434726,1.604964,-0.359736,0.210107,0.355922,0.730287,-0.323557


Vamos a usar la siguiente partición de los datos:

* 60% train $\sim$ 50 datos
* 20% validation $\sim$ 18 datos (se define al aplicar cross-validación en el ajuste)
* 20% test $\sim$ 18 datos

In [3]:
X = data.iloc[:, 1:]
y = data.iloc[:, 0]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

print("Tamaño del dataset de train:", X_train.shape)
print("Tamaño del dataset de test:", X_test.shape)

Tamaño del dataset de train: (68, 410)
Tamaño del dataset de test: (18, 410)


In [4]:
# Datos de test
testFNC = pd.read_csv("data/test_FNC.csv")
testSBM = pd.read_csv("data/test_SBM.csv")

# DataFrame con ambas fuentes de datos
test = pd.merge(left=testFNC, right=testSBM, left_on='Id', right_on='Id')
test.drop("Id", inplace=True, axis=1)
test.head(5)

Unnamed: 0,FNC1,FNC2,FNC3,FNC4,FNC5,FNC6,FNC7,FNC8,FNC9,FNC10,...,SBM_map55,SBM_map61,SBM_map64,SBM_map67,SBM_map69,SBM_map71,SBM_map72,SBM_map73,SBM_map74,SBM_map75
0,0.476127,0.064466,0.053238,-0.608133,0.073988,-0.637038,0.113556,-0.192434,-0.004025,-0.060474,...,-0.451994,1.12377,2.083006,1.14544,-0.067608,1.202529,0.851587,0.451583,-0.159739,0.192076
1,0.013833,0.267183,0.232178,-0.167151,-0.261327,0.191869,0.406493,0.088761,0.177048,0.036718,...,0.696987,1.397832,1.046136,-0.191733,-2.192023,-0.369276,0.822225,-0.109342,-0.580476,0.17416
2,-0.435452,0.04678,0.243742,0.39703,-0.147821,0.17362,-0.461963,-0.610736,0.419753,0.400985,...,0.160145,1.906989,-2.661633,-0.193911,0.440873,0.641739,0.918397,-0.758046,0.154701,-0.476647
3,-0.20451,-0.036735,-0.760705,-0.740495,0.064668,0.349926,-0.273826,-0.174384,-0.120248,0.175618,...,0.974828,-1.997087,-2.083782,1.154107,-0.643947,2.332424,0.659124,-0.809445,0.55896,2.790871
4,0.599435,-0.166441,0.122431,0.011539,0.346906,-0.01743,-0.274734,0.21151,0.151012,-0.033434,...,-0.789153,1.578984,1.402592,-1.23044,0.296686,2.806314,0.427184,-0.240682,-0.196948,-1.544345


# Random forest

In [6]:
from sklearn.ensemble import RandomForestClassifier

# Definir y entrenar el modelo
model_RF = RandomForestClassifier(random_state=0)
param_grid_RF = {
    "n_estimators": [100, 250, 500, 750, 1000],
    "criterion": ["gini", "entropy"],
    "max_depth": [5, 10, 15, 20, None]
}
grid_search_RF = GridSearchCV(estimator=model_RF, param_grid=param_grid_RF, cv=4)
# cv = 4 porque así: el conjunto de validation tiene un 0.25 del tamaño de train y: 0.25 * 0.8 = 0.2
#                    el conjunto de train tiene un 0.75 del tamaño de train y: 0.75 * 0.8 = 0.6
grid_search_RF.fit(X_train, y_train)
print("Parámetros óptimos:", grid_search_RF.best_params_)
print("Modelo óptimo:", grid_search_RF.best_estimator_)
model_RF_opt = grid_search_RF.best_estimator_

# Predicción en partición de test
y_pred_RF = model_RF_opt.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_RF)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

# Predicción en test para kaggle
y_pred_kaggle_RF = model_RF_opt.predict(test)

Parámetros óptimos: {'criterion': 'entropy', 'max_depth': 10, 'n_estimators': 750}
Modelo óptimo: RandomForestClassifier(criterion='entropy', max_depth=10, n_estimators=750,
                       random_state=0)
Accuracy: 83.33%


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0], dtype=int64)

# XGBoost

In [7]:
import xgboost as xgb
import warnings
from xgboost import XGBClassifier

warnings.filterwarnings('ignore')

# Definir y entrenar el modelo
model_XGB = XGBClassifier()
param_grid_XGB = {
    "booster": ["gbtree", "gblinear", "dart"],
    "learning_rate": [0.001, 0.05, 0.1, 0.5],
    "min_split_loss": [0.001, 0.005, 0.01, 0.05, 0.1],
    "max_depth": [5, 10, 15, 20, 0] # 0 = ninguna restricción
}
grid_search_XGB = GridSearchCV(estimator=model_XGB, param_grid=param_grid_XGB, cv=4)
grid_search_XGB.fit(X_train, y_train)
print("Parámetros óptimos:", grid_search_XGB.best_params_)
print("Modelo óptimo:", grid_search_XGB.best_estimator_)
model_XGB_opt = grid_search_XGB.best_estimator_
# model_XGB.fit(X_train, y_train)

# Predicción en partición de test
y_pred_XGB = model_XGB_opt.predict(X_test)

# Precisión en partición de test
accuracy = accuracy_score(y_test, y_pred_XGB)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

# Predicción en test para kaggle
y_pred_kaggle_XGB = model_XGB_opt.predict(test)

  from pandas import MultiIndex, Int64Index


Parámetros óptimos: {'eval_metric': 'logloss', 'learning_rate': 0.5, 'max_depth': 10, 'n_estimators': 100, 'use_label_encoder': False}
Modelo óptimo: XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, enable_categorical=False,
              eval_metric='logloss', gamma=0, gpu_id=-1, importance_type=None,
              interaction_constraints='', learning_rate=0.5, max_delta_step=0,
              max_depth=10, min_child_weight=1, missing=nan,
              monotone_constraints='()', n_estimators=100, n_jobs=4,
              num_parallel_tree=1, predictor='auto', random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
              tree_method='exact', use_label_encoder=False,
              validate_parameters=1, verbosity=None)
Accuracy: 77.78%


array([0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1,
       0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0,
       0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1])

# Redes neuronales

### Fully-connected

Buscar como cross-validar nº de capas y nº de neuronas.

Usar función MLPClassifier (sklearn), debería salir por lo menos parecido.

In [42]:
import keras
from keras import layers, models, optimizers, callbacks, backend

In [9]:
# Definir y entrenar el modelo
modelFC1 = models.Sequential()
modelFC1.add(layers.Dense(100, activation="relu", input_shape=(410,)))
modelFC1.add(layers.Dense(200, activation="relu"))
modelFC1.add(layers.Dense(100, activation="relu"))
modelFC1.add(layers.Dense(1, activation="sigmoid"))

modelFC1.compile(loss="binary_crossentropy", optimizer="rmsprop", metrics=["acc"])
modelFC1.fit(X_train, y_train, epochs=100, validation_split=0.25)
# Se utilizan 100 épocas ya que como se irá viendo, incluso con estas épocas la red sobreajusta.

# Precisión en partición de test
loss, accuracy = modelFC1.evaluate(X_test, y_test)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

# # Predicción en test para kaggle
# y_pred_kaggle_FC1 = modelFC1.predict(test)
# y_pred_kaggle_FC1[0:100]

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Tras probar una configuración cualquiera en el bloque anterior, vemos que tenemos un gran problema de sobreajuste (100% en el conjunto de train y diferencia de un 30% aproximadamente con la precisión en el conjunto de validación). Vamos a introducir unos términos de regularización para evitar esto.

In [10]:
# Definir y entrenar el modelo
modelFC2 = models.Sequential()
modelFC2.add(layers.Dense(100, activation="relu", input_shape=(410,)))
modelFC2.add(layers.Dropout(0.5))
modelFC2.add(layers.Dense(200, activation="relu", kernel_regularizer="l2"))
modelFC2.add(layers.Dropout(0.5))
modelFC2.add(layers.Dense(100, activation="relu"))
modelFC2.add(layers.Dense(1, activation="sigmoid"))

modelFC2.compile(loss="binary_crossentropy", optimizer="rmsprop", metrics=["acc"])
es = callbacks.EarlyStopping(monitor='val_acc', min_delta=0.01, patience=5)
# Detenemos el entrenamiento si hay más de 5 épocas en las que no hay una ganancia en el conjunto de validación del 1%
modelFC2.fit(X_train, y_train, epochs=100, validation_split=0.25, callbacks=[es])

# Precisión en partición de test
loss, accuracy = modelFC2.evaluate(X_test, y_test)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Accuracy: 66.67%


Ahora, sobre la red anterior, buscaremos el ajuste de los parámetros.

Al compilar el modelo, la función de pérdida (``binary_crossentropy``) es la adecuada porque estamos en un problema de clasificación binaria e igualmente para la métrica (``acc``), pero podemos probar varias opciones para el optimizador.

In [11]:
# BEST OPTIMIZER FUNCTION
optimizers_range = ["adadelta", "adagrad", "adam", "adamax", "rmsprop", "sgd"]
acc = {}

for optimizer in optimizers_range:
    print(f"----- Entrenando para el optimizador: {optimizer} -----")
    # Definir y entrenar el modelo
    modelFC2 = models.Sequential()
    modelFC2.add(layers.Dense(100, activation="relu", input_shape=(410,)))
    modelFC2.add(layers.Dropout(0.5))
    modelFC2.add(layers.Dense(200, activation="relu", kernel_regularizer="l2"))
    modelFC2.add(layers.Dropout(0.5))
    modelFC2.add(layers.Dense(100, activation="relu"))
    modelFC2.add(layers.Dense(1, activation="sigmoid"))

    modelFC2.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["acc"])
    es = callbacks.EarlyStopping(monitor='val_acc', min_delta=0.01, patience=5)
    modelFC2.fit(X_train, y_train, epochs=100, validation_split=0.25, callbacks=[es], verbose=0)
    # verbose=0 oculta el informe del proceso en cada época

    # Precisión en partición de test
    loss, accuracy = modelFC2.evaluate(X_test, y_test)
    acc[optimizer] = accuracy
    
acc

----- Entrenando para el optimizador: adadelta -----
----- Entrenando para el optimizador: adagrad -----
----- Entrenando para el optimizador: adam -----
----- Entrenando para el optimizador: adamax -----
----- Entrenando para el optimizador: rmsprop -----
----- Entrenando para el optimizador: sgd -----


{'adadelta': 0.5555555820465088,
 'adagrad': 0.3888888955116272,
 'adam': 0.5555555820465088,
 'adamax': 0.4444444477558136,
 'rmsprop': 0.7777777910232544,
 'sgd': 0.5}

En vista de que el mayor accuracy se tiene para el optimizador ``RMSprop``, vamos a optimizar los parámetros del mismo:

In [12]:
import tensorflow as tf

# BEST RMSPROP HYPERPARAMETERS
lr_range = [0.0001, 0.001, 0.01, 0.05, 0.1, 0.5]
moment_range = [0, 0.001, 0.1]
acc = 0

for lr in lr_range:
    for moment in moment_range:
        print(f"----- Entrenando el optimizador RMSprop con un lr={lr} y un momentum={moment} -----")
        # Definir y entrenar el modelo
        modelFC2 = models.Sequential()
        modelFC2.add(layers.Dense(100, activation="relu", input_shape=(410,)))
        modelFC2.add(layers.Dropout(0.5))
        modelFC2.add(layers.Dense(200, activation="relu", kernel_regularizer="l2"))
        modelFC2.add(layers.Dropout(0.5))
        modelFC2.add(layers.Dense(100, activation="relu"))
        modelFC2.add(layers.Dense(1, activation="sigmoid"))

        optimizer = tf.keras.optimizers.RMSprop(learning_rate=lr, momentum=moment)
        modelFC2.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["acc"])
        es = callbacks.EarlyStopping(monitor='val_acc', min_delta=0.01, patience=5)
        modelFC2.fit(X_train, y_train, epochs=100, validation_split=0.25, callbacks=[es], verbose=0)

        # Precisión en partición de test
        loss, accuracy = modelFC2.evaluate(X_test, y_test)
        if accuracy > acc:
            best_lr = lr
            best_momentum = moment
            acc = accuracy
    
print(f"Valor óptimo de los hiperparámetros: lr={best_lr}; momentum={best_momentum}")
print("Se logra un accuracy de {:0.2f}%".format(acc * 100))

----- Entrenando el optimizador RMSprop con un lr=0.0001 y un momentum=0 -----
----- Entrenando el optimizador RMSprop con un lr=0.0001 y un momentum=0.001 -----
----- Entrenando el optimizador RMSprop con un lr=0.0001 y un momentum=0.1 -----
----- Entrenando el optimizador RMSprop con un lr=0.001 y un momentum=0 -----
----- Entrenando el optimizador RMSprop con un lr=0.001 y un momentum=0.001 -----
----- Entrenando el optimizador RMSprop con un lr=0.001 y un momentum=0.1 -----
----- Entrenando el optimizador RMSprop con un lr=0.01 y un momentum=0 -----
----- Entrenando el optimizador RMSprop con un lr=0.01 y un momentum=0.001 -----
----- Entrenando el optimizador RMSprop con un lr=0.01 y un momentum=0.1 -----
----- Entrenando el optimizador RMSprop con un lr=0.05 y un momentum=0 -----
----- Entrenando el optimizador RMSprop con un lr=0.05 y un momentum=0.001 -----
----- Entrenando el optimizador RMSprop con un lr=0.05 y un momentum=0.1 -----
----- Entrenando el optimizador RMSprop con

Ahora vamos a ajustar algunos parámetros de la función ``fit``:

In [13]:
# BEST FIT FUNCTION HYPERPARAMETERS
batch_size_range = [5, 10, 15, 20] # Al hacer la partición de test, nos quedan 68 entradas de datos
val_split_range = [0.15, 0.2, 0.25, 0.3, 0.4]
acc = 0

for batch_size in batch_size_range:
    for val_split in val_split_range:
        print(f"----- Entrenando el modelo con un tamaño de batch de {batch_size} \
        y un porcentaje de datos de validación de {val_split*100}% -----")
        # Definir y entrenar el modelo
        modelFC2 = models.Sequential()
        modelFC2.add(layers.Dense(100, activation="relu", input_shape=(410,)))
        modelFC2.add(layers.Dropout(0.5))
        modelFC2.add(layers.Dense(200, activation="relu", kernel_regularizer="l2"))
        modelFC2.add(layers.Dropout(0.5))
        modelFC2.add(layers.Dense(100, activation="relu"))
        modelFC2.add(layers.Dense(1, activation="sigmoid"))

        optimizer = tf.keras.optimizers.RMSprop(learning_rate=best_lr, momentum=best_momentum)
        modelFC2.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["acc"])
        es = callbacks.EarlyStopping(monitor='val_acc', min_delta=0.01, patience=5)
        modelFC2.fit(X_train, y_train, epochs=100, batch_size=batch_size, validation_split=val_split, callbacks=[es], verbose=0)

        # Precisión en partición de test
        loss, accuracy = modelFC2.evaluate(X_test, y_test)
        if accuracy > acc:
            best_batch_size = batch_size
            best_val_split = val_split
            acc = accuracy
    
print(f"Valor óptimo de los hiperparámetros: batch_size={best_batch_size}; validation_split={best_val_split}")
print("Se logra un accuracy de {:0.2f}%".format(acc * 100))

----- Entrenando el modelo con un tamaño de batch de 5         y un porcentaje de datos de validación de 15.0% -----
----- Entrenando el modelo con un tamaño de batch de 5         y un porcentaje de datos de validación de 20.0% -----
----- Entrenando el modelo con un tamaño de batch de 5         y un porcentaje de datos de validación de 25.0% -----
----- Entrenando el modelo con un tamaño de batch de 5         y un porcentaje de datos de validación de 30.0% -----
----- Entrenando el modelo con un tamaño de batch de 5         y un porcentaje de datos de validación de 40.0% -----
----- Entrenando el modelo con un tamaño de batch de 10         y un porcentaje de datos de validación de 15.0% -----
----- Entrenando el modelo con un tamaño de batch de 10         y un porcentaje de datos de validación de 20.0% -----
----- Entrenando el modelo con un tamaño de batch de 10         y un porcentaje de datos de validación de 25.0% -----
----- Entrenando el modelo con un tamaño de batch de 10      

In [14]:
# Definir y entrenar el modelo
modelFC2 = models.Sequential()
modelFC2.add(layers.Dense(100, activation="relu", input_shape=(410,)))
modelFC2.add(layers.Dropout(0.5))
modelFC2.add(layers.Dense(200, activation="relu", kernel_regularizer="l2"))
modelFC2.add(layers.Dropout(0.5))
modelFC2.add(layers.Dense(100, activation="relu"))
modelFC2.add(layers.Dense(1, activation="sigmoid"))

optimizer = tf.keras.optimizers.RMSprop(learning_rate=best_lr, momentum=best_momentum)
modelFC2.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["acc"])
es = callbacks.EarlyStopping(monitor='val_acc', min_delta=0.01, patience=5)
modelFC2.fit(X_train, y_train, epochs=100, batch_size=best_batch_size, validation_split=best_val_split, callbacks=[es])

# Precisión en partición de test
loss, accuracy = modelFC2.evaluate(X_test, y_test)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Accuracy: 83.33%


Como sigue habiendo una gran diferencia entre la precisión en el conjunto de validación y en el de entrenamiento, vamos a tratar de reducirla cambiando la topología de la red.

$\color{red}{\text{¿Está mal hecho que busque la mejor estructura de la red después del ajuste de los parámetros?}}$
Si

In [15]:
# Definir y entrenar el modelo
modelFC3 = models.Sequential()
modelFC3.add(layers.Dense(100, activation="relu", input_shape=(410,)))
modelFC3.add(layers.Dropout(0.5))
modelFC3.add(layers.Dense(100, activation="relu", kernel_regularizer="l1"))
modelFC3.add(layers.Dropout(0.5))
modelFC3.add(layers.Dense(100, activation="relu", kernel_regularizer="l1"))
modelFC3.add(layers.Dropout(0.5))
modelFC3.add(layers.Dense(100, activation="relu", kernel_regularizer="l1"))
modelFC3.add(layers.Dropout(0.5))
modelFC3.add(layers.Dense(1, activation="sigmoid"))

optimizer = tf.keras.optimizers.RMSprop(learning_rate=best_lr, momentum=best_momentum)
modelFC3.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["acc"])
es = callbacks.EarlyStopping(monitor='val_acc', min_delta=0.01, patience=5)
modelFC3.fit(X_train, y_train, epochs=100, batch_size=best_batch_size, validation_split=best_val_split, callbacks=[es])

# Precisión en partición de test
loss, accuracy = modelFC3.evaluate(X_test, y_test)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Accuracy: 44.44%


In [16]:
# Definir y entrenar el modelo
modelFC4 = models.Sequential()
modelFC4.add(layers.Dense(100, activation="relu", input_shape=(410,)))
modelFC4.add(layers.Dropout(0.5))
modelFC4.add(layers.Dense(100, activation="relu", kernel_regularizer="l1_l2"))
modelFC4.add(layers.Dropout(0.5))
modelFC4.add(layers.Dense(100, activation="relu", kernel_regularizer="l1_l2"))
modelFC4.add(layers.Dropout(0.5))
modelFC4.add(layers.Dense(100, activation="relu", kernel_regularizer="l1_l2"))
modelFC4.add(layers.Dropout(0.5))
modelFC4.add(layers.Dense(1, activation="sigmoid"))

optimizer = tf.keras.optimizers.RMSprop(learning_rate=best_lr, momentum=best_momentum)
modelFC4.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["acc"])
es = callbacks.EarlyStopping(monitor='val_acc', min_delta=0.01, patience=5)
modelFC4.fit(X_train, y_train, epochs=100, batch_size=best_batch_size, validation_split=best_val_split, callbacks=[es])

# Precisión en partición de test
loss, accuracy = modelFC4.evaluate(X_test, y_test)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Accuracy: 44.44%


In [17]:
# Definir y entrenar el modelo
modelFC5 = models.Sequential()
modelFC5.add(layers.Dense(100, activation="relu", input_shape=(410,)))
modelFC5.add(layers.Dropout(0.5))
modelFC5.add(layers.Dense(100, activation="relu", kernel_regularizer="l2"))
modelFC5.add(layers.Dropout(0.5))
modelFC5.add(layers.Dense(100, activation="relu", kernel_regularizer="l2"))
modelFC5.add(layers.Dropout(0.5))
modelFC5.add(layers.Dense(100, activation="relu", kernel_regularizer="l2"))
modelFC5.add(layers.Dropout(0.5))
modelFC5.add(layers.Dense(1, activation="sigmoid"))

optimizer = tf.keras.optimizers.RMSprop(learning_rate=best_lr, momentum=best_momentum)
modelFC5.compile(loss="binary_crossentropy", optimizer=optimizer, metrics=["acc"])
es = callbacks.EarlyStopping(monitor='val_acc', min_delta=0.01, patience=5)
modelFC5.fit(X_train, y_train, epochs=100, batch_size=best_batch_size, validation_split=best_val_split, callbacks=[es])

# Precisión en partición de test
loss, accuracy = modelFC5.evaluate(X_test, y_test)
print("Accuracy: {:0.2f}%".format(accuracy * 100))

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Accuracy: 83.33%


Hemos probado diferentes topologías para la red hasta encontrar una que ha permitido obtener unos mejores resultados. La regularización que mejor funciona, tanto para no limitar excesivamente el entrenamiento de la red como para acortar las diferencias en el accuracy en train y validation, ha sido la regularización ``L2``. Tras esto, la diferencia en accuracy en las últimas etapas se ha reducido hasta llegar al 6%.

$\color{red}{\text{Los resultados aún así oscilan bastante si se re-ejecuta el código.}}$
$\color{red}{\text{El número de capas y de neuronas un poco a ciegas...}}$

### CNN

$\color{red}{\text{¿Tiene sentido usar CNNs?}}$

Parece desaconsejado en clasificación binaria (datos numéricos).

### Autoencoder

Idea: el encoder puede ayudar a "recrear" etiquetas de los datos de test proporcionados en kaggle, del que no se dispone de la clasificación verdadera.

In [38]:
# Definir y entrenar el modelo
input_layer = layers.Input(shape=(410,))
# Capas red encoder
encoded = layers.Dense(100, activation="relu")(input_layer)
encoded = layers.Dropout(0.5)(encoded)
encoded = layers.Dense(100, activation="relu", kernel_regularizer="l2")(encoded)
encoded = layers.Dropout(0.5)(encoded)
encoded = layers.Dense(100, activation="relu", kernel_regularizer="l2")(encoded)
encoded = layers.Dropout(0.5)(encoded)
encoded = layers.Dense(100, activation="relu", kernel_regularizer="l2")(encoded)
encoded = layers.Dropout(0.5)(encoded)
encoded = layers.Dense(1, activation="sigmoid")(encoded)
# Capas red decoder
# IDEA: red simétrica
decoded = layers.Dense(50, activation="relu")(encoded)
decoded = layers.Dense(100, activation="relu")(decoded)
decoded = layers.Dense(200, activation="relu")(decoded)
decoded = layers.Dense(410, activation="sigmoid")(decoded)

# Encoder
encoder = models.Model(input_layer, encoded)

# Autoencoder (lo que nos sirve para generar las etiquetas)
autoencoder = models.Model(input_layer, decoded)

# Compilar y entrenar el autoencoder
best_batch_size= 5
best_val_split = 0.25

autoencoder.compile(optimizer="rmsprop", loss="binary_crossentropy")
autoencoder.fit(X_train, X_train, epochs=100, batch_size=best_batch_size, validation_split=best_val_split)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x1bdd6fdab80>

In [39]:
import numpy as np

# Precisión en partición de test
X_test_pred = autoencoder.predict(X_test)

X_test_matrix = np.array(X_test)
diff = X_test_matrix - X_test_pred
dims = diff.shape
total_elem = dims[0]*dims[1]
elem_no_estim = (np.abs(diff) > 0.1).sum()
print("De los {} elementos que tiene la matriz de datos de test, hay {} que no se han estimado de manera exacta ({:0.2f}%)."\
      .format(total_elem, elem_no_estim, elem_no_estim*100/total_elem))
# Hemos dado un margen de error en la precisión del [-0.1, 0.1]. 
# Igual es incluso demasiado elevado (10% en los datos de correlaciones)? SBM!!
# Métricas: mape, mse


# Precisión en partición de train
X_train_pred = autoencoder.predict(X_train)
X_train_matrix = np.array(X_train)
diff = X_train_matrix - X_train_pred
dims = diff.shape
total_elem = dims[0]*dims[1]
elem_no_estim = (np.abs(diff) > 0.1).sum()
print("De los {} elementos que tiene la matriz de datos de train, hay {} que no se han estimado de manera exacta ({:0.2f}%)."\
      .format(total_elem, elem_no_estim, elem_no_estim*100/total_elem))

De los 7380 elementos que tiene la matriz de datos de test, hay 6151 que no se han estimado de manera exacta (83.35%).
De los 27880 elementos que tiene la matriz de datos de train, hay 23589 que no se han estimado de manera exacta (84.61%).


### Variational Autoencoder

El objetivo es que la red encoder aprenda la distribución generadora de los datos.
Esto permitirá generar nuevas muestras.

In VAE, we optimize two loss functions: reconstruction loss and KL-divergence loss. We will learn about them in detail in the next section. For now, remember that the reconstruction loss ensures that the images generated by the decoder are similar to the input or the ones in the dataset. While the KL-divergence measures the divergence between a pair of probability distributions, in this case, the pair of distributions being the latent vector Z (sampled from $Z_{\mu}$ and $Z_{\sigma}$) and unit normal distribution $\mathcal{N}(0, 1)$. KL-divergence ensures that the latent-variables are close to the standard normal distribution.

Partimos de la misma red encoder, sólo que esta vez la última capa se descompone ahora en dos capas (Dense), generando concretamente los vectores mean y log_variance (latent-variables, las cuales se espera que sigan una distribución normal).

Referencia: https://learnopencv.com/variational-autoencoder-in-tensorflow/#network-fmnist

$\color{red}{\text{REVISAR ENTERO}}$

In [47]:
# Definir y entrenar el modelo
input_layer = layers.Input(shape=(410,))
# Capas red encoder
encoded = layers.Dense(100, activation="relu")(input_layer)
encoded = layers.Dropout(0.5)(encoded)
encoded = layers.Dense(100, activation="relu", kernel_regularizer="l2")(encoded)
encoded = layers.Dropout(0.5)(encoded)
encoded = layers.Dense(100, activation="relu", kernel_regularizer="l2")(encoded)
encoded = layers.Dropout(0.5)(encoded)
encoded = layers.Dense(100, activation="relu", kernel_regularizer="l2")(encoded)
encoded = layers.Dropout(0.5)(encoded)
mean = layers.Dense(2, name="mean")(encoded)
log_var = layers.Dense(2, name="log_var")(encoded)

# Red de sampleo
def sampling_reparameterization(distribution_params):
    mean, log_var = distribution_params
    epsilon = backend.random_normal(shape=backend.shape(mean), mean=0., stddev=1.)
    z = mean + backend.exp(log_var / 2) * epsilon
    return z
sample = layers.Lambda(sampling_reparameterization)([mean, log_var])
# A Lambda layer comes in handy when you want to pass a tensor to a custom function that isn’t already included in tensorflow

# Capas red decoder
decoded = layers.Dense(410, activation="sigmoid")(sample)


# Encoder
encoder = models.Model(input_layer, (mean, log_var), name="Encoder")
# Sampler 
sampler = models.Model([mean,log_var], sample,  name="Encoder_2")
# Autoencoder
autoencoder = models.Model(input_layer, decoded)

In [49]:
X_test_pred = autoencoder.predict(X_test)

X_test_matrix = np.array(X_test)
diff = X_test_matrix - X_test_pred
dims = diff.shape
total_elem = dims[0]*dims[1]
elem_no_estim = (diff < -0.1).sum() + (diff > 0.1).sum()
print("De los {} elementos que tiene la matriz de datos de test, hay {} que no se han estimado de manera exacta ({:0.2f}%)."\
      .format(total_elem, elem_no_estim, elem_no_estim*100/total_elem))

De los 7380 elementos que tiene la matriz de datos de test, hay 6308 que no se han estimado de manera exacta (85.47%).


# Create submissions

In [37]:
import pathlib
from datetime import datetime

def create_submission(pred, method, test_id=testFNC["Id"]):
    submissionDF = pd.DataFrame(list(zip(test_id, pred)), columns=["Id", "Probability"])
    print(submissionDF.shape)
#     print(submissionDF.head(10))
    current_time = datetime.now().strftime("%d-%m-%Y_%Hh%Mmin")
    current_path = pathlib.Path().resolve()
    submissionDF.to_csv(f"{current_path}\submissions\MLSP_submission_{method}_{current_time}.csv", header=True, index=False)
    
create_submission(y_pred_kaggle_XGB, "XGBoost")

(119748, 2)
