# Notebook para crear submission Ensembles

Notebook para realizar Ensembles basados en la combinación de distintas submissions basadas en distintos modelos.
1. En el fichero *ensemble_results.csv* se puede observar el detalle y resultados finales.
2. En el dataset *submissions-melanoma* de kaggle se encuentran descargadas las submissions individuales que componen el ensemble (https://www.kaggle.com/datasets/oriolbielsa/submissions-melanoma/)
3. El notebook genera los siguientes Outputs:
 - ensemble_*.csv -> Ensemble únicamente con modelos CNN
 - CNN_simple_*.csv -> Ensemble de CNN más modelo tabular simple
 - CNN_xgb_*.csv -> Ensemble de CNN más modelo tabular XGBoost

#### Dataset *submissions-melanoma* contiene:

**ENS1 - Ensemble Backbones EfficientNet**
- TTA_11 - 384x384x3 - EfficientNetB6
- TTA_19 - 384x384x3 - EfficientNetB7
- TTA_20 - 384x384x3 - EfficientNetB5
- TTA_21 - 384x384x3 - EfficientNetB4
- TTA_22 - 384x384x3 - EfficientNetB3
- TTA_23 - 384x384x3 - EfficientNetB2
- TTA_24 - 384x384x3 - EfficientNetB1
- TTA_25 - 384x384x3 - EfficientNetB0

**ENS2 - Ensemble EfficientNet B6 con distintos tamaños**
- TTA_11 - 384x384x3 - EfficientNetB6
- TTA_12 - 512x512x3 - EfficientNetB6
- TTA_16 - 768x768x3 - EfficientNetB6
- TTA_17 - 768x768x3 - EfficientNetB6
- TTA_18 - 1024x1024x3 - EfficientNetB6

**ENS3 - Ensemble EfficientNet B6 con distintos tamaños - mejorado con datos externos**
- TTA_56 - 512x512x3 - EfficientNetB6
- TTA_67 - 768x768x3 - EfficientNetB6
- TTA_90 - 384x384x3 - EfficientNetB6
- TTA_93 - 1024x1024x3 - EfficientNetB6


In [1]:
# Importamos librerías
import pandas as pd
import numpy as np

In [2]:
# Función auxiliar para generar ficheros de predicciones de test en ensembles

def create_ensemble_sub(sub_list,weight,sub_name='ensemble',detail=False):
    # Input: sub_list: array con nombre de CSV de submission; weight: array con los pesos a aplicar para cada sub; 
    #        sub_name: nombre de ensemble resultante; detail: Flag para detallar el nombre de cada fichero en submission;
    # Output: Genera fichero sub_name + detalle de cada fichero que lo conforma (si flag detail a True)
        
    # Inicializamos variable final
    sub_files = ['../input/submissions-melanoma/submission_' + sub + '.csv' for sub in sub_list]
    ensemble_sub = pd.read_csv(sub_files[0])
    
    # Iteramos para cada fichero
    for sub_file, w in zip (sub_files, weight):
        sub = pd.read_csv(sub_file)
        ensemble_sub.target = ensemble_sub.target + w*sub.target.values

    # Finalmente creamos csv
    if detail: ensemble_name = sub_name + '_' + '-'.join(sub_list) + '.csv'
    ensemble_name = sub_name + '.csv'
    ensemble_sub.to_csv(ensemble_name,index=False)


In [3]:
# Ejemplo Ensemble para ENS1

# Definimos lista de submissions que van a conformar el ensemble
sub_list = ['TTA_11', 'TTA_19', 'TTA_20', 'TTA_21', 'TTA_22', 'TTA_23', 'TTA_24', 'TTA_25', 'simple', 'xgb']

# Indicamos matriz de pesos a asignar a cada uno de los componentes del ensemble, deben sumar 1
weight = [0.2, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0, 0]
# Creamos csv para submitir un ensemble de los modelos CNN
create_ensemble_sub(sub_list,weight,'CNN_ENS1')

# Repetimos con modelo simple tabular
weight = [0.2, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0]
create_ensemble_sub(sub_list,weight,'CNN_simple_ENS1')

# Repetimos con modelo xgb tabular
weight = [0.2, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0, 0.1]
create_ensemble_sub(sub_list,weight,'CNN_xgb_ENS1')

In [4]:
# Ejemplo Ensemble para ENS2

# Definimos lista de submissions que van a conformar el ensemble
sub_list = ['TTA_11', 'TTA_12', 'TTA_16', 'TTA_17', 'TTA_18','simple', 'xgb']

# Indicamos matriz de pesos a asignar a cada uno de los componentes del ensemble, deben sumar 1
weight = [0.166, 0.166, 0.166, 0.166, 0, 0]
# Creamos csv para submitir un ensemble de los modelos CNN
create_ensemble_sub(sub_list,weight,'CNN_ENS2')

# Repetimos con modelo simple tabular
weight = [0.166, 0.166, 0.166, 0.166, 0.17, 0]
create_ensemble_sub(sub_list,weight,'CNN_simple_ENS2')

# Repetimos con modelo xgb tabular
weight = [0.166, 0.166, 0.166, 0.166, 0, 0.17]
create_ensemble_sub(sub_list,weight,'CNN_xgb_ENS2')

In [5]:
# Ejemplo Ensemble para ENS3

# Definimos lista de submissions que van a conformar el ensemble
sub_list = ['TTA_90', 'TTA_56', 'TTA_67', 'TTA_93', 'simple', 'xgb']

# Indicamos matriz de pesos a asignar a cada uno de los componentes del ensemble, deben sumar 1
weight = [0.15, 0.15, 0.15, 0.15, 0, 0]
# Creamos csv para submitir un ensemble de los modelos CNN
create_ensemble_sub(sub_list,weight,'CNN_ENS3')

# Repetimos con modelo simple tabular
weight = [0.15, 0.15, 0.15, 0.15, 0.4, 0]
create_ensemble_sub(sub_list,weight,'CNN_simple_ENS3')

# Repetimos con modelo xgb tabular
weight = [0.15, 0.15, 0.15, 0.15, 0, 0.4]
create_ensemble_sub(sub_list,weight,'CNN_xgb_ENS3')