## Estadísticos medios del tiempo de ejecución

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from tabulate import tabulate
import numpy as np
import re
import ast

In [70]:
dfs_time = {
    'CBP_HARD_iter_search' : pd.read_csv('Tiempos_ejecucion_busqueda/CBP_HARD_iter_search.csv'),
    'CBP_HARD_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/CBP_HARD_new_alg.csv'),
    'SBP_HARD_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_HARD_new_alg.csv'),
    'SBP_MEDIUM_iter_search': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_MEDIUM_iter_search.csv'),
    'SBP_MEDIUM_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_MEDIUM_new_alg.csv'),
}

In [13]:
for df_name, df in dfs_time.items():
    print(df_name)
    print(df.head())

CBP_HARD_iter_search
   Depth  Reeval_level  N_best  percentage  percentage_epsilon   Time(s)
0      2             1     5.0         NaN                 NaN  1.651105
1      2             1     5.0         NaN                 NaN  0.772296
2      2             1     5.0         NaN                 NaN  0.890717
3      2             1     5.0         NaN                 NaN  0.801277
4      2             1     5.0         NaN                 NaN  0.786368
CBP_HARD_new_alg
   Depth  Reeval_level   Time(s)
0      2             1  2.050058
1      2             1  2.080781
2      2             1  3.120091
3      2             1  2.537949
4      2             1  1.942333
SBP_HARD_new_alg
   Depth  Reeval_level   Time(s)
0      2             1  2.944733
1      2             1  2.645045
2      2             1  1.328618
3      2             1  2.130538
4      2             1  1.216821
SBP_MEDIUM_iter_search
   Depth  Reeval_level  N_best  percentage  percentage_epsilon   Time(s)
0      2       

Para un mejor manejo de los datos vamos a partir los df con los resultados de búsqueda iterativa en tres, de tal forma que la columna que indica qué tipo de búsqueda es será distinta en cada uno de los tres dfs. Por ejemplo, el primer df tendrá las filas en las que N_best no tenga NaN, ídem con percentage en el segundo df e ídem con percentage_epsilon en el tercer df.

In [73]:
for df_name, df in list(dfs_time.items()):
    print(df_name)
    if 'iter_search' in df_name:
        # Separamos el DataFrame en tres según la columna no nula
        df_n_best = df[df['N_best'].notna()]
        df_percentage = df[df['percentage'].notna()]
        df_percentage_epsilon = df[df['percentage_epsilon'].notna()]

        # Eliminamos el DataFrame original
        del dfs_time[df_name]

        # Guardamos los nuevos DataFrames con nombres actualizados
        dfs_time[df_name + '_N_best'] = df_n_best
        dfs_time[df_name + '_percentage'] = df_percentage
        dfs_time[df_name + '_percentage_epsilon'] = df_percentage_epsilon
        

CBP_HARD_iter_search
CBP_HARD_new_alg
SBP_HARD_new_alg
SBP_MEDIUM_iter_search
SBP_MEDIUM_new_alg


In [79]:
for df_name in dfs_time.keys():
    print(df_name)

CBP_HARD_new_alg
SBP_HARD_new_alg
SBP_MEDIUM_new_alg
CBP_HARD_iter_search_N_best
CBP_HARD_iter_search_percentage
CBP_HARD_iter_search_percentage_epsilon
SBP_MEDIUM_iter_search_N_best
SBP_MEDIUM_iter_search_percentage
SBP_MEDIUM_iter_search_percentage_epsilon


Para hacer el cálculo agrupamos por tipo de algoritmo (si es búsqueda iterativa por el tipo de búsqueda hecha) y se calculan los estadísticos de media y desviación típica de cada grupo

In [76]:
# Aplicamos describe solo a la columna Time(s). En el caso de búsqueda iterativa primero se agrupa por tipo de búsqueda hecha
# esto es, de las columnas N_best, percentage y percentage_epsilon, la que no tenga NaN

for df_name, df in dfs_time.items():
    print(df_name)
    print(df['Time(s)'].describe())
    

CBP_HARD_new_alg
count    3135.000000
mean      110.524923
std       195.010182
min         0.640506
25%         4.212070
50%        23.497549
75%       123.655876
max      2133.665426
Name: Time(s), dtype: float64
SBP_HARD_new_alg
count    5790.000000
mean      253.132015
std       413.013939
min         0.801895
25%        13.307886
50%        53.683266
75%       339.856753
max      3870.149595
Name: Time(s), dtype: float64
SBP_MEDIUM_new_alg
count    1140.000000
mean       89.253413
std       179.937715
min         0.551529
25%         3.156762
50%        15.676966
75%        86.201465
max      1584.341226
Name: Time(s), dtype: float64
CBP_HARD_iter_search_N_best
count    25080.000000
mean        10.507159
std         18.111765
min          0.406416
25%          1.782940
50%          3.762133
75%         10.980262
max        225.497712
Name: Time(s), dtype: float64
CBP_HARD_iter_search_percentage
count    20900.000000
mean        28.586939
std         85.773675
min          0.385917

## Tiempos específicos para AP de mejor configuración (Depth=2, Preeval=4)

In [4]:
dfs_time = {
    'CBP_HARD_iter_search' : pd.read_csv('Tiempos_ejecucion_busqueda/CBP_HARD_iter_search.csv'),
    'CBP_HARD_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/CBP_HARD_new_alg.csv'),
    'SBP_HARD_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_HARD_new_alg.csv'),
    'SBP_MEDIUM_iter_search': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_MEDIUM_iter_search.csv'),
    'SBP_MEDIUM_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_MEDIUM_new_alg.csv'),
}

In [13]:
# Nos quedamos solo con los datos de las columnas Depth, Reeval_level, N_best y Time(s) de los
# df leidos anteriormente

columns_to_keep = ['Depth', 'Reeval_level', 'Time(s)', 'Preeval']

dfs_time_AP = {
    name: df[columns_to_keep].copy()
    for name, df in dfs_time.items()
    if all(col in df.columns for col in columns_to_keep)
} 


print(dfs_time_AP)

{'CBP_HARD_iter_search':        Depth  Reeval_level     Time(s)  Preeval
0          2             1    1.651105        3
1          2             1    0.772296        3
2          2             1    0.890717        3
3          2             1    0.801277        3
4          2             1    0.786368        3
...      ...           ...         ...      ...
58515      5             4   52.769647       10
58516      5             4  104.361681       10
58517      5             4  114.808308       10
58518      5             4  176.844006       10
58519      5             4   33.610304       10

[58520 rows x 4 columns], 'CBP_HARD_new_alg':       Depth  Reeval_level     Time(s)  Preeval
0         2             1    2.050058        3
1         2             1    2.080781        3
2         2             1    3.120091        3
3         2             1    2.537949        3
4         2             1    1.942333        3
...     ...           ...         ...      ...
3130      4            

In [22]:
resultados = {}

for dataset, df in dfs_time_AP.items():
    filtro = df[(df['Depth'] == 2) & (df['Preeval'] == 4)]
    if not filtro.empty:
        media = filtro['Time(s)'].mean()
        desviacion = filtro['Time(s)'].std()
        resultados[dataset] = (media, desviacion)

# Mostrar resultados
for k, v in resultados.items():
    print(f"{k}: Media = {v[0]:.4f}s, Desviación típica = {v[1]:.4f}s")

CBP_HARD_iter_search: Media = 1.2034s, Desviación típica = 0.4612s
CBP_HARD_new_alg: Media = 2.6071s, Desviación típica = 0.9645s
SBP_HARD_new_alg: Media = 4.5353s, Desviación típica = 1.2824s
SBP_MEDIUM_iter_search: Media = 2.0165s, Desviación típica = 0.7061s
SBP_MEDIUM_new_alg: Media = 1.9504s, Desviación típica = 0.8680s


## Tiempos específicos para IAP-N_best

IAP-N_best es el que mejor métricas medias obtiene, por lo que se trabajará solo sobre él

In [2]:
dfs_time = {
    'CBP_HARD_iter_search' : pd.read_csv('Tiempos_ejecucion_busqueda/CBP_HARD_iter_search.csv'),
    'CBP_HARD_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/CBP_HARD_new_alg.csv'),
    'SBP_HARD_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_HARD_new_alg.csv'),
    'SBP_MEDIUM_iter_search': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_MEDIUM_iter_search.csv'),
    'SBP_MEDIUM_new_alg': pd.read_csv('Tiempos_ejecucion_busqueda/SBP_MEDIUM_new_alg.csv'),
}

In [5]:
# Nos quedamos solo con los datos de las columnas Depth, Reeval_level, N_best y Time(s) de los
# df leidos anteriormente

columns_to_keep = ['Depth', 'Reeval_level', 'N_best', 'Time(s)', 'Preeval']

dfs_time_N_best = {
    name: df[columns_to_keep].copy()
    for name, df in dfs_time.items()
    if all(col in df.columns for col in columns_to_keep)
} 

# Ahora eliminamos las filas en que la columna N_best es NaN por ser otro método como percentage

dfs_time_N_best = {
    name: df[df['N_best'].notna()]
    for name, df in dfs_time_N_best.items()
}

print(dfs_time_N_best)

{'CBP_HARD_iter_search':        Depth  Reeval_level  N_best     Time(s)  Preeval
0          2             1     5.0    1.651105        3
1          2             1     5.0    0.772296        3
2          2             1     5.0    0.890717        3
3          2             1     5.0    0.801277        3
4          2             1     5.0    0.786368        3
...      ...           ...     ...         ...      ...
56843      5             4    10.0   66.987415       10
56844      5             4    10.0   33.327248       10
56845      5             4    10.0  175.490846       10
56846      5             4    10.0  113.143441       10
56847      5             4    10.0   18.755416       10

[25080 rows x 5 columns], 'SBP_MEDIUM_iter_search':        Depth  Reeval_level  N_best     Time(s)  Preeval
0          2             1     5.0    2.696931        3
1          2             1     5.0    1.024059        3
2          2             1     5.0    1.028491        3
3          2             1

Ya tenemos los datos necesarios para encontrar el tiempo. Ahora vamos a agrupar de forma que nos quede una tabla por cada Preeval

In [125]:
# Dataset específico
dataset_objetivo = 'CBP_HARD_new_alg'

# Procesar sin agrupación previa
dfs_sin_agrupacion = {
    name: df.reset_index(drop=True)
    for name, df in dfs_time.items()
}

# Filtrar y calcular la media de tiempos por (Depth, Preeval)
for dataset_name, df in dfs_sin_agrupacion.items():
    if dataset_name == dataset_objetivo:
        print(f"### Dataset: {dataset_name} ###")

        grouped_mean = (
            df.groupby(['Depth', 'Preeval'])['Time(s)']
            .mean()
            .reset_index()
            .sort_values(by=['Preeval', 'Depth'])
        )

        print(grouped_mean)


### Dataset: CBP_HARD_new_alg ###
    Depth  Preeval     Time(s)
0       2        2    1.552324
6       3        2   31.578098
12      4        2  708.903160
1       2        3    2.072129
7       3        3   17.446729
13      4        3  214.515116
2       2        4    2.607146
8       3        4   21.928698
14      4        4  251.660698
3       2        5    3.081770
9       3        5   25.944926
15      4        5  286.464729
4       2        7    3.968819
10      3        7   32.725061
16      4        7  335.320629
5       2       10    5.232604
11      3       10   41.683720
17      4       10  404.847936


In [107]:
preeval_objetivo = 7

dfs_grouped_by_preeval = {
    name: {
        preeval: group.reset_index(drop=True)
        for preeval, group in df.groupby('Preeval')
    }
    for name, df in dfs_time_N_best.items()
}

for dataset_name, preeval_groups in dfs_grouped_by_preeval.items():
    if dataset_name == 'SBP_MEDIUM_iter_search' and preeval_objetivo in preeval_groups:
        df_group = preeval_groups[preeval_objetivo]
        print(f"### Dataset: {dataset_name} | Preeval = {preeval_objetivo} ###")

        # Agrupar por Depth, Reeval_level y N_best, y calcular la media de Time(s)
        grouped_mean = (
            df_group.groupby(['Depth', 'Reeval_level', 'N_best'])['Time(s)']
            .mean()
            .reset_index()
            .sort_values(by='Time(s)')
        )

        print(grouped_mean)



### Dataset: SBP_MEDIUM_iter_search | Preeval = 7 ###
    Depth  Reeval_level  N_best     Time(s)
0       2             1     5.0    2.948605
1       2             1     6.0    3.025111
2       2             1     7.0    3.208740
3       2             1     8.0    3.298984
4       2             1     9.0    3.399660
5       2             1    10.0    3.502620
6       3             2     5.0    4.705912
7       3             2     6.0    5.530588
8       3             2     7.0    6.402920
9       3             2     8.0    7.332316
10      3             2     9.0    8.403808
11      3             2    10.0    9.475159
12      4             3     5.0    9.700657
13      4             3     6.0   13.021969
14      4             3     7.0   17.318687
18      5             4     5.0   21.683040
15      4             3     8.0   22.518575
16      4             3     9.0   28.523040
19      5             4     6.0   33.507694
17      4             3    10.0   36.164472
20      5             

Acto seguido se obtendrá el tiempo medio de cada una de las tablas anteriores (había una por Preeval)

In [17]:
mean_times_by_preeval = {}

for dataset_name, preeval_groups in dfs_grouped_by_preeval.items():
    print(f"\n### Tiempos medios y desviaciones típicas de IAP-N_best para dataset: {dataset_name} ###")
    mean_times_by_preeval[dataset_name] = {}
    
    for preeval_value, df_group in preeval_groups.items():
        mean_time = df_group['Time(s)'].mean()
        std_time = df_group['Time(s)'].std()
        
        # Guardar ambos valores en un diccionario
        mean_times_by_preeval[dataset_name][preeval_value] = {
            'mean': mean_time,
            'std': std_time
        }

        print(f"Preeval = {preeval_value}: Tiempo medio = {mean_time:.4f} s | Desviación típica = {std_time:.4f} s")



### Tiempos medios y desviaciones típicas de IAP-N_best para dataset: CBP_HARD_iter_search ###
Preeval = 2: Tiempo medio = 2.0794 s | Desviación típica = 2.0316 s
Preeval = 3: Tiempo medio = 6.2164 s | Desviación típica = 9.2200 s
Preeval = 4: Tiempo medio = 7.6051 s | Desviación típica = 11.3208 s
Preeval = 5: Tiempo medio = 9.3014 s | Desviación típica = 14.2623 s
Preeval = 7: Tiempo medio = 12.3434 s | Desviación típica = 19.4196 s
Preeval = 10: Tiempo medio = 17.3498 s | Desviación típica = 27.9131 s

### Tiempos medios y desviaciones típicas de IAP-N_best para dataset: SBP_MEDIUM_iter_search ###
Preeval = 3: Tiempo medio = 10.9803 s | Desviación típica = 15.6708 s
Preeval = 4: Tiempo medio = 14.4984 s | Desviación típica = 20.9947 s
Preeval = 5: Tiempo medio = 17.8560 s | Desviación típica = 26.2097 s
Preeval = 7: Tiempo medio = 24.6079 s | Desviación típica = 36.9412 s
Preeval = 10: Tiempo medio = 34.5586 s | Desviación típica = 52.9823 s


### Selección de mejores modelos

Algoritmo base: Profundidad 2 y 4 preevaluaciones

Algoritmo iterativo: Profundidad 2, 4 preevaluaciones y N_best a 5