# Anàlisis dels paràmetres de l’algorisme PSO per a la imputació de dades
Aquest notebook està dedicat a l’estudi dels paràmetres de l’algorisme Particle Swarm Optimization (PSO) aplicat a la imputació de valors absents. S’hi exploren diferents combinacions de paràmetres per tal de trobar la configuració òptima que maximitzi el rendiment de l’algorisme, avaluant resultats mitjançant mètriques com el fitness i el temps d’execució.

In [None]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import os

In [None]:
df_small = pd.read_excel('TuningResults.xlsx', sheet_name='DatasetSmall')
df_medium = pd.read_excel('TuningResults.xlsx', sheet_name='DatasetMedium')
df_big = pd.read_excel('TuningResults.xlsx', sheet_name='DatasetBig')

df_small['dataset_size'] = 'Dataset A'
df_medium['dataset_size'] = 'Dataset B'
df_big['dataset_size'] = 'Dataset C'

changes = {
    'MeanRandom': 'Híbrid',
    'Random': 'Aleatòria',
    'BoundedRandom': 'Acotada'
}

df_small['init_name'] = df_small['init_name'].replace(changes)
df_medium['init_name'] = df_medium['init_name'].replace(changes)
df_big['init_name'] = df_big['init_name'].replace(changes)

df_all = pd.concat([df_small, df_medium, df_big], ignore_index=True)

grouped = df_all.groupby(['init_name', 'dataset_size'])['fitness'].mean().reset_index()

In [None]:
os.mkdir('figures')

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(data=grouped, x='init_name', y='fitness', hue='dataset_size', palette='Set2')
plt.title('Fitness Mitjà per Tipus d\'Inicialització i Mida de Dataset')
plt.xlabel('Tipus d\'Inicialització')
plt.ylabel('Fitness Mitjà')
plt.legend(title='Mida del Dataset')
plt.savefig("figures/barplot_fitness_mitjà_vs_tipus_ini_dataset_all.png")
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.scatterplot(data=df_small, x='initial_fitness', y='fitness', hue='init_name', palette='Dark2')
plt.title('Fitness Inicial vs Fitness Final (Dataset A)')
plt.xlabel('Fitness Inicial')
plt.ylabel('Fitness Final')
plt.grid(True)
plt.tight_layout()
plt.savefig("figures/scatter_fitness_final_vs_fitness_ini_dataset_small.png")
plt.show()

In [None]:

plt.figure(figsize=(8, 5))
sns.boxplot(data=df_small, x='init_name', y='fitness', palette='Set2')
plt.title('Distribució del Fitness per Inicialització (Dataset A)')
plt.xlabel('Inicialització')
plt.ylabel('Fitness')
plt.tight_layout()
plt.savefig("figures/boxplot_fitness_small.png")
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.violinplot(data=df_small, x='init_name', y='fitness', palette='Set2', inner='box')
plt.title('Densitat del Fitness per Inicialització (Dataset A)')
plt.xlabel('Inicialització')
plt.ylabel('Fitness')
plt.tight_layout()
plt.savefig("figures/violin_fitness_small.png")
plt.show()

In [None]:
grouped = df_small.groupby('particles')['fitness'].mean().reset_index()

plt.figure(figsize=(6, 4))
sns.lineplot(data=grouped, x='particles', y='fitness', marker='o')
plt.title('Fitness Mitjà segons Partícules (Dataset A)')
plt.xlabel('Partícules')
plt.ylabel('Fitness')
plt.grid(True)
plt.tight_layout()
plt.savefig("figures/lineplot_particles_small.png")
plt.show()

In [None]:
grouped = df_small.groupby('iterations')['fitness'].mean().reset_index()

plt.figure(figsize=(6, 4))
sns.lineplot(data=grouped, x='iterations', y='fitness', marker='o')
plt.title('Fitness Mitjà segons Iteracions (Dataset A)')
plt.xlabel('Iteracions')
plt.ylabel('Fitness')
plt.grid(True)
plt.tight_layout()
plt.savefig("figures/lineplot_iterations_small.png")
plt.show()

In [None]:
grouped = df_small.groupby('w')['fitness'].mean().reset_index()

plt.figure(figsize=(6, 4))
sns.lineplot(data=grouped, x='w', y='fitness', marker='o')
plt.title('Fitness Mitjà segons Pes d\'Inèrcia (w) (Dataset A)')
plt.xlabel('Pes d\'inèrcia (w)')
plt.ylabel('Fitness')
plt.grid(True)
plt.tight_layout()
plt.savefig("figures/lineplot_w_small.png")
plt.show()


In [None]:
grouped = df_small.groupby('velocity_ratio')['fitness'].mean().reset_index()

plt.figure(figsize=(6, 4))
sns.lineplot(data=grouped, x='velocity_ratio', y='fitness', marker='o')
plt.title('Fitness Mitjà segons Velocity Ratio (Dataset A)')
plt.xlabel('Velocity Ratio')
plt.ylabel('Fitness')
plt.grid(True)
plt.tight_layout()
plt.savefig("figures/lineplot_velocity_ratio_small.png")
plt.show()


In [None]:
pivot = df_small.pivot_table(index='particles', columns='iterations', values='fitness', aggfunc='mean')

plt.figure(figsize=(8, 6))
sns.heatmap(pivot, annot=True, fmt=".4f", cmap='YlGnBu')
plt.title('Heatmap de Fitness Mitjà (Partícules × Iteracions)')
plt.xlabel('Iteracions')
plt.ylabel('Partícules')
plt.tight_layout()
plt.savefig("figures/heatmap_particles_iterations_small.png")
plt.show()


In [None]:


df_all = pd.concat([df_small, df_medium, df_big], ignore_index=True)

grouped_time = df_all.groupby(['init_name', 'dataset_size'])['time_sec'].mean().reset_index()

plt.figure(figsize=(8, 5))
sns.barplot(data=grouped_time, x='init_name', y='time_sec', hue='dataset_size', palette='Set3')
plt.title('Temps mitjà per Inicialització i Mida del Dataset')
plt.xlabel('Inicialització')
plt.ylabel('Temps (segons)')
plt.tight_layout()
plt.savefig("figures/barplot_time_init_datasets.png")
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.barplot(data=grouped_time, x='init_name', y='time_sec', hue='dataset_size', palette='Set3')
plt.yscale('log')
plt.title('Temps mitjà (escala log) per Inicialització i Mida del Dataset')
plt.xlabel('Inicialització')
plt.ylabel('Temps (log segons)')
plt.tight_layout()
plt.savefig("figures/barplot_time_init_datasets_log.png")
plt.show()

In [None]:
plt.figure(figsize=(6, 4))
sns.boxplot(data=df_small, x='init_name', y='time_sec', palette='Set2', showfliers=False)
plt.title('Distribució del Temps (Dataset A)')
plt.xlabel('Inicialització')
plt.ylabel('Temps (s)')
plt.tight_layout()
plt.savefig("figures/boxplot_time_small.png")
plt.show()

In [None]:
df_medium['time_hr'] = df_medium['time_sec'] / 3600

plt.figure(figsize=(6, 4))
sns.boxplot(data=df_medium, x='init_name', y='time_hr', palette='Set2', showfliers=False)
plt.title('Distribució del Temps (Dataset B)')
plt.xlabel('Inicialització')
plt.ylabel('Temps (h)')
plt.tight_layout()
plt.savefig("figures/boxplot_time_medium.png")
plt.show()

In [None]:
df_big['time_hr'] = df_big['time_sec'] / 3600

plt.figure(figsize=(6, 4))
sns.boxplot(data=df_big, x='init_name', y='time_hr', palette='Set2', showfliers=False)
plt.title('Distribució del Temps (Dataset C)')
plt.xlabel('Inicialització')
plt.ylabel('Temps (h)')
plt.tight_layout()
plt.savefig("figures/boxplot_time_big.png")
plt.show()


In [None]:
plt.figure(figsize=(8, 5))
sns.scatterplot(data=df_all, x='time_sec', y='fitness', hue='dataset_size', style='init_name', palette='Dark2')
plt.title('Temps d\'Execució vs Fitness per Dataset i Inicialització')
plt.xlabel('Temps (s)')
plt.ylabel('Fitness')
plt.grid(True)
plt.tight_layout()
plt.savefig("figures/scatter_time_vs_fitness_all_datasets.png")
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.scatterplot(data=df_all, x='time_sec', y='fitness', hue='dataset_size', style='init_name', palette='Dark2')
plt.xscale('log')
plt.title('Temps vs Fitness amb escala log (tots els datasets)')
plt.xlabel('Temps (log segons)')
plt.ylabel('Fitness')
plt.tight_layout()
plt.savefig("figures/scatter_time_vs_fitness_all_datasets_logx.png")
plt.show()

In [None]:
for dset, name in zip([df_small, df_medium, df_big], ['Dataset A', 'Dataset B', 'Dataset C']):
    plt.figure(figsize=(6, 4))
    sns.scatterplot(data=dset, x='time_sec', y='fitness', hue='init_name', palette='Dark2')
    plt.title(f'Temps vs Fitness ({name})')
    plt.xlabel('Temps (segons)')
    plt.ylabel('Fitness')
    plt.tight_layout()
    plt.savefig(f"figures/scatter_time_vs_fitness_{name.replace(' ', '_').lower()}.png")
    plt.show()


In [None]:
df_ratio = df_small[df_small['init_name'] == 'Híbrid']

df_ratio_grouped = df_ratio.groupby('ratio')['fitness'].mean().reset_index()

plt.figure(figsize=(6, 4))
sns.lineplot(data=df_ratio_grouped, x='ratio', y='fitness', marker='o')
plt.title("Fitness mitjà segons la ràtio d’aleatorietat")
plt.xlabel("Ràtio d’aleatorietat")
plt.ylabel("Fitness mitjà final")
plt.grid(True)
plt.tight_layout()
plt.savefig("figures/lineplot_fitness_vs_ratio_small.png")
plt.show()