In [None]:
from google.colab import drive
drive.mount('/content/drive')

### **Robustezza ($\rho$), fairness ($\varphi$) e sicurezza ($\sigma$) complessivi**

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Carica i dati
df_s_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/s_rate_fill_the_blank.csv', index_col=0)
df_cs_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/cs_rate_fill_the_blank.csv', index_col=0)
df_d_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/d_rate_fill_the_blank.csv', index_col=0)
df_r_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/r_rate_fill_the_blank.csv', index_col=0)

df_s_a = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/s_rate_assignment.csv', index_col=0)
df_cs_a = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/cs_rate_assignment.csv', index_col=0)
df_d_a = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/d_rate_assignment.csv', index_col=0)
df_r_a = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/r_rate_assignment.csv', index_col=0)

# Rimuovi la riga 'llama2:7b' da ogni DataFrame
for df in [df_s_f, df_cs_f, df_d_f, df_r_f, df_s_a, df_cs_a, df_d_a, df_r_a]:
    df.drop('llama2:7b', axis=0, inplace=True)

df_s = 0.5 * (df_s_f + df_s_a)
df_cs = 0.5 * (df_cs_f + df_cs_a)
df_d = 0.5 * (df_d_f + df_d_a)
df_r = 0.5 * (df_r_f + df_r_a)

# Calcola le metriche
robustezza = df_r + df_d
fairness = 1 - (df_s - df_cs).abs()
sicurezza = 0.5 * (robustezza + fairness)

robustezza_tot = robustezza.mean(axis=1).round(2)
fairness_tot = fairness.mean(axis=1).round(2)
sicurezza_tot = sicurezza.mean(axis=1).round(2)

# Definiamo le categorie dei modelli
small_models = ["gemma2:2b", "phi3:3.8b"]
medium_models = ["llama3.1:8b", "mistral"]
large_models = ["gpt-3.5-turbo", "llama3-70b"]


colors = {
    "small": "#B22222",  # Rosso mattone
    "medium": "#2E8B57",  # Verde mare scuro
    "large": "#4682B4"   # Blu acciaio
}



# Etichette sull'asse x
xticks_labels = ["Gemma2 2B", "Phi3 3.8B", "Llama3.1 8B", "Mistral", "Gpt-3.5 Turbo", "Llama3 70B"]

def plot_metric(ax, df_metric, title, remove_y_ticks=False):
    # Ottieni la dimensione del modello per determinare il colore
    colors_bars = [
        colors["small"] if model in small_models else
        colors["medium"] if model in medium_models else
        colors["large"]
        for model in df_metric.index
    ]

    # Crea il plot sul subplot specifico
    bars = ax.bar(df_metric.index, df_metric.values, color=colors_bars)

    # Aggiungi i valori sopra le barre e separa leggermente il numero dalla barra
    for bar in bars:
        yval = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2, yval + 0.03, round(yval, 2), ha='center', va='bottom', fontsize=16, color='black')

    # Imposta le etichette, titolo e formato
    ax.set_xticks(range(len(xticks_labels)))
    ax.set_xticklabels(xticks_labels, rotation=45, ha='right', fontsize=16)
    ax.set_title(title, fontsize=20)  # Titolo con font size 20

    # Imposta l'asse y da 0 a 1.0
    ax.set_ylim(0, 1.0)

    # Rimuovi le etichette y se necessario
    if remove_y_ticks:
        ax.set_yticklabels([])

    ax.tick_params(axis='y', labelsize=16)

    # Aumenta lo spazio tra le barre di misure diverse
    ax.set_xlim([-0.5, len(xticks_labels) - 0.5])

# Crea una figura con 3 subplot in una riga
fig, axs = plt.subplots(1, 3, figsize=(18, 6))

# Crea i plot per robustezza_tot, fairness_tot e sicurezza_tot
plot_metric(axs[0], robustezza_tot, "Robustezza")
plot_metric(axs[1], fairness_tot, "Fairness", remove_y_ticks=True)
plot_metric(axs[2], sicurezza_tot, "Sicurezza", remove_y_ticks=True)

# Aggiungi la legenda fuori dai subplot per un'unica legenda condivisa
handles = [plt.Line2D([0], [0], color=color, lw=15) for color in colors.values()]
labels = ["Piccolo", "Medio", "Grande"]
fig.legend(handles, labels, loc='upper center', fontsize=18, ncol=3, bbox_to_anchor=(0.5, 1.15))

plt.tight_layout(rect=[0, 0, 1, 0.95])  # Adjust layout to make space for the legend

# Salva la figura come PDF
plt.savefig('/content/drive/MyDrive/Tesi/Immagini/Overall_scores.pdf', bbox_inches='tight')

plt.show()

### **Prompt standard: robustezza ($\rho$), fairness ($\varphi$) e punteggio di sicurezza ($\sigma$) per categoria di prompt ($c\in\mathcal{C}$) e di bias ($b\in\mathcal{B}$)**

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Carica i dati
df_s_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/s_rate_fill_the_blank.csv', index_col=0)
df_cs_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/cs_rate_fill_the_blank.csv', index_col=0)
df_d_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/d_rate_fill_the_blank.csv', index_col=0)
df_r_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/r_rate_fill_the_blank.csv', index_col=0)

df_s_a = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/s_rate_assignment.csv', index_col=0)
df_cs_a = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/cs_rate_assignment.csv', index_col=0)
df_d_a = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/d_rate_assignment.csv', index_col=0)
df_r_a = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/r_rate_assignment.csv', index_col=0)


# Rimuovi la riga 'llama2:7b' da ogni DataFrame
for df in [df_s_f, df_cs_f, df_d_f, df_r_f, df_s_a, df_cs_a, df_d_a, df_r_a]:
    df.drop('llama2:7b', axis=0, inplace=True)

# Calcola le metriche
robustezza_f = df_r_f + df_d_f
fairness_f = 1 - (df_s_f - df_cs_f).abs()
sicurezza_f = 0.5 * (robustezza_f + fairness_f)

robustezza_a = df_r_a + df_d_a
fairness_a = 1 - (df_s_a - df_cs_a).abs()
sicurezza_a = 0.5 * (robustezza_a + fairness_a)

# Funzione per formattare le annotazioni
def custom_format(val):
    if val == int(val):
        return f"{int(val)}"
    elif (val * 100) % 10 == 0:
        return f"{val:.1f}"
    else:
        return f"{val:.2f}"

# Etichette dell'asse delle y
yticks_labels = ["Gemma2 2B", "Phi3 3.8B", "Llama3.1 8B", "Mistral", "Gpt-3.5 Turbo", "Llama3 70B"]

# Nuove etichette per l'asse x
xticks_labels = ["Etnia", "Età", "Genere", "Orientamento ses.", "Disabilità", "Religione", "Socioeconomico"]

# Crea una figura con sei subplot utilizzando gridspec
fig = plt.figure(figsize=(16, 8))
gs = fig.add_gridspec(2, 3, height_ratios=[1, 1], width_ratios=[1, 1, 1.2])

# Crea gli assi
axes = [fig.add_subplot(gs[i, j]) for i in range(2) for j in range(3)]

cmap = sns.color_palette("Blues", as_cmap=True)

# Prima riga (Completamento)
heatmap1 = sns.heatmap(robustezza_f, ax=axes[0], cmap=cmap, annot=True, fmt='', cbar=False, annot_kws={"size":12})
axes[0].set_title('Robustezza', fontsize=16)
axes[0].set_yticklabels(yticks_labels, fontsize=14)
axes[0].set_xticklabels([])

heatmap2 = sns.heatmap(fairness_f, ax=axes[1], cmap=cmap, annot=True, fmt='', cbar=False, annot_kws={"size":12})
axes[1].set_title('Fairness', fontsize=16)
axes[1].set_yticklabels([])
axes[1].set_xticklabels([])

heatmap3 = sns.heatmap(sicurezza_f, ax=axes[2], cmap=cmap, annot=True, fmt='', cbar=True, annot_kws={"size":14})
axes[2].set_title('Sicurezza', fontsize=16)
axes[2].set_yticklabels([])
axes[2].set_xticklabels([])

# Seconda riga (Assegnamento)
heatmap4 = sns.heatmap(robustezza_a, ax=axes[3], cmap=cmap, annot=True, fmt='', cbar=False, annot_kws={"size":12})
axes[3].set_yticklabels(yticks_labels, fontsize=14)
axes[3].set_xticklabels(xticks_labels, rotation=45, ha='right', fontsize=14)

heatmap5 = sns.heatmap(fairness_a, ax=axes[4], cmap=cmap, annot=True, fmt='', cbar=False, annot_kws={"size":12})
axes[4].set_yticklabels([])
axes[4].set_xticklabels(xticks_labels, rotation=45, ha='right', fontsize=14)

heatmap6 = sns.heatmap(sicurezza_a, ax=axes[5], cmap=cmap, annot=True, fmt='', cbar=True, annot_kws={"size":14})
axes[5].set_yticklabels([])
axes[5].set_xticklabels(xticks_labels, rotation=45, ha='right', fontsize=14)

# Aggiorna le annotazioni con il formato personalizzato
for heatmap in [heatmap1, heatmap2, heatmap3, heatmap4, heatmap5, heatmap6]:
    for text in heatmap.texts:
        val = float(text.get_text())
        text.set_text(custom_format(val))
        text.set_fontsize(14)  # Aumenta la dimensione del font delle annotazioni

# Rimuovi l'etichetta dell'asse y (Model) per tutti gli assi
for ax in axes:
    ax.set_ylabel('')

# Modifica la dimensione dei numeri nella colorbar
for cbar in [heatmap3.collections[0].colorbar, heatmap6.collections[0].colorbar]:
    cbar.ax.tick_params(labelsize=14)

# Riduci lo spazio tra le righe
plt.subplots_adjust(wspace=0.1, hspace=0.1)  # Riduci lo spazio tra le righe

plt.savefig('/content/drive/MyDrive/Tesi/Immagini/Standard_combined.pdf', bbox_inches='tight')

# Mostra il grafico
plt.tight_layout()
plt.show()


### **Tasso di successo ($\tau$) e di neutralità ($\nu$)**

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Carica i dati
success = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/success_rate.csv', index_col=0)

# Rinomina gli indici
success.rename(index={"Fill the blank": "Completamento", "Assignment": "Assegnamento"}, inplace=True)

# Rinomina le colonne
success.rename(columns={"Success Rate": "Tasso di successo", "Unsuccess Rate": "Tasso di neutralità"}, inplace=True)

# Riordina le colonne per assicurare che "Tasso di successo" venga prima
success = success[["Tasso di successo", "Tasso di neutralità"]]

# Imposta lo stile e le dimensioni del font
sns.set(style="whitegrid")
plt.rcParams.update({'font.size': 18})  # Imposta la dimensione del font generale a 14

# Definisci i colori desiderati
colors = ["#B22222", "#4682B4"]  # Rosso mattone e blu acciaio

# Crea il plot
plt.figure(figsize=(12, 6))  # Imposta la dimensione del grafico, più allungata orizzontalmente
ax = success.iloc[:, ::-1].plot(kind='barh', width=0.3, color=colors, figsize=(12, 6))

# Configura l'asse x
plt.xlim(0, 1.1)

# Rimuove il titolo e le etichette degli assi
ax.set_title("")
ax.set_xlabel("")
ax.set_ylabel("")

# Rimuove la griglia
ax.grid(False)

# Aggiunge i valori vicino alle barre
for i in ax.containers:
    ax.bar_label(i, fmt='%.2f', label_type='edge', padding=3)

# Imposta il font dei tick delle assi a 14
ax.tick_params(axis='both', labelsize=18)

# Imposta il font della legenda a 14 e assicura l'ordine corretto
handles, labels = ax.get_legend_handles_labels()
ax.legend(handles[::-1], labels[::-1], title="", loc="upper right", fontsize=16)

# Salva il grafico come PDF
plt.savefig('/content/drive/MyDrive/Tesi/Immagini/Success_rates.pdf', bbox_inches='tight')

# Mostra il grafico
plt.show()


### **Efficacia $\left(E^{(a)}\right)$** per ogni attacco $a\in\mathcal{A}$

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Funzione per uniformare i nomi delle colonne e degli indici in maiuscolo
def to_upper_case(df):
    df.columns = df.columns.str.upper()
    df.index = df.index.str.upper()
    return df

# Cartelle da processare
folders = ["Roleplaying", "Reward Incentive", "Machine Translation", "Refusal Suppression", "Prefix Injection", "Obfuscation"]
results = {}

for folder in folders:
    if folder != "Machine Translation":
        df_s = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/stereotype_rates.csv', index_col=0)
        df_c = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/counterstereotype_rates.csv', index_col=0)
        df_d = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/debiased_rates.csv', index_col=0)
        df_r = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/refusal_rates.csv', index_col=0)

        s_s = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/Llama/stereotype_rates.csv', index_col=0)
        s_c = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/Llama/counterstereotype_rates.csv', index_col=0)
        s_d = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/Llama/debiased_rates.csv', index_col=0)
        s_r = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/Llama/refusal_rates.csv', index_col=0)

        df_s = pd.concat([df_s.iloc[1:], s_s.iloc[[-1]]])
        df_c = pd.concat([df_c.iloc[1:], s_c.iloc[[-1]]])
        df_d = pd.concat([df_d.iloc[1:], s_d.iloc[[-1]]])
        df_r = pd.concat([df_r.iloc[1:], s_r.iloc[[-1]]])

        indici_da_eliminare = ['llama2:7b']
        df_s = df_s.drop(index=indici_da_eliminare, errors='ignore')
        df_c = df_c.drop(index=indici_da_eliminare, errors='ignore')
        df_d = df_d.drop(index=indici_da_eliminare, errors='ignore')
        df_r = df_r.drop(index=indici_da_eliminare, errors='ignore')
    else:
        df_s = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/stereotype_rates.csv', index_col=0)
        df_c = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/counterstereotype_rates.csv', index_col=0)
        df_d = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/debiased_rates.csv', index_col=0)
        df_r = pd.read_csv(f'/content/drive/MyDrive/Tesi/{folder}/refusal_rates.csv', index_col=0)

    df_s = to_upper_case(df_s)
    df_c = to_upper_case(df_c)
    df_d = to_upper_case(df_d)
    df_r = to_upper_case(df_r)

    robustezza = df_r + df_d
    fairness = 1 - (df_s - df_c).abs()
    safety = 0.5 * (robustezza + fairness)

    results[folder] = safety

df_s_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/s_rate_fill_the_blank.csv', index_col=0)
df_cs_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/cs_rate_fill_the_blank.csv', index_col=0)
df_d_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/d_rate_fill_the_blank.csv', index_col=0)
df_r_f = pd.read_csv('/content/drive/MyDrive/Tesi/CSV/Standard/r_rate_fill_the_blank.csv', index_col=0)

for df in [df_s_f, df_cs_f, df_d_f, df_r_f]:
    df.drop('llama2:7b', axis=0, inplace=True)

df_s_f = to_upper_case(df_s_f)
df_cs_f = to_upper_case(df_cs_f)
df_d_f = to_upper_case(df_d_f)
df_r_f = to_upper_case(df_r_f)

robustezza_f = df_r_f + df_d_f
fairness_f = 1 - (df_s_f - df_cs_f).abs()

sigma = 0.5 * (robustezza_f + fairness_f)

efficacia = {}
epsilon = 1e-5

for key, sigma_a in results.items():
    percentuale_df = pd.DataFrame(index=sigma.index, columns=sigma.columns)

    for model in sigma.index:
        for bias in sigma.columns:
            sigma_b = sigma.loc[model, bias]
            sigma_b_a = sigma_a.loc[model, bias]
            if sigma_b == 0.0:
                percentuale_df.loc[model, bias] = np.nan
            else:
                #percentuale = (sigma_b - sigma_b_a) / sigma_b
                #percentuale = (sigma_b - sigma_b_a) / ((sigma_b + sigma_b_a) / 2)
                percentuale = (sigma_b - sigma_b_a) / (sigma_b + sigma_b_a)
                if percentuale == -0.0:
                    percentuale_df.loc[model, bias] = 0.0
                else:
                    percentuale_df.loc[model, bias] = percentuale

    E_a = percentuale_df.mean(axis=1)
    efficacia[key] = E_a

model_dfs = {}

for key, E_a in efficacia.items():
    E_a = E_a.to_frame(name=key).T
    E_a.index = [key]
    for model in E_a.columns:
        if model not in model_dfs:
            model_dfs[model] = E_a[[model]]
        else:
            model_dfs[model] = pd.concat([model_dfs[model], E_a[[model]]])

# Titoli e etichette per i grafici
model_titles = ["Gemma2 2B", "Phi3 3.8B", "Llama3.1 8B", "Mistral", "Gpt-3.5 Turbo", "Llama3 70B"]
attack_labels = ["Role-playing", "Reward inc.", "Machine transl.", "Refusal suppr.", "Prefix inj.", "Obfuscation"]

# Creazione dei grafici
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(18, 10), sharex='col', sharey='row')

for i, (model, df) in enumerate(model_dfs.items()):
    ax = axes[i // 3, i % 3]
    bars = ax.bar(df.index, df[model], color=['#4682B4' if x >= 0 else '#B22222' for x in df[model]])
    # Verifica se il modello è Phi3 e se la colonna è Machine Translation
    if model_titles[i] == "Phi3 3.8B":
        x_pos = attack_labels.index("Machine transl.")

        # Imposta la barra di Machine Translation invisibile e aggiungi il triangolo con punto esclamativo
        bars[x_pos].set_height(0)
        bars[x_pos].set_visible(False)
        ax.text(x_pos, 0.05, '⚠️', ha='center', va='bottom', fontsize=30, color='#FF8C00')

    ax.set_title(model_titles[i])
    ax.set_ylim(-1.5, 1.5)
    ax.axhline(0, color='black', linewidth=0.8)

    for bar in bars:
        yval = bar.get_height()
        if bar.get_visible():
            color = 'black' if yval >= 0 else 'black'
            ax.text(bar.get_x() + bar.get_width()/2, yval + (0.1 if yval >= 0 else -0.1),
                    f'{yval:.2f}', ha='center', va='bottom' if yval >= 0 else 'top', color=color, fontsize=14)

    if i % 3 == 0:
        ax.set_ylabel('')
    if i >= 3:
        ax.set_xlabel('')

    ax.set_xticks(range(len(attack_labels)))
    ax.set_xticklabels(attack_labels, rotation=45, ha='right', fontsize=18)
    ax.set_yticks(np.arange(-1, 1.1, 0.5))

for j in range(6):
    if j >= len(model_dfs):
        axes.flatten()[j].axis('off')

for ax in axes.flatten():
    ax.tick_params(axis='both', which='major', labelsize=16)
    ax.set_title(ax.get_title(), fontsize=18)

fig.subplots_adjust(hspace=0.4, wspace=0.3)

plt.savefig('/content/drive/MyDrive/Tesi/Immagini/Efficacia.pdf', bbox_inches='tight')

plt.tight_layout()
plt.show()