# Analisi risultati

Nel notebook vengono svolte alcune analisi sul dataset generato tramite varie
simulazioni su diversi dataset e utilizzando tre diversi classificatori. In
particolare sono stati usati una **SVM**, un **MultiLayer Perceptron** e un
**Random Forest**. Non sono stati effettuati benchmark sulle prestazioni, si
sta infatti considerando solo la qualità dei risultati ottenuti.


In [1]:
import pandas as pd

df = pd.read_csv("../datasets/test.csv")
df

Unnamed: 0,dataset_id,simulation_id,samples,features,classes,clusters,population_size,point,class,target,model,min_fitness,mean_fitness,fitness_std,max_fitness,accuracy
0,0,0,10,2,2,1,1000,0,1,0,SVC,-0.855264,-0.696396,0.092766,-0.547943,1.0
1,0,0,10,2,2,1,1000,0,1,1,SVC,-0.197379,-0.104045,0.057211,-0.000054,1.0
2,0,0,10,2,2,1,1000,1,0,0,SVC,-0.143339,-0.073661,0.039783,-0.000221,1.0
3,0,0,10,2,2,1,1000,1,0,1,SVC,-0.572780,-0.484936,0.047278,-0.416159,1.0
4,0,0,10,2,2,1,1000,2,1,0,SVC,-1.160755,-1.096355,0.035346,-1.031373,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1195,1,4,10,2,2,2,4000,7,0,1,MLPClassifier,-0.685313,-0.562300,0.068521,-0.445267,1.0
1196,1,4,10,2,2,2,4000,8,0,0,MLPClassifier,-0.178795,-0.093622,0.051011,-0.000323,1.0
1197,1,4,10,2,2,2,4000,8,0,1,MLPClassifier,-0.722029,-0.567538,0.083668,-0.448194,1.0
1198,1,4,10,2,2,2,4000,9,0,0,MLPClassifier,-0.127930,-0.065308,0.035431,-0.000132,1.0


Iniziamo con il ripulire un po' il dataset andando a dividere le informazioni
relative ai dataset dai risultati ottenuti per ridurre un po' di ridondanze.


In [2]:
dataset_df = df[["dataset_id", "samples", "features", "classes", "clusters"]].copy().drop_duplicates()
df = df.drop(columns=["samples", "features", "classes", "clusters"])
dataset_df

Unnamed: 0,dataset_id,samples,features,classes,clusters
0,0,10,2,2,1
600,1,10,2,2,2


In [3]:
simulation_df = df[["dataset_id", "simulation_id", "population_size", "model"]].copy().drop_duplicates()
df = df.drop(columns=["population_size", "model"])
simulation_df

Unnamed: 0,dataset_id,simulation_id,population_size,model
0,0,0,1000,SVC
20,0,1,1000,SVC
40,0,2,1000,SVC
60,0,3,1000,SVC
80,0,4,1000,SVC
100,0,0,2000,SVC
120,0,1,2000,SVC
140,0,2,2000,SVC
160,0,3,2000,SVC
180,0,4,2000,SVC


Ogni riga del dataset contiene quindi:

- **simulation_ID**: identifica una singola simulazione con determinati
  parametri. Dato che ogni simulazione è ripetuta 10 volte, ognuna di esse ha
  un identificatore da 0 a 9.
- **dataset_ID**: ID univoco per ogni dataset analizzato.
- **point**: ogni punto del dataset viene semplicemente enumerato da $0$ a
  $N-1$, dove $N$ è il numero totale di punti del dataset.
- **class**: classe del punto.
- **target**: classe target dell'algoritmo genetico.
- **model**: il modello classificatore utilizzato.
- **min/mean/max_fitness**: valore minimo, medio e massimo di fitness estratti
  dalla hall of fame prodotta ad ogni esecuzione dell'algoritmo genetico.
- **fitness_std**: deviazione standard dei valori di fitness della popolazione
  sintetica finale.
- **accuracy**: calcolata come numero di individui nella hall of fame
  classificati nella classe target diviso numero di individui totali presenti
  nella hall of fame.

Possiamo quindi vedere ogni riga come una singola esecuzione dell'algoritmo
genetico su uno specifico punto e su una specifica classe target.

Dato che i valori di fitness non sono altro che la distanza di ogni punto
sintetico dal punto preso in esame, moltiplicata per $-1$. Possiamo quindi
convertire le tre colonne di fitness in valori di distanza rimoltiplicandole
per $-1$ di modo da avere valori meglio interpretabili.


In [4]:
df[["min_fitness", "mean_fitness", "max_fitness"]] *= -1.0
df = df.rename(
    columns={
        "min_fitness": "min_distance",
        "mean_fitness": "mean_distance",
        "fitness_std": "distance_std",
        "max_fitness": "max_distance",
    }
)
df

Unnamed: 0,dataset_id,simulation_id,population_size,point,class,target,min_distance,mean_distance,distance_std,max_distance,accuracy
0,0,0,1000,0,1,0,0.855264,0.696396,0.092766,0.547943,1.0
1,0,0,1000,0,1,1,0.197379,0.104045,0.057211,0.000054,1.0
2,0,0,1000,1,0,0,0.143339,0.073661,0.039783,0.000221,1.0
3,0,0,1000,1,0,1,0.572780,0.484936,0.047278,0.416159,1.0
4,0,0,1000,2,1,0,1.160755,1.096355,0.035346,1.031373,1.0
...,...,...,...,...,...,...,...,...,...,...,...
1195,1,4,4000,7,0,1,0.685313,0.562300,0.068521,0.445267,1.0
1196,1,4,4000,8,0,0,0.178795,0.093622,0.051011,0.000323,1.0
1197,1,4,4000,8,0,1,0.722029,0.567538,0.083668,0.448194,1.0
1198,1,4,4000,9,0,0,0.127930,0.065308,0.035431,0.000132,1.0


Procediamo con l'accorpare i risultati di diverse simulazioni effettuate con
gli stessi parametri. Nello specifico vogliamo rimuovere la colonna
_simulation_ID_ prendendo ed effettuando le seguenti operazioni di aggregazione
sulle colonne riguardanti i valori di distance e precisione:

- _min_distance_: viene preso il minimo tra tutti i valori.
- _mean_distance_: viene calcolata la media tra tutti i valori.
- _max_distance_: viene preso il massimo tra tutti i valori.
- _distance_std_: viene calcolata la media delle deviazioni standard.
- _accuracy_: viene calcolata la media delle precisioni.


In [5]:
df = (
    df.groupby(
        [
            "dataset_id",
            "samples",
            "features",
            "classes",
            "clusters",
            "population_size",
            "point",
            "class",
            "target",
            "model",
        ]
    )
    .agg(
        {
            "min_distance": "min",
            "mean_distance": "mean",
            "distance_std": "mean",
            "max_distance": "max",
            "accuracy": "mean",
        }
    )
    .reset_index()
)

df

KeyError: 'samples'

## Precisione

Al momento la colonna _accuracy_ contiene un valore che indica il rapporto tra
il numero di individui sintetici classificati nella classe target e il numero
totale di individui sintetici. Vogliamo ora aggregare tutte le righe che fanno
riferimento al solito punto ma che hanno una classe target differente.

In questo caso vogliamo semplicemente calcolare la media del valore di
_accuracy_ dell'algoritmo genetico su un singolo punto, a prescindere dalla
classe target.


In [None]:
accuracy_df = (
    df.groupby(
        [
            "dataset_id",
            "samples",
            "features",
            "classes",
            "clusters",
            "population_size",
            "point",
            "class",
            "model",
        ]
    )
    .agg(["min", "mean", "max", "std"])["accuracy"]
    .reset_index()
)

print(accuracy_df[["min", "mean", "max", "std"]].apply({"min": "min"}))

accuracy_df

Come possiamo notare, abbiamo la precisione massima possibile.

## Fitness

L'altra analisi che possiamo fare è sui valori di fitness. Possiamo ad esempio
vedere come i valori di fitness minimo, medio e massimo variano cambiando
modello oppure aumentando il numero di individui sintetici prodotti.

Iniziamo ad esempio con il vedere il valore di fitness medio dei punti nel caso
in cui la classe del punto e la classe target sono uguali.


In [None]:
df[df["class"] == df["target"]].groupby(["dataset_id", "model"])["mean_distance"].mean()