In [2]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import ticker

In [3]:
train_df = pd.read_parquet("Autoencoders/Autoencoder/Dataset split/train_df.parquet")

In [4]:
val_df = pd.read_parquet("Autoencoders/Autoencoder/Dataset split/val_df.parquet")

In [5]:
test_df = pd.read_parquet("Autoencoders/Autoencoder/Dataset split/test_df.parquet")

In [46]:
def plot_occurrences(df, filename):
    """Creates a bar plot of the occurrences of each slogan in the DataFrame."""

    occurrences = df.sum(axis=0)
    occurrences = occurrences.sort_values(ascending=True)  # Ordina in modo ascendente per il grafico a barre orizzontali

    plt.figure(figsize=(15, 15))  # Aumenta le dimensioni del grafico

    plt.barh(occurrences.index, occurrences.values)  # Crea un grafico a barre orizzontali
    plt.ylabel("Slogan")
    plt.xlabel("Occorrenze")
    plt.title("Occorrenze di Slogan nel Dataset")

    ax = plt.gca()
    ax.xaxis.set_major_locator(ticker.MaxNLocator(integer=True))

    plt.tight_layout()  # Assicura che tutto sia visibile quando si salva l'immagine
    plt.savefig(filename)
    plt.close()

In [47]:
plot_occurrences(train_df, "train_occurrences.png")
plot_occurrences(val_df, "val_occurrences.png")
plot_occurrences(test_df, "test_occurrences.png")

In [15]:
dataset = pd.read_parquet("real-time clusters/result_df_gt_2.parquet")

In [71]:
occurrences = dataset.sum(axis=0)
occurrences = occurrences.sort_values(ascending=False)

In [72]:
occurrences

None                                                  499659
apparato isolato                                      176702
signal degraded                                       143259
loss of signal los                                     94152
apparato isolato pr                                    63635
                                                       ...  
cardinitcard initializing                                  1
vc unequipped ho vc unequipped                             1
net specific problem non inviato da agent                  1
unidentified specific problem non inviato da agent         1
crdpwroff card power off xexc xexc                         1
Length: 87, dtype: int64

In [81]:
def get_top_slogans(df, percentage):
    """Restituisce gli slogan che costituiscono una certa percentuale delle occorrenze totali."""
    occurrences = df.sum(axis=0)
    sorted_occurrences = occurrences.sort_values(ascending=False)
    cumulative_percentage = sorted_occurrences.cumsum() / sorted_occurrences.sum()
    top_slogans = cumulative_percentage[cumulative_percentage <= percentage].index
    return top_slogans

# Ottieni gli slogan per ciascun DataFrame
slogans_95_train = get_top_slogans(train_df, 0.99)
slogans_95_test = get_top_slogans(test_df, 0.99)
slogans_95_val = get_top_slogans(val_df, 0.99)

# Stampa gli slogan e il loro numero

print(len(slogans_95_train))

print(len(slogans_95_test))

print(len(slogans_95_val))

51
52
51


In [82]:
train_df_99 = train_df[slogans_95_train]
test_df_99 = test_df[slogans_95_test]
val_df_99 = val_df[slogans_95_val]


In [83]:
plot_occurrences(train_df_99, "train_occurrences_99.png")
plot_occurrences(val_df_99, "val_occurrences_99.png")
plot_occurrences(test_df_99, "test_occurrences_99.png")


In [86]:
def plot_occurrences(dfs, labels, filename):
    """Creates a bar plot of the occurrences of each slogan in the DataFrames."""

    plt.figure(figsize=(15, 15))  # Aumenta le dimensioni del grafico

    for df, label in zip(dfs, labels):
        occurrences = df.sum(axis=0)
        occurrences = occurrences.sort_values(ascending=True)  # Ordina in modo ascendente per il grafico a barre orizzontali
        plt.barh(occurrences.index, occurrences.values, alpha=0.5, label=label)  # Crea un grafico a barre orizzontali

    plt.ylabel("Slogan")
    plt.xlabel("Occorrenze")
    plt.title("Occorrenze di Slogan nel Dataset")
    plt.legend()

    ax = plt.gca()
    ax.xaxis.set_major_locator(ticker.MaxNLocator(integer=True))

    plt.tight_layout()  # Assicura che tutto sia visibile quando si salva l'immagine
    plt.savefig(filename)
    plt.close()
    
    
    
plot_occurrences([train_df, test_df, val_df], ['Train', 'Test', 'Validation'], 'occurrences.png')

In [93]:
def plot_percentage_occurrences(dfs, labels, colors, filename):
    """Crea un grafico a barre delle percentuali di occorrenze di ciascun slogan nei DataFrame."""

    plt.figure(figsize=(15, 15))  # Aumenta le dimensioni del grafico

    for df, label, color in zip(dfs, labels, colors):
        occurrences = df.sum(axis=0)
        percentages = occurrences / df.sum().sum() * 100  # Calcola le percentuali
        percentages = percentages.sort_values(ascending=True)  # Ordina in modo ascendente per il grafico a barre orizzontali
        plt.barh(percentages.index, percentages.values, color=color, alpha=0.5, label=label)  # Crea un grafico a barre orizzontali

    plt.ylabel("Slogan")
    plt.xlabel("Percentuale (%)")
    plt.title("Percentuale di Occorrenze di Slogan nel Dataset")
    plt.legend()

    ax = plt.gca()
    ax.xaxis.set_major_locator(ticker.MaxNLocator(integer=True))

    plt.tight_layout()  # Assicura che tutto sia visibile quando si salva l'immagine
    plt.savefig(filename)
    plt.close()

# Chiamata alla funzione con i colori specificati
plot_percentage_occurrences([train_df, test_df, val_df], ['Train', 'Test', 'Validation'], ['red', 'grey', 'yellow'], 'percentage_occurrences.png')

In [41]:
occurrences_train = train_df.sum(axis=0)
occurrences_train = occurrences_train.sort_values(ascending=True)
print(occurrences_train) 
print()
occurrences_test = test_df.sum(axis=0)
occurrences_test = occurrences_test.sort_values(ascending=True)
print(occurrences_test)
print()
occurrences_val = val_df.sum(axis=0)
occurrences_val = occurrences_val.sort_values(ascending=True)
occurrences_val

unidentified specific problem non inviato da agent         0.0
net specific problem non inviato da agent                  0.0
vc unequipped ho vc unequipped                             0.0
crdpwroff card power off xexc xexc                         1.0
guasto bus di comunicazione                                1.0
                                                        ...   
apparato isolato pr                                    44467.0
loss of signal los                                     65895.0
signal degraded                                       100215.0
apparato isolato                                      123784.0
None                                                  349210.0
Length: 87, dtype: float32

crdpwroff card power off xexc xexc                            0.0
oproutgoing channel optical power out of range xexc zb        0.0
guasto bus di comunicazione                                   0.0
net specific problem non inviato da agent                     0.0
cardinitcard in

crdpwroff card power off xexc xexc        0.0
guasto bus di comunicazione               0.0
serversignalfailure odu ssf               0.0
nan                                       0.0
cardinitcard initializing                 0.0
                                       ...   
apparato isolato pr                    9531.0
loss of signal los                    14181.0
signal degraded                       21618.0
apparato isolato                      26315.0
None                                  75288.0
Length: 87, dtype: float32

In [43]:
# Trova i "slogan" con occorrenza 0 nel gruppo di addestramento
zero_occurrences_train = occurrences_train.loc[occurrences_train == 0]
print("Slogan con occorrenza 0 nel gruppo di training:")
print(zero_occurrences_train)
print()

# Trova i "slogan" con occorrenza 0 nel gruppo di test
zero_occurrences_test = occurrences_test.loc[occurrences_test == 0]
print("Slogan con occorrenza 0 nel gruppo di test:")
print(zero_occurrences_test)
print()

# Trova i "slogan" con occorrenza 0 nel gruppo di validazione
zero_occurrences_val = occurrences_val.loc[occurrences_val == 0]
print("Slogan con occorrenza 0 nel gruppo di validazione:")
print(zero_occurrences_val)

Slogan con occorrenza 0 nel gruppo di training:
unidentified specific problem non inviato da agent    0.0
net specific problem non inviato da agent             0.0
vc unequipped ho vc unequipped                        0.0
dtype: float32

Slogan con occorrenza 0 nel gruppo di test:
crdpwroff card power off xexc xexc                        0.0
oproutgoing channel optical power out of range xexc zb    0.0
guasto bus di comunicazione                               0.0
net specific problem non inviato da agent                 0.0
cardinitcard initializing                                 0.0
unidentified specific problem non inviato da agent        0.0
serversignalfailure odu ssf                               0.0
dtype: float32

Slogan con occorrenza 0 nel gruppo di validazione:
crdpwroff card power off xexc xexc    0.0
guasto bus di comunicazione           0.0
serversignalfailure odu ssf           0.0
nan                                   0.0
cardinitcard initializing             0.0
vc uneq

In [45]:
# Converti le serie in DataFrame
zero_occurrences_train_df = zero_occurrences_train.to_frame('Occorrenze')
zero_occurrences_test_df = zero_occurrences_test.to_frame('Occorrenze')
zero_occurrences_val_df = zero_occurrences_val.to_frame('Occorrenze')

# Stampa i DataFrame
print("Slogan con occorrenza 0 nel gruppo di training:")
print(zero_occurrences_train_df)
print()

print("Slogan con occorrenza 0 nel gruppo di test:")
print(zero_occurrences_test_df)
print()

print("Slogan con occorrenza 0 nel gruppo di validazione:")
print(zero_occurrences_val_df)

Slogan con occorrenza 0 nel gruppo di training:
                                                    Occorrenze
unidentified specific problem non inviato da agent         0.0
net specific problem non inviato da agent                  0.0
vc unequipped ho vc unequipped                             0.0

Slogan con occorrenza 0 nel gruppo di test:
                                                    Occorrenze
crdpwroff card power off xexc xexc                         0.0
oproutgoing channel optical power out of range ...         0.0
guasto bus di comunicazione                                0.0
net specific problem non inviato da agent                  0.0
cardinitcard initializing                                  0.0
unidentified specific problem non inviato da agent         0.0
serversignalfailure odu ssf                                0.0

Slogan con occorrenza 0 nel gruppo di validazione:
                                    Occorrenze
crdpwroff card power off xexc xexc         0.0
guast