# Descrizione lessico ELIta
Il lessico comprende 6905 elementi, tra parole ed emoji. 

Il set di dati contiene il: 
* 21% di aggettivi, 
* il 50% di nomi, 
* il 21% di verbi,
* l'8% di parole che possono essere considerate sia aggettivi che nomi. 

Inoltre, √® stato incluso un numero minore di avverbi, espressioni (ad esempio, "restare a bocca aperta" significa "guardare a bocca aperta") e interiezioni (ad esempio, "beh", "boh"). 

La raccolta dei dati ha comportato un processo di annotazione che includeva sia l'associazione delle parole alle emozioni 8 di base (Plutchik), utilizzando una scala da: 
* "non associato" (0), 
* "debolmente associato" (0,25), 
* "moderatamente associato" (0,75),
* "fortemente associato" (1), 

sia la valutazione degli elementi in base alle 3 dimensioni VAD (valenza, eccitazione e dominanza) utilizzando una scala da 1 a 9. 

Ognuna delle 6905 parole/emoji presenti nel lessico ha da un minimo di 5 a un massimo di 10 annotazioni (in media 5,13 annotazioni per parola).

Il lessico √® fornito in diverse versioni:
* **RAW**, contiene **tutte** le annotazioni originali fatte dai partecipanti, senza filtri o aggregazioni.
* **GOLDEN**, versione **pulita** della RAW. Sono state selezionate:
    * le 5 annotazioni pi√π simili tra loro per parola,
    * pi√π 1 riga generata automaticamente, "Golden Standard", calcolata dalla moda delle 5 annotazioni migliori.
* **INTENSITY**, versione **aggregata continua**.\
Ogni parola ha una record per emozione (sono state aggiunte: **amore**, media tra gioia e fiducia, e **neutrale**) e dimensione VAD (13 in totale), con la media delle annotazioni selezionate nella versione GOLDEN.
* **BINARY**, versione **aggregata discreta**.\
Converte le annotazioni continue della versione INTENSITY in valori binari (0 o 1) utilizzando una soglia di 0,5.

# Scelta della versione del lessico per la visualizzazione
Per l'obbiettivo di visualizzazione del lessico ELIta con metodi distribuzionali, √® stata scelta la versione **INTENSITY** del lessico. 

La ragione, per questa decisione, √® che perch√© INTENSITY fornisce punteggi continui aggregati, necessari per calcolare le distanze semantiche precise tra le parole nello spazio vettoriale PCA/SVD.

Il file √® fornito in modo che ci sia una riga per ogni coppia parola-emozione, contenente la media delle annotazioni.\
  Per l'analisi PCA, questo formato verr√† trasformato in una matrice vettoriale dove ogni parola ha un unico vettore di punteggi per le 8 emozioni di base (Gioia, Tristezza, Rabbia, Disgusto, Paura, Fiducia, Sorpresa, Anticipazione) pi√π le dimensioni VAD (Valenza, Attivazione, Dominanza) e le categorie aggiuntive (Amore, Neutrale).

# Caricamento e preparazione dati per l'utilizzo
Importiamo il file ELIta_INTENSITY.txt come un DataFrame di pandas. \
Dato che il file non presenta le intestazioni delle colonne, le definiamo qui manualmente. Ci√≤ faciliter√† i passaggi successivi.

In [1]:
import pandas as pd

intensityData = pd.read_csv("ELIta_INTENSITY.txt", sep=',', header=None, names=['parola', 'emozione', 'valore'])
intensityData.head()

Unnamed: 0,parola,emozione,valore
0,‚Äº,gioia,0.71
1,‚Äº,tristezza,0.12
2,‚Äº,rabbia,0.67
3,‚Äº,disgusto,0.04
4,‚Äº,paura,0.17


## Verifica integrit√† dati
Controllo valori unici nelle colonne 'parola' ed 'emozione' per confermare che il dataset sia stato caricato correttamente.

In [2]:
unique_words = intensityData['parola'].nunique()
unique_emotions = intensityData['emozione'].nunique()
print(f"Numero di parole uniche: {unique_words}")
print(f"Numero di emozioni/dimensioni uniche: {unique_emotions}")

Numero di parole uniche: 6905
Numero di emozioni/dimensioni uniche: 13


Controllo per valori mancanti nel DataFrame.

In [3]:
total_nulls = intensityData.isnull().sum().sum()
print(f"Totale valori mancanti nel dataset: {total_nulls}")

Totale valori mancanti nel dataset: 0


## Trasformazione del DataFrame in una matrice vettoriale
Manipolazione del dataset in una matrice per avere una riga per ogni parola e una colonna per ogni emozione/dimensione.

In [4]:
pivotedData = intensityData.pivot(index='parola', columns='emozione', values='valore')
pivotedData.head()

emozione,amore,aspettativa,attivazione,disgusto,dominanza,fiducia,gioia,neutrale,paura,rabbia,sorpresa,tristezza,valenza
parola,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
????,0.08,0.17,7.0,0.17,4.33,0.04,0.12,0.0,0.17,0.42,0.79,0.42,5.17
a_caso,0.04,0.21,5.0,0.08,3.0,0.04,0.04,0.0,0.54,0.29,0.83,0.21,4.33
a_malincuore,0.0,0.12,5.5,0.21,3.67,0.0,0.0,0.0,0.21,0.21,0.04,0.83,3.33
a_scanso_di,0.21,0.58,5.33,0.04,4.67,0.25,0.17,0.0,0.17,0.42,0.21,0.25,5.0
abbagliante,0.32,0.62,7.0,0.0,6.5,0.17,0.46,0.0,0.12,0.12,0.71,0.04,6.67


## Salvataggio della matrice vettoriale
Salviamo la matrice vettoriale in un file CSV per utilizzi futuri.

In [5]:
pivotedData.to_csv("ELIta_INTENSITY_Matrix.csv")

---

# Visualizzazione tramite Riduzione Dimensionale (PCA e TruncatedSVD).
La matrice a 13 dimensioni (8 emozioni + 2 extra + 3 VAD) appena creata verr√† schiacciata in 2 dimensioni per poterla disegnare su un piano 2D.

Due tecniche di riduzione dimensionale verranno utilizzate per questo scopo:
* **PCA (Principal Component Analysis)**: una tecnica classica che proietta i dati in uno spazio a bassa dimensione mantenendo la massima varianza possibile.
* **TruncatedSVD (Singular Value Decomposition)**: simile alla PCA, ma pi√π efficiente per matrici sparse.

Entrambi i metodi ci permetteranno di visualizzare le parole in uno spazio 2D, dove la vicinanza tra i punti riflette la somiglianza emotiva tra le parole.

In [None]:
from sklearn.decomposition import PCA
from sklearn.decomposition import TruncatedSVD

## Preparazione specifica per la visualizzazione
Prima di dare i dati in pasto agli algoritmi, dobbiamo fare due cose importanti:

1. **Selezionare le feature**: per la visualizzazione delle "parole in base all'emozione", √® meglio usare:
    - prima, solo le 8 emozioni di base di Plutchik.
    - sucessivamente, aggiungere le 2 emozioni extra (amore e neutrale).
    - infine, le 3 dimensioni VAD.

    Le analisi verranno fatte separatamente per ogni set di feature. Non calcoliamo la riduzione dimensionale su tutte le feature insieme perch√© emozioni e dimensioni VAD sono su due scale diverse e mescolarle potrebbe distorcere i risultati.
2. **Gestire le emoji**: il lessico contiene sia parole testuali che emoji. Per una visualizzazione pi√π chiara, √® meglio separare le due categorie e fare analisi distinte.
    - Prima analizzeremo solo le parole.
    - Poi faremo un'analisi separata per le emoji.

3. *Calcolare l'emozione dominante**: ci serve per colorare i punti nel grafico (es. colorare di rosso le parole di "rabbia").

In [11]:
basic_emotions = ['gioia', 'fiducia', 'paura', 'sorpresa', 'tristezza', 'disgusto', 'rabbia', 'aspettativa']

X = pivotedData[basic_emotions] 

dominant_emotion = X.idxmax(axis=1) # Trova l'emozione con il valore pi√π alto per ogni parola

print("Matrice X creata. Dimensioni:", X.shape)
print("Emozioni dominanti calcolate.")

Matrice X creata. Dimensioni: (6905, 8)
Emozioni dominanti calcolate.


## Separazione dei Dati (Emoji vs Parole)

In [7]:
import emoji

def is_likely_emoji(text):
    return emoji.emoji_count(str(text)) > 0

pivotedData['is_emoji'] = [is_likely_emoji(x) for x in pivotedData.index]

df_only_emojis = pivotedData[pivotedData['is_emoji'] == True].copy()
df_only_words = pivotedData[pivotedData['is_emoji'] == False].copy()

print(f"Totale elementi: {len(pivotedData)}")
print(f"Numero di Emoji trovate: {len(df_only_emojis)}")
print(f"Numero di Parole testuali: {len(df_only_words)}")

Totale elementi: 6905
Numero di Emoji trovate: 186
Numero di Parole testuali: 6719


In [29]:
df_only_emojis.head()

emozione,amore,aspettativa,attivazione,disgusto,dominanza,fiducia,gioia,neutrale,paura,rabbia,sorpresa,tristezza,valenza,is_emoji
parola,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
‚Äº,0.35,0.17,6.67,0.04,5.17,0.0,0.71,0.0,0.17,0.67,0.83,0.12,5.0,True
‚Åâ,0.11,0.21,7.67,0.04,5.5,0.04,0.17,0.0,0.29,0.17,0.71,0.08,4.33,True
‚ò†,0.15,0.04,6.0,0.46,5.5,0.12,0.17,0.0,0.67,0.54,0.17,0.58,3.83,True
‚òπ,0.02,0.12,5.83,0.08,3.5,0.04,0.0,0.0,0.21,0.17,0.04,1.0,2.67,True
‚ò∫,0.73,0.5,6.17,0.0,7.0,0.54,0.92,0.0,0.0,0.0,0.62,0.0,7.33,True


In [14]:
df_only_words.head()

emozione,amore,aspettativa,attivazione,disgusto,dominanza,fiducia,gioia,neutrale,paura,rabbia,sorpresa,tristezza,valenza,is_emoji
parola,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
????,0.08,0.17,7.0,0.17,4.33,0.04,0.12,0.0,0.17,0.42,0.79,0.42,5.17,False
a_caso,0.04,0.21,5.0,0.08,3.0,0.04,0.04,0.0,0.54,0.29,0.83,0.21,4.33,False
a_malincuore,0.0,0.12,5.5,0.21,3.67,0.0,0.0,0.0,0.21,0.21,0.04,0.83,3.33,False
a_scanso_di,0.21,0.58,5.33,0.04,4.67,0.25,0.17,0.0,0.17,0.42,0.21,0.25,5.0,False
abbagliante,0.32,0.62,7.0,0.0,6.5,0.17,0.46,0.0,0.12,0.12,0.71,0.04,6.67,False


## Visualizzazione delle Emoji (PCA)


In [34]:
import plotly.express as px
import plotly.graph_objects as go

# 1. Preparazione dati (uguale a prima)
X_emojis = df_only_emojis[basic_emotions].fillna(0)
dominant_emotion_emojis = X_emojis.idxmax(axis=1)

# 2. PCA
pca_emojis = PCA(n_components=2)
principalComponents_emojis = pca_emojis.fit_transform(X_emojis)

# DataFrame
pca_emoji_df = pd.DataFrame(data=principalComponents_emojis, columns=['PC1', 'PC2'])
pca_emoji_df['Emoji'] = X_emojis.index
pca_emoji_df['Emozione Dominante'] = dominant_emotion_emojis.values

# 3. Colori
emotion_colors = {
    'gioia': '#FDD835', 'tristezza': '#1E88E5', 'rabbia': '#E53935',
    'paura': '#43A047', 'disgusto': '#8E24AA', 'fiducia': '#81C784',
    'sorpresa': '#039BE5', 'aspettativa': '#FB8C00'
}

# 4. Plotting con Plotly
fig = px.scatter(
    pca_emoji_df,
    x='PC1',
    y='PC2',
    color='Emozione Dominante',
    color_discrete_map=emotion_colors,
    text='Emoji',
    title='PCA: Distribuzione delle Emoji nello spazio emotivo',
    labels={
        'PC1': f'PC1 ({pca_emojis.explained_variance_ratio_[0]:.2%} var)',
        'PC2': f'PC2 ({pca_emojis.explained_variance_ratio_[1]:.2%} var)'
    },
    width=1200,
    height=800
)

# Personalizza le emoji
fig.update_traces(
    textposition='middle center',
    textfont=dict(size=20),
    marker=dict(size=0.1, opacity=0)  # Nascondi i punti, mostra solo emoji
)

fig.update_layout(
    plot_bgcolor='white',
    paper_bgcolor='white',
    font=dict(size=12),
    showlegend=True
)

fig.show()

## Visualizzazione delle Parole (PCA e TruncatedSVD)


### Standardizzazione e Applicazione della PCA

### Visualizzazione PCA (Il Grafico)


### Applicazione di TruncatedSVD
La TruncatedSVD √® un'alternativa alla PCA che pu√≤ essere pi√π efficiente per matrici sparse.

### Interpretazione
