In [3]:
# Installa spaCy e il modello italiano in Colab
!pip install -U spacy
!python -m spacy download it_core_news_sm

Collecting it-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/it_core_news_sm-3.8.0/it_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m102.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: it-core-news-sm
Successfully installed it-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('it_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [12]:
import pandas as pd
import spacy
from collections import Counter

# Carica modello spaCy italiano
nlp = spacy.load("it_core_news_sm")  # puoi usare anche 'it_core_news_lg' se hai bisogno di più accuratezza

# Carica il file CSV
df = pd.read_csv("multipico_generation.csv")

# Funzione per analizzare testo con spaCy
def analyze_text(text):
    doc = nlp(text)
    tokens = [token.text for token in doc if not token.is_punct and not token.is_space]
    types = set(tokens)
    ttr = len(types) / len(tokens) if tokens else 0

    # Conta le negazioni (es. 'non', 'nessuno', 'mai', ecc.)
    negations = [token for token in doc if token.dep_ == "neg" or token.lemma_ in ["non", "nessuno", "mai"]]

    # Conta le interiezioni (INTJ)
    interjections = [token for token in doc if token.pos_ == "INTJ"]

    return len(tokens), ttr, len(negations), len(interjections)

# Applica l'analisi spaCy riga per riga
results = df["generation"].apply(analyze_text)

# Estrai i risultati in nuove colonne
df[["num_tokens", "ttr", "num_negations", "num_interjections"]] = pd.DataFrame(results.tolist(), index=df.index)

# Salva il risultato in un nuovo CSV (opzionale)
df.to_csv("multipico_generation_metrics.csv", index=False)

# Visualizza un estratto dei risultati
print(df[["generation", "num_tokens", "ttr", "num_negations", "num_interjections"]].head())

# Calcola e stampa le medie delle metriche
mean_tokens = df["num_tokens"].mean()
mean_ttr = df["ttr"].mean()
mean_negations = df["num_negations"].mean()
mean_interjections = df["num_interjections"].mean()

print("VALORI MEDI:")
print(f"Token totali medi:        {mean_tokens:.3f}")
print(f"TTR medio:                {mean_ttr:.3f}")
print(f"Numero medio negazioni:  {mean_negations:.3f}")
print(f"Numero medio interiezioni: {mean_interjections:.3f}")

                                          generation  num_tokens       ttr  \
0  Ah, grazie per la lezione di economia. E per l...          11  0.818182   
1              Buongiorno! Come posso aiutarti oggi?           5  1.000000   
2  La tua paranoia è giustificata. Il mercato del...          45  0.866667   
3                                   Output not found           3  1.000000   
4  Se solo la società fosse così severa con tutti...          22  0.954545   

   num_negations  num_interjections  
0              0                  1  
1              0                  0  
2              2                  0  
3              0                  0  
4              0                  0  
VALORI MEDI:
Token totali medi:        20.173
TTR medio:                0.938
Numero medio negazioni:  0.381
Numero medio interiezioni: 0.410


In [14]:
# Carica il file CSV
df = pd.read_csv("multipico_generation-baseline_with_output.csv")

# Funzione per analizzare testo con spaCy
def analyze_text(text):
    doc = nlp(text)
    tokens = [token.text for token in doc if not token.is_punct and not token.is_space]
    types = set(tokens)
    ttr = len(types) / len(tokens) if tokens else 0

    # Conta le negazioni (es. 'non', 'nessuno', 'mai', ecc.)
    negations = [token for token in doc if token.dep_ == "neg" or token.lemma_ in ["non", "nessuno", "mai"]]

    # Conta le interiezioni (INTJ)
    interjections = [token for token in doc if token.pos_ == "INTJ"]

    return len(tokens), ttr, len(negations), len(interjections)

# Applica l'analisi spaCy riga per riga
results = df["generation"].apply(analyze_text)

# Estrai i risultati in nuove colonne
df[["num_tokens", "ttr", "num_negations", "num_interjections"]] = pd.DataFrame(results.tolist(), index=df.index)

# Salva il risultato in un nuovo CSV (opzionale)
df.to_csv("multipico_generation_metrics.csv", index=False)

# Visualizza un estratto dei risultati
print(df[["generation", "num_tokens", "ttr", "num_negations", "num_interjections"]].head())

# Calcola e stampa le medie delle metriche
mean_tokens = df["num_tokens"].mean()
mean_ttr = df["ttr"].mean()
mean_negations = df["num_negations"].mean()
mean_interjections = df["num_interjections"].mean()

print("VALORI MEDI:")
print(f"Token totali medi:        {mean_tokens:.3f}")
print(f"TTR medio:                {mean_ttr:.3f}")
print(f"Numero medio negazioni:  {mean_negations:.3f}")
print(f"Numero medio interiezioni: {mean_interjections:.3f}")

                                          generation  num_tokens       ttr  \
0  Ah, certo! E magari anche un bel regalo per il...          24  1.000000   
1  Ah, finalmente un saluto che non mi fa sentire...          17  0.941176   
2  Ah, il terrore di essere rimpiazzata! Non preo...          21  0.904762   
3  "Ah, quindi per la destra il lavoro è un favor...          17  0.941176   
4  Ah, se solo la società fosse così efficiente n...          26  0.961538   

   num_negations  num_interjections  
0              0                  1  
1              1                  1  
2              1                  1  
3              0                  1  
4              0                  1  
VALORI MEDI:
Token totali medi:        22.399
TTR medio:                0.935
Numero medio negazioni:  0.507
Numero medio interiezioni: 0.982


In [18]:
# Carica il file CSV
df = pd.read_csv("multipico_ita_filtered.csv")

print(len(df))

# Funzione per analizzare testo con spaCy
def analyze_text(text):
    doc = nlp(text)
    tokens = [token.text for token in doc if not token.is_punct and not token.is_space]
    types = set(tokens)
    ttr = len(types) / len(tokens) if tokens else 0

    # Conta le negazioni (es. 'non', 'nessuno', 'mai', ecc.)
    negations = [token for token in doc if token.dep_ == "neg" or token.lemma_ in ["non", "nessuno", "mai"]]

    # Conta le interiezioni (INTJ)
    interjections = [token for token in doc if token.pos_ == "INTJ"]

    return len(tokens), ttr, len(negations), len(interjections)

# Applica l'analisi spaCy riga per riga
results = df["reply"].apply(analyze_text)

# Estrai i risultati in nuove colonne
df[["num_tokens", "ttr", "num_negations", "num_interjections"]] = pd.DataFrame(results.tolist(), index=df.index)

# Salva il risultato in un nuovo CSV (opzionale)
df.to_csv("multipico_generation_metrics.csv", index=False)

# Visualizza un estratto dei risultati
print(df[["reply", "num_tokens", "ttr", "num_negations", "num_interjections"]].head())

# Calcola e stampa le medie delle metriche
mean_tokens = df["num_tokens"].mean()
mean_ttr = df["ttr"].mean()
mean_negations = df["num_negations"].mean()
mean_interjections = df["num_interjections"].mean()

print("VALORI MEDI:")
print(f"Token totali medi:        {mean_tokens:.3f}")
print(f"TTR medio:                {mean_ttr:.3f}")
print(f"Numero medio negazioni:  {mean_negations:.3f}")
print(f"Numero medio interiezioni: {mean_interjections:.3f}")

278
                                               reply  num_tokens       ttr  \
0         @USER  @USER Anche per rompere il ghiaccio           7  0.857143   
1                     @USER Nonnino! Già sveglio? ??           4  1.000000   
2             @USER il terrone di essere rimpiazzata           6  1.000000   
3                  @USER Tanto per non essere banali           6  1.000000   
4  Se le toghe rosse avessere mandato un avviso d...          19  0.947368   

   num_negations  num_interjections  
0              0                  0  
1              0                  0  
2              0                  0  
3              1                  0  
4              0                  0  
VALORI MEDI:
Token totali medi:        12.471
TTR medio:                0.956
Numero medio negazioni:  0.273
Numero medio interiezioni: 0.072
