# Analisi di Dataset e Task

Configurazioni preliminari.

In [1]:
!pip install datasets



In [2]:
from datasets import load_dataset
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Benchmarck GLUE

GLUE, **General Language Understanding Evaluation**, è un benchmark progettato per valutare le capacità di comprensione del linguaggio naturale dei LLM. Include una raccolta di **nove** compiti di comprensione di frasi in inglese che coprono una grande varietà di domini linguistici e task. 

### 1. CoLA
Il dataset CoLA (Corpus of Linguistic Acceptability) permette di valutare la capacità di un modello di distinguere tra frasi linguisticamente accettabili e non accettabili in inglese.

**Caratteristiche del dataset**  

**Task**:  Accettabilità linguistica.   
       Valutare se una frase è grammaticalmente e sintatticamente corretta secondo i principi della lingua inglese.  
       
**Tipo di task**:  Classificazione binaria. Ogni frase è etichettata come grammaticalmente accettabile o non accettabile.  

**Dominio**:  Le frasi provengono da diversi domini.  

**Struttura del dataset**:  Ogni esempio contiene:  
                        - sentence: la frase in lingua inglese da analizzare.  
                        - label: etichetta binaria pari a 1 se la frase è accettabile o a 0 se non è accettabile.  
                        - idx: indice identificativo dell'esempio. 

**Nota bene**

Classi sbilanciate
La metrica principale per CoLA è il Matthew's Correlation Coefficient (MCC), preferito all' accuratezza visto che le classi sono sbilanciate.
Il test set cotiene solo etichette pari a -1

In [3]:
# Ottenimento del dataset

cola_dataset = load_dataset("glue", "cola")

print(cola_dataset)

DatasetDict({
    train: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 8551
    })
    validation: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1043
    })
    test: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1063
    })
})


In [4]:
def analyze_data(name, data, target):
    
    print(f"--- Analisi {name} ---")
    
    df = pd.DataFrame(data)
    
    # Dimensioni
    print(f"Numero di esempi nel {name}: {len(df)}\n")
    
    # Prime righe
    print("Prime 5 righe:")
    print(df.head(), "\n")
    
    # Dati mancanti
    print("Dati mancanti per colonna:")
    print(df.isnull().sum(), "\n")
    
    
    # Distribuzione delle etichette
    print("Distribuzione delle classi:")
    label_counts = df[target].value_counts()
    label_percentages = (label_counts / len(df)) * 100
    summary_table = pd.DataFrame({
        'Classe': label_counts.index,
        'Conteggio': label_counts.values,
        'Percentuale': label_percentages.values
    })
    print(summary_table, "\n\n")
    
    return df

In [5]:
train_data = cola_dataset["train"]
val_data = cola_dataset["validation"]
test_data = cola_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 8551 esempi
Validation set: 1043 esempi
Test set: 1063 esempi
Totale: 10657 esempi

--- Analisi Train ---
Numero di esempi nel Train: 8551

Prime 5 righe:
                                            sentence  label  idx
0  Our friends won't buy this analysis, let alone...      1    0
1  One more pseudo generalization and I'm giving up.      1    1
2   One more pseudo generalization or I'm giving up.      1    2
3     The more we study verbs, the crazier they get.      1    3
4          Day by day the facts are getting murkier.      1    4 

Dati mancanti per colonna:
sentence    0
label       0
idx         0
dtype: int64 

Distribuzione delle classi:
   Classe  Conteggio  Percentuale
0       1       6023    70.436206
1       0       2528    29.563794 


--- Analisi Validation ---
Numero di esempi nel Validation: 1043

Prime 5 righe:
                                            sentence  label  idx
0    The sailors rode the breeze clear of the ro

### 2. SST-2
Il dataset SST-2 (Stanford Sentiment Treebank 2) contiene recensioni di film annotate con sentiment positivo e negativo. 

**Caratteristiche del dataset**  

**Task**:  Sentiment analisys.   
         Valutare se una recensione esprime un sentimento positivo o negativo. 
       
**Tipo di task**:  Classificazione binaria. Ogni frase è etichettata come positiva (1) o negativa (0).

**Dominio**:  Le frasi provengono da recensioni cinematografiche

**Struttura del dataset**:  Ogni esempio contiene:  
                        - sentence: la recensione in lingua inglese da analizzare.  
                        - label: etichetta binaria pari a 1 se il sentiment è positivo o a 0 se è negativo.  
                        - idx: indice identificativo dell'esempio. 

**Nota bene**
- Classi bilanciate
- Il test set cotiene solo etichette pari a -1

In [6]:
# Ottenimento del dataset

sst2_dataset = load_dataset("glue", "sst2")

print(sst2_dataset)

DatasetDict({
    train: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 67349
    })
    validation: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 872
    })
    test: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1821
    })
})


In [7]:
train_data = sst2_dataset["train"]
val_data = sst2_dataset["validation"]
test_data = sst2_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 67349 esempi
Validation set: 872 esempi
Test set: 1821 esempi
Totale: 70042 esempi

--- Analisi Train ---
Numero di esempi nel Train: 67349

Prime 5 righe:
                                            sentence  label  idx
0       hide new secretions from the parental units       0    0
1               contains no wit , only labored gags       0    1
2  that loves its characters and communicates som...      1    2
3  remains utterly satisfied to remain the same t...      0    3
4  on the worst revenge-of-the-nerds clichés the ...      0    4 

Dati mancanti per colonna:
sentence    0
label       0
idx         0
dtype: int64 

Distribuzione delle classi:
   Classe  Conteggio  Percentuale
0       1      37569    55.782565
1       0      29780    44.217435 


--- Analisi Validation ---
Numero di esempi nel Validation: 872

Prime 5 righe:
                                            sentence  label  idx
0    it 's a charming and often affecting journe

### 3. MRPC 
Il dataset MRPC (Microsoft Research Paraphrase Corpus) permette di valutare la capacità di un modello di distinguere tra coppie di frasi che esprimono lo stesso significato (parafrasi) e coppie di frasi che non lo fanno.  

**Caratteristiche del dataset**  

*Task*: Identificazione delle parafrasi.  
Determinare se due frasi esprimono lo stesso significato.  

*Tipo di task*: Classificazione binaria. Ogni coppia di frasi è etichettata come parafrasi (1) o non parafrasi (0).  

*Dominio*: Le coppie di frasi provengono da notizie online, come articoli di MSN e CNN.  

*Struttura del dataset*: Ogni esempio contiene:  
- sentence1: la prima frase della coppia.  
- sentence2: la seconda frase della coppia.  
- label: etichetta binaria pari a 1 se le frasi sono parafrasi o a 0 se non lo sono.  
- idx: indice identificativo dell'esempio.  


**Nota bene**  
- Classi sbilanciate: La maggioranza delle coppie è costituita da parafrasi.  
- Metrica principale: La metrica comunemente utilizzata per valutare il modello è l'F1-score, che tiene conto dello sbilanciamento delle classi e della precisione.  

In [8]:
# Ottenimento del dataset

mrpc_dataset = load_dataset("glue", "mrpc")

print(mrpc_dataset)

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})


In [9]:
train_data = mrpc_dataset["train"]
val_data = mrpc_dataset["validation"]
test_data = mrpc_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 3668 esempi
Validation set: 408 esempi
Test set: 1725 esempi
Totale: 5801 esempi

--- Analisi Train ---
Numero di esempi nel Train: 3668

Prime 5 righe:
                                           sentence1  \
0  Amrozi accused his brother , whom he called " ...   
1  Yucaipa owned Dominick 's before selling the c...   
2  They had published an advertisement on the Int...   
3  Around 0335 GMT , Tab shares were up 19 cents ...   
4  The stock rose $ 2.11 , or about 11 percent , ...   

                                           sentence2  label  idx  
0  Referring to him as only " the witness " , Amr...      1    0  
1  Yucaipa bought Dominick 's in 1995 for $ 693 m...      0    1  
2  On June 10 , the ship 's owners had published ...      1    2  
3  Tab shares jumped 20 cents , or 4.6 % , to set...      0    3  
4  PG & E Corp. shares jumped $ 1.63 or 8 percent...      1    4   

Dati mancanti per colonna:
sentence1    0
sentence2    0
label  

### 4. QQP  
Il dataset QQP (Quora Question Pairs) permette di valutare la capacità di un modello di identificare se due domande poste su Quora hanno lo stesso significato o se sono distinte.  

**Caratteristiche del dataset**  

*Task*: Identificazione delle parafrasi.  
Determinare se due domande esprimono lo stesso significato. 

*Tipo di task*: Classificazione binaria. Ogni coppia di domande è etichettata come duplicate (1) o non duplicate (0). 

*Dominio*: Le domande provengono dalla piattaforma Quora, un sito di domande e risposte.  

*Struttura del dataset*: Ogni esempio contiene:  
- **question1**: la prima domanda della coppia.  
- **question2**: la seconda domanda della coppia.  
- **label**: etichetta binaria pari a 1 se le domande sono duplicate o a 0 se non lo sono.  
- **id**: indice identificativo dell'esempio.  

**Nota bene**  
- Classi sbilanciate: Le domande duplicate rappresentano circa il 37% del dataset, mentre il 63% delle coppie non sono duplicate.  
- Metrica principale: Le metriche comunemente utilizzate sono l'**F1-score** e l'**accuratezza**.
- Grande numero di esempi.
- Il test set cotiene solo etichette pari a -1

In [10]:
# Ottenimento del dataset

qqp_dataset = load_dataset("glue", "qqp")

print(qqp_dataset)

DatasetDict({
    train: Dataset({
        features: ['question1', 'question2', 'label', 'idx'],
        num_rows: 363846
    })
    validation: Dataset({
        features: ['question1', 'question2', 'label', 'idx'],
        num_rows: 40430
    })
    test: Dataset({
        features: ['question1', 'question2', 'label', 'idx'],
        num_rows: 390965
    })
})


In [11]:
train_data = qqp_dataset["train"]
val_data = qqp_dataset["validation"]
test_data = qqp_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 363846 esempi
Validation set: 40430 esempi
Test set: 390965 esempi
Totale: 795241 esempi

--- Analisi Train ---
Numero di esempi nel Train: 363846

Prime 5 righe:
                                           question1  \
0  How is the life of a math student? Could you d...   
1                How do I control my horny emotions?   
2       What causes stool color to change to yellow?   
3                        What can one do after MBBS?   
4  Where can I find a power outlet for my laptop ...   

                                           question2  label  idx  
0  Which level of prepration is enough for the ex...      0    0  
1                 How do you control your horniness?      1    1  
2  What can cause stool to come out as little balls?      0    2  
3                       What do i do after my MBBS ?      1    3  
4  Would a second airport in Sydney, Australia be...      0    4   

Dati mancanti per colonna:
question1    0
question2   

### 5. STS-B  
Il dataset STS-B (Semantic Textual Similarity Benchmark) permette di valutare la capacità di un modello di determinare il grado di somiglianza semantica tra due frasi.  

**Caratteristiche del dataset**  

*Task*: Valutazione della similarità semantica.  
Determinare quanto due frasi siano simili nel significato, assegnando un punteggio su una scala continua.  

*Tipo di task*: Regressione. Il modello prevede un punteggio di similarità compreso tra 0 (frasi completamente diverse) e 5 (frasi semanticamente identiche).  

*Dominio*: Le frasi provengono da molteplici fonti, tra cui notizie, forum, e sottotitoli, per garantire diversità semantica e stilistica.  

*Struttura del dataset*: Ogni esempio contiene:  
- **sentence1**: la prima frase della coppia.  
- **sentence2**: la seconda frase della coppia.  
- **label**: il punteggio di similarità semantica, un valore **reale** tra 0 e 5.  
- **idx**: indice identificativo dell'esempio.  

**Nota bene**  
- **Classi sbilanciate**
- **Metrica principale**: La performance del modello viene valutata usando la **correlazione di Pearson** e la **correlazione di Spearman**, che misurano il grado di accordo tra i punteggi previsti dal modello e i punteggi annotati.  
- Il test set ha tutte le etichette pari a -1.0 . 

In [12]:
# Ottenimento del dataset

stsb_dataset = load_dataset("glue", "stsb")

print(stsb_dataset)

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 5749
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1500
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1379
    })
})


In [13]:
def analyze_data_stsb(name, data,target):
    print(f"--- Analisi {name} ---")
    
    df = pd.DataFrame(data)
    
    # Dimensioni
    print(f"Numero di esempi nel {name}: {len(df)}\n")
    
    # Prime righe
    print("Prime 5 righe:")
    print(df.head(), "\n")
    
    # Dati mancanti
    print("Dati mancanti per colonna:")
    print(df.isnull().sum(), "\n")
    
    # Distribuzione delle etichette
    print("Distribuzione delle classi (intervalli di punteggio):")
    bins = [-1, 0, 1, 2, 3, 4, 5, 6, 7]
    labels = ['-1-0','0-1', '1-2', '2-3', '3-4', '4-5', '5-6', '6-7']
    df['target_range'] = pd.cut(df[target], bins=bins, labels=labels, right=False)
    
    range_counts = df['target_range'].value_counts(sort=False)
    range_percentages = (range_counts / len(df)) * 100
    summary_table = pd.DataFrame({
        'Intervallo': range_counts.index,
        'Conteggio': range_counts.values,
        'Percentuale': range_percentages.values
    })
    print(summary_table, "\n\n")
    
    return df


In [14]:
train_data = stsb_dataset["train"]
val_data = stsb_dataset["validation"]
test_data = stsb_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data_stsb("Train", train_data, "label")
analyze_data_stsb("Validation", val_data, "label")
analyze_data_stsb("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 5749 esempi
Validation set: 1500 esempi
Test set: 1379 esempi
Totale: 8628 esempi

--- Analisi Train ---
Numero di esempi nel Train: 5749

Prime 5 righe:
                                       sentence1  \
0                         A plane is taking off.   
1                A man is playing a large flute.   
2  A man is spreading shreded cheese on a pizza.   
3                   Three men are playing chess.   
4                    A man is playing the cello.   

                                           sentence2  label  idx  
0                        An air plane is taking off.   5.00    0  
1                          A man is playing a flute.   3.80    1  
2  A man is spreading shredded cheese on an uncoo...   3.80    2  
3                         Two men are playing chess.   2.60    3  
4                 A man seated is playing the cello.   4.25    4   

Dati mancanti per colonna:
sentence1    0
sentence2    0
label        0
idx          0


### 6. MNLI  
Il dataset MNLI (Multi-Genre Natural Language Inference) permette di verificare se due frasi sono una la contraddizione dell'altra, una la conseguenza dell'altra o sono neutrali fra loro.

**Caratteristiche del dataset**  

*Task*: Inferenza logica.
Valutare se, data una coppia di frasi (premessa e ipotesi), la relazione tra di esse sia conseguenza, contraddizione o neutralità.  

*Tipo di task*: Classificazione multi-classe (3 classi: Entailment, Neutral, Contradiction).  

*Dominio*:  Le frasi provengono da una varietà di generi testuali, tra cui fiction, transcripts di discorsi, scritti di viaggio, pagine di Wikipedia.

*Struttura del dataset*: Ogni esempio contiene:  
- **premise**: la frase principale (premessa).  
- **hypothesis**: la frase secondaria (ipotesi).  
- **label**: la relazione logica tra la premessa e l’ipotesi (0 = Entailment, 1 = Neutral, 2 = Contradiction).
- **idx**: indice identificativo dell’esempio.  

**Nota bene**  
- **Set di test e di validationseparati**: MNLI dispone di due tipi set di test e validation distinti:  
  - **Matched**: contiene esempi che appartengono agli stessi generi testuali del training set.  
  - **Mismatched**: contiene esempi provenienti da generi testuali differenti rispetto al training set.  
- Il test set contiene tutte le etichette pari a -1 .

In [15]:
# Ottenimento del dataset

mnli_dataset = load_dataset("glue", "mnli")

print(mnli_dataset)

DatasetDict({
    train: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 392702
    })
    validation_matched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9815
    })
    validation_mismatched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9832
    })
    test_matched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9796
    })
    test_mismatched: Dataset({
        features: ['premise', 'hypothesis', 'label', 'idx'],
        num_rows: 9847
    })
})


In [16]:
train_data = mnli_dataset["train"]
val_data = mnli_dataset["validation_matched"]
test_data = mnli_dataset["test_matched"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 392702 esempi
Validation set: 9815 esempi
Test set: 9796 esempi
Totale: 412313 esempi

--- Analisi Train ---
Numero di esempi nel Train: 392702

Prime 5 righe:
                                             premise  \
0  Conceptually cream skimming has two basic dime...   
1  you know during the season and i guess at at y...   
2  One of our number will carry out your instruct...   
3  How do you know? All this is their information...   
4  yeah i tell you what though if you go price so...   

                                          hypothesis  label  idx  
0  Product and geography are what make cream skim...      1    0  
1  You lose the things to the following level if ...      0    1  
2  A member of my team will execute your orders w...      0    2  
3                  This information belongs to them.      0    3  
4           The tennis shoes have a range of prices.      1    4   

Dati mancanti per colonna:
premise       0
hypothesis    

### 7. QNLI  
Il dataset QNLI (Question-answering Natural Language Inference) permette di valutare la capacità di un modello di determinare se una frase contenente un contesto risponde a una domanda specifica.  

**Caratteristiche del dataset**  

*Task*: Inferenza domanda-contesto.  
Valutare se, data una coppia composta da una domanda e una frase contestuale, la frase contiene la risposta alla domanda.  

*Tipo di task*: Classificazione binaria.  
Ogni coppia è etichettata con 1 se il contesto contiene la risposta alla domanda, 0 altrimenti.    

*Dominio*:  Le frasi provengono da Wikipedia, le domande sono state create da annotatori umani.  

*Struttura del dataset*: Ogni esempio contiene:  
- **question**: la domanda formulata da un annotatore.  
- **sentence**: una frase estratta dal paragrafo che potrebbe contenere la risposta.  
- **label**: etichetta binaria che indica se il contesto risponde alla domanda (1 = sì, 0 = no).  
- **idx**: indice identificativo dell’esempio.  

**Nota bene**  
- Il test set ha tutte le etichette pari a -1 .

In [17]:
# Ottenimento del dataset

qnli_dataset = load_dataset("glue", "qnli")

print(qnli_dataset)

DatasetDict({
    train: Dataset({
        features: ['question', 'sentence', 'label', 'idx'],
        num_rows: 104743
    })
    validation: Dataset({
        features: ['question', 'sentence', 'label', 'idx'],
        num_rows: 5463
    })
    test: Dataset({
        features: ['question', 'sentence', 'label', 'idx'],
        num_rows: 5463
    })
})


In [18]:
train_data = qnli_dataset["train"]
val_data = qnli_dataset["validation"]
test_data = qnli_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 104743 esempi
Validation set: 5463 esempi
Test set: 5463 esempi
Totale: 115669 esempi

--- Analisi Train ---
Numero di esempi nel Train: 104743

Prime 5 righe:
                                            question  \
0           When did the third Digimon series begin?   
1  Which missile batteries often have individual ...   
2  What two things does Popper argue Tarski's the...   
3  What is the name of the village 9 miles north ...   
4           What famous palace is located in London?   

                                            sentence  label  idx  
0  Unlike the two seasons before it and most of t...      1    0  
1  When MANPADS is operated by specialists, batte...      1    1  
2  He bases this interpretation on the fact that ...      0    2  
3  On 31 December 1853, the Ottoman forces at Cal...      0    3  
4  London contains four World Heritage Sites: the...      1    4   

Dati mancanti per colonna:
question    0
sentence    0
la

### 8. RTE  
Il dataset RTE (Recognizing Textual Entailment) permette di valutare la capacità di un modello di determinare se una frase implica logicamente un'altra.  

**Caratteristiche del dataset**  

*Task*: Inferenza testuale.  
Valutare se, data una coppia di frasi (premessa e ipotesi), la premessa implica logicamente l'ipotesi.  

*Tipo di task*: Classificazione binaria.  
Ogni coppia è etichettata con 1 se l'ipotesi è una conseguenza logica della premessa, 0 altrimenti.  

*Dominio*:  Le coppie di frasi provengono da varie fonti, inclusi notiziari, report scientifici, Wikipedia e dati generati per competizioni di inferenza testuale.  

*Struttura del dataset*: Ogni esempio contiene:  
- **sentece1**: la frase principale (premessa).  
- **sentence2**: la frase secondaria (ipotesi).  
- **label**: etichetta binaria che indica se la premessa implica l'ipotesi (1 = sì, 0 = no).  
- **idx**: indice identificativo dell’esempio.  

**Nota bene**    
- **Dimensioni ridotte**.
- Il test set ha tutte le etichette pari a -1 .

In [19]:
# Ottenimento del dataset

rte_dataset = load_dataset("glue", "rte")

print(rte_dataset)

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 2490
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 277
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3000
    })
})


In [20]:
train_data = rte_dataset["train"]
val_data = rte_dataset["validation"]
test_data = rte_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 2490 esempi
Validation set: 277 esempi
Test set: 3000 esempi
Totale: 5767 esempi

--- Analisi Train ---
Numero di esempi nel Train: 2490

Prime 5 righe:
                                           sentence1  \
0  No Weapons of Mass Destruction Found in Iraq Yet.   
1  A place of sorrow, after Pope John Paul II die...   
2  Herceptin was already approved to treat the si...   
3  Judie Vivian, chief executive at ProMedica, a ...   
4  A man is due in court later charged with the m...   

                                           sentence2  label  idx  
0         Weapons of Mass Destruction Found in Iraq.      1    0  
1  Pope Benedict XVI is the new leader of the Rom...      0    1  
2      Herceptin can be used to treat breast cancer.      0    2  
3  The previous name of Ho Chi Minh City was Saigon.      0    3  
4  Paul Stewart Hutchinson is accused of having s...      1    4   

Dati mancanti per colonna:
sentence1    0
sentence2    0
label  

### 9. WNLI  
Il dataset WNLI (Winograd Natural Language Inference) deriva dal Winograd Schema Challenge, un compito di comprensione della lettura progettato per valutare la capacità di un modello di risolvere ambiguità pronominali basate sul contesto.  

**Caratteristiche del dataset**  

*Task*: Risoluzione delle ambiguità pronominali.  
Data una frase contenente un pronome ambiguo e una frase ipotesi in cui il pronome è sostituito da un possibile referente dire se la frase ipotesi è implicata dalla frase originale.  

*Tipo di task*: Classificazione binaria.  
Ogni coppia di frasi è etichettata con 1 se la frase ipotesi è implicata dalla frase originale, 0 altrimenti.  

*Dominio*:  Le frasi provengono da libri di narrativa.

*Struttura del dataset*: Ogni esempio contiene:  
- **sentence1**: la frase originale contenente il pronome ambiguo.  
- **sentence2**: la frase ipotesi in cui il pronome è stato sostituito con un possibile referente.  
- **label**: etichetta binaria che indica se l’ipotesi è implicata dalla premessa (1 = sì, 0 = no).  
- **idx**: indice identificativo dell’esempio.  

**Nota bene**  
- **Difficoltà progettuale**: Gli esempi sono costruiti manualmente per eludere semplici metodi statistici, richiedendo un’interpretazione contestuale accurata.   
- Il test set ha tutte le etichette poste a -1.



In [21]:
# Ottenimento del dataset

wnli_dataset = load_dataset("glue", "wnli")

print(wnli_dataset)

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 635
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 71
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 146
    })
})


In [22]:
train_data = wnli_dataset["train"]
val_data = wnli_dataset["validation"]
test_data = wnli_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 635 esempi
Validation set: 71 esempi
Test set: 146 esempi
Totale: 852 esempi

--- Analisi Train ---
Numero di esempi nel Train: 635

Prime 5 righe:
                                           sentence1  \
0  I stuck a pin through a carrot. When I pulled ...   
1  John couldn't see the stage with Billy in fron...   
2  The police arrested all of the gang members. T...   
3  Steve follows Fred's example in everything. He...   
4  When Tatyana reached the cabin, her mother was...   

                                           sentence2  label  idx  
0                             The carrot had a hole.      1    0  
1                                  John is so short.      1    1  
2  The police were trying to stop the drug trade ...      1    2  
3                       Steve influences him hugely.      0    3  
4  mother was careful not to disturb her, undress...      0    4   

Dati mancanti per colonna:
sentence1    0
sentence2    0
label       

## Dataset per la sentiment analysis

### 1. SemEval 2017

Il dataset **SemEval 2017** è un dataset creato per un task della competizione Semantic Evaluetion del 2017. Consente di valutare i modelli sul task di sentiment analysis su testi provenienti da Twitter e quindi classificarli con positivi, negativi o neutri.

**Caratteristiche del dataset**

*Task*: Sentiment analysis su tweet.  

*Tipo di task*: Classificazione multiclasse. Ogni tweet è etichettato con una delle tre categorie di sentiment.

*Dominio*: I tweet provengono da Twitter e trattano di una varietà di argomenti, inclusi eventi di attualità, opinioni personali, e discussioni su temi popolari.

*Struttura del dataset*: Ogni esempio contiene:
- **id**: l'identificativo univoco del tweet.
- **sentiment**: l'etichetta di sentiment (positivo, negativo o neutro).
- **text**: il testo del tweet.

**Nota bene**
- **Classi sbilanciate**.
- **Poci esempi**.

In [36]:
import pandas as pd

# Percorsi dei file (modifica questi percorsi in base alla tua struttura)
train_file = "/kaggle/input/semeval-2017/twitter-2016train-A.txt"
validation_file = "/kaggle/input/semeval-2017/twitter-2016dev-A.txt"
test_file = "/kaggle/input/semeval-2017/twitter-2016devtest-A.txt"

# Carica i file in DataFrame
columns = ['id', 'sentiment', 'text']
train_data = pd.read_csv(train_file, sep='\t', names=columns, header=None, encoding='utf-8')
val_data = pd.read_csv(validation_file, sep='\t', names=columns, header=None, encoding='utf-8')
test_data = pd.read_csv(test_file, sep='\t', names=columns, header=None, encoding='utf-8')

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "sentiment")
analyze_data("Validation", val_data, "sentiment")
analyze_data("Test", test_data, "sentiment")
print('')


--- Dimensioni del dataset ---
Train set: 5868 esempi
Validation set: 1966 esempi
Test set: 2000 esempi
Totale: 9834 esempi

--- Analisi Train ---
Numero di esempi nel Train: 5868

Prime 5 righe:
                   id sentiment  \
0  628949369883000832  negative   
1  628976607420645377  negative   
2  629023169169518592  negative   
3  629179223232479232  negative   
4  629186282179153920   neutral   

                                                text  
0  dear @Microsoft the newOoffice for Mac is grea...  
1  @Microsoft how about you make a system that do...  
2  I may be ignorant on this issue but... should ...  
3  Thanks to @microsoft, I just may be switching ...  
4  If I make a game as a #windows10 Universal App...   

Dati mancanti per colonna:
id           0
sentiment    0
text         0
dtype: int64 

Distribuzione delle classi:
     Classe  Conteggio  Percentuale
0  positive       3017    51.414451
1   neutral       2001    34.100204
2  negative        850    14.485344 



### 2. Sentiment140

Il dataset **Sentiment140** è stato creato per l'analisi del sentiment sui tweet,  annotati manualmente con etichette positivo, negativo o neutro.  Le etichette di sentiment sono generate automaticamente basandosi sulle emoticon presenti nei tweet.

**Caratteristiche del dataset**

- **Task**: Sentiment analysis sui tweet.  

- **Tipo di task**: Classificazione binaria. Ogni tweet è etichettato come positivo (4), neutro (2) o negativo (0).

- **Dominio**: I tweet provengono da Twitter e trattano una vasta gamma di argomenti, tra cui notizie, eventi, opinioni e discussioni su temi vari.

- **Struttura del dataset**: Ogni esempio contiene:
    - **sentiment**: etichetta binaria che indica se il sentiment del tweet è positivo (4), neutro (2) o negativo (0).
    - **id**: identificativo univoco del tweet.
    - **date**: data e ora di pubblicazione del tweet.
    - **query**: tipo di ricerca che ha generato il tweet (in genere "TwitterSearch").
    - **user**: nome utente di chi ha scritto il tweet.
    - **text**: il testo del tweet.

**Nota bene**
- Il training set contiene due tipi etichette pari a positivo (4) e negativo (0), il test set contiene tre tipi di etichette positivo (4), neutro (2) e negativo (0).

In [37]:
# Ottenimento del dataset

sent140_dataset = load_dataset("stanfordnlp/sentiment140")

print(sent140_dataset)

README.md:   0%|          | 0.00/6.84k [00:00<?, ?B/s]

sentiment140.py:   0%|          | 0.00/4.03k [00:00<?, ?B/s]

The repository for stanfordnlp/sentiment140 contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/stanfordnlp/sentiment140.
You can avoid this prompt in future by passing the argument `trust_remote_code=True`.

Do you wish to run the custom code? [y/N]  y


Downloading data:   0%|          | 0.00/81.4M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/1600000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/498 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'date', 'user', 'sentiment', 'query'],
        num_rows: 1600000
    })
    test: Dataset({
        features: ['text', 'date', 'user', 'sentiment', 'query'],
        num_rows: 498
    })
})


In [38]:
train_data = sent140_dataset["train"]
test_data = sent140_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "sentiment")
analyze_data("Test", test_data, "sentiment")
print('')

--- Dimensioni del dataset ---
Train set: 1600000 esempi
Test set: 498 esempi
Totale: 1600498 esempi

--- Analisi Train ---
Numero di esempi nel Train: 1600000

Prime 5 righe:
                                                text  \
0  @switchfoot http://twitpic.com/2y1zl - Awww, t...   
1  is upset that he can't update his Facebook by ...   
2  @Kenichan I dived many times for the ball. Man...   
3    my whole body feels itchy and like its on fire    
4  @nationwideclass no, it's not behaving at all....   

                           date             user  sentiment     query  
0  Mon Apr 06 22:19:45 PDT 2009  _TheSpecialOne_          0  NO_QUERY  
1  Mon Apr 06 22:19:49 PDT 2009    scotthamilton          0  NO_QUERY  
2  Mon Apr 06 22:19:53 PDT 2009         mattycus          0  NO_QUERY  
3  Mon Apr 06 22:19:57 PDT 2009          ElleCTF          0  NO_QUERY  
4  Mon Apr 06 22:19:57 PDT 2009           Karoli          0  NO_QUERY   

Dati mancanti per colonna:
text         0
date       

### 3. Amazon Product Reviews

Il dataset **Amazon Product Reviews (2023)** contiene recensioni di prodotti tratte da Amazon, ed è stato progettato per valutare i modelli sul task di analisi del sentiment. Le recensioni sono suddivise in numerose categorie di prodotti, ciascuna delle quali consente di ottenere un dataset specifico. Maggiori informazioni: https://huggingface.co/datasets/McAuley-Lab/Amazon-Reviews-2023.


**Caratteristiche del dataset**

- **Task**: Sentiment analysis.  
  Determinare quanto sia buona una recensione, assegnando un punteggio che va da 1 a 5, dove 1 indica una recensione molto negativa e 5 una recensione molto positiva.
  
- **Tipo di task**: **Classificazione multiclasse**. Ogni recensione è etichettata con un punteggio da 1.0 a 5.0.

- **Dominio**: Le recensioni coprono una vasta gamma di categorie di prodotti, come elettronica, abbigliamento, giocattoli, articoli per la casa, e molto altro.

- **Struttura del dataset**: Il dataset contiene molte features, quelle strettamente necessarie sono:
  - **rating**: il rating numerico assegnato dal recensore al prodotto, compreso tra 1.0 e 5.0.
  - **text**: il testo della recensione.

**Nota bene**  
- **Classi sbilanciate**.
- I dati sono inseriti in un unico file, non solo  divisi in training set,validation set e testd set.


In [39]:
# Ottenimento del dataset
dataset = load_dataset("McAuley-Lab/Amazon-Reviews-2023", "raw_review_Magazine_Subscriptions", trust_remote_code=True)

# Mantengo solo le features rilevanti
dataset = pd.DataFrame({
    'text': dataset['full']['text'], 
    'rating': dataset['full']['rating'], 
})

print(dataset)

README.md:   0%|          | 0.00/30.3k [00:00<?, ?B/s]

Amazon-Reviews-2023.py:   0%|          | 0.00/39.6k [00:00<?, ?B/s]

Magazine_Subscriptions.jsonl:   0%|          | 0.00/33.3M [00:00<?, ?B/s]

Generating full split: 0 examples [00:00, ? examples/s]

                                                    text  rating
0                    Wonderful recipes in this magazine.     5.0
1      Great sports magazine that's on my 9 year olds...     4.0
2      "Joy of Kosher" magazine fills a much-needed n...     5.0
3      I've been addicted to Martha Stewart's Everyda...     5.0
4                                          Too many ads!     1.0
...                                                  ...     ...
71492  I subscribe to three car magazines. Road and T...     5.0
71493  Though the magazine covers the industry well I...     4.0
71494  My daughter wanted to subscribe to a magazine ...     5.0
71495  Dear Sirs,<br /><br />Two days ago I ordered H...     2.0
71496  I've been backpacking for years & I've subscri...     5.0

[71497 rows x 2 columns]


In [40]:
from sklearn.model_selection import train_test_split

train_data, temp_data = train_test_split(dataset, test_size=0.2, random_state=42)

val_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data_stsb("Train", train_data, "rating")
analyze_data_stsb("Validation", val_data, "rating")
analyze_data_stsb("Test", test_data, "rating")
print('')

--- Dimensioni del dataset ---
Train set: 57197 esempi
Validation set: 7150 esempi
Test set: 7150 esempi
Totale: 71497 esempi

--- Analisi Train ---
Numero di esempi nel Train: 57197

Prime 5 righe:
                                                    text  rating
20189   The writing isn't great, but it's lovely anyway.     5.0
8477                                      Great product.     5.0
59215                                   Only 2 showed up     1.0
40333  Time slants news to the Liberal Left plus this...     4.0
11092  This is a really great magazine for history bu...     5.0 

Dati mancanti per colonna:
text      0
rating    0
dtype: int64 

Distribuzione delle classi (intervalli di punteggio):
  Intervallo  Conteggio  Percentuale
0       -1-0          0     0.000000
1        0-1          0     0.000000
2        1-2       7718    13.493715
3        2-3       3166     5.535255
4        3-4       4060     7.098274
5        4-5       6561    11.470881
6        5-6      35692    62.

## Dataset per la classificazione

### 1. AG News

Il dataset **AG News** è una raccolta di articoli di notizie che permette di valutare i modelli NLP sul task di classificazione di testi in categorie tematiche. 

Maggiori informazioni: [AG News Dataset](https://huggingface.co/datasets/ag_news).

  

**Caratteristiche del dataset**

- **Task**: Classificazione.  
  Assegnare ogni articolo a una delle quattro categorie predefinite: **World**, **Sports**, **Business**, e **Sci/Tech**.

- **Tipo di task**: **Classificazione multiclasse**. Ogni articolo è associato a una sola categoria.

- **Dominio**: Le notizie trattano 4 argomenti: notizie internazionali, notizie sportive, economia e affari, scienza e tecnologia.

- **Struttura del dataset**:  
 Ogni esempio contiene:
  - **label**: La categoria tematica assegnata all'articolo:  0: **World**, 1: **Sports**, 2: **Business**, 3: **Sci/Tech**).
  - **text**: Il titolo dell'articolo seguito da una sua breve descrizione.

**Nota bene**  
- I dati sono organizzati in training set e test set. Non è fornito un validation set.

In [41]:
# Ottenimento del dataset

ag_dataset = load_dataset("ag_news")

print(ag_dataset)

README.md:   0%|          | 0.00/8.07k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/18.6M [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/1.23M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/120000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/7600 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 120000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 7600
    })
})


In [42]:
train_data = ag_dataset["train"]
test_data = ag_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 120000 esempi
Test set: 7600 esempi
Totale: 127600 esempi

--- Analisi Train ---
Numero di esempi nel Train: 120000

Prime 5 righe:
                                                text  label
0  Wall St. Bears Claw Back Into the Black (Reute...      2
1  Carlyle Looks Toward Commercial Aerospace (Reu...      2
2  Oil and Economy Cloud Stocks' Outlook (Reuters...      2
3  Iraq Halts Oil Exports from Main Southern Pipe...      2
4  Oil prices soar to all-time record, posing new...      2 

Dati mancanti per colonna:
text     0
label    0
dtype: int64 

Distribuzione delle classi:
   Classe  Conteggio  Percentuale
0       2      30000         25.0
1       3      30000         25.0
2       1      30000         25.0
3       0      30000         25.0 


--- Analisi Test ---
Numero di esempi nel Test: 7600

Prime 5 righe:
                                                text  label
0  Fears for T N pension after talks Unions repre...      2
1  The Rac

### 2. Emotion Dataset

Il dataset **Emotion Dataset** è una raccolta di tweet che permette di valutare modelli NLP sul task di analisi delle emozioni. Ogni tweet è etichettato con una delle sei emozioni predefinite. Maggiori informazioni: [Emotion Dataset](https://huggingface.co/datasets/dair-ai/emotion).


**Caratteristiche del dataset**

- **Task**: Rilevazione delle emozioni.  
  Classificare ogni tweet in base all'emozione predominante.

- **Tipo di task**: **Classificazione multiclasse**. Ogni tweet è associato a una sola emozione.

- **Dominio**: I tweet coprono una vasta gamma di argomenti, riflettendo emozioni umane comuni tra cui gioia, tristezza, rabbia, paura, amore, sorpresa.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **text**: Il testo del tweet.
  - **label**: L'emozione associata al tweet, rappresentata come una stringa.

**Nota bene**  
- **Classi sbilanciate**.

In [43]:
# Ottenimento del dataset

emotion_dataset = load_dataset("dair-ai/emotion")

print(emotion_dataset)

README.md:   0%|          | 0.00/9.05k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/1.03M [00:00<?, ?B/s]

validation-00000-of-00001.parquet:   0%|          | 0.00/127k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/129k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/16000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/2000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/2000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 16000
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 2000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 2000
    })
})


In [44]:
train_data = emotion_dataset["train"]
val_data = emotion_dataset["validation"]
test_data = emotion_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Validation", val_data, "label")
analyze_data("Test", test_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 16000 esempi
Validation set: 2000 esempi
Test set: 2000 esempi
Totale: 20000 esempi

--- Analisi Train ---
Numero di esempi nel Train: 16000

Prime 5 righe:
                                                text  label
0                            i didnt feel humiliated      0
1  i can go from feeling so hopeless to so damned...      0
2   im grabbing a minute to post i feel greedy wrong      3
3  i am ever feeling nostalgic about the fireplac...      2
4                               i am feeling grouchy      3 

Dati mancanti per colonna:
text     0
label    0
dtype: int64 

Distribuzione delle classi:
   Classe  Conteggio  Percentuale
0       1       5362     33.51250
1       0       4666     29.16250
2       3       2159     13.49375
3       4       1937     12.10625
4       2       1304      8.15000
5       5        572      3.57500 


--- Analisi Validation ---
Numero di esempi nel Validation: 2000

Prime 5 righe:
                         

### 3. Yahoo Answers Topics

Il dataset **Yahoo Answers Topics** è una raccolta di domande e risposte tratte dalla piattaforma Yahoo Answers, progettata per valutare i modelli NLP sul task di classificazione in categorie tematiche.  
Maggiori informazioni: [Yahoo Answers Topics Dataset](https://huggingface.co/datasets/yahoo_answers_topics).



**Caratteristiche del dataset**

- **Task**: Classificazione.  
  Assegnare ogni domanda a una delle dieci categorie predefinite.

- **Tipo di task**: **Classificazione multiclasse**. Ogni domanda è associata a una sola categoria.

- **Dominio**: Le domande coprono un'ampia gamma di argomenti suddivisi in 10 categorie:  
  0: **Society & Culture**,  
  1: **Science & Mathematics**,  
  2: **Health**,  
  3: **Education & Reference**,  
  4: **Computers & Internet**,  
  5: **Sports**,  
  6: **Business & Finance**,  
  7: **Entertainment & Music**,  
  8: **Family & Relationships**,  
  9: **Politics & Government**.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **id**: identificativo dell'esempio 
  - **topic**: La categoria tematica assegnata alla domanda (da 0 a 9).
  - **question_title**: Il titolo della domanda.
  - **question_content**: Il contenuto dettagliato della domanda.
  - **best_answer**: La risposta considerata migliore.

---

**Nota bene**  
- I dati sono organizzati in training set e test set. Non è fornito un validation set. 

In [45]:
# Ottenimento del dataset

yahoo_dataset = load_dataset("community-datasets/yahoo_answers_topics")

print(yahoo_dataset)

README.md:   0%|          | 0.00/5.20k [00:00<?, ?B/s]

train-00000-of-00002.parquet:   0%|          | 0.00/241M [00:00<?, ?B/s]

train-00001-of-00002.parquet:   0%|          | 0.00/270M [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/21.9M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/1400000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/60000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'topic', 'question_title', 'question_content', 'best_answer'],
        num_rows: 1400000
    })
    test: Dataset({
        features: ['id', 'topic', 'question_title', 'question_content', 'best_answer'],
        num_rows: 60000
    })
})


In [46]:
train_data = yahoo_dataset["train"]
test_data = yahoo_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data)  + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "topic")
analyze_data("Test", test_data, "topic")
print('')

--- Dimensioni del dataset ---
Train set: 1400000 esempi
Test set: 60000 esempi
Totale: 1460000 esempi

--- Analisi Train ---
Numero di esempi nel Train: 1400000

Prime 5 righe:
   id  topic                                     question_title  \
0   0      4  why doesn't an optical mouse work on a glass t...   
1   1      5       What is the best off-road motorcycle trail ?   
2   2      2             What is Trans Fat? How to reduce that?   
3   3      6                         How many planes Fedex has?   
4   4      6  In the san francisco bay area, does it make se...   

                                    question_content  \
0                          or even on some surfaces?   
1                  long-distance trail throughout CA   
2  I heard that tras fat is bad for the body.  Wh...   
3  I heard that it is the largest airline in the ...   
4  the prices of rent and the price of buying doe...   

                                         best_answer  
0  Optical mice use an LED 

### 4. Toxic Comment Classification

Il dataset **Toxic Comment Classification** è una raccolta di commenti provenienti da discussioni online, progettata per valutare i modelli NLP sul task di classificazione multilabel di commenti tossici.  
Maggiori informazioni: [Toxic Comment Classification Dataset](https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge).
  
  
**Caratteristiche del dataset**

- **Task**: Classificazione multilabel.  
  Identificare la presenza di uno o più tipi di tossicità all'interno di un commento.

- **Tipo di task**: **Classificazione multilabel**. Ogni commento può appartenere a una o più delle seguenti categorie: **toxic**, **severe_toxic**, **obscene**, **threat**, **insult**, **identity_hate**.

- **Dominio**: I commenti provangono da Wikipedia.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **id**: identificatore univoco del commento.  
  - **comment_text**: il testo del commento.  
  - **toxic**, **severe_toxic**, **obscene**, **threat**, **insult**, **identity_hate**: Colonne binarie che indicano se il commento appartiene alla rispettiva categoria (1 = sì, 0 = no).


**Nota bene**  
- I dati sono organizzati in training set e test set. Non è fornito un validation set.  
- Il dataset è sbilanciato.

In [47]:
# Ottenimento del dataset

toxic_dataset = pd.read_csv('/kaggle/input/toxisity-detection-dataset/train.csv')

print(toxic_dataset)

                      id                                       comment_text  \
0       0000997932d777bf  Explanation\nWhy the edits made under my usern...   
1       000103f0d9cfb60f  D'aww! He matches this background colour I'm s...   
2       000113f07ec002fd  Hey man, I'm really not trying to edit war. It...   
3       0001b41b1c6bb37e  "\nMore\nI can't make any real suggestions on ...   
4       0001d958c54c6e35  You, sir, are my hero. Any chance you remember...   
...                  ...                                                ...   
159566  ffe987279560d7ff  ":::::And for the second time of asking, when ...   
159567  ffea4adeee384e90  You should be ashamed of yourself \n\nThat is ...   
159568  ffee36eab5c267c9  Spitzer \n\nUmm, theres no actual article for ...   
159569  fff125370e4aaaf3  And it looks like it was actually you who put ...   
159570  fff46fc426af1f9a  "\nAnd ... I really don't think you understand...   

        toxic  severe_toxic  obscene  threat  insul

In [48]:
import pandas as pd

def analyze_data_toxic(name, data, class_columns):
    print(f"--- Analisi {name} ---")
    df = pd.DataFrame(data)
    
    # Dimensioni
    print(f"Numero di esempi nel {name}: {len(df)}\n")
    
    # Prime righe
    print("Prime 5 righe:")
    print(df.head(), "\n")
    
    # Dati mancanti
    print("Dati mancanti per colonna:")
    print(df.isnull().sum(), "\n")
    
    # Distribuzione delle classi
    print("Distribuzione delle classi (colonne binarie):")
    distribution_table = []
    
    for col in class_columns:
        total_positive = df[col].sum()
        percentage_positive = (total_positive / len(df)) * 100
        distribution_table.append({
            'Colonna': col,
            'Positivi': total_positive,
            'Percentuale': percentage_positive
        })
    
    distribution_df = pd.DataFrame(distribution_table)
    print(distribution_df, "\n\n")
    
    return df


In [49]:
from sklearn.model_selection import train_test_split

train_data, temp_data = train_test_split(toxic_dataset, test_size=0.2, random_state=42)

val_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")
    
# Analisi dei tre split del dataset
class_columns = ['toxic', 'severe_toxic', 'obscene', 'threat', 'insult', 'identity_hate']
analyze_data_toxic("Train", train_data, class_columns)
analyze_data_toxic("Validation", val_data, class_columns)
analyze_data_toxic("Test", test_data, class_columns)
print('')

--- Dimensioni del dataset ---
Train set: 127656 esempi
Validation set: 15957 esempi
Test set: 15958 esempi
Totale: 159571 esempi

--- Analisi Train ---
Numero di esempi nel Train: 127656

Prime 5 righe:
                      id                                       comment_text  \
140030  ed56f082116dcbd0  Grandma Terri Should Burn in Trash \nGrandma T...   
159124  f8e3cd98b63bf401  , 9 May 2009 (UTC)\nIt would be easiest if you...   
60006   a09e1bcf10631f9a  "\n\nThe Objectivity of this Discussion is dou...   
65432   af0ee0066c607eb8              Shelly Shock\nShelly Shock is. . .( )   
154979  b734772b1a807e09  I do not care. Refer to Ong Teng Cheong talk p...   

        toxic  severe_toxic  obscene  threat  insult  identity_hate  
140030      1             0        0       0       0              0  
159124      0             0        0       0       0              0  
60006       0             0        0       0       0              0  
65432       0             0        0     

### 5. DBpedia 14

Il dataset **DBpedia 14** è una raccolta di documenti Wikipedia classificati in 14 categorie, progettata per valutare i modelli NLP sul task di classificazione di testi in categorie tematiche.  
Maggiori informazioni: [DBpedia 14 Dataset](https://huggingface.co/datasets/fancyzhx/dbpedia_14).


**Caratteristiche del dataset**

- **Task**: Classificazione.  
  Assegnare ogni articolo a una delle 14 categorie tematiche predefinite.
  
- **Tipo di task**: **Classificazione multiclasse**. Ogni articolo è associato a una sola categoria tra le seguenti:
    - **Company** (0): Aziende e organizzazioni commerciali.
    - **EducationalInstitution** (1): Istituzioni educative come scuole, università, ecc.
    - **Artist** (2): Artisti, incluse figure come pittori, musicisti, scrittori, ecc.
    - **Athlete** (3): Atleti di vari sport.
    - **OfficeHolder** (4): Persone che occupano posizioni politiche o amministrative.
    - **MeanOfTransportation** (5): Mezzi di trasporto come automobili, treni, aerei, ecc.
    - **Building** (6): Edifici, strutture architettoniche.
    - **NaturalPlace** (7): Luoghi naturali come montagne, fiumi, laghi, ecc.
    - **Village** (8): Villaggi e piccole comunità.
    - **Animal** (9): Animali di tutte le specie.
    - **Plant** (10): Piante e organismi vegetali.
    - **Album** (11): Album musicali e raccolte di brani.
    - **Film** (12): Film, opere cinematografiche.
    - **WrittenWork** (13): Opere scritte come libri, articoli, saggi, ecc.

- **Dominio**: I testi provengono da Wikipedia.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **title**: Il titolo del documento Wikipedia.
  - **content**: Il contenuto del documento.
  - **label**: La categoria tematica assegnata all'articolo.
  
**Nota bene**  
- I dati sono divisi intrain set e test set.

In [50]:
#ottenimento del dataset
train_data = pd.read_csv('/kaggle/input/dbpedia-ontology-dataset/train.csv')
test_data = pd.read_csv('/kaggle/input/dbpedia-ontology-dataset/test.csv')
print(train_data)

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data)  + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
analyze_data("Test", test_data, "label")
print('')

        label                              title  \
0           0                   E. D. Abbott Ltd   
1           0                     Schwan-Stabilo   
2           0                         Q-workshop   
3           0  Marvell Software Solutions Israel   
4           0        Bergan Mercy Medical Center   
...       ...                                ...   
559995     13                   Barking in Essex   
559996     13                   Science & Spirit   
559997     13             The Blithedale Romance   
559998     13                Razadarit Ayedawbon   
559999     13           The Vinyl Cafe Notebooks   

                                                  content  
0        Abbott of Farnham E D Abbott Limited was a Br...  
1        Schwan-STABILO is a German maker of pens for ...  
2        Q-workshop is a Polish company located in Poz...  
3        Marvell Software Solutions Israel known as RA...  
4        Bergan Mercy Medical Center is a hospital loc...  
...            

### 6. SMS Spam Collection

Il dataset **SMS Spam Collection** è una raccolta di messaggi SMS etichettati, progettata per valutare i modelli NLP nel task di classificazione binaria per identificare i messaggi spam.  
Maggiori informazioni: [SMS Spam Collection Dataset](https://archive.ics.uci.edu/ml/datasets/sms+spam+collection).


**Caratteristiche del dataset**

- **Task**: Classificazione binaria.  
  Determinare se un messaggio SMS è **spam** (indesiderato) o **ham** (non spam, ossia un messaggio legittimo).

- **Tipo di task**: **Classificazione binaria**. Ogni messaggio è etichettato come spam/ham.

- **Dominio**: I messaggi provengono da una varietà di contesti, inclusi spam pubblicitari, notifiche di servizio e messaggi personali.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **label**: L'etichetta associata al messaggio, che può essere **spam** o **ham**.
  - **message**: Il testo del messaggio SMS.

**Nota bene**  
- I dati sono organizzati in un unico file, non suddivisi in training, validation e test set.
- Il dataset è sbilanciato, con una maggiore quantità di messaggi legittimi (ham) rispetto ai messaggi spam.

In [51]:
# Ottenimento del dataset

sms_dataset = load_dataset("ucirvine/sms_spam")

print(sms_dataset)

README.md:   0%|          | 0.00/4.98k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/359k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/5574 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['sms', 'label'],
        num_rows: 5574
    })
})


In [52]:
train_data = sms_dataset["train"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Totale: {len(train_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data,"label")
print('')

--- Dimensioni del dataset ---
Train set: 5574 esempi
Totale: 5574 esempi

--- Analisi Train ---
Numero di esempi nel Train: 5574

Prime 5 righe:
                                                 sms  label
0  Go until jurong point, crazy.. Available only ...      0
1                    Ok lar... Joking wif u oni...\n      0
2  Free entry in 2 a wkly comp to win FA Cup fina...      1
3  U dun say so early hor... U c already then say...      0
4  Nah I don't think he goes to usf, he lives aro...      0 

Dati mancanti per colonna:
sms      0
label    0
dtype: int64 

Distribuzione delle classi:
   Classe  Conteggio  Percentuale
0       0       4827    86.598493
1       1        747    13.401507 





### 7. GoEmotions

Il dataset **GoEmotions** è una raccolta di commenti da Reddit, progettata per valutare i modelli NLP nel task di classificazione delle emozioni. 

**Caratteristiche del dataset**

- **Task**: Classificazione.
  Assegnare a ciascun commento una o più tra 27 emozioni.

- **Tipo di task**: **Classificazione multilabel**. Ogni commento può appartenere a una o più delle seguenti categorie:
  - **0**: Ammirazione
  - **1**: Divertimento
  - **2**: Rabbia
  - **3**: Fastidio
  - **4**: Approvazione
  - **5**: Cura
  - **6**: Confusione
  - **7**: Delusione
  - **8**: Disgusto
  - **9**: Paura
  - **10**: Felicità
  - **11**: Tristezza
  - **12**: Sorpresa
  - **13**: Invidia
  - **14**: Gratitudine
  - **15**: Speranza
  - **16**: Orgoglio
  - **17**: Colpa
  - **18**: Vergogna
  - **19**: Solitudine
  - **20**: Ansia
  - **21**: Nostalgia
  - **22**: Imbarazzo
  - **23**: Frustrazione
  - **24**: Sollevamento
  - **25**: Trionfo
  - **26**: Amore
  - **27**: Neutrale

- **Dominio**: I commenti provengono da Reddit.

- **Struttura del dataset**:
  Ogni esempio contiene:

  - **id**: Identificatore dell'esempio.
  - **text**: Il testo del commento.
  - **labels**: Una lista di etichette numeriche che rappresentano le emozioni associate al commento.

**Nota bene**
- **Classi sbilanciate**. 

In [53]:
# Ottenimento del dataset

goe_dataset = load_dataset("google-research-datasets/go_emotions")

print(goe_dataset)

README.md:   0%|          | 0.00/9.40k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/2.77M [00:00<?, ?B/s]

validation-00000-of-00001.parquet:   0%|          | 0.00/350k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/347k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/43410 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/5426 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/5427 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'labels', 'id'],
        num_rows: 43410
    })
    validation: Dataset({
        features: ['text', 'labels', 'id'],
        num_rows: 5426
    })
    test: Dataset({
        features: ['text', 'labels', 'id'],
        num_rows: 5427
    })
})


In [55]:
train_data = goe_dataset["train"]
val_data = goe_dataset["validation"]
test_data = goe_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data,"labels")
analyze_data("Validation", val_data, "labels")
analyze_data("Test", test_data, "labels")
print('')

--- Dimensioni del dataset ---
Train set: 43410 esempi
Validation set: 5426 esempi
Test set: 5427 esempi
Totale: 54263 esempi

--- Analisi Train ---
Numero di esempi nel Train: 43410

Prime 5 righe:
                                                text labels       id
0  My favourite food is anything I didn't have to...   [27]  eebbqej
1  Now if he does off himself, everyone will thin...   [27]  ed00q6i
2                     WHY THE FUCK IS BAYLESS ISOING    [2]  eezlygj
3                        To make her feel threatened   [14]  ed7ypvh
4                             Dirty Southern Wankers    [3]  ed0bdzj 

Dati mancanti per colonna:
text      0
labels    0
id        0
dtype: int64 

Distribuzione delle classi:
           Classe  Conteggio  Percentuale
0            [27]      12823    29.539277
1             [0]       2710     6.242801
2             [4]       1873     4.314674
3            [15]       1857     4.277816
4             [1]       1652     3.805575
..            ...        ..

### 8. Fake News

Il dataset **Fake News** è una raccolta di articoli di notizie progettata per addestrare e valutare modelli NLP nel compito di classificazione della veridicità delle notizie.  
Maggiori informazioni: [Fake News Dataset](https://www.kaggle.com/datasets/unarinemukwevho/fake-news).



**Caratteristiche del dataset**

- **Task**: Classificazione.  
  Determinare se una notizia è autentica o falsa.

- **Tipo di task**: **Classificazione binaria**. Ogni notizia appartiene a una delle seguenti categorie: **0** Fake, **1** Real.

- **Dominio**: Le notizie coprono vari argomenti, tra cui politica, società, economia e altri temi rilevanti.

- **Struttura del dataset**:  
  Ogni esempio contiene:  
  - **id**: Identificatore univoco dell'articolo.  
  - **title**: Il titolo della notizia.  
  - **author**: L'autore della notizia (se disponibile).  
  - **text**: Il corpo del testo dell'articolo.  
  - **label**: Etichetta binaria che indica se l'articolo è falso (0) o vero (1).


**Nota bene**  
- Non è fornito un validation set predefinito.  
- Il test set non ha le labels.

In [56]:
import pandas as pd

train_file = "/kaggle/input/fake-news/train.csv"
test_file = "/kaggle/input/fake-news/test.csv"

train_data = pd.read_csv(train_file, encoding='utf-8')
test_data = pd.read_csv(test_file,  encoding='utf-8')

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) +  + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data, "label")
print('')

--- Dimensioni del dataset ---
Train set: 20800 esempi
Test set: 5200 esempi
Totale: 26000 esempi

--- Analisi Train ---
Numero di esempi nel Train: 20800

Prime 5 righe:
   id                                              title              author  \
0   0  House Dem Aide: We Didn’t Even See Comey’s Let...       Darrell Lucus   
1   1  FLYNN: Hillary Clinton, Big Woman on Campus - ...     Daniel J. Flynn   
2   2                  Why the Truth Might Get You Fired  Consortiumnews.com   
3   3  15 Civilians Killed In Single US Airstrike Hav...     Jessica Purkiss   
4   4  Iranian woman jailed for fictional unpublished...      Howard Portnoy   

                                                text  label  
0  House Dem Aide: We Didn’t Even See Comey’s Let...      1  
1  Ever get the feeling your life circles the rou...      0  
2  Why the Truth Might Get You Fired October 29, ...      1  
3  Videos 15 Civilians Killed In Single US Airstr...      1  
4  Print \nAn Iranian woman has been s

## Dataset per la name entity recognition

### 1. CoNLL-2003

Il dataset **CoNLL-2003** è una raccolta annotata per il task di Named Entity Recognition, progettata per identificare entità nominate all'interno di testi.  
Maggiori informazioni: [CoNLL-2003 Dataset](https://github.com/asahi417/tner).
  
  
**Caratteristiche del dataset**

- **Task**: Named Entity Recognition.  
  Assegnare un'etichetta a ciascun token per identificare se fa parte di un'entità nominata e, in caso affermativo, il tipo di entità.

- **Tipo di task**: **Classificazione token-level**. Ogni token del testo è classificato in base alla sua appartenenza a una delle seguenti etichette:
  - **O**: Non appartenente a un'entità.
  - **B-ORG**: Inizio di un'entità organizzativa (es. "Google").
  - **I-ORG**: Continuazione di un'entità organizzativa. (es. "headquarters")
  - **B-MISC**: Inizio di un'entità di tipo misto (es. eventi o nazionalità, "Olympic").
  - **I-MISC**: Continuazione di un'entità di tipo misto. (es. "Games")
  - **B-PER**: Inizio di un'entità personale (es. "Barak").
  - **I-PER**: Continuazione di un'entità personale. (es. Obama)
  - **B-LOC**: Inizio di un'entità geografica o località (es. "Eiffel").
  - **I-LOC**: Continuazione di un'entità geografica. (es. Tower)

- **Dominio**: I testi provengono da articoli di notizie.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **token**: Parole estratte dal testo.
  - **label**: L'etichetta associata a ciascun token.


**Nota bene**  
- **Token sbilanciati**.
- Il dataset segue lo schema **IOB2**, in cui ogni entità inizia con un'etichetta "B" e continua con un'etichetta "I".

In [57]:
# Ottenimento del dataset

conll_dataset = load_dataset("tner/conll2003")

print(conll_dataset)

README.md:   0%|          | 0.00/2.97k [00:00<?, ?B/s]

conll2003.py:   0%|          | 0.00/2.74k [00:00<?, ?B/s]

conll2003/train/0000.parquet:   0%|          | 0.00/841k [00:00<?, ?B/s]

conll2003/validation/0000.parquet:   0%|          | 0.00/213k [00:00<?, ?B/s]

conll2003/test/0000.parquet:   0%|          | 0.00/192k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/14041 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/3250 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/3453 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['tokens', 'tags'],
        num_rows: 14041
    })
    validation: Dataset({
        features: ['tokens', 'tags'],
        num_rows: 3250
    })
    test: Dataset({
        features: ['tokens', 'tags'],
        num_rows: 3453
    })
})


In [58]:
import pandas as pd
from collections import Counter

def analyze_data_ner(name, data, target):
    print(f"--- Analisi {name} ---")
    
    # Converto i dati in un DataFrame
    df = pd.DataFrame(data)
    
    # Dimensioni
    print(f"Numero di esempi nel {name}: {len(df)}\n")
    
    # Prime righe
    print("Prime 5 righe:")
    print(df.head(), "\n")
    
    # Dati mancanti
    print("Dati mancanti per colonna:")
    print(df.isnull().sum(), "\n")
    
    # Distribuzione dei token e dei tag
    print("Distribuzione dei tag:")
    all_tags = [tag for tags_list in df[target] for tag in tags_list]
    tag_counts = Counter(all_tags)
    total_tags = sum(tag_counts.values())
    tag_distribution = pd.DataFrame({
        'Tag': list(tag_counts.keys()),
        'Conteggio': list(tag_counts.values()),
        'Percentuale': [count / total_tags * 100 for count in tag_counts.values()]
    }).sort_values(by='Conteggio', ascending=False)
    print(tag_distribution, "\n")
    
    return df


In [59]:
train_data = conll_dataset["train"]
val_data = conll_dataset["validation"]
test_data = conll_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data_ner("Train", train_data,"tags")
analyze_data_ner("Validation", val_data, "tags")
analyze_data_ner("Test", test_data, "tags")
print('')

--- Dimensioni del dataset ---
Train set: 14041 esempi
Validation set: 3250 esempi
Test set: 3453 esempi
Totale: 20744 esempi

--- Analisi Train ---
Numero di esempi nel Train: 14041

Prime 5 righe:
                                              tokens  \
0  [EU, rejects, German, call, to, boycott, Briti...   
1                                 [Peter, Blackburn]   
2                             [BRUSSELS, 1996-08-22]   
3  [The, European, Commission, said, on, Thursday...   
4  [Germany, 's, representative, to, the, Europea...   

                                                tags  
0                        [1, 0, 2, 0, 0, 0, 2, 0, 0]  
1                                             [3, 4]  
2                                             [5, 0]  
3  [0, 1, 6, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, ...  
4  [5, 0, 0, 0, 0, 1, 6, 0, 0, 0, 3, 4, 0, 0, 0, ...   

Dati mancanti per colonna:
tokens    0
tags      0
dtype: int64 

Distribuzione dei tag:
   Tag  Conteggio  Percentuale
1    0     1

### 2. WNUT 2017  

Il dataset **WNUT 2017** è una raccolta annotata per il task di Named Entity Recognition (NER), progettata per identificare entità nominate con un focus su entità rare ed emergenti in testi provenienti da social media.  
Maggiori informazioni: [WNUT 2017 Dataset](https://huggingface.co/datasets/leondz/wnut_17).  
  
  
**Caratteristiche del dataset**

- **Task**: Named Entity Recognition.  
  Assegnare un'etichetta a ciascun token per identificare se appartiene a un'entità nominata e, in caso affermativo, il tipo di entità.  

- **Tipo di task**: **Classificazione token-level**. Ogni token è classificato secondo lo schema **IOB2** in una delle seguenti categorie:  
  - **O**: Non appartenente a un'entità.  
  - **B-corporation**: Inizio di un'entità aziendale (es. "Microsoft").  
  - **I-corporation**: Continuazione di un'entità aziendale (es. "Corporation").  
  - **B-creative-work**: Inizio di un'entità relativa a opere creative (es. "The Matrix").  
  - **I-creative-work**: Continuazione di un'entità relativa a opere creative.  
  - **B-group**: Inizio di un'entità riferita a gruppi di persone (es. "The Beatles").  
  - **I-group**: Continuazione di un'entità riferita a gruppi di persone.  
  - **B-location**: Inizio di un'entità geografica o località (es. "Paris").  
  - **I-location**: Continuazione di un'entità geografica.  
  - **B-person**: Inizio di un'entità personale (es. "Elon").  
  - **I-person**: Continuazione di un'entità personale (es. "Musk").  
  - **B-product**: Inizio di un'entità riferita a prodotti (es. "iPhone").  
  - **I-product**: Continuazione di un'entità riferita a prodotti.  

- **Dominio**: I testi provengono da piattaforme di social media e contengono frasi brevi e informali.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **id**: identificativo dell'esempio. 
  - **tokens**: parole dal testo.  
  - **ner:tags**: etichetta associata a ciascun token*.  


**Nota bene**  
- **Token sbilanciati**.

In [60]:
# Ottenimento del dataset

wnut_dataset = load_dataset("leondz/wnut_17")

print(wnut_dataset)

README.md:   0%|          | 0.00/9.05k [00:00<?, ?B/s]

wnut_17.py:   0%|          | 0.00/7.46k [00:00<?, ?B/s]

The repository for leondz/wnut_17 contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/leondz/wnut_17.
You can avoid this prompt in future by passing the argument `trust_remote_code=True`.

Do you wish to run the custom code? [y/N]  y


Downloading data:   0%|          | 0.00/494k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/115k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/192k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/3394 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/1009 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1287 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'tokens', 'ner_tags'],
        num_rows: 3394
    })
    validation: Dataset({
        features: ['id', 'tokens', 'ner_tags'],
        num_rows: 1009
    })
    test: Dataset({
        features: ['id', 'tokens', 'ner_tags'],
        num_rows: 1287
    })
})


In [61]:
train_data = wnut_dataset["train"]
val_data = wnut_dataset["validation"]
test_data = wnut_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Test set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) + len(test_data)} esempi\n")

# Analisi dei tre split del dataset
analyze_data_ner("Train", train_data,"ner_tags")
analyze_data_ner("Validation", val_data, "ner_tags")
analyze_data_ner("Test", test_data, "ner_tags")
print('')

--- Dimensioni del dataset ---
Train set: 3394 esempi
Validation set: 1009 esempi
Test set: 1287 esempi
Totale: 5690 esempi

--- Analisi Train ---
Numero di esempi nel Train: 3394

Prime 5 righe:
  id                                             tokens  \
0  0  [@paulwalk, It, 's, the, view, from, where, I,...   
1  1  [From, Green, Newsfeed, :, AHFA, extends, dead...   
2  2  [Pxleyes, Top, 50, Photography, Contest, Pictu...   
3  3     [today, is, my, last, day, at, the, office, .]   
4  4  [4Dbling, 's, place, til, monday, ,, party, pa...   

                                            ner_tags  
0  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 7, ...  
1      [0, 0, 0, 0, 5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]  
2               [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]  
3                        [0, 0, 0, 0, 0, 0, 0, 0, 0]  
4               [9, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]   

Dati mancanti per colonna:
id          0
tokens      0
ner_tags    0
dtype: int64 

Distribuzione dei tag:
    Tag  C

## Dataset per il Question Answering

### 1. BoolQ

Il dataset **BoolQ** è una raccolta di domande basate su contenuti di testo, progettata per valutare i modelli NLP sul task di risposta a domande con risposta booleana (vero o falso).  
Maggiori informazioni: [BoolQ Dataset](https://huggingface.co/datasets/google/boolq).

**Caratteristiche del dataset**

- **Task**: Question Answering.  
  Determinare se una domanda posta su un passaggio di testo ha una risposta positiva (vero) o negativa (falso).

- **Tipo di task**: **Classificazione binaria**. Ogni domanda ha una risposta che può essere True o False.

- 
- **Dominio**: Le domande vengono raccolte da query anonime e aggregate nel motore di ricerca Google.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **passage**: Il passaggio di testo che fornisce il contesto per rispondere alla domanda.
  - **question**: La domanda a cui rispondere, formulata in relazione al passaggio.
  - **answer**: La risposta booleana alla domanda, indicata come **True** o **False**.

**Nota bene**  
- **Classi sbilanciate**.

In [62]:
# Ottenimento del dataset

boolq_dataset = load_dataset("google/boolq")

print(boolq_dataset)

README.md:   0%|          | 0.00/6.57k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/3.69M [00:00<?, ?B/s]

validation-00000-of-00001.parquet:   0%|          | 0.00/1.26M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/9427 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/3270 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['question', 'answer', 'passage'],
        num_rows: 9427
    })
    validation: Dataset({
        features: ['question', 'answer', 'passage'],
        num_rows: 3270
    })
})


In [63]:
train_data = boolq_dataset["train"]
val_data = boolq_dataset["validation"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data) } esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data,"answer")
analyze_data("Validation", val_data, "answer")
print('')

--- Dimensioni del dataset ---
Train set: 9427 esempi
Validation set: 3270 esempi
Totale: 12697 esempi

--- Analisi Train ---
Numero di esempi nel Train: 9427

Prime 5 righe:
                                            question  answer  \
0    do iran and afghanistan speak the same language    True   
1  do good samaritan laws protect those who help ...    True   
2  is windows movie maker part of windows essentials    True   
3  is confectionary sugar the same as powdered sugar    True   
4         is elder scrolls online the same as skyrim   False   

                                             passage  
0  Persian (/ˈpɜːrʒən, -ʃən/), also known by its ...  
1  Good Samaritan laws offer legal protection to ...  
2  Windows Movie Maker (formerly known as Windows...  
3  Powdered sugar, also called confectioners' sug...  
4  As with other games in The Elder Scrolls serie...   

Dati mancanti per colonna:
question    0
answer      0
passage     0
dtype: int64 

Distribuzione delle clas

### 7. RACE

Il dataset **RACE** (ReAding Comprehension from Examinations) è una raccolta di domande di comprensione del testo tratte da esami scolastici cinesi, progettata per valutare i modelli NLP sul task di risposta a domande di comprensione del testo.  
Maggiori informazioni: [RACE Dataset](https://huggingface.co/datasets/ehovy/race).

**Caratteristiche del dataset**

- **Task**: Question Answering / Reading Comprehension.  
  Determinare la risposta corretta tra un set di opzioni date, in base al passaggio di testo fornito.

- **Tipo di task**: **Classificazione multiclasse**. Ogni domanda ha un set di risposte possibili e il modello deve selezionare quella corretta.

- **Dominio**: Le domande sono tratte esami scolasticii, incentrati su vari argomenti.

- **Struttura del dataset**:  
  Ogni esempio contiene:
  - **example_id**: identificatore univoco dell'esempio nel dataset.
  - **article**: iIl passaggio di testo che fornisce il contesto per rispondere alla domanda.
  - **question**: la domanda che viene posta in relazione al passaggio di testo.
  - **answer**: la risposta corretta alla domanda.
  - **options**: le opzioni di risposta tra cui il modello deve selezionare quella corretta.

**Nota bene**  


In [64]:
# Ottenimento del dataset

race_dataset = load_dataset("ehovy/race", 'all')

print(race_dataset)

README.md:   0%|          | 0.00/11.0k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/2.08M [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/37.4M [00:00<?, ?B/s]

validation-00000-of-00001.parquet:   0%|          | 0.00/2.05M [00:00<?, ?B/s]

Generating test split:   0%|          | 0/4934 [00:00<?, ? examples/s]

Generating train split:   0%|          | 0/87866 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/4887 [00:00<?, ? examples/s]

DatasetDict({
    test: Dataset({
        features: ['example_id', 'article', 'answer', 'question', 'options'],
        num_rows: 4934
    })
    train: Dataset({
        features: ['example_id', 'article', 'answer', 'question', 'options'],
        num_rows: 87866
    })
    validation: Dataset({
        features: ['example_id', 'article', 'answer', 'question', 'options'],
        num_rows: 4887
    })
})


In [65]:
train_data = race_dataset["train"]
val_data = race_dataset["validation"]
test_data = race_dataset["test"]

print("--- Dimensioni del dataset ---")
print(f"Train set: {len(train_data)} esempi")
print(f"Validation set: {len(val_data)} esempi")
print(f"Validation set: {len(test_data)} esempi")
print(f"Totale: {len(train_data) + len(val_data)  + len(test_data) } esempi\n")

# Analisi dei tre split del dataset
analyze_data("Train", train_data,"answer")
analyze_data("Validation", val_data, "answer")
analyze_data("Test", test_data, "answer")
print('')

--- Dimensioni del dataset ---
Train set: 87866 esempi
Validation set: 4887 esempi
Validation set: 4934 esempi
Totale: 97687 esempi

--- Analisi Train ---
Numero di esempi nel Train: 87866

Prime 5 righe:
      example_id                                            article answer  \
0  high19088.txt  Last week I talked with some of my students ab...      C   
1  high19088.txt  Last week I talked with some of my students ab...      C   
2  high19088.txt  Last week I talked with some of my students ab...      D   
3  high19088.txt  Last week I talked with some of my students ab...      B   
4  high15596.txt  YUZHOU, HENAN -An accident in a central China ...      B   

                                            question  \
0  We can know from the passage that the author w...   
1  Many graduates today turn to cosmetic surgery ...   
2  According to the passage, the author believes ...   
3          Which' s the best title for the passage?.   
4     What could be the best title for this pa

## Altri dataset 

### Classificazione multilabel

- **Reuters-21578**: 21.578 articoli di notizie pubblicati da Reuters nel 1987 ed etichettati con 135 categorie tematiche, tra cui economia, sport, politica e tecnologia.
- **RCV1** : 800.000 articoli di notizie in inglese pubblicati da Reuters tra il 1996 e il 1997 ed etichettati con 103 categorie suddivise in gerarchie tematiche come economia, scienza, sport e tecnologia.
- **Emotion**: Frasi o brevi testi etichettati con emozioni multiple. Utilizzato per analisi emotive su contenuti testuali.
Etichette: Emozioni come gioia, tristezza, paura, rabbia, disgusto, sorpresa e confusione.
- **RCV1 (Reuters Corpus Volume 1)**
Contenuto: Corpus di oltre 800.000 articoli di notizie in inglese pubblicati da Reuters tra il 1996 e il 1997.
Etichette: 103 categorie suddivise in gerarchie tematiche come economia, scienza, sport e tecnologia.
- **Emotion Dataset**
Contenuto: Frasi o brevi testi etichettati con emozioni multiple. Utilizzato per analisi emotive su contenuti testuali.
Etichette: Emozioni come gioia, tristezza, paura, rabbia, disgusto, sorpresa e confusione.
- **Altri**: disponibili nelle librerie Mulan o scikit-multilearn



| Nome del dataset | Descrizione | Features e Label | Task | Tipo di task| Note |
| ---------------- | ----------- | ---------------- | ---- | ----------- | ---- |
| **Amazon Product Reviews**  | Recensioni di prodotti Amazon con punteggi da 1 a 5. | `text`: contenuto della recensione<br> `rating`: valutazione del prodotto da 1 a 5  | Sentiment Analysis | Classificazione multiclasse |  Specie di rating|
| **SST-2**            | Dataset di recensioni cinematografiche annotate con sentiment positivo o negativo. | `sentence`: recensione<br> `label`: sentimento binario| Sentiment Analysis | Classificazione binaria |  |
| **SemEval 2017**  | Dataset per sentiment analysis su tweet  | `text`: contenuto del tweet<br>`sentiment`: positivo, negativo, neutro | Sentiment Analysis | Classificazione multiclasse | Testi brevi (Tweet) |
| **Sentiment140** | Dataset di tweet con sentiment |  `text`: contenuto del tweet<br>`sentiment`: positivo o negativo | Sentiment Analysis | Classificazione binaria | Testi brevi |
| **SMS Spam Collection** | Messaggi SMS etichettati come spam o legittimi (ham).   | `message`: contenuto del messaggio SMS<br>`label`: spam o ham | Spam detection   | Classificazione binaria    |    |
| **Fake News** | Articoli di notizie etichettati come reali o falsi.   | `title`: titolo dell'articolo, `text`: contenuto dell'articolo<br>`label`: vero o falso | Fake news detection   | Classificazione binaria  |    |
| **AG News** | Articoli di notizie classificati in quattro categorie tematiche. | `text`: contenuto dell'articolo<br>`label`: categoria della notizia. | Classificazione  | Classificazione multiclasse | Notizie |
| **DBpedia 14**| Documenti Wikipedia classificati in 14 categorie.   |  `title`: titolo del documento, `content`: contenuto del documento<br>`label`: categoria del documento | Classificazione    | Classificazione multiclasse | Testi ontologici |
| **Yahoo Answers Topics** | Domande e risposte di Yahoo Answers, classificate in 10 categorie.| `question_title`: titolo della domanda, `question_content`: testo della domanda, `best_answer`: risposta migliore selezionata<br> `topic`: categoria della domanda | Classificazione | Classificazione multiclasse | Domande |
| **Emotion Dataset**  | Tweet classificati in base a sei emozioni.   | `text`: contenuto del tweet<br>`label`:emozione associata | Emotion Analysis  | Classificazione multiclasse | Testi brevi (Tweet) |
| **Toxic Comment Classification** | Commenti tossici da Wikipedia, classificati in più categorie di tossicità. | `comment_text`: contenuto del commento<br>  `toxic`, `severe_toxic`, `obscene`, `threat`, `insult`, `identity_hate`: etichette binarie per ogni tipo di tossicità. | Classificazione   | Classificazione multilabel | Multilabel |
| **GoEmotions**  | Commenti Reddit classificati in 27 emozioni.                           |`text`: contenuto del commento<br>`labels`: una o più emozioni associate al commento     | Emotion Analysis   | Classificazione multilabel | Multilabel  |
| **MNLI**             | Dataset per inferenza logica tra coppie di frasi (premessa e ipotesi). | `premise`: premessa<br>`hypothesis`: ipotesi<br>`label`: relazione logica (0 = Entailment, 1 = Neutral, 2 = Contradiction) | Inferenza logica  | Classificazione multi-classe |    |
| **QNLI**             | Dataset per valutare se una frase contestuale risponde a una domanda specifica. | `question`: domanda<br>`sentence`: frase contestuale<br>`label`: risposta binaria (1 = sì, 0 = no) | Inferenza logica | Classificazione binaria | Domande |
| **RTE**              | Dataset per valutare se una premessa implica logicamente un'ipotesi.  | `sentence1`: premessa<br>`sentence2`: ipotesi<br>- `label`: implicazione logica (1 = sì, 0 = no)| Inferenza logica | Classificazione binaria |  |
| **WNLI**             | Dataset per risolvere ambiguità pronominali basate sul contesto. | `sentence1`: frase originale<br>`sentence2`: frase ipotesi<br>`label`: implicazione logica (1 = sì, 0 = no) | Risoluzione di ambiguità pronominali   | Classificazione binaria | Pronomi |
| **MRPC**            | Dataset per valutare la capacità di identificare parafrasi tra coppie di frasi.| `sentence1`: prima frase<br>`sentence2`: seconda frase<br>`label`: parafrasi o non parafrasi | Identificazione Parafrasi | Classificazione binaria |   |
| **QQP**              | Dataset per identificare se due domande hanno lo stesso significato |`question1`: prima domanda<br>`question2`: seconda domanda<br>`label`: duplicate o non duplicate | Identificazione Parafrasi  | Classificazione binaria | Domande  |
| **STS-B**            | Dataset per valutare il grado di similarità semantica tra due frasi.  | `sentence1`: prima frase<br>`sentence2`: seconda frase<br>`label`: punteggio di similarità (0-5)| Similarità Semantica | Regressione | Speciie di rating |
| **CoLA**             | Dataset per valutare l'accettabilità linguistica di frasi in inglese. |`sentence`: frase in inglese<br>`label`: etichetta binaria | Accettabilità linguistica | Classificazione binaria |   |
| **CoNLL-2003**  | Frasi annotate con 8 label per Named Entity Recognition. | `token`: parole della frase<br> `label`: entità associata al token  | Named Entity Recognition     | Classificazione token-level | Testi medi  |
| **WNUT 2017**  | Annotazioni per Named Entity Recognition su testi di social media.   | `tokens`: sequenza di parole della frase<br>`ner_tags`: entità associate ai token  | Named Entity Recognition  | Classificazione token-level | Testi brevi e informali |
| **BoolQ**  | Domande con risposte booleane basate su passaggi di testo.  | `passage`: testo di riferimento, `question`: domanda<br> `answer`: vero o falso  | Question Answering           | Classificazione binaria   |   |
| **RACE**  | Domande di comprensione del testo tratte da esami scolastici.  | `article`:  testo dell'articolo, `question`: domanda, `options`: possibili risposte<br> `answer`: risposta corretta | Reading Comprehension | Classificazione multiclasse | |

Collezione di dataset e task


| Nome del dataset | Descrizione | Features e Label | Task | Tipo di task| Note |
| ---------------- | ----------- | ---------------- | ---- | ----------- | ---- |
| **Amazon Product Reviews**  | Recensioni di prodotti Amazon con punteggi da 1 a 5. | `text`: contenuto della recensione<br> `rating`: valutazione del prodotto da 1 a 5  | Sentiment Analysis | Classificazione multiclasse |  Specie di rating|
| **SST-2**            | Dataset di recensioni cinematografiche annotate con sentiment positivo o negativo. | `sentence`: recensione<br> `label`: sentimento binario| Sentiment Analysis | Classificazione binaria |  |
| **Sentiment140** | Dataset di tweet con sentiment |  `text`: contenuto del tweet<br>`sentiment`: positivo o negativo | Sentiment Analysis | Classificazione binaria | Testi brevi (Tweet) |
| **AG News** | Articoli di notizie classificati in quattro categorie tematiche. | `text`: contenuto dell'articolo<br>`label`: categoria della notizia. | Classificazione  | Classificazione multiclasse | Notizie |
| **Yahoo Answers Topics** | Domande e risposte di Yahoo Answers, classificate in 10 categorie.| `question_title`: titolo della domanda, `question_content`: testo della domanda, `best_answer`: risposta migliore selezionata<br> `topic`: categoria della domanda | Classificazione | Classificazione multiclasse | Domande |
| **Emotion Dataset**  | Tweet classificati in base a sei emozioni.   | `text`: contenuto del tweet<br>`label`:emozione associata | Emotion Analysis  | Classificazione multiclasse | Testi brevi (Tweet) |
| **Toxic Comment Classification** | Commenti tossici da Wikipedia, classificati in più categorie di tossicità. | `comment_text`: contenuto del commento<br>  `toxic`, `severe_toxic`, `obscene`, `threat`, `insult`, `identity_hate`: etichette binarie per ogni tipo di tossicità. | Classificazione   | Classificazione multilabel | Multilabel |
| **MNLI**             | Dataset per inferenza logica tra coppie di frasi (premessa e ipotesi). | `premise`: premessa<br>`hypothesis`: ipotesi<br>`label`: relazione logica (0 = Entailment, 1 = Neutral, 2 = Contradiction) | Inferenza logica  | Classificazione multi-classe |    |
| **QNLI**             | Dataset per valutare se una frase contestuale risponde a una domanda specifica. | `question`: domanda<br>`sentence`: frase contestuale<br>`label`: risposta binaria (1 = sì, 0 = no) | Inferenza logica | Classificazione binaria | Domande |
| **WNLI**             | Dataset per risolvere ambiguità pronominali basate sul contesto. | `sentence1`: frase originale<br>`sentence2`: frase ipotesi<br>`label`: implicazione logica (1 = sì, 0 = no) | Risoluzione di ambiguità pronominali   | Classificazione binaria | Pronomi |
| **MRPC**            | Dataset per valutare la capacità di identificare parafrasi tra coppie di frasi.| `sentence1`: prima frase<br>`sentence2`: seconda frase<br>`label`: parafrasi o non parafrasi | Identificazione Parafrasi | Classificazione binaria |   |
| **QQP**              | Dataset per identificare se due domande hanno lo stesso significato |`question1`: prima domanda<br>`question2`: seconda domanda<br>`label`: duplicate o non duplicate | Identificazione Parafrasi  | Classificazione binaria | Domande  |
| **STS-B**            | Dataset per valutare il grado di similarità semantica tra due frasi.  | `sentence1`: prima frase<br>`sentence2`: seconda frase<br>`label`: punteggio di similarità (0-5)| Similarità Semantica | Regressione | Speciie di rating |
| **CoLA**             | Dataset per valutare l'accettabilità linguistica di frasi in inglese. |`sentence`: frase in inglese<br>`label`: etichetta binaria | Accettabilità linguistica | Classificazione binaria |   |
| **CoNLL-2003**  | Frasi annotate con 8 label per Named Entity Recognition. | `token`: parole della frase<br> `label`: entità associata al token  | Named Entity Recognition     | Classificazione token-level | Testi medi  |
| **WNUT 2017**  | Annotazioni per Named Entity Recognition su testi di social media.   | `tokens`: sequenza di parole della frase<br>`ner_tags`: entità associate ai token  | Named Entity Recognition  | Classificazione token-level | Testi brevi e informali |
| **BoolQ**  | Domande con risposte booleane basate su passaggi di testo.  | `passage`: testo di riferimento, `question`: domanda<br> `answer`: vero o falso  | Question Answering           | Classificazione binaria   |   |
| **RACE**  | Domande di comprensione del testo tratte da esami scolastici.  | `article`:  testo dell'articolo, `question`: domanda, `options`: possibili risposte<br> `answer`: risposta corretta | Reading Comprehension | Classificazione multiclasse | |