In [15]:
import pandas as pd

df = pd.read_table("../../data/emotion/feelit.tsv")

df

Unnamed: 0,clean_tweet,label
0,"@USER Adoro questa canzone, è una delle mie pr...",joy
1,#MilanNovara È arrivato il 3 gol del MILAN ❤🖤...,joy
2,stream icarus falls 🖤 zayn ha un talento ed è ...,sadness
3,Persona di indiscutibile cultura #Daverio avev...,sadness
4,Oggi la direttrice @USER ha spiegato che #COVI...,fear
...,...,...
2032,"#NoMask il ""pugno duro"" della Polizia sollecit...",fear
2033,Perchè devo leggere questi commenti atroci? An...,fear
2034,Ad oggi è più pericoloso il vaccino del virus ...,fear
2035,"Ora lo so, dopo notti insonni passate a piange...",fear


In [16]:
df["label"].value_counts()

anger      912
joy        728
sadness    294
fear       103
Name: label, dtype: int64

In [17]:
label2id = {
    "joy": 0,
    "anger": 1,
    "sadness": 2,
    "fear": 3,
}

id2label = {v: k for k, v in label2id.items()}

df["label"] = df["label"].map(lambda x: label2id[x])

# Rename column to text

df = df.rename(columns={"clean_tweet": "text"})

df

Unnamed: 0,text,label
0,"@USER Adoro questa canzone, è una delle mie pr...",0
1,#MilanNovara È arrivato il 3 gol del MILAN ❤🖤...,0
2,stream icarus falls 🖤 zayn ha un talento ed è ...,2
3,Persona di indiscutibile cultura #Daverio avev...,2
4,Oggi la direttrice @USER ha spiegato che #COVI...,3
...,...,...
2032,"#NoMask il ""pugno duro"" della Polizia sollecit...",3
2033,Perchè devo leggere questi commenti atroci? An...,3
2034,Ad oggi è più pericoloso il vaccino del virus ...,3
2035,"Ora lo so, dopo notti insonni passate a piange...",3


In [18]:
# split into train, dev, test

from sklearn.model_selection import train_test_split

train, test = train_test_split(df, test_size=0.2, random_state=42, stratify=df["label"])

train, dev = train_test_split(train, test_size=0.2, random_state=42, stratify=train["label"])

train.shape, dev.shape, test.shape

((1303, 2), (326, 2), (408, 2))

In [19]:
from datasets import Dataset, Features, Value, ClassLabel, DatasetDict

features = Features({
    'text': Value('string'),
    "label": ClassLabel(num_classes=4, names=["joy", "anger", "sadness", "fear"]),
})


train = Dataset.from_pandas(train, features=features, preserve_index=False)
dev = Dataset.from_pandas(dev, features=features, preserve_index=False)
test = Dataset.from_pandas(test, features=features, preserve_index=False)

ds = DatasetDict({
    "train": train,
    "dev": dev,
    "test": test,
})


In [21]:
ds.push_to_hub("pysentimiento/it_emotion", private=True)

Pushing split train to the Hub.


Pushing dataset shards to the dataset hub:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/2 [00:00<?, ?ba/s]

Upload 1 LFS files:   0%|          | 0/1 [00:00<?, ?it/s]

Pushing split dev to the Hub.


Pushing dataset shards to the dataset hub:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Upload 1 LFS files:   0%|          | 0/1 [00:00<?, ?it/s]

Pushing split test to the Hub.


Pushing dataset shards to the dataset hub:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Upload 1 LFS files:   0%|          | 0/1 [00:00<?, ?it/s]