In [1]:
!pip install transformers datasets evaluate accelerate



In [2]:
# import torch
from datasets import Dataset
from sklearn.preprocessing import LabelEncoder

In [3]:
!pip install parsivar



In [4]:
import pandas as pd
from parsivar import Normalizer
import re

# Read the TSV file into a DataFrame
df = pd.read_csv('train.tsv', sep='\t', header=None, names=['Sentence', 'Label'], encoding='utf-8')
df_test = pd.read_csv('test.tsv', sep='\t', header=None, names=['Sentence', 'Label'], encoding='utf-8')

# Initialize Parsivar normalizer
normalizer = Normalizer()

# Function to perform additional pre-processing steps
def additional_preprocessing(text):
    # Remove English characters
    text = re.sub(r'[a-zA-Z]', '', text)

    # Remove repeated letters more than twice in non-standard Persian words
    text = re.sub(r'(.)\1{2,}', r'\1\1', text)

    # Remove Arabic diacritics
    text = re.sub(r'[\u064B-\u065F\u0670]', '', text)

    # Remove remaining non-Persian characters
    text = re.sub(r'[^آ-ی۰-۹\s]', '', text)

    # Remove hashtag sign while preserving hashtag information
    text = re.sub(r'#(\w+)', r'\1', text)

    # Remove Persian numeric characters
    text = re.sub(r'[۰-۹]', '', text)

    return text

# Apply pre-processing to the 'Sentence' column
df['Sentence'] = df['Sentence'].apply(normalizer.normalize)
df['Sentence'] = df['Sentence'].apply(additional_preprocessing)
df = df.rename(columns={'Sentence': 'text', 'Label': 'label'})

df_test['Sentence'] = df_test['Sentence'].apply(normalizer.normalize)
df_test['Sentence'] = df_test['Sentence'].apply(additional_preprocessing)
df_test = df_test.rename(columns={'Sentence': 'text', 'Label': 'label'})

# Display the DataFrame
print(df)


                                                   text     label
0     خیلی کوچیک هستن و سایزشون بدرد نمیخوره میخوام ...       SAD
1        از صدای پرنده دم دمای صبح متنفرم متنفرم متنفرم      HATE
2      کیفیتش خیلی خوبه با شک خریدم ولی واقعا راضیم ...       SAD
3     چون همش با دوربین ثبتشده ایا میشه اعتراض زد  و...     OTHER
4                     این وضع ب طرز خندهداری گریه داره        SAD
...                                                 ...       ...
6120  مرحوم پیشبینی آبکی زیاد میکرد مرحوم عجب آینده ...  SURPRISE
6121  کلا عین اعتقادات و توئیت زدناتون   در قبال ران...     ANGRY
6122  خب وقتی میگی کسی بیاد مارو بگیره یارو ترس میکن...      FEAR
6123  همون هارو مگه آهنگ جدیدای خوانندههای دهه پنجاه...  SURPRISE
6124                             نیم دگیرش چطور حل نیشد     OTHER

[6125 rows x 2 columns]


In [5]:
df

Unnamed: 0,text,label
0,خیلی کوچیک هستن و سایزشون بدرد نمیخوره میخوام ...,SAD
1,از صدای پرنده دم دمای صبح متنفرم متنفرم متنفرم,HATE
2,کیفیتش خیلی خوبه با شک خریدم ولی واقعا راضیم ...,SAD
3,چون همش با دوربین ثبتشده ایا میشه اعتراض زد و...,OTHER
4,این وضع ب طرز خندهداری گریه داره,SAD
...,...,...
6120,مرحوم پیشبینی آبکی زیاد میکرد مرحوم عجب آینده ...,SURPRISE
6121,کلا عین اعتقادات و توئیت زدناتون در قبال ران...,ANGRY
6122,خب وقتی میگی کسی بیاد مارو بگیره یارو ترس میکن...,FEAR
6123,همون هارو مگه آهنگ جدیدای خوانندههای دهه پنجاه...,SURPRISE


In [6]:
df_test

Unnamed: 0,text,label
0,این شاید اولین عزای عمومی واقعی است که یاد دار...,SAD
1,دیشب بعد از ارسال تویت مربوط به آثار باستانی ت...,HAPPY
2,کدوم شعبه پول نداده بگو الان برات آمار دقیق ب...,OTHER
3,امروز وسط یه بحث با بابا مامانم گفتم آدم باید ...,HAPPY
4,امشب گفت نامزدی دوستش که ادم روشنفکری است بهم ...,SAD
...,...,...
1146,یعنی این آهنگ مرغ سحر جوری ساختهشدهو روی این ش...,HAPPY
1147,درود بر همه ایرانیان شریف که در این سرما در تظ...,HAPPY
1148,امروز تولدم است عید است ولی شاد نیستم عید و ...,SAD
1149,لعنت به اونی که دلتنگ نگهت میداره,SAD


In [7]:
label_encoder = LabelEncoder()
df['label'] = label_encoder.fit_transform(df['label'])
df_test['label'] = label_encoder.transform(df_test['label'])

In [8]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

In [9]:
dataset = Dataset.from_pandas(df)
dataset_test = Dataset.from_pandas(df_test)

In [10]:
dataset[0]

{'text': 'خیلی کوچیک هستن و سایزشون بدرد نمیخوره میخوام پس بدم', 'label': 5}

In [11]:
dataset[0]

{'text': 'خیلی کوچیک هستن و سایزشون بدرد نمیخوره میخوام پس بدم', 'label': 5}

In [12]:
dataset

Dataset({
    features: ['text', 'label'],
    num_rows: 6125
})

In [13]:
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True , padding=True)

In [14]:
dataset_yok = dataset.map(preprocess_function, batched=True)
dataset_test_yok = dataset_test.map(preprocess_function, batched=True)


Map:   0%|          | 0/6125 [00:00<?, ? examples/s]

Map:   0%|          | 0/1151 [00:00<?, ? examples/s]

In [15]:
from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [16]:
import evaluate

accuracy = evaluate.load("accuracy")

Downloading builder script:   0%|          | 0.00/4.20k [00:00<?, ?B/s]

In [17]:
import numpy as np


def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return accuracy.compute(predictions=predictions, references=labels)

In [18]:
print("Label encoder classes:", label_encoder.classes_)

Label encoder classes: ['ANGRY' 'FEAR' 'HAPPY' 'HATE' 'OTHER' 'SAD' 'SURPRISE']


In [19]:
id2label = {
    0: "ANGRY",
    1: "FEAR",
    2: "HAPPY",
    3: "HATE",
    4: "OTHER",
    5: "SAD",
    6: "SURPRISE"
}

label2id = {label: id for id, label in id2label.items()}

In [20]:
from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer

model = AutoModelForSequenceClassification.from_pretrained(
    "distilbert-base-uncased", num_labels=7, id2label=id2label, label2id=label2id
)

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'pre_classifier.bias', 'pre_classifier.weight', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [25]:
training_args = TrainingArguments(
    output_dir="my_awesome_model",
    learning_rate=1e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=10,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset_yok,
    eval_dataset=dataset_test_yok,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

trainer.train()

Epoch,Training Loss,Validation Loss,Accuracy
1,No log,1.764399,0.324935
2,1.161400,1.741658,0.350999
3,1.082700,1.773592,0.355343
4,1.020700,1.713792,0.370982
5,1.020700,1.715214,0.384014
6,0.944900,1.696193,0.40139
7,0.892900,1.769146,0.38662
8,0.836900,1.742376,0.398784
9,0.836900,1.84179,0.387489
10,0.805000,1.804781,0.390096


TrainOutput(global_step=3830, training_loss=0.9471863828813438, metrics={'train_runtime': 3073.4103, 'train_samples_per_second': 19.929, 'train_steps_per_second': 1.246, 'total_flos': 8109930149229696.0, 'train_loss': 0.9471863828813438, 'epoch': 10.0})