## Task 3 - Sentiment Analysis
Use google BERT word embedding model to build a sentiment analysis model.


#### Assumptions
* Emojis would not be removed since they might be very important for discriminating sentiment in text.
* URLs, Hashtags, Mentions, repeating dots, repeating characters than occur more than twice would be removed.
* Arabic Diacritics would be removed.
* Due to class imbalance, __balanced class weighting__ would be used.


#### Datasets collected and used
* __TEAD sample data__: (392,487 positive and 163,436 negative cleaned arabic tweets)
    * [GitHub](https://github.com/HSMAabdellaoui/TEAD)
    * Sample data [Google Drive](https://drive.google.com/drive/folders/1pfqK21nEKL8xYt3L4e09tMIQSnI_5G-7?usp=sharing)
* __LABR dataset__: 63,000 book reviews in arabic
    * [GitHub](https://github.com/mohamedadaly/LABR)
* __ArSAS dataset__: 21,000 arabic tweets
    * [Website](https://homepages.inf.ed.ac.uk/wmagdy/resources.htm)
* __AJGT dataset__: 1800 Jordanian tweets
    * [GitHub](https://github.com/komari6/Arabic-twitter-corpus-AJGT)
* __40000 Egyptian tweet dataset__
    * [Website](https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/LBXV9O)
* __SemEval2017-task4 subtask-A arabic dataset__: 3355 arabic tweets
    * [Website](https://alt.qcri.org/semeval2017/task4/index.php?id=data-and-tools)
* __ASTD dataset__: 10,000 arabic tweets
    * [GitHub](https://github.com/mahmoudnabil/ASTD)

__Note__: The pre-trained CAMeL-Lab Sentiment Classifier BERT [model](https://huggingface.co/CAMeL-Lab/bert-base-arabic-camelbert-da-sentiment) which used the [bert-base-arabic-camelbert-da](https://huggingface.co/CAMeL-Lab/bert-base-arabic-camelbert-da) language model was trained on the __ArSAS__, __ASTD__, and __SemEval__ datasets. 

#### Labels
* __0__: Negative Sentiment
* __1__: Neutral Sentiment
* __2__: Positive Sentiment


####  Combined dataset
* __Total records__: 693,917 records
    * __Positive__: 462,133 records
    * __Neutral__: 29,059 records
    * __Negative__: 202,725 records

In [1]:
import pandas as pd
import numpy as np
import re
import pyarabic.araby as araby  # for removing diacritics
import torch
from sklearn.model_selection import train_test_split
from sklearn.utils import class_weight  # For balanced class weighting training
from camel_tools.sentiment import SentimentAnalyzer  # For testing the pre-trained BERT classifier model
from transformers import AutoTokenizer, AutoModelForSequenceClassification  # Training sentiment classification model
from datasets import Dataset

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# From Tasks 1 and 2
def clean(sentence):
    def remove_diacritics(string):
        return araby.strip_diacritics(string)
    
    re_general_pattern = r"https?:\/\/.*[\r\n]*|#\w+|@\w+|\.{2,}"
    re_repeating_character_pattern = r"(\w)\1{2,}"

    # 1- Removing URLs, Hashtags, Mentions, and repeating dots
    sentence = re.sub(re_general_pattern, "", sentence)
    # 2- Removing repeating characters that occur more than twice
    sentence = re.sub(re_repeating_character_pattern, r"\1", sentence)
    # 3- Removing Arabic Diacritics
    sentence = remove_diacritics(sentence)

    return sentence

### 1- Testing the pre-trained CAMeL-Lab Arabic sentiment classifier BERT model

In [3]:
camel_bert_senti_model = SentimentAnalyzer.pretrained()

In [4]:
dir(camel_bert_senti_model)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'labels',
 'labels_map',
 'model',
 'predict',
 'predict_sentence',
 'pretrained',
 'tokenizer',
 'use_gpu']

In [5]:
camel_bert_senti_model.use_gpu

True

In [6]:
# Predict the sentiment of a single sentence
sentiment = camel_bert_senti_model.predict_sentence('ุฃูุง ุจุฎูุฑ')

# Predict the sentiment of multiple sentences
sentences = [
    'ุฃูุง ุจุฎูุฑ',
    'ุฃูุง ูุณุช ุจุฎูุฑ'
]
sentiments = camel_bert_senti_model.predict(sentences)

In [7]:
sentiments

['positive', 'negative']

#### 1.1 Testing on first 10 tweets from file1.txt

In [8]:
df = pd.read_csv("data/file1.txt", sep="\t").drop("tweetID", axis=1)

In [9]:
for index, tweet in df.iterrows():
    if index == 10:
        break
        
    sentence = clean(tweet[0])
    pred = camel_bert_senti_model.predict_sentence(sentence)
    print("---------")
    print(f"Tweet {index}\n")
    print(f"Original Tweet: {tweet[0]}\n")
    print(f"Prediction: {pred}")

---------
Tweet 0

Original Tweet: ุงูุงุนุฏุงู ูุนุงูู ูุทุนู ูุชู ุฒูููู ุทุนูุงู ูู "ุงูุจูุงุฏุฑ" ุฃูุฏุช ูุญููุฉ ุงูุชูููุฒ ุงูุญูู ุงูุตุงุฏุฑ ุนู ูุญููุฉ ุงูุฌูุงูุงุช ุงููุจุฑู ูุงููุงุถู... http://t.co/H0txdjv3Kn

Prediction: neutral
---------
Tweet 1

Original Tweet: #ุงูุฃุฎุจุงุฑ โช ุชุฃุฌูู ูุญุงููุฉ 7 ุฅุฑูุงุจููู ุจุณุจุจ ุบูุงุจ ุงูุฏูุงุน: ุฃุฌูุช ูุญููุฉ ุงูุฌูุงูุงุช ุจุงูุนุงุตูุฉ ุฅูู ุชุงุฑูุฎ ูุงุญู ูุญุงููุฉ ุณุจุนุฉ ุฅ... http://t.co/GM4jmpAWbR

Prediction: neutral
---------
Tweet 2

Original Tweet: @helale9999 ุนุดุขู ุฃุนุทูุชู ูุญุฏู ุตููู ุตุฑุช ุชุฑูู ุฃุนุฐุงุฑ ...ุญูู ุงูุนุงูููุฉุฉ ู ุฃุฑุฌุน ููููู ูู ุงูุฃูุงุจ ุงูุงูุชุญุงุฑู

Prediction: negative
---------
Tweet 3

Original Tweet: #ุงูููุฏู ุซูุงููุฉ ูุชูู ูู ุชูุฌูุฑ ุงูุชุญุงุฑู ุจุณูุงุฑุฉ ููุฎุฎุฉ ุฃูุงู ูุนูููู ููุบุงุฒ ูู ุฑูู ุญูุต - ุดุจูุฉ ุงูุตูู http

### 2- Preparing the Arabic sentiment analysis dataset

#### 2.1 TEAD sample data

##### 2.1.1 Loading positive sentences

In [10]:
tead_pos_df = pd.read_csv("data/sentiment-analysis/TEAD_sample_data_final_positive_clean.txt", header=None, names=["sentence"])

In [11]:
tead_pos_df

Unnamed: 0,sentence
0,ูุฑุงุง ุญูู ุงู ุงูุงุณุชุงุฐู ูุงููู ุจุฑุณู ููู ุงูุชุฎุทูุท ูุช...
1,ูููู ุฃู ูุฑูุจ ูุญูู ุนูู ุงู ูุฏูุฑ ุงูุณุญุงุจ ุชูุชููู ูุง...
2,ูุงุฑุจ ุดุนูุฑ ุฅูู ุฃููู ูุฑููู ููุจุณูุทู ูููู ูู ููู
3,ุญุงุฌุงุช ุชุฒูุฏ ุงูุงูุซู ุงููุซู ุชุชุฑูุด ูุน ุฑุฌุงููุง ููุง ุชุณ...
4,ูุถุน ุงูุงูุชุฑูุช ูุงุฌุฏ ูุถุงูู ูุง ุจุฑูุฏุจุงูุฏ ุงูุจูุช ููุง ...
...,...
392482,ุนุงุฏ ูุงุฑุณูููู ุฅูู ูุนุฑูู ุฏูุงุน ูุฌูู ุฅุจุฏุงุน ุฅูุชุงุน ุฅ...
392483,ููุช ุฃุญุจู ูููุจู ูุงู ุจูู ุงููุญุงูู ูุงููู ุฅู ูููุฉ ุฃ...
392484,ุงูุง ูุญูุงู ุจูุชููู ูุงุชุณ ููุงุณูุฌุฑ ู ู ููุณ ุงูููุช ูู...
392485,ุงูุข ุจุฐูุฑ ุงููู ุชุทูุฆู ุงูููุคุจ ุบุฑุฏ ุงูุงู ุจุฐูุฑ ุงููู


In [12]:
tead_pos_df["label"] = 2

In [13]:
tead_pos_df

Unnamed: 0,sentence,label
0,ูุฑุงุง ุญูู ุงู ุงูุงุณุชุงุฐู ูุงููู ุจุฑุณู ููู ุงูุชุฎุทูุท ูุช...,2
1,ูููู ุฃู ูุฑูุจ ูุญูู ุนูู ุงู ูุฏูุฑ ุงูุณุญุงุจ ุชูุชููู ูุง...,2
2,ูุงุฑุจ ุดุนูุฑ ุฅูู ุฃููู ูุฑููู ููุจุณูุทู ูููู ูู ููู,2
3,ุญุงุฌุงุช ุชุฒูุฏ ุงูุงูุซู ุงููุซู ุชุชุฑูุด ูุน ุฑุฌุงููุง ููุง ุชุณ...,2
4,ูุถุน ุงูุงูุชุฑูุช ูุงุฌุฏ ูุถุงูู ูุง ุจุฑูุฏุจุงูุฏ ุงูุจูุช ููุง ...,2
...,...,...
392482,ุนุงุฏ ูุงุฑุณูููู ุฅูู ูุนุฑูู ุฏูุงุน ูุฌูู ุฅุจุฏุงุน ุฅูุชุงุน ุฅ...,2
392483,ููุช ุฃุญุจู ูููุจู ูุงู ุจูู ุงููุญุงูู ูุงููู ุฅู ูููุฉ ุฃ...,2
392484,ุงูุง ูุญูุงู ุจูุชููู ูุงุชุณ ููุงุณูุฌุฑ ู ู ููุณ ุงูููุช ูู...,2
392485,ุงูุข ุจุฐูุฑ ุงููู ุชุทูุฆู ุงูููุคุจ ุบุฑุฏ ุงูุงู ุจุฐูุฑ ุงููู,2


##### 2.1.2 Loading negative sentences

In [14]:
tead_neg_df = pd.read_csv("data/sentiment-analysis/TEAD_sample_data_final_negative_clean.txt", header=None, names=["sentence"])

In [15]:
tead_neg_df

Unnamed: 0,sentence
0,ุงูุณุนูุฏููู ุดุงูู ุชุฑูุจ ู ูููุตุฏููู ููุณูู ูุนูู ุชููู...
1,ุดูุฑุง ููุณุชูุงู ูู ูู ุงูุงุญุชุฑุงู
2,ุชุถุนู ุงููุนุฑูุฉ ูู ุตููู ุงูุญููุงุก ู ูุถุนู ุงูุนูู ูู ุต...
3,ุฎุงูู ุงูู ุฑุญูุฉุฉ ุน ุฑูุญุฉุฉ
4,ุจูุฑูุฒ ุฌูุจ ุจูููุชุดู ูุงูุฐูุจ ูุงูุจู ูุฌูู
...,...
163431,ูุด ุญุงุฌุชูู ุจููุจู ููู ุฎุฐูุชู ููู ูููู
163432,ููู ุดูุก ูุงุจุฏ ููุงูุฉ ู ูุฐู ุงูููุงูุฉ ู ุชุดุงุจู
163433,ููุช ุนุดูุงูุฉ ูู ูููู ุญููุฉ ุจุณ ุงูุธุฑูู ูููุง ุฑุฃู ุงุฎุฑ
163434,ุงูุจูุฏุฑ ูุจู ูุงู ุจูุนุฑุถ ุตูุช ุงู ุญููุฏ ููู ูุชูููู ุงุตูู


In [16]:
tead_neg_df["label"] = 0

In [17]:
tead_neg_df

Unnamed: 0,sentence,label
0,ุงูุณุนูุฏููู ุดุงูู ุชุฑูุจ ู ูููุตุฏููู ููุณูู ูุนูู ุชููู...,0
1,ุดูุฑุง ููุณุชูุงู ูู ูู ุงูุงุญุชุฑุงู,0
2,ุชุถุนู ุงููุนุฑูุฉ ูู ุตููู ุงูุญููุงุก ู ูุถุนู ุงูุนูู ูู ุต...,0
3,ุฎุงูู ุงูู ุฑุญูุฉุฉ ุน ุฑูุญุฉุฉ,0
4,ุจูุฑูุฒ ุฌูุจ ุจูููุชุดู ูุงูุฐูุจ ูุงูุจู ูุฌูู,0
...,...,...
163431,ูุด ุญุงุฌุชูู ุจููุจู ููู ุฎุฐูุชู ููู ูููู,0
163432,ููู ุดูุก ูุงุจุฏ ููุงูุฉ ู ูุฐู ุงูููุงูุฉ ู ุชุดุงุจู,0
163433,ููุช ุนุดูุงูุฉ ูู ูููู ุญููุฉ ุจุณ ุงูุธุฑูู ูููุง ุฑุฃู ุงุฎุฑ,0
163434,ุงูุจูุฏุฑ ูุจู ูุงู ุจูุนุฑุถ ุตูุช ุงู ุญููุฏ ููู ูุชูููู ุงุตูู,0


#### 2.2 LABR dataset

* 1 and 2 star ratings will be considered as "Negative"
* 3 star ratings will be considered as "Neutral"
* 4 and 5 star ratings will be considered as "Positive"

In [18]:
labr_df = pd.read_csv("data/sentiment-analysis/LABR.tsv", sep="\t", header=None, names=["label", "id1", "id2", "id3", "sentence"])

In [19]:
labr_df

Unnamed: 0,label,id1,id2,id3,sentence
0,4,338670838,7878381,13431841,"""ุนุฒุงุฒูู ุงูุฐู ุตูุนูุงู ุุงููุงูู ูู ุฃููุณูุง"" ูุฐูุฑูู..."
1,4,39428407,1775679,3554772,ูู ุฃูุชุน ูุง ูุฑุฃุช ูู ุฑูุงูุงุช ุจูุง ุดู. ูุญูู ุงูุดู ุช...
2,4,32159373,1304410,3554772,ุฑูุงูุฉ ุชุชุฎุฐ ูู ุงูุชุงุฑูุฎ ุุฌููุง ููุง ุงุฎุชุงุฑ ุงููุคูู ...
3,1,442326656,11333112,3554772,ุฅูู ุฃูุฏูุฑ ูุฐู ุงูุฑูุงูุฉ ูุซูุฑุงุ ูุณุจุจ ูุฎุชูู ุนู ุฃุณ...
4,5,46492258,580165,3554772,ุงููุงูู ุงูุฐู ุฃุทูู ุนูู ููุณู ุงุณู ููุจุง ุชูููุง ุจุงูุน...
...,...,...,...,...,...
63252,5,108789247,3926131,1420,ุงุฌูู ูุณุฑุญูุฉ ุฃููุช ูู ุชุงุฑูุฎ ุงูุงุฏุจ ุงูุงูุฌููุฒู
63253,3,513749112,16666895,7286365,ุจุตุฑุงุญุฉุ ูู ุชูู ูุฐู ุงูุฑูุงูุฉ ุนูู ูุฏุฑ ุชููุนุงุชู. ุง...
63254,3,137280339,4303773,7286365,ูู ุงูุฑูุงูุฉ ุงูุฃููู ุงูุชู ูุฑุฃุชูุง ูุฃููููู ูุตุฑ ุงูู...
63255,3,175939769,4770537,7286365,ุชูุฏูุฎู ุจููุช ุงููุงุณุ ุชุฏุฎู ูููุจููุ ุชูุฏู ูุฏู ุชุตุงู...


In [20]:
labr_df.drop(["id1", "id2", "id3"], axis=1, inplace=True)

In [21]:
labr_df

Unnamed: 0,label,sentence
0,4,"""ุนุฒุงุฒูู ุงูุฐู ุตูุนูุงู ุุงููุงูู ูู ุฃููุณูุง"" ูุฐูุฑูู..."
1,4,ูู ุฃูุชุน ูุง ูุฑุฃุช ูู ุฑูุงูุงุช ุจูุง ุดู. ูุญูู ุงูุดู ุช...
2,4,ุฑูุงูุฉ ุชุชุฎุฐ ูู ุงูุชุงุฑูุฎ ุุฌููุง ููุง ุงุฎุชุงุฑ ุงููุคูู ...
3,1,ุฅูู ุฃูุฏูุฑ ูุฐู ุงูุฑูุงูุฉ ูุซูุฑุงุ ูุณุจุจ ูุฎุชูู ุนู ุฃุณ...
4,5,ุงููุงูู ุงูุฐู ุฃุทูู ุนูู ููุณู ุงุณู ููุจุง ุชูููุง ุจุงูุน...
...,...,...
63252,5,ุงุฌูู ูุณุฑุญูุฉ ุฃููุช ูู ุชุงุฑูุฎ ุงูุงุฏุจ ุงูุงูุฌููุฒู
63253,3,ุจุตุฑุงุญุฉุ ูู ุชูู ูุฐู ุงูุฑูุงูุฉ ุนูู ูุฏุฑ ุชููุนุงุชู. ุง...
63254,3,ูู ุงูุฑูุงูุฉ ุงูุฃููู ุงูุชู ูุฑุฃุชูุง ูุฃููููู ูุตุฑ ุงูู...
63255,3,ุชูุฏูุฎู ุจููุช ุงููุงุณุ ุชุฏุฎู ูููุจููุ ุชูุฏู ูุฏู ุชุตุงู...


In [22]:
labr_df = labr_df.reindex(['sentence','label'], axis=1)

In [23]:
labr_df

Unnamed: 0,sentence,label
0,"""ุนุฒุงุฒูู ุงูุฐู ุตูุนูุงู ุุงููุงูู ูู ุฃููุณูุง"" ูุฐูุฑูู...",4
1,ูู ุฃูุชุน ูุง ูุฑุฃุช ูู ุฑูุงูุงุช ุจูุง ุดู. ูุญูู ุงูุดู ุช...,4
2,ุฑูุงูุฉ ุชุชุฎุฐ ูู ุงูุชุงุฑูุฎ ุุฌููุง ููุง ุงุฎุชุงุฑ ุงููุคูู ...,4
3,ุฅูู ุฃูุฏูุฑ ูุฐู ุงูุฑูุงูุฉ ูุซูุฑุงุ ูุณุจุจ ูุฎุชูู ุนู ุฃุณ...,1
4,ุงููุงูู ุงูุฐู ุฃุทูู ุนูู ููุณู ุงุณู ููุจุง ุชูููุง ุจุงูุน...,5
...,...,...
63252,ุงุฌูู ูุณุฑุญูุฉ ุฃููุช ูู ุชุงุฑูุฎ ุงูุงุฏุจ ุงูุงูุฌููุฒู,5
63253,ุจุตุฑุงุญุฉุ ูู ุชูู ูุฐู ุงูุฑูุงูุฉ ุนูู ูุฏุฑ ุชููุนุงุชู. ุง...,3
63254,ูู ุงูุฑูุงูุฉ ุงูุฃููู ุงูุชู ูุฑุฃุชูุง ูุฃููููู ูุตุฑ ุงูู...,3
63255,ุชูุฏูุฎู ุจููุช ุงููุงุณุ ุชุฏุฎู ูููุจููุ ุชูุฏู ูุฏู ุชุตุงู...,3


In [24]:
labr_df['label'].loc[(labr_df['label'] < 3)] = 0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [25]:
labr_df['label'].loc[(labr_df['label'] == 3)] = 1

In [26]:
labr_df['label'].loc[(labr_df['label'] > 3)] = 2

In [27]:
labr_df

Unnamed: 0,sentence,label
0,"""ุนุฒุงุฒูู ุงูุฐู ุตูุนูุงู ุุงููุงูู ูู ุฃููุณูุง"" ูุฐูุฑูู...",2
1,ูู ุฃูุชุน ูุง ูุฑุฃุช ูู ุฑูุงูุงุช ุจูุง ุดู. ูุญูู ุงูุดู ุช...,2
2,ุฑูุงูุฉ ุชุชุฎุฐ ูู ุงูุชุงุฑูุฎ ุุฌููุง ููุง ุงุฎุชุงุฑ ุงููุคูู ...,2
3,ุฅูู ุฃูุฏูุฑ ูุฐู ุงูุฑูุงูุฉ ูุซูุฑุงุ ูุณุจุจ ูุฎุชูู ุนู ุฃุณ...,0
4,ุงููุงูู ุงูุฐู ุฃุทูู ุนูู ููุณู ุงุณู ููุจุง ุชูููุง ุจุงูุน...,2
...,...,...
63252,ุงุฌูู ูุณุฑุญูุฉ ุฃููุช ูู ุชุงุฑูุฎ ุงูุงุฏุจ ุงูุงูุฌููุฒู,2
63253,ุจุตุฑุงุญุฉุ ูู ุชูู ูุฐู ุงูุฑูุงูุฉ ุนูู ูุฏุฑ ุชููุนุงุชู. ุง...,1
63254,ูู ุงูุฑูุงูุฉ ุงูุฃููู ุงูุชู ูุฑุฃุชูุง ูุฃููููู ูุตุฑ ุงูู...,1
63255,ุชูุฏูุฎู ุจููุช ุงููุงุณุ ุชุฏุฎู ูููุจููุ ุชูุฏู ูุฏู ุชุตุงู...,1


In [28]:
labr_df["label"].value_counts()

2    42832
1    12201
0     8224
Name: label, dtype: int64

#### 2.3 ArSAS dataset

Assuming "Mixed" label as "Neutral".

In [29]:
arsas_df = pd.read_csv("data/sentiment-analysis/ArSAS.txt", sep="\t")

In [30]:
arsas_df

Unnamed: 0,#Tweet_ID,Tweet_text,Topic,Sentiment_label,Sentiment_label_confidence,Speech_act_label,Speech_act_label_confidence
0,929241870508724224,ุงููุจุงุฑุงุฉ ุงูููุงุฏูุฉ #ุบุงูุง x #ูุตุฑ ุงูุฌููุฉ ุงูุฃุฎูุฑุฉ ...,Event,Positive,0.38,Assertion,0.62
1,928942264583376897,ูู ูุฐู ูู ุณูุงุณุฉ ุฎุงุฑุฌูู ูุฏููู ุชุญุชุฑู ููุณูุง ูุงูุขุฎ...,Entity,Negative,1.00,Expression,0.68
2,928615163250520065,ูุฒูุฑ ุฎุงุฑุฌูุฉ ูุฑูุณุง ุนู ููุชุฏู ุดุจุงุจ ุงูุนุงูู: ุดุนุฑุช ุจ...,Event,Positive,0.69,Assertion,1.00
3,931614713368186880,ููุน ุงูุณูุณู ู ุจุดุงุฑ ู ุงูุฑุงู ู ุจู ุฒุงูุฏ ู ูุงูุง ุฎูู...,Event,Negative,1.00,Expression,1.00
4,929755693011427331,ุฃูุฏุงู ูุจุงุฑุงุฉ ุบุงูุง 0 ูุตุฑ 1 ุชุตููุงุช ูุฃุณ ุงูุนุงูู 20...,Event,Neutral,1.00,Assertion,1.00
...,...,...,...,...,...,...,...
19892,929109605267000960,ููุฎุต ูุจุงุฑุงุฉ ููุฌูุฑูุง vs ุงูุฌุฒุงุฆุฑ ุชุตููุงุช ูุฃุณ ๐ ุงู...,Event,Neutral,1.00,Assertion,1.00
19893,930131859039837952,ุงูุทุงููุง ูู ุงูุณุงู ุณูุฑู ูุนุจุช 42 ูุจุงุฑุงุฉ ๐ฎ๐น 31 ููุฒ...,Event,Positive,0.69,Expression,0.69
19894,928739551136361984,ุงููููุญู ุงููุคูู ููุฃุณ ุงูุนุงูู ๐ช๐บุฃูุฑูุจุง๐ช๐บ ูุจุงุฑุงุฉ ุง...,Event,Neutral,1.00,Assertion,1.00
19895,929254320754823168,ุฑุณุงุฆู ูุชูุตูุงุช ููุชุฏู ุดุจุงุจ ุงูุนุงูู .. ุฏ. ุนุจุฏุงููู ...,Event,Neutral,1.00,Assertion,1.00


In [31]:
arsas_df.drop(["#Tweet_ID", "Topic", "Sentiment_label_confidence", "Speech_act_label", "Speech_act_label_confidence"], axis=1, inplace=True)

In [32]:
arsas_df

Unnamed: 0,Tweet_text,Sentiment_label
0,ุงููุจุงุฑุงุฉ ุงูููุงุฏูุฉ #ุบุงูุง x #ูุตุฑ ุงูุฌููุฉ ุงูุฃุฎูุฑุฉ ...,Positive
1,ูู ูุฐู ูู ุณูุงุณุฉ ุฎุงุฑุฌูู ูุฏููู ุชุญุชุฑู ููุณูุง ูุงูุขุฎ...,Negative
2,ูุฒูุฑ ุฎุงุฑุฌูุฉ ูุฑูุณุง ุนู ููุชุฏู ุดุจุงุจ ุงูุนุงูู: ุดุนุฑุช ุจ...,Positive
3,ููุน ุงูุณูุณู ู ุจุดุงุฑ ู ุงูุฑุงู ู ุจู ุฒุงูุฏ ู ูุงูุง ุฎูู...,Negative
4,ุฃูุฏุงู ูุจุงุฑุงุฉ ุบุงูุง 0 ูุตุฑ 1 ุชุตููุงุช ูุฃุณ ุงูุนุงูู 20...,Neutral
...,...,...
19892,ููุฎุต ูุจุงุฑุงุฉ ููุฌูุฑูุง vs ุงูุฌุฒุงุฆุฑ ุชุตููุงุช ูุฃุณ ๐ ุงู...,Neutral
19893,ุงูุทุงููุง ูู ุงูุณุงู ุณูุฑู ูุนุจุช 42 ูุจุงุฑุงุฉ ๐ฎ๐น 31 ููุฒ...,Positive
19894,ุงููููุญู ุงููุคูู ููุฃุณ ุงูุนุงูู ๐ช๐บุฃูุฑูุจุง๐ช๐บ ูุจุงุฑุงุฉ ุง...,Neutral
19895,ุฑุณุงุฆู ูุชูุตูุงุช ููุชุฏู ุดุจุงุจ ุงูุนุงูู .. ุฏ. ุนุจุฏุงููู ...,Neutral


In [33]:
arsas_df.rename(columns={'Tweet_text': 'sentence', 'Sentiment_label': 'label'}, inplace=True)

In [34]:
arsas_df

Unnamed: 0,sentence,label
0,ุงููุจุงุฑุงุฉ ุงูููุงุฏูุฉ #ุบุงูุง x #ูุตุฑ ุงูุฌููุฉ ุงูุฃุฎูุฑุฉ ...,Positive
1,ูู ูุฐู ูู ุณูุงุณุฉ ุฎุงุฑุฌูู ูุฏููู ุชุญุชุฑู ููุณูุง ูุงูุขุฎ...,Negative
2,ูุฒูุฑ ุฎุงุฑุฌูุฉ ูุฑูุณุง ุนู ููุชุฏู ุดุจุงุจ ุงูุนุงูู: ุดุนุฑุช ุจ...,Positive
3,ููุน ุงูุณูุณู ู ุจุดุงุฑ ู ุงูุฑุงู ู ุจู ุฒุงูุฏ ู ูุงูุง ุฎูู...,Negative
4,ุฃูุฏุงู ูุจุงุฑุงุฉ ุบุงูุง 0 ูุตุฑ 1 ุชุตููุงุช ูุฃุณ ุงูุนุงูู 20...,Neutral
...,...,...
19892,ููุฎุต ูุจุงุฑุงุฉ ููุฌูุฑูุง vs ุงูุฌุฒุงุฆุฑ ุชุตููุงุช ูุฃุณ ๐ ุงู...,Neutral
19893,ุงูุทุงููุง ูู ุงูุณุงู ุณูุฑู ูุนุจุช 42 ูุจุงุฑุงุฉ ๐ฎ๐น 31 ููุฒ...,Positive
19894,ุงููููุญู ุงููุคูู ููุฃุณ ุงูุนุงูู ๐ช๐บุฃูุฑูุจุง๐ช๐บ ูุจุงุฑุงุฉ ุง...,Neutral
19895,ุฑุณุงุฆู ูุชูุตูุงุช ููุชุฏู ุดุจุงุจ ุงูุนุงูู .. ุฏ. ุนุจุฏุงููู ...,Neutral


In [35]:
arsas_df['label'].loc[(arsas_df['label'] == "Negative")] = 0

In [36]:
arsas_df['label'].loc[(arsas_df['label'] == "Neutral")] = 1

In [37]:
arsas_df['label'].loc[(arsas_df['label'] == "Mixed")] = 1

In [38]:
arsas_df['label'].loc[(arsas_df['label'] == "Positive")] = 2

In [39]:
arsas_df

Unnamed: 0,sentence,label
0,ุงููุจุงุฑุงุฉ ุงูููุงุฏูุฉ #ุบุงูุง x #ูุตุฑ ุงูุฌููุฉ ุงูุฃุฎูุฑุฉ ...,2
1,ูู ูุฐู ูู ุณูุงุณุฉ ุฎุงุฑุฌูู ูุฏููู ุชุญุชุฑู ููุณูุง ูุงูุขุฎ...,0
2,ูุฒูุฑ ุฎุงุฑุฌูุฉ ูุฑูุณุง ุนู ููุชุฏู ุดุจุงุจ ุงูุนุงูู: ุดุนุฑุช ุจ...,2
3,ููุน ุงูุณูุณู ู ุจุดุงุฑ ู ุงูุฑุงู ู ุจู ุฒุงูุฏ ู ูุงูุง ุฎูู...,0
4,ุฃูุฏุงู ูุจุงุฑุงุฉ ุบุงูุง 0 ูุตุฑ 1 ุชุตููุงุช ูุฃุณ ุงูุนุงูู 20...,1
...,...,...
19892,ููุฎุต ูุจุงุฑุงุฉ ููุฌูุฑูุง vs ุงูุฌุฒุงุฆุฑ ุชุตููุงุช ูุฃุณ ๐ ุงู...,1
19893,ุงูุทุงููุง ูู ุงูุณุงู ุณูุฑู ูุนุจุช 42 ูุจุงุฑุงุฉ ๐ฎ๐น 31 ููุฒ...,2
19894,ุงููููุญู ุงููุคูู ููุฃุณ ุงูุนุงูู ๐ช๐บุฃูุฑูุจุง๐ช๐บ ูุจุงุฑุงุฉ ุง...,1
19895,ุฑุณุงุฆู ูุชูุตูุงุช ููุชุฏู ุดุจุงุจ ุงูุนุงูู .. ุฏ. ุนุจุฏุงููู ...,1


In [40]:
arsas_df["label"].value_counts()

1    8113
0    7384
2    4400
Name: label, dtype: int64

#### 2.4 AJGT dataset

In [41]:
ajgt_df = pd.read_excel("data/sentiment-analysis/AJGT.xlsx")

In [42]:
ajgt_df

Unnamed: 0,ID,Feed,Sentiment
0,1,ุงุฑุจุฏ ูููุง ุฌุงูุนุงุช ุงูุซุฑ ูู ุนูุงู ... ููููุง ูุฏ ุนู...,Positive
1,2,ุงูุญูู ุงููู ุจุชุญููุง ุนูู ุงุณุงุณ ุงูู ุงูุงุฑุฏู ูุง ููู ...,Negative
2,3,ููู ุฑุงุฆุน ุจุฌุฏ ุฑุจูุง ููุฑูู,Positive
3,4,ูุณุงูู ูุฐุฑ ูุง ููุงูู,Negative
4,5,โุงูุง ุฏุงุดุฑู ูุบูุฑ ูุชุฒูุฌู ููุฏู ุนูุงูุงุช ูุดุจูู ูุงุญุดุด...,Negative
...,...,...,...
1795,1796,ููุนู ุดุฑู ุฎูุงุชู,Negative
1796,1797,ููุนูู ูุฐู ูููุจ,Negative
1797,1798,ููุชุงุฒ ุงูุงุฑุฏู ุจุชููุน ุงูุณูุงุญู ููู ูุชููุณู ุงูุณูุงุญู ...,Positive
1798,1799,ูููุฑ ุนููู ูููุซุฑ ูู ุงูุซุงูู,Positive


In [43]:
ajgt_df.drop(["ID"], axis=1, inplace=True)

In [44]:
ajgt_df.rename(columns={"Feed": "sentence", "Sentiment": "label"}, inplace=True)

In [45]:
ajgt_df

Unnamed: 0,sentence,label
0,ุงุฑุจุฏ ูููุง ุฌุงูุนุงุช ุงูุซุฑ ูู ุนูุงู ... ููููุง ูุฏ ุนู...,Positive
1,ุงูุญูู ุงููู ุจุชุญููุง ุนูู ุงุณุงุณ ุงูู ุงูุงุฑุฏู ูุง ููู ...,Negative
2,ููู ุฑุงุฆุน ุจุฌุฏ ุฑุจูุง ููุฑูู,Positive
3,ูุณุงูู ูุฐุฑ ูุง ููุงูู,Negative
4,โุงูุง ุฏุงุดุฑู ูุบูุฑ ูุชุฒูุฌู ููุฏู ุนูุงูุงุช ูุดุจูู ูุงุญุดุด...,Negative
...,...,...
1795,ููุนู ุดุฑู ุฎูุงุชู,Negative
1796,ููุนูู ูุฐู ูููุจ,Negative
1797,ููุชุงุฒ ุงูุงุฑุฏู ุจุชููุน ุงูุณูุงุญู ููู ูุชููุณู ุงูุณูุงุญู ...,Positive
1798,ูููุฑ ุนููู ูููุซุฑ ูู ุงูุซุงูู,Positive


In [46]:
ajgt_df['label'].loc[(ajgt_df['label'] == "Negative")] = 0

In [47]:
ajgt_df['label'].loc[(ajgt_df['label'] == "Positive")] = 2

In [48]:
ajgt_df

Unnamed: 0,sentence,label
0,ุงุฑุจุฏ ูููุง ุฌุงูุนุงุช ุงูุซุฑ ูู ุนูุงู ... ููููุง ูุฏ ุนู...,2
1,ุงูุญูู ุงููู ุจุชุญููุง ุนูู ุงุณุงุณ ุงูู ุงูุงุฑุฏู ูุง ููู ...,0
2,ููู ุฑุงุฆุน ุจุฌุฏ ุฑุจูุง ููุฑูู,2
3,ูุณุงูู ูุฐุฑ ูุง ููุงูู,0
4,โุงูุง ุฏุงุดุฑู ูุบูุฑ ูุชุฒูุฌู ููุฏู ุนูุงูุงุช ูุดุจูู ูุงุญุดุด...,0
...,...,...
1795,ููุนู ุดุฑู ุฎูุงุชู,0
1796,ููุนูู ูุฐู ูููุจ,0
1797,ููุชุงุฒ ุงูุงุฑุฏู ุจุชููุน ุงูุณูุงุญู ููู ูุชููุณู ุงูุณูุงุญู ...,2
1798,ูููุฑ ุนููู ูููุซุฑ ูู ุงูุซุงูู,2


In [49]:
ajgt_df["label"].value_counts()

2    900
0    900
Name: label, dtype: int64

#### 2.5 40000 Egyptian tweets dataset

In [50]:
egypt_df = pd.read_excel("data/sentiment-analysis/40000-Egyptian-tweets.xlsx")

In [51]:
egypt_df

Unnamed: 0,review,label
0,ุงูุจุฑ ุฎุทุง ุชุฑุชูุจู ุงู ุชุนุงูู ุงููุงุณ ุจุงุฎูุงูู ุงูุช ูุด ...,negative
1,ุฏุงุฆูุง ุงูุฑู ุงุฎุฑ ูููู ูู ูู ููุงู .,negative
2,ูุงุฑุจ ุงููู ูุณุฑู ุชููุชุงุชู ูุฏุฎู ุงููุงุฑ .,negative
3,ุงูุงุณุฑุงู ูู ุชูุงูู ุงููููุฉ ูุณุจุจ ุงูููุงู .,negative
4,ุงูุง ุงุชุจูุฏูุช ูู ุงูุชุฑุงุจ ุงูููุงุฑุฏู. ุญุงุฌุฉ ุชูุฑู .,positive
...,...,...
39995,ููุณุนุฏ ุงูุงููุง ุจุงูุงุจุชุณุงูุฉ ุจุฏูุงู ุงู ูููุงูุง ุจุงูุฏููุน.,positive
39996,ูุด ููููู ุบูุฑ ุงู ูุต ุงูุถุญู ุงููู ุถุญูุชู ูู ุญูุงุชู ู...,positive
39997,ุฑุจูุง ููููู ููุณููู ูุงู ุดุงุก ุงููู ุชุนุฏู ุงููุชุฑุฉ ุฏู ...,positive
39998,ูุจุณูุทุฉ ุงูู ุนููุช ุทุฑููุฉ ููุฑููุฉ ุฌุฏูุฏุฉ ู ูู ุฏูููุชู...,positive


In [52]:
egypt_df.rename(columns={"review": "sentence"}, inplace=True)

In [53]:
egypt_df['label'].loc[(egypt_df['label'] == "negative")] = 0

In [54]:
egypt_df['label'].loc[(egypt_df['label'] == "positive")] = 2

In [55]:
egypt_df

Unnamed: 0,sentence,label
0,ุงูุจุฑ ุฎุทุง ุชุฑุชูุจู ุงู ุชุนุงูู ุงููุงุณ ุจุงุฎูุงูู ุงูุช ูุด ...,0
1,ุฏุงุฆูุง ุงูุฑู ุงุฎุฑ ูููู ูู ูู ููุงู .,0
2,ูุงุฑุจ ุงููู ูุณุฑู ุชููุชุงุชู ูุฏุฎู ุงููุงุฑ .,0
3,ุงูุงุณุฑุงู ูู ุชูุงูู ุงููููุฉ ูุณุจุจ ุงูููุงู .,0
4,ุงูุง ุงุชุจูุฏูุช ูู ุงูุชุฑุงุจ ุงูููุงุฑุฏู. ุญุงุฌุฉ ุชูุฑู .,2
...,...,...
39995,ููุณุนุฏ ุงูุงููุง ุจุงูุงุจุชุณุงูุฉ ุจุฏูุงู ุงู ูููุงูุง ุจุงูุฏููุน.,2
39996,ูุด ููููู ุบูุฑ ุงู ูุต ุงูุถุญู ุงููู ุถุญูุชู ูู ุญูุงุชู ู...,2
39997,ุฑุจูุง ููููู ููุณููู ูุงู ุดุงุก ุงููู ุชุนุฏู ุงููุชุฑุฉ ุฏู ...,2
39998,ูุจุณูุทุฉ ุงูู ุนููุช ุทุฑููุฉ ููุฑููุฉ ุฌุฏูุฏุฉ ู ูู ุฏูููุชู...,2


In [56]:
egypt_df["label"].value_counts()

0                   19998
2                   19995
positive โ              2
positive โ              1
positiveโ               1
positiveโโ              1
negativeโโโโ            1
negativeโโโโโโโ         1
Name: label, dtype: int64

In [57]:
egypt_df["label"].unique()

array([0, 2, 'positive \u200e    ', 'positive\u200b', 'positive \u200e',
       'positive\u200b\u200f', 'negative\u200b\u200f\u200b\u200f',
       'negative\u200b\u200f\u200b\u200f\u200b\u200f\u200b '],
      dtype=object)

In [58]:
egypt_df.drop(egypt_df.index[egypt_df['label'] == 'positive \u200e    '], inplace=True)
egypt_df.drop(egypt_df.index[egypt_df['label'] == 'positive\u200b'], inplace=True)
egypt_df.drop(egypt_df.index[egypt_df['label'] == 'positive \u200e'], inplace=True)
egypt_df.drop(egypt_df.index[egypt_df['label'] == 'positive\u200b\u200f'], inplace=True)
egypt_df.drop(egypt_df.index[egypt_df['label'] == 'negative\u200b\u200f\u200b\u200f'], inplace=True)
egypt_df.drop(egypt_df.index[egypt_df['label'] == 'negative\u200b\u200f\u200b\u200f\u200b\u200f\u200b '], inplace=True)

In [59]:
egypt_df

Unnamed: 0,sentence,label
0,ุงูุจุฑ ุฎุทุง ุชุฑุชูุจู ุงู ุชุนุงูู ุงููุงุณ ุจุงุฎูุงูู ุงูุช ูุด ...,0
1,ุฏุงุฆูุง ุงูุฑู ุงุฎุฑ ูููู ูู ูู ููุงู .,0
2,ูุงุฑุจ ุงููู ูุณุฑู ุชููุชุงุชู ูุฏุฎู ุงููุงุฑ .,0
3,ุงูุงุณุฑุงู ูู ุชูุงูู ุงููููุฉ ูุณุจุจ ุงูููุงู .,0
4,ุงูุง ุงุชุจูุฏูุช ูู ุงูุชุฑุงุจ ุงูููุงุฑุฏู. ุญุงุฌุฉ ุชูุฑู .,2
...,...,...
39995,ููุณุนุฏ ุงูุงููุง ุจุงูุงุจุชุณุงูุฉ ุจุฏูุงู ุงู ูููุงูุง ุจุงูุฏููุน.,2
39996,ูุด ููููู ุบูุฑ ุงู ูุต ุงูุถุญู ุงููู ุถุญูุชู ูู ุญูุงุชู ู...,2
39997,ุฑุจูุง ููููู ููุณููู ูุงู ุดุงุก ุงููู ุชุนุฏู ุงููุชุฑุฉ ุฏู ...,2
39998,ูุจุณูุทุฉ ุงูู ุนููุช ุทุฑููุฉ ููุฑููุฉ ุฌุฏูุฏุฉ ู ูู ุฏูููุชู...,2


In [60]:
egypt_df["label"].value_counts()

0    19998
2    19995
Name: label, dtype: int64

#### 2.6 SemEval2017-task4 subtask-A arabic dataset

In [61]:
semeval_df = pd.read_csv("data/sentiment-analysis/SemEval2017-task4-train.subtask-A.arabic.txt", sep="\t", header=None, names=["id", "label", "sentence"])

In [62]:
semeval_df

Unnamed: 0,id,label,sentence
0,783555835494592513,positive,ุฅุฌุจุงุฑ ุฃุจู ุนูู ุงูุชุนุงูู ุนูู ูู ุดูุฑุฉ ุงุฌูุฒุชูุง http...
1,783582397166125056,positive,RT @20fourMedia: #ุบูุบู ุชุชุญุฏู ุฃุจู ูุฃูุงุฒูู ุจุฃุฌูุฒ...
2,783592390728769536,positive,ุฌูุฌู ุชูุงูุณ ุฃุจู ูุณุงูุณููุฌ ุจูุงุชู ุฌุฏูุฏ https://t.c...
3,783597390070685696,positive,ุฑุฆูุณ ุดุฑูุฉ ุฃุจู: ุงููุงูุน ุงููุนุฒุฒ ุณูุตุจุญ ุฃูู ูู ุงูุทุน...
4,783617442031472640,neutral,ุณุงุนุฉ ุฃุจู ูู ุงูุฃุณูุงู ูุฑุฉ ุฃุฎุฑู https://t.co/dY2x...
...,...,...,...
3348,785923681432117248,positive,ุทุฑููุฉ ุชุนุทูู ุงู ุฒุฑ ูู ููุญุฉ ุงูููุงุชูุญ ุนูู ูุธุงู ูู...
3349,785924823860076544,neutral,RT @syst__em: ุฅุทูุงู ุชุญุฏูุซ ุชุฑุงููู ุจุฑูู 14393.32...
3350,785929366756655104,neutral,4 ุทุฑู ูุญุฐู ุงููููุงุช ุงููุณุชุนุตูุฉ ูู ุงูุญุฐู ูู ูููุฏู...
3351,785951682467246080,neutral,ุดุฑุญ ููุฏูู ููู ุฌุฏุง ุญู ููุดุงูู ุงููููุจููุชุฑ ููู ุชูู...


In [63]:
semeval_df.drop(["id"], axis=1, inplace=True)

In [64]:
semeval_df = semeval_df.reindex(['sentence','label'], axis=1)

In [65]:
semeval_df

Unnamed: 0,sentence,label
0,ุฅุฌุจุงุฑ ุฃุจู ุนูู ุงูุชุนุงูู ุนูู ูู ุดูุฑุฉ ุงุฌูุฒุชูุง http...,positive
1,RT @20fourMedia: #ุบูุบู ุชุชุญุฏู ุฃุจู ูุฃูุงุฒูู ุจุฃุฌูุฒ...,positive
2,ุฌูุฌู ุชูุงูุณ ุฃุจู ูุณุงูุณููุฌ ุจูุงุชู ุฌุฏูุฏ https://t.c...,positive
3,ุฑุฆูุณ ุดุฑูุฉ ุฃุจู: ุงููุงูุน ุงููุนุฒุฒ ุณูุตุจุญ ุฃูู ูู ุงูุทุน...,positive
4,ุณุงุนุฉ ุฃุจู ูู ุงูุฃุณูุงู ูุฑุฉ ุฃุฎุฑู https://t.co/dY2x...,neutral
...,...,...
3348,ุทุฑููุฉ ุชุนุทูู ุงู ุฒุฑ ูู ููุญุฉ ุงูููุงุชูุญ ุนูู ูุธุงู ูู...,positive
3349,RT @syst__em: ุฅุทูุงู ุชุญุฏูุซ ุชุฑุงููู ุจุฑูู 14393.32...,neutral
3350,4 ุทุฑู ูุญุฐู ุงููููุงุช ุงููุณุชุนุตูุฉ ูู ุงูุญุฐู ูู ูููุฏู...,neutral
3351,ุดุฑุญ ููุฏูู ููู ุฌุฏุง ุญู ููุดุงูู ุงููููุจููุชุฑ ููู ุชูู...,neutral


In [66]:
semeval_df['label'].loc[(semeval_df['label'] == "negative")] = 0

In [67]:
semeval_df['label'].loc[(semeval_df['label'] == "neutral")] = 1

In [68]:
semeval_df['label'].loc[(semeval_df['label'] == "positive")] = 2

In [69]:
semeval_df

Unnamed: 0,sentence,label
0,ุฅุฌุจุงุฑ ุฃุจู ุนูู ุงูุชุนุงูู ุนูู ูู ุดูุฑุฉ ุงุฌูุฒุชูุง http...,2
1,RT @20fourMedia: #ุบูุบู ุชุชุญุฏู ุฃุจู ูุฃูุงุฒูู ุจุฃุฌูุฒ...,2
2,ุฌูุฌู ุชูุงูุณ ุฃุจู ูุณุงูุณููุฌ ุจูุงุชู ุฌุฏูุฏ https://t.c...,2
3,ุฑุฆูุณ ุดุฑูุฉ ุฃุจู: ุงููุงูุน ุงููุนุฒุฒ ุณูุตุจุญ ุฃูู ูู ุงูุทุน...,2
4,ุณุงุนุฉ ุฃุจู ูู ุงูุฃุณูุงู ูุฑุฉ ุฃุฎุฑู https://t.co/dY2x...,1
...,...,...
3348,ุทุฑููุฉ ุชุนุทูู ุงู ุฒุฑ ูู ููุญุฉ ุงูููุงุชูุญ ุนูู ูุธุงู ูู...,2
3349,RT @syst__em: ุฅุทูุงู ุชุญุฏูุซ ุชุฑุงููู ุจุฑูู 14393.32...,1
3350,4 ุทุฑู ูุญุฐู ุงููููุงุช ุงููุณุชุนุตูุฉ ูู ุงูุญุฐู ูู ูููุฏู...,1
3351,ุดุฑุญ ููุฏูู ููู ุฌุฏุง ุญู ููุดุงูู ุงููููุจููุชุฑ ููู ุชูู...,1


In [70]:
semeval_df["label"].value_counts()

1    1470
0    1141
2     742
Name: label, dtype: int64

#### 2.7 ASTD dataset

Assuming "Objective" label as "Neutral" label.

In [71]:
astd_df = pd.read_csv("data/sentiment-analysis/ASTD.txt", sep="\t", header=None, names=["sentence", "label"])

In [72]:
astd_df

Unnamed: 0,sentence,label
0,ุจุนุฏ ุงุณุชูุงูุฉ ุฑุฆูุณ #ุงููุญููุฉ_ุงูุฏุณุชูุฑูุฉ ููุชุธุฑ ุงุณุชู...,OBJ
1,ุฃููุฆ ุงูุฏูุชูุฑ ุฃุญูุฏ ุฌูุงู ุงูุฏููุ ุงูููุงุฏู ุจุญุฒุจ ูุตุฑ...,POS
2,ุงูุจุฑุงุฏุนู ูุณุชููู ุจุงูุฑููุง ูุฑุฉุงุฎุฑู ู ูุฑุณู ุนุตุงู ุงู...,NEG
3,#ุงูุญุฑูุฉ_ูุงูุนุฏุงูุฉ | ุดุงูุฏ ุงูุขู: #ูููุฉ_ุงูุงุชุญุงุฏูุฉ ...,OBJ
4,ุงููุงูุฏุฉ ูู ุงููููุง ุจุฎุงุทุฑู ุญุดูุดุฉ ุชุถุญู ุจุณ ูู ุงููู...,NEUTRAL
...,...,...
9689,ูุงูุบุงุฒ ูุด ูุฏุนูู ูุง ุฅูุณุงูุ ููุงุฐุง ุนู ุงูุฃุณููุช ูุงู...,NEG
9690,ุงุบูุงู ูู ุงูุณุงุญุงุช ูุงูููุงุฏูู ุงููุจุฑู ูููุน ุตูุงุฉ ุงู...,NEG
9691,"#ุงูุดุฑูู ""ุงูุฏุงุฎููุฉ"": 400 ุฃูู ููุงุทู ุชูุฏููุง ูุฃุฏุงุก...",OBJ
9692,#ูุชุญุจู_ูู ุตุญุชูุง ูู ุงูููู ุนูุดุงู ุชููููุง ุจุญุจู ;),POS


In [73]:
astd_df["label"].value_counts()

OBJ        6470
NEG        1642
NEUTRAL     805
POS         777
Name: label, dtype: int64

In [74]:
astd_df['label'].loc[(astd_df['label'] == "NEG")] = 0

In [75]:
astd_df['label'].loc[(astd_df['label'] == "NEUTRAL")] = 1

In [76]:
astd_df['label'].loc[(astd_df['label'] == "OBJ")] = 1

In [77]:
astd_df['label'].loc[(astd_df['label'] == "POS")] = 2

In [78]:
astd_df

Unnamed: 0,sentence,label
0,ุจุนุฏ ุงุณุชูุงูุฉ ุฑุฆูุณ #ุงููุญููุฉ_ุงูุฏุณุชูุฑูุฉ ููุชุธุฑ ุงุณุชู...,1
1,ุฃููุฆ ุงูุฏูุชูุฑ ุฃุญูุฏ ุฌูุงู ุงูุฏููุ ุงูููุงุฏู ุจุญุฒุจ ูุตุฑ...,2
2,ุงูุจุฑุงุฏุนู ูุณุชููู ุจุงูุฑููุง ูุฑุฉุงุฎุฑู ู ูุฑุณู ุนุตุงู ุงู...,0
3,#ุงูุญุฑูุฉ_ูุงูุนุฏุงูุฉ | ุดุงูุฏ ุงูุขู: #ูููุฉ_ุงูุงุชุญุงุฏูุฉ ...,1
4,ุงููุงูุฏุฉ ูู ุงููููุง ุจุฎุงุทุฑู ุญุดูุดุฉ ุชุถุญู ุจุณ ูู ุงููู...,1
...,...,...
9689,ูุงูุบุงุฒ ูุด ูุฏุนูู ูุง ุฅูุณุงูุ ููุงุฐุง ุนู ุงูุฃุณููุช ูุงู...,0
9690,ุงุบูุงู ูู ุงูุณุงุญุงุช ูุงูููุงุฏูู ุงููุจุฑู ูููุน ุตูุงุฉ ุงู...,0
9691,"#ุงูุดุฑูู ""ุงูุฏุงุฎููุฉ"": 400 ุฃูู ููุงุทู ุชูุฏููุง ูุฃุฏุงุก...",1
9692,#ูุชุญุจู_ูู ุตุญุชูุง ูู ุงูููู ุนูุดุงู ุชููููุง ุจุญุจู ;),2


In [79]:
astd_df["label"].value_counts()

1    7275
0    1642
2     777
Name: label, dtype: int64

#### 2.8 Combining the datasets

In [80]:
df_list = [
    tead_pos_df,
    tead_neg_df,
    labr_df,
    arsas_df,
    ajgt_df,
    egypt_df,
    semeval_df,
    astd_df
]

data_df = pd.concat(df_list, axis=0, ignore_index=True)

In [81]:
data_df

Unnamed: 0,sentence,label
0,ูุฑุงุง ุญูู ุงู ุงูุงุณุชุงุฐู ูุงููู ุจุฑุณู ููู ุงูุชุฎุทูุท ูุช...,2
1,ูููู ุฃู ูุฑูุจ ูุญูู ุนูู ุงู ูุฏูุฑ ุงูุณุญุงุจ ุชูุชููู ูุง...,2
2,ูุงุฑุจ ุดุนูุฑ ุฅูู ุฃููู ูุฑููู ููุจุณูุทู ูููู ูู ููู,2
3,ุญุงุฌุงุช ุชุฒูุฏ ุงูุงูุซู ุงููุซู ุชุชุฑูุด ูุน ุฑุฌุงููุง ููุง ุชุณ...,2
4,ูุถุน ุงูุงูุชุฑูุช ูุงุฌุฏ ูุถุงูู ูุง ุจุฑูุฏุจุงูุฏ ุงูุจูุช ููุง ...,2
...,...,...
693912,ูุงูุบุงุฒ ูุด ูุฏุนูู ูุง ุฅูุณุงูุ ููุงุฐุง ุนู ุงูุฃุณููุช ูุงู...,0
693913,ุงุบูุงู ูู ุงูุณุงุญุงุช ูุงูููุงุฏูู ุงููุจุฑู ูููุน ุตูุงุฉ ุงู...,0
693914,"#ุงูุดุฑูู ""ุงูุฏุงุฎููุฉ"": 400 ุฃูู ููุงุทู ุชูุฏููุง ูุฃุฏุงุก...",1
693915,#ูุชุญุจู_ูู ุตุญุชูุง ูู ุงูููู ุนูุดุงู ุชููููุง ุจุญุจู ;),2


In [82]:
data_df["label"].value_counts()

2    462133
0    202725
1     29059
Name: label, dtype: int64

In [83]:
# Saving combined data
data_df.to_csv("data/sentiment-analysis/combined_arabic_data.csv", index=False)

In [84]:
# Testing loading combined data
data_df = pd.read_csv("data/sentiment-analysis/combined_arabic_data.csv")

In [85]:
data_df

Unnamed: 0,sentence,label
0,ูุฑุงุง ุญูู ุงู ุงูุงุณุชุงุฐู ูุงููู ุจุฑุณู ููู ุงูุชุฎุทูุท ูุช...,2
1,ูููู ุฃู ูุฑูุจ ูุญูู ุนูู ุงู ูุฏูุฑ ุงูุณุญุงุจ ุชูุชููู ูุง...,2
2,ูุงุฑุจ ุดุนูุฑ ุฅูู ุฃููู ูุฑููู ููุจุณูุทู ูููู ูู ููู,2
3,ุญุงุฌุงุช ุชุฒูุฏ ุงูุงูุซู ุงููุซู ุชุชุฑูุด ูุน ุฑุฌุงููุง ููุง ุชุณ...,2
4,ูุถุน ุงูุงูุชุฑูุช ูุงุฌุฏ ูุถุงูู ูุง ุจุฑูุฏุจุงูุฏ ุงูุจูุช ููุง ...,2
...,...,...
693912,ูุงูุบุงุฒ ูุด ูุฏุนูู ูุง ุฅูุณุงูุ ููุงุฐุง ุนู ุงูุฃุณููุช ูุงู...,0
693913,ุงุบูุงู ูู ุงูุณุงุญุงุช ูุงูููุงุฏูู ุงููุจุฑู ูููุน ุตูุงุฉ ุงู...,0
693914,"#ุงูุดุฑูู ""ุงูุฏุงุฎููุฉ"": 400 ุฃูู ููุงุทู ุชูุฏููุง ูุฃุฏุงุก...",1
693915,#ูุชุญุจู_ูู ุตุญุชูุง ูู ุงูููู ุนูุดุงู ุชููููุง ุจุญุจู ;),2


#### 2.9 Applying clean() function to all sentences in the data

In [86]:
print(data_df.iloc[693914]["sentence"])

#ุงูุดุฑูู "ุงูุฏุงุฎููุฉ": 400 ุฃูู ููุงุทู ุชูุฏููุง ูุฃุฏุงุก ุงูุญุฌ ูุจุฏุก ุฅุฌุฑุงุก ุงููุฑุนุฉ 10 ูุงูู ุงูููุจู


In [87]:
data_df["sentence"] = data_df["sentence"].map(clean)

In [88]:
data_df

Unnamed: 0,sentence,label
0,ูุฑุงุง ุญูู ุงู ุงูุงุณุชุงุฐู ูุงููู ุจุฑุณู ููู ุงูุชุฎุทูุท ูุช...,2
1,ูููู ุฃู ูุฑูุจ ูุญูู ุนูู ุงู ูุฏูุฑ ุงูุณุญุงุจ ุชูุชููู ูุง...,2
2,ูุงุฑุจ ุดุนูุฑ ุฅูู ุฃููู ูุฑููู ููุจุณูุทู ูููู ูู ููู,2
3,ุญุงุฌุงุช ุชุฒูุฏ ุงูุงูุซู ุงููุซู ุชุชุฑูุด ูุน ุฑุฌุงููุง ููุง ุชุณ...,2
4,ูุถุน ุงูุงูุชุฑูุช ูุงุฌุฏ ูุถุงูู ูุง ุจุฑูุฏุจุงูุฏ ุงูุจูุช ููุง ...,2
...,...,...
693912,ูุงูุบุงุฒ ูุด ูุฏุนูู ูุง ุฅูุณุงูุ ููุงุฐุง ุนู ุงูุฃุณููุช ูุงู...,0
693913,ุงุบูุงู ูู ุงูุณุงุญุงุช ูุงูููุงุฏูู ุงููุจุฑู ูููุน ุตูุงุฉ ุงู...,0
693914,"""ุงูุฏุงุฎููุฉ"": 400 ุฃูู ููุงุทู ุชูุฏููุง ูุฃุฏุงุก ุงูุญุฌ ู...",1
693915,ุตุญุชูุง ูู ุงูููู ุนูุดุงู ุชููููุง ุจุญุจู ;),2


In [89]:
print(data_df.iloc[693914]["sentence"])

 "ุงูุฏุงุฎููุฉ": 400 ุฃูู ููุงุทู ุชูุฏููุง ูุฃุฏุงุก ุงูุญุฌ ูุจุฏุก ุฅุฌุฑุงุก ุงููุฑุนุฉ 10 ูุงูู ุงูููุจู


#### 2.10 Splitting data into a 80/20 train/test split

Train/val/test splits would be conducted in future experiments.

In [90]:
RANDOM_STATE = 420

train_df, test_df = train_test_split(data_df, test_size=0.2, random_state=RANDOM_STATE)

In [91]:
train_df

Unnamed: 0,sentence,label
351637,ูู ูุจู ูุจุฏุฃ ุงูููุณู ูุงูู ุทููุญู ูู ุงูููุบุง ููุท ุญุช...,2
219680,ุงููุงุฆูุฉ ุงููุณุชุฏุนุงุฉ ูููุงุฌูุฉ ุฃุชูุงูุชุง ูุงูู ุงุนุฐุงุฑ ุง...,2
447570,ูุฑุงุถููู ุจ ูุฑุฏ ููุง ููุงู ุญูู,0
213154,ุฃุณูุนู ูุนุงู ุนุจุฏุงููุฌูุฏ ุนุจุฏุงููู ุฎูู ุงููุตู ุจูููุง ุง...,2
173996,ููููุจ ุงูุฃุณูุฏ ูู ุงููุญูุฏ ุงููู ุญุจู ูุฒูุฏ ุจููุจู ูุฃู...,2
...,...,...
510579,ุซุงูู ุดุจูู ูู ุจุนุฏ ุชูุฃูู,0
586527,ุญูููุง ุชูุชูู ูู ูุฑุงุฆุชูุง ุชุฌุฏ ุญุฌู ุงุณุชูุงุฏุงุชู ูุง ุดุฆ,0
676415,ูุญุฏ ุฏูููุชู ูุญุฏุด ุฌุงูุจ ุตุญ ุนููุง .,0
643462,ุตุนุจ ุงูู ุงูู ุชุดูู ุฏููุน ุงูููุงูุช ูุด ุนุงุฑู ุชุนูู ูู...,0


In [92]:
train_value_counts = train_df["label"].value_counts()
train_value_counts

2    369423
0    162431
1     23279
Name: label, dtype: int64

In [93]:
test_df

Unnamed: 0,sentence,label
510924,ูุณููู ุงููุฑูู ุงููุฑูู ูุญุชุงุฌู ุญุฏ ุนุงุฑู ูููู ุงููุฑูู...,0
25694,ุฎุงุทุฑุฉ ุฑุงุฆุนุฉ ุนูุฏูุง ููุช ุทููุง ูุงู ูุงูุฏูู ูุฎููู ุนู...,2
582693,"ูุบุฉ ุตุนุจุฉ ุงูู ุญุฏ ูุง,,,ูููู ูููุง ุงููุงุชุจ ุงูู ุจุนุถ...",0
11318,ุงููุงุฑุฏู ููู ูููู ุงุจู ุญุฑุงู ูุญุงุถุฑุฉ ูุจุนุฏูู ุชูุฑูู ...,2
515266,ุงุจู ุฑุงุจุท ูููุน ููุฑ ุจุงูุณุฌู ุงููุฏูู,0
...,...,...
36708,ุนูุดุชู ููู ูู ุชุทูุจ ุงูุช ุฑูุญ ูุงู ุงูุฑูุญ ูุฏูุง ูุง ุชุญุฒู,2
365433,ูุจุฑูู ุงููุงุฏู ูุง ุงุจุง ูุงุฏู ุจุงุฑู ุงููู ููู ูู ุงููู...,2
289997,ุฃูุง ุฏุฎูู ุงููู ูู ูุธุฑุฉ ุนูููุง ุนุฌุฒุช ุฃูุตู ุจุงูุญูุง ู...,2
109661,ูู ุงูุญุจ ูุงู ุนูู ูุฏ ุงููุณุงูู ุงูุง ุงุญุจู ูุขุฎุฑ ุญุฏูุฏ ...,2


In [94]:
test_value_counts = test_df["label"].value_counts()
test_value_counts

2    92710
0    40294
1     5780
Name: label, dtype: int64

In [95]:
print("Ratios for train set:\n")
print(f"Negative ratio: {train_value_counts[0] / len(train_df)}")
print(f"Neutral ratio: {train_value_counts[1] / len(train_df)}")
print(f"Positive ratio: {train_value_counts[2] / len(train_df)}")

print("\nRatios for test set:\n")
print(f"Negative ratio: {test_value_counts[0] / len(test_df)}")
print(f"Neutral ratio: {test_value_counts[1] / len(test_df)}")
print(f"Positive ratio: {test_value_counts[2] / len(test_df)}")

Ratios for train set:

Negative ratio: 0.29259835030524217
Neutral ratio: 0.041934095072712306
Positive ratio: 0.6654675546220455

Ratios for test set:

Negative ratio: 0.29033606179386673
Neutral ratio: 0.04164745215586811
Positive ratio: 0.6680164860502652


#### 2.11 Calculating balanced class weights based on training set

In [96]:
np.unique(train_df["label"])

array([0, 1, 2])

In [97]:
class_weights = class_weight.compute_class_weight(
    class_weight='balanced',
    classes=np.unique(train_df["label"]),
    y=train_df["label"]
)

print(class_weights)

[1.13921809 7.9489812  0.50090095]


### 3- Preparing and training the Sentiment Classifier model from the CAMeL-Lab [bert-base-arabic-camelbert-mix](https://huggingface.co/CAMeL-Lab/bert-base-arabic-camelbert-mix) pre-trained language model

It is the language model with the __largest training corpus__ available by CAMeL-Lab. Composed of Modern Standard Arabic (MSA), dialectal Arabic (DA), and classical Arabic (CA).

* I have used this [tutorial](https://huggingface.co/docs/transformers/training) by huggingface as a reference how to do fine-tuned training for transformers using their 'transformers' library
* I have also used the fine-tuning code from CAMeL-Lab's GitHub [repository](https://github.com/CAMeL-Lab/CAMeLBERT) as a reference

#### 3.1 Importing base bert model

In [98]:
model_name = "CAMeL-Lab/bert-base-arabic-camelbert-mix"

In [99]:
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3)

Some weights of the model checkpoint at CAMeL-Lab/bert-base-arabic-camelbert-mix were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.bias', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassific

In [100]:
type(model)

transformers.models.bert.modeling_bert.BertForSequenceClassification

In [101]:
model

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30000, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, element

In [102]:
type(tokenizer)

transformers.models.bert.tokenization_bert_fast.BertTokenizerFast

In [103]:
input_test = tokenizer(clean("ุฅูุงุฑุฉ ุฃุจูุธุจู ูู ุฅุญุฏู ุฅูุงุฑุงุช ุฏููุฉ ุงูุฅูุงุฑุงุช ุงูุนุฑุจูุฉ ุงููุชุญุฏุฉ ุงูุณุจุน ."))
input_test

{'input_ids': [2, 22718, 9276, 2247, 6448, 10182, 2401, 3913, 4644, 2488, 2687, 9710, 18, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [104]:
tokenizer.decode(input_test["input_ids"])

'[CLS] ุฅูุงุฑุฉ ุฃุจูุธุจู ูู ุฅุญุฏู ุฅูุงุฑุงุช ุฏููุฉ ุงูุฅูุงุฑุงุช ุงูุนุฑุจูุฉ ุงููุชุญุฏุฉ ุงูุณุจุน. [SEP]'

#### 3.2 Converting data from pandas dataframes to datasets.Dataset format

[Reference](https://huggingface.co/docs/datasets/loading#pandas-dataframe)

##### 3.2.1 Training data

In [105]:
train_dataset = Dataset.from_pandas(train_df)

In [106]:
type(train_dataset)

datasets.arrow_dataset.Dataset

In [107]:
train_dataset

Dataset({
    features: ['sentence', 'label', '__index_level_0__'],
    num_rows: 555133
})

In [108]:
train_dataset['sentence'][0]

'ูู ูุจู ูุจุฏุฃ ุงูููุณู ูุงูู ุทููุญู ูู ุงูููุบุง ููุท ุญุชู ุนูู ุญุณุงุจ ุฏูุฑู ุงูุงุจุทุงู ุงูุญูุฏููู ููุง ูุฏุฑูุฏ'

In [109]:
train_dataset['label'][0]

2

In [110]:
train_dataset['__index_level_0__'][0]

351637

##### 3.2.2 Test data

In [111]:
test_dataset = Dataset.from_pandas(test_df)

In [112]:
test_dataset

Dataset({
    features: ['sentence', 'label', '__index_level_0__'],
    num_rows: 138784
})

#### 3.3 Tokenizing the datasets

In [113]:
def tokenize_function(examples):
    return tokenizer(examples["sentence"], padding="max_length", truncation=True)

##### 3.3.1 Training set

In [114]:
tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True)

  0%|                                                                                                                                                                                                                                                             | 0/556 [00:00<?, ?ba/s]Asking to pad to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no padding.
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
100%|โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ

In [115]:
tokenized_train_dataset

Dataset({
    features: ['sentence', 'label', '__index_level_0__', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 555133
})

In [116]:
tokenized_train_dataset["sentence"][0]

'ูู ูุจู ูุจุฏุฃ ุงูููุณู ูุงูู ุทููุญู ูู ุงูููุบุง ููุท ุญุชู ุนูู ุญุณุงุจ ุฏูุฑู ุงูุงุจุทุงู ุงูุญูุฏููู ููุง ูุฏุฑูุฏ'

In [117]:
tokenized_train_dataset["label"][0]

2

In [118]:
tokenized_train_dataset["__index_level_0__"][0]

351637

In [119]:
tokenized_train_dataset["input_ids"][0]

[2,
 1908,
 2289,
 9880,
 4249,
 12698,
 2027,
 19599,
 1013,
 2139,
 23420,
 2574,
 2494,
 1961,
 3144,
 4299,
 12704,
 4062,
 9106,
 4879,
 3]

In [120]:
tokenized_train_dataset["token_type_ids"][0]

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [121]:
tokenized_train_dataset["attention_mask"][0]

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

##### 3.3.2 Test set

In [122]:
tokenized_test_dataset = test_dataset.map(tokenize_function, batched=True)

100%|โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ| 139/139 [00:03<00:00, 42.50ba/s]


In [123]:
tokenized_test_dataset

Dataset({
    features: ['sentence', 'label', '__index_level_0__', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 138784
})