### combined is downloaded from [kaggle](https://www.kaggle.com/combinedsets/arwaalqarni/label-analysis-of-covid-19-in-saudia-arabia)

## Cleaning and Combining

In [30]:
import pandas as pd
import os
import chardet



dir = "Covid_Saudi_Arabic"
archive = dir+"/archive"


combined = {'label':[],'text':[],'ftype':[]}
for f in os.listdir(archive):    
    ftype = 'before-covid' if 'before' in f else 'during-covid'
    f = open(os.path.join(archive,f),'r',encoding='utf-16')
    lines = f.readlines()
    
    for line in lines:
        line = line.strip().split("\t")
        if len(line)!=2:
            combined['text'][-1] += " "+line[0]
            continue
            
        label_id = 0 if len(line[0]) < len(line[1]) else 1 ### because label and text are not in 1st and 2nd column, respectively, across the files
        combined['label'].append(str(line[label_id]))
        combined['text'].append(line[label_id-1])
        combined['ftype'].append(ftype)


combined = pd.DataFrame(combined)
combined.to_csv(os.path.join(dir,'combined.csv'),index=False)
combined

Unnamed: 0,label,text,ftype
0,0,قررت ما اشارك فيها مب عن نحاسة بالعكس انا اكثر...,before-covid
1,1,اللهم إني أستودعك نفسي و زوجي وأهلي ومن أحب💓🌿.,before-covid
2,1,بأسمك ربي حصنت نفسي وأهلي ومن أحب من أن يصيبنا...,before-covid
3,1,اللهم استودعتك نفسي و أهلي و من أحب و بلادي و ...,before-covid
4,0,فتقبلي عشقي على علاته وتقبلي مللي وذبذبتي وسوء...,before-covid
...,...,...,...
90296,0,#ما بعد كورونا سيتحدث كل شخص في مجاله ..,during-covid
90297,1,يالله مدام اني قايم بدري اليوم ولأول مرة بشوف ...,during-covid
90298,0,🔴🔴بعدما صدرت الوباء القاتل إلى العالم .. الصين...,during-covid
90299,1,#حكايا #كورونا #توفيق الربيعه حسن الإدارة وقوة...,during-covid


# Preprocessing

In [31]:

combined = pd.read_csv(os.path.join(dir,'combined.csv'),encoding='utf-8',encoding_errors='ignore')
combined = combined[combined['ftype']=='during-covid']
combined

Unnamed: 0,label,text,ftype
6920,-1,ما عاد تنفع مع كورونا,during-covid
6921,0,#ألمانيا .. 9019 إصابة جديدة بفيروس #كورونا,during-covid
6922,1,واحد جاء الفحص اليوم يقول لو سمحتي خذي المسحة ...,during-covid
6923,0,بال #صور #صحيفة اليوم تفعيل خدمة التطعيم ضد #ك...,during-covid
6924,1,أخذت الجرعة الاولى من كورونا يوم الجمعة الفائت...,during-covid
...,...,...,...
90296,0,#ما بعد كورونا سيتحدث كل شخص في مجاله ..,during-covid
90297,1,يالله مدام اني قايم بدري اليوم ولأول مرة بشوف ...,during-covid
90298,0,🔴🔴بعدما صدرت الوباء القاتل إلى العالم .. الصين...,during-covid
90299,1,#حكايا #كورونا #توفيق الربيعه حسن الإدارة وقوة...,during-covid


In [32]:
def labelClass(row):
    if "0" in row['label']:
        return "Neutral"
    
    if "1" in row['label']:    
        if "-" in row ['label']:
            return "Negative"
        
        return "Positive"
    
    if "-" in row ['label']:
        return "Negative"
    else:
        return "Positive"       

combined['label'] = combined.apply(lambda x: labelClass(x), axis=1)

combined[['label']].value_counts()

label   
Negative    23517
Neutral     20992
Positive    12141
dtype: int64

In [33]:
import re

combined['text'] = combined.apply(lambda x: re.sub("@[\w\d]+|\?","",x['text']).strip(),axis=1)
combined['text'] = combined.apply(lambda x: re.sub("\s{2,}|[\r\n]{2,}"," ",x['text']).strip(),axis=1)
combined['text'] = combined.apply(lambda x: re.sub("https://[\w\./]+","",x['text']).strip(),axis=1)
combined['text']

6920                                 ما عاد تنفع مع كورونا
6921           #ألمانيا .. 9019 إصابة جديدة بفيروس #كورونا
6922     واحد جاء الفحص اليوم يقول لو سمحتي خذي المسحة ...
6923     بال #صور #صحيفة اليوم تفعيل خدمة التطعيم ضد #ك...
6924     أخذت الجرعة الاولى من كورونا يوم الجمعة الفائت...
                               ...                        
90296             #ما بعد كورونا سيتحدث كل شخص في مجاله ..
90297    يالله مدام اني قايم بدري اليوم ولأول مرة بشوف ...
90298    🔴🔴بعدما صدرت الوباء القاتل إلى العالم .. الصين...
90299    #حكايا #كورونا #توفيق الربيعه حسن الإدارة وقوة...
90300    بعد #أزمة كورونا صرت كل مادخلت محل يشتكي #المو...
Name: text, Length: 56650, dtype: object

In [34]:
combined = combined[combined['text'].str.len() > 20]

combined[['label']].value_counts()

label   
Negative    22823
Neutral     20738
Positive    12053
dtype: int64

In [36]:
neutral = combined[combined['label'] == 'Neutral']
neutral[['text']].to_csv("Covid_Saudi_Arabic/neutral.ar",index=False)

In [39]:
positive = combined[combined['label'] == 'Positive']
positive[['text']].to_csv("Covid_Saudi_Arabic/positive.ar",index=False)

In [40]:
negative = combined[combined['label'] == 'Negative']
negative[['text']].to_csv("Covid_Saudi_Arabic/negative.ar",index=False)

## Translation done using : [google-translate](https://translate.google.com)

In [42]:
f = open('Covid_Saudi_Arabic/neutral.ne','rb')
neutral = pd.DataFrame(f.read().decode("utf-8",errors='ignore').split("\r\n"))
neutral.drop_duplicates(inplace=True)
neutral.rename(columns=neutral.iloc[0], inplace = True)
neutral.drop(neutral.index[0], inplace = True)

neutral['text'] = neutral.apply(lambda x: x['text'].strip(),axis=1)
neutral = neutral[neutral['text'].str.len() > 100]
neutral.index = range(neutral.shape[0])

neutral['label'] = 0
neutral

Unnamed: 0,text,label
0,#भिडियो #आजको पत्रिका #आजको लागि स्वास्थ्य मन्...,0
1,#MercedesEQ Formula E टोलीले #Diriyah मा सातौं...,0
2,"सन्देशहरूको लागि, तपाईंले युवा फ्यानहरू 10 जना...",0
3,🟠 अत्यावश्यक.. अल-दावा फार्मेसीहरू.. कोरोनाभाइ...,0
4,मन्त्रिपरिषद्ले स्थानीय र अन्तर्राष्ट्रिय स्तर...,0
...,...,...
13555,मानिसहरु दुई मध्ये एउटा परिस्थितिमा हुन्छन्.. ...,0
13556,यी #असाधारण स्वास्थ्य परिस्थितिहरूमा। । हामीले...,0
13557,हामी तपाईलाई आज राती आठ बजे भेट्न पाउँदा खुसी ...,0
13558,उहाँ राज्यमा हुनुहुन्छ। मैले उहाँको देशलाई अमे...,0


In [43]:
f = open('Covid_Saudi_Arabic/positive.ne','rb')
positive = pd.DataFrame(f.read().decode("utf-8",errors='ignore').split("\r\n"))
positive.drop_duplicates(inplace=True)
positive.rename(columns=positive.iloc[0], inplace = True)
positive.drop(positive.index[0], inplace = True)

positive['text'] = positive.apply(lambda x: x['text'].strip(),axis=1)
positive = positive[positive['text'].str.len() > 100]
positive.index = range(positive.shape[0])

positive['label'] = 1
positive

Unnamed: 0,text,label
0,"आज कोही परीक्षामा आएर भन्यो, ""कृपया, स्वाब लिन...",1
1,मैले गत शुक्रबार मेलामैदानमा कोरोनाको पहिलो डो...,1
2,"भगवानलाई धन्यवाद, कोरोना भ्याक्सिनको पहिलो डोज...",1
3,"आज मैले कोरोना भ्याक्सिनको पहिलो डोज लिएको छु,...",1
4,खोप लिनु र सावधानीका उपायहरूप्रति तपाईंको प्रत...,1
...,...,...
8819,#घरमै बस्नुहोस् #कोरोनाभाइरस #होम क्वारेन्टाइन...,1
8820,गरेको व्यवहारले मानव अधिकारको वास्तविक अर्थलाई...,1
8821,"हे भगवान , यी दिनहरू बिताउनुहोस् र हानि नगर्नु...",1
8822,हे भगवान महोदया म आज बिहानै उभिदै छु र पहिलो प...,1


In [44]:
f = open('Covid_Saudi_Arabic/negative.ne','rb')
negative = pd.DataFrame(f.read().decode("utf-8",errors='ignore').split("\r\n"))
negative.drop_duplicates(inplace=True)
negative.rename(columns=negative.iloc[0], inplace = True)
negative.drop(negative.index[0], inplace = True)

negative['text'] = negative.apply(lambda x: x['text'].strip(),axis=1)
negative = negative[negative['text'].str.len() > 100]
negative.index = range(negative.shape[0])

negative['label'] = -1
negative

Unnamed: 0,text,label
0,"हो, हो, र 2019 को अन्तिम विमान, भगवान मलाई कोर...",-1
1,असल मान्छेहरुको पालामा बिटिन द लाइन पढ्ने क्षम...,-1
2,"म काममा गएँ र बाटोमा ३ वटा दुर्घटना देखे, ती स...",-1
3,rmd1 भोलिको कोरोना परिक्षणको नतिजा होसियार रहन...,-1
4,"मोहकोम, औषधि पसल भित्र पसे र कब्जा, एक इजिप्टि...",-1
...,...,...
13287,"#पूर्ण प्रतिबन्ध चाँडै आउँदैछ, म आशा गर्छु #सा...",-1
13288,यदि तपाईं सचेत नेतृत्व भएको देशमा हुनुहुन्थ्यो...,-1
13289,🎥 परिवारको दुखद घटनाको साक्षी.. एक बीस वर्षको ...,-1
13290,"अमेरिकामा ३० लाख अमेरिकीलाई जागिरबाट निकाल्ने,...",-1


In [45]:
combined = pd.concat([positive,negative,neutral])
combined['text'] = combined.apply(lambda x: re.sub("#[A-Za-z0-9]+|&[a-b]+;+","",x['text']).strip(),axis=1)

combined = combined[combined['text'].str.len() > 20]
combined.index = range(combined.shape[0])
combined['label'].value_counts()

 0    13560
-1    13292
 1     8824
Name: label, dtype: int64

# Pushing To Hub

In [46]:
import datasets

def pushToHub(data,dataset_name = 'raygx/CORONA_arabic2np',token = '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'):
    data = datasets.Dataset.from_pandas(data)
    print(data)

    # login require python > 3.9 
    from huggingface_hub import login
    login(token)

    data.push_to_hub(dataset_name)
    
pushToHub(combined)

Dataset({
    features: ['text', 'label'],
    num_rows: 35676
})
Token will not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid.
Your token has been saved to C:\Users\Dell\.cache\huggingface\token
Login successful


Pushing dataset shards to the dataset hub:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/36 [00:00<?, ?ba/s]

Upload 1 LFS files:   0%|          | 0/1 [00:00<?, ?it/s]

Deleting unused files from dataset repository:   0%|          | 0/1 [00:00<?, ?it/s]

Downloading metadata:   0%|          | 0.00/392 [00:00<?, ?B/s]

Updating downloaded metadata with the new split.
