# Arabic NLP - Deep Learning project - Group 5

In [180]:
import numpy as np
import pandas as pd
pd.options.display.max_colwidth = 100000

## Import data

In [181]:
# Warning: it drops rows with http link
# df2 = pd.read_csv('ArSAS.txt', sep ="\t")
# print(df2.shape)

In [182]:
df = pd.read_csv('ArSAS.txt', encoding='utf8', engine='python')

In [183]:
df.shape

(21064, 1)

In [184]:
df.head(2)

Unnamed: 0,#Tweet_ID	Tweet_text	Topic	Sentiment_label	Sentiment_label_confidence	Speech_act_label	Speech_act_label_confidence
0,929241870508724224\tุงููุจุงุฑุงุฉ ุงูููุงุฏูุฉ #ุบุงูุง x #ูุตุฑ ุงูุฌููุฉ ุงูุฃุฎูุฑุฉ ูู ุงููุฌููุนุฉ ุงูู 5 ุชุตููุงุช ูุงุณ ุงูุนุงูู 2018 ุฑูุณููุง ุชุฑุชูุจ ูุตุฑ : ุงููุฑูุฒ ุงูุงูู 12 ููุทุฉ ( ุชู ุญุณู ุงูุชุฃูู ูููููุฏูุงู ) ุบููุฏุง ุงูุณุงุนุฉ 5:30 ุน ููุงุฉ : ุจูู ุณููุจูุฑุช 1 ุชูููููุนุงุชูู ูู ูุชูุฌุฉ ุงููุงุชุด .ุ ๐๐ https://t.co/RTQBNZXDqM\tEvent\tPositive\t0.38\tAssertion\t0.62
1,928942264583376897\tูู ูุฐู ูู ุณูุงุณุฉ ุฎุงุฑุฌูู ูุฏููู ุชุญุชุฑู ููุณูุง ูุงูุขุฎุฑูู :#ุงูููู ุนุฏูุงู ูุญุตุงุฑ ู 3 ุณููุงุช #ุงูุจุญุฑูู ููุน ุญุฑุงู ุดุนุจูุง ุงููุณุงูู ุงููุทุงูุจ ุจุงููุณุงูุงุฉ ูุงูุนุฏุงูู #ุณูุฑูุง #ุงูุนุฑุงู ุฏุนููุง ุงูุฅุฑูุงุจ ูุงุฑุณููุง ุงููุงู ูุงูุณูุงุญ ูุงูุงูุชุญุงุฑููู #ูุทุฑ ุญุตุงุฑ ููุญุงููุฉ ูุฑุถ ุงููุตุงูู ูุงูุขู #ูุจูุงู ูุญุงููุฉ ูุฑุถ ูุตุงูู ุนููู!!\tEntity\tNegative\t1\tExpression\t0.68


## Preprocessing

### Remove http

In [185]:
def removing_http(text):
    clean_text = re.sub(r'(https?:\/\/)(\s)*(www\.)?(\s)*((\w|\s)+\.)*([\w\-\s]+\/)*([\w\-]+)((\?)?[\w\s]*=\s*[\w\%&]*)*', " ", text)
    return clean_text


In [186]:
# Remove http from tweets
df['clean_text'] = df.iloc[:,0].apply(lambda x: removing_http(x))

# Splits the column into labeled columns
df[['#Tweet_ID', 'Tweet_text', 'Topic', 'Sentiment_label',
       'Sentiment_label_confidence', 'Speech_act_label',
       'Speech_act_label_confidence']] = df.clean_text.str.split("\t",expand=True)


# Drop old columns
df.drop(columns=['#Tweet_ID\tTweet_text\tTopic\tSentiment_label\tSentiment_label_confidence\tSpeech_act_label\tSpeech_act_label_confidence','clean_text'],inplace=True)

### Remove emojis

In [187]:
emoji_pattern = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           "]+", flags=re.UNICODE)


In [188]:
# Remove emojis
df['Tweet_text'] = df['Tweet_text'].apply(lambda x: emoji_pattern.sub(r'',x))

### Removing hashtags

In [189]:
df['Tweet_text'] = df['Tweet_text'].apply(lambda x: x.replace('#',''))

In [190]:
df.head(5)

Unnamed: 0,#Tweet_ID,Tweet_text,Topic,Sentiment_label,Sentiment_label_confidence,Speech_act_label,Speech_act_label_confidence
0,929241870508724224,ุงููุจุงุฑุงุฉ ุงูููุงุฏูุฉ ุบุงูุง x ูุตุฑ ุงูุฌููุฉ ุงูุฃุฎูุฑุฉ ูู ุงููุฌููุนุฉ ุงูู 5 ุชุตููุงุช ูุงุณ ุงูุนุงูู 2018 ุฑูุณููุง ุชุฑุชูุจ ูุตุฑ : ุงููุฑูุฒ ุงูุงูู 12 ููุทุฉ ( ุชู ุญุณู ุงูุชุฃูู ูููููุฏูุงู ) ุบููุฏุง ุงูุณุงุนุฉ 5:30 ุน ููุงุฉ : ุจูู ุณููุจูุฑุช 1 ุชูููููุนุงุชูู ูู ูุชูุฌุฉ ุงููุงุชุด .ุ,Event,Positive,0.38,Assertion,0.62
1,928942264583376897,ูู ูุฐู ูู ุณูุงุณุฉ ุฎุงุฑุฌูู ูุฏููู ุชุญุชุฑู ููุณูุง ูุงูุขุฎุฑูู :ุงูููู ุนุฏูุงู ูุญุตุงุฑ ู 3 ุณููุงุช ุงูุจุญุฑูู ููุน ุญุฑุงู ุดุนุจูุง ุงููุณุงูู ุงููุทุงูุจ ุจุงููุณุงูุงุฉ ูุงูุนุฏุงูู ุณูุฑูุง ุงูุนุฑุงู ุฏุนููุง ุงูุฅุฑูุงุจ ูุงุฑุณููุง ุงููุงู ูุงูุณูุงุญ ูุงูุงูุชุญุงุฑููู ูุทุฑ ุญุตุงุฑ ููุญุงููุฉ ูุฑุถ ุงููุตุงูู ูุงูุขู ูุจูุงู ูุญุงููุฉ ูุฑุถ ูุตุงูู ุนููู!!,Entity,Negative,1.0,Expression,0.68
2,928615163250520065,ูุฒูุฑ ุฎุงุฑุฌูุฉ ูุฑูุณุง ุนู ููุชุฏู ุดุจุงุจ ุงูุนุงูู: ุดุนุฑุช ุจุงุฑุชูุงุญ ูุฃูุง ุฃุชุงุจุนู ูู ุจุงุฑูุณ - youm,Event,Positive,0.69,Assertion,1.0
3,931614713368186880,ููุน ุงูุณูุณู ู ุจุดุงุฑ ู ุงูุฑุงู ู ุจู ุฒุงูุฏ ู ูุงูุง ุฎูููู ู ุฑูุงูุถ ุฅูุนุฑุงู ู ุญูุชุฑ ู ุนูู ุตุงูุญ ูู ุทูุงุบูุช ุงูุนุฑุจ ุงูุนูุงูุงุช ุนุณู ุนูู ุณูู,Event,Negative,1.0,Expression,1.0
4,929755693011427331,ุฃูุฏุงู ูุจุงุฑุงุฉ ุบุงูุง 0 ูุตุฑ 1 ุชุตููุงุช ูุฃุณ ุงูุนุงูู 2018 ุฑูุณูุง GHA 0vs1 EYG:,Event,Neutral,1.0,Assertion,1.0


In [191]:
df.to_csv('clean_data.csv')