In [2]:
import os
import pandas as pd

# Introduction

The goal of this notebook is to *practice text preprocessing and cleaning*


You're part of a team in Twitter that's assigned to create a sentiment analysis model for tweets in Arabic, your task is to prepare the data for training a model to classify wether the tweet has *positive* or *negative* sentiment

In this task, you need to remove or keep parts of the tweet so that the remaining text is **relevant** to the task at hand 

### What are the possbile parts to remove or keep?

1. Hashtags
2. Mentions
3. Emojis
4. URLs
5. Numbers
6. English characters


### Steps
In this notebook we should:

1. Read the raw data
2. Define functions for cleaning
3. Define a pipeline
3. Store the data

## The Dataset

The dataset for this project can be originally found on [Kaggle](https://www.kaggle.com/datasets/mksaad/arabic-sentiment-twitter-corpus)

Although for the sake of this project, we'll be using a reorganised version of the dataset that can be [downloaded from here](https://shai-nlp-course.netlify.app/arabic-tweet-sentiment.zip)

# Setup

## Load Raw Data

First make sure you have downloaded the raw dataset:

1. Follow this [link](https://shai-nlp-course.netlify.app/arabic-tweet-sentiment.zip)
2. Install the dataset, and unzip it in the `data` directory 


In [4]:
data_dir = os.path.join(os.curdir, "data", "arabic-tweets-sentiment-data")
os.listdir(data_dir)

['README.md', 'train.tsv', 'test.tsv']

In [30]:
raw = pd.read_csv(filepath_or_buffer=os.path.join(data_dir, "train.tsv"), sep="\t", names=["label", "tweet"], 
                  encoding="utf_8")

In [31]:
raw

Unnamed: 0,label,tweet
0,pos,لا تتوقعي مني أن أكون مهذبا أو لبقا حينما أغار...
1,neg,يا الله ❤️
2,neg,#ليلة_جمعه اللهم صل وسلم عليه � #الوتر #تصبحون...
3,pos,المفروض استحي ع دمي وانام بما انه في عمال جايي...
4,pos,في هذا الصباح � ادعو الله يجعل صباحي و صباحكم ...
...,...,...
90400,neg,رئيسين في يومين قالو الربيع العربي � نحنا الكت...
90401,pos,أصبحنا وأصبح الملك لله والحمد لله، لا إله إلا ...
90402,neg,يا اخوانا و الله لسة مطالبنا ما أتحقق منها غير...
90403,pos,السحب الليلة على الايفون .. رتويت للمرفقة وطبق...


# Explaratory Data Analysis (EDA)

## View Samples

In [41]:
for i in range(90, 100):
    label, tweet = raw.loc[i, "label"], raw.loc[i, "tweet"] 
    print(tweet., "\t", label, "\n", "-----------------------------")

الحمد لله .. كانت مباراه صعبه ولكن بتوفيق الله ثم دعمكم تجاوزنا المباراه � 	 pos 
 -----------------------------
أحضر صوتنا #ری_استارت إلى العالم «الملک یبقی مع الکفر و لا یبقی مع الظلم» #الله… 	 pos 
 -----------------------------
وأنت حاول تهدأ أشوفك متوتر كثير ما فيه فتنه ولا شي زي ما شجعتم الأهلي البارح أكيد بنشجع الإتي حال… 	 pos 
 -----------------------------
بحياتي ما سويت ستريم صادق كذا حتى في دورة المياه اسوي � 	 neg 
 -----------------------------
صباح الخير � ويكندنا مع مرضانا �� 	 pos 
 -----------------------------
❥❥ هي ذلك الجبل الذي أسند عليه نفسي عند الشدائد ❤️ هي الشريان الذي يوصل الدم الى قلبي اختي حبيبتي فقيدة قلبي موتك… 	 neg 
 -----------------------------
كن ك نبتة أزهرت رغم الحطام ! �� كن ك ضوء يخترق الزحام � كن روحآ تحب وتهدي الحب لكل الآنام��… 	 pos 
 -----------------------------
قصدي معلش البطن وين تندري انه هو صبح � 	 neg 
 -----------------------------
انت بدون تحكيم صغير � 	 pos 
 -----------------------------
ماادري متى انام زي الناس واشبع نوم � 	 neg 
