## Preprocessing
In this notebook, we show the preprocessing steps on tweets before doing any analysis (e.g. topic modeling.)

In [1]:
import os
import sys

# adding classes folder to system path
sys.path.insert(0, os.path.abspath('..') + '/src')

from pre_processing import PreProcessing
from pre_processing import hazm_docs
from pre_processing import emoji_free_text

### Step [1]: Preprocessing raw `json`/`excel` files

Tweets that we collect in real-time using the [Social Feed Manager (SFM) tool](https://gwu-libraries.github.io/sfm-ui/) can be downloaded as either `json` or `excel` files. These files should be placed in the following path: `data/input`.

In the first step, we preprocess these json/excel files to create a cleaned tweet collection where we only keep a subset of fields for each tweet. Cleaned tweets will be put in the `data/cleaned` folder in excel (.xlsx) format.

In [None]:
# `save_checkpoint` specifies the number of records in each cleaned excel file to avoid having very large files
# WARNING: depending on how many files/tweets we have, running this cell can take a few hours
PreProcessing().clean_data_json(save_checkpoint=150000)

### Testing preprocessing methods on Farsi text

In [2]:
text = "تلگرام توییتر اینستاگرام واتس آپ دوباره از اول 😐 اینم زندگی قرنطینه ای☹️ فقط و فقط خبرای مربوط ب کرونا و ی مشت چرت و پرت دیگه نه کسی حالتو میپرسه ن ی پی ام از کسی ک منتظرشی #لعنت_به_کرونا"
docs = ["توسل به تئوری #توهم_توطئه چشمانمان را بر واقعیت می‌بندد و از مدیریت درست بحران جلوگیری می‌کند #کرونا #جنگ_بیولژولیک"]

In [5]:
# removing emojis
print(text) # before removing emojis
emoji_free_text(text) # after removing emojis

تلگرام توییتر اینستاگرام واتس آپ دوباره از اول 😐 اینم زندگی قرنطینه ای☹️ فقط و فقط خبرای مربوط ب کرونا و ی مشت چرت و پرت دیگه نه کسی حالتو میپرسه ن ی پی ام از کسی ک منتظرشی #لعنت_به_کرونا


'تلگرام توییتر اینستاگرام واتس آپ دوباره از اول  اینم زندگی قرنطینه ای️ فقط و فقط خبرای مربوط ب کرونا و ی مشت چرت و پرت دیگه نه کسی حالتو میپرسه ن ی پی ام از کسی ک منتظرشی #لعنت_به_کرونا'

In [7]:
# preprocessing documents using hazm
docs = hazm_docs(docs[0])

In [8]:
docs

'توسل به تئوری #توهم_توطئه چشمانمان را بر واقعیت می\u200cبندد و از مدیریت درست بحران جلوگیری می\u200cکند #کرونا #جنگ_بیولژولیک'