In [None]:
!pip install tweet-preprocessor

In [3]:
import preprocessor as p
import pandas as pd
import json
import re

In [4]:
pd.options.display.max_colwidth = 75

### Turn query documents (tweets) into generators

In [115]:
def load_tweets(file):
    with open(file, 'r') as f:
        tweets = (json.loads(line) for line in f.readlines())
    return tweets

In [116]:
ls

[0m[01;34mgulf_timelines[0m/    stream_الطريج.jsonl  stream_خربز.jsonl   stream_ياهوي.jsonl
stream_ابخص.jsonl  stream_تميلح.jsonl   stream_مغسلة.jsonl


In [154]:
query_gen = load_tweets('stream_الطريج.jsonl')

### Turn query generators into dataframes

In [155]:
def cleaner(message):
    message = re.sub("([0-9A-Za-z:!/.])", " ", message)
    return message

In [156]:
def tweet_to_df(tweets):
    data = {'text': [], 'screen_name': [], 'geo': [],
       }
    
    for t in tweets:
    
        data['text'].append(t['text'])
        data['screen_name'].append(t['user']['screen_name'])
        data['geo'].append(t['user']['location'])
    
    return pd.DataFrame(data)

In [157]:
query_df = tweet_to_df(query_gen)

In [158]:
query_df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 454 entries, 0 to 453
Data columns (total 3 columns):
geo            301 non-null object
screen_name    454 non-null object
text           454 non-null object
dtypes: object(3)
memory usage: 10.7+ KB


### Clean tweets (remove emojis, links, http, etc.)

In [159]:
cleaned_text = []

for tweet in query_df['text']:
    cleaned_text.append(p.clean(cleaner(tweet)))

query_df['cleaned_text']=cleaned_text

In [160]:
cleaned_name = []

for tweet in query_df['screen_name']:
    cleaned_name.append(p.clean(tweet))

query_df['cleaned_name']=cleaned_name

In [161]:
cleaned_geo = []

for tweet in query_df.geo:
    cleaned_geo.append(p.clean(str(tweet)))

query_df['cleaned_geo']=cleaned_geo


In [162]:
query_df.sample(4)

Unnamed: 0,geo,screen_name,text,cleaned_text,cleaned_name,cleaned_geo
291,Bahrain,sarajohn85,RT @FathiyaAjlan1: انا صوت الفريج وبنتٍ تناديك\nتدليك الفرح وينه\nانا ث...,انا صوت الفريج وبنتٍ تناديك تدليك الفرح وينه انا ثوبك وسبحةٍ في يدك وال...,sarajohn85,Bahrain
102,"Dubai, United Arab Emirates",zayynzeyad,أقسم بالله لو صايرة قدامي لا ابركن عجمب و اتفرج عل منظر و أدخن والله رو...,أقسم بالله لو صايرة قدامي لا ابركن عجمب و اتفرج عل منظر و أدخن والله روعة,zayynzeyad,"Dubai, United Arab Emirates"
335,دولة الكويت,mahmoud4325,@Almajlliss الحين أنا أبي أعرف طلاب الجامعة يروحون بشنو مو بسيارة يعني ...,الحين أنا أبي أعرف طلاب الجامعة يروحون بشنو مو بسيارة يعني أكيد راح تسك...,mahmoud4325,دولة الكويت
130,,dana_824,RT @FathiyaAjlan1: انا صوت الفريج وبنتٍ تناديك\nتدليك الفرح وينه\nانا ث...,انا صوت الفريج وبنتٍ تناديك تدليك الفرح وينه انا ثوبك وسبحةٍ في يدك وال...,dana_824,


### Remove duplicated tweets

In [163]:
query_df['cleaned_text'].duplicated().sample(5)

280    False
290     True
407     True
294    False
60      True
Name: cleaned_text, dtype: bool

In [164]:
query_cleaned = query_df.drop_duplicates(['cleaned_text'], keep='last')
query_cleaned = query_cleaned.drop(['screen_name', 'text', 'geo'], axis=1)

In [165]:
query_cleaned.shape

(230, 3)

In [166]:
query_cleaned.sample(5)

Unnamed: 0,cleaned_text,cleaned_name,cleaned_geo
158,عبده التصوير,RienMieuxQueMoi,Kuwait
280,لما وصلت نص الطريج تعتذر؟؟؟؟؟؟؟؟,isarah72,دولة الكويت
429,اخوان سته كلنا نمشي بنفس الطريج 🇦🇪️🇧🇭️🇸🇦️🇴🇲️🇶🇦️🇰🇼,someoneee04,دولة الكويت
320,_ سلام عليكم دكتوره باجر ما راح اقدر احضر الشوارع مسكره وانا بيتنا بصبا...,Rawoony_,Kuwait
224,اهل الفحيحيل اولى عشان نفضيلهم الطريج بعد,sarasaladwani,


In [167]:
query_cleaned.cleaned_geo.value_counts().head()

None             78
Kuwait           26
دولة الكويت      13
kuwait            9
Salwa, Kuwait     8
Name: cleaned_geo, dtype: int64

In [168]:
query_cleaned.cleaned_name.value_counts().head()

Fahad_alenze     7
Nora_buhamad     4
savagecoffe_t    3
BatoolALQ_       2
mi3ado_1989      2
Name: cleaned_name, dtype: int64

In [169]:
query_cleaned.fillna('None')

Unnamed: 0,cleaned_text,cleaned_name,cleaned_geo
6,_ على الاقل ارحم من ان تتعود على وجود احد ويغرقك اهتمام وحب ويغنيك عن ا...,typicallynorah,United Arab Emirates
7,وحدة مكافحة الموز في الطريج,Hasan95780025,Dokhaa
17,اوك مسافة الطريج يايتلچ ‍️‍️‍️,hodaaa_q8,
18,_ كلام جميل لكن وين التطبيق طلع قانون للخدم ونشر بالجريدة الرسمية من زم...,DzY9d,Kuwait
22,الثالث علي الطريج طولي بالج اول الله️,ZuSX6cXU62tZPUW,
26,لما أكون مستعيله ويغلط السواق ف الطريج,R__Aey,Konoha
30,احبك كثر ماتوقف على جنب الطريج اشجار احبك كثر مايقسى الشتا وتهاجر طيوره,almutairi43__,
37,حدة حدة,_fatmaa114,Kuwait
39,"لحد يسلمي ال ويقولي بسج توقفين بنص الاغنيه, الطريج دقايق وانا عندي اغني...",ig47j,upside down
42,ماشفت هالشي شنو هذا,f36s_x,


In [170]:
query_cleaned.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 230 entries, 6 to 453
Data columns (total 3 columns):
cleaned_text    230 non-null object
cleaned_name    230 non-null object
cleaned_geo     230 non-null object
dtypes: object(3)
memory usage: 7.2+ KB


### Consolidate different geo tags

In [103]:
locations = {'Saudi Arabia': ['Kingdom of Saudi Arabia', 'MAKKAH', 'saudi arabia', 'jeddah', 'مكة المكرمة', 'المملكة العربية', 'Jeddah', 'Riyadh', 'المملكة العربية السعودية', 'الرياض, المملكة العربية السعودية', 'الرياض, المملكة العربية السعودية', 'jeddah , saudi arabia', 'الرياض', 'آلقصيم ، بريده', 'جدة, المملكة العربية السعودية', 'المدينة المنورة, المملكة العربية السعودية', 'Riyadh, Kingdom of Saudi Arabia', 'makkah - saudi arabia', 'جده', 'Dammam', 'Dammam, Eastern', 'Al Khobar, Kingdom of Saudi Arabia'],
             'Kuwait': ['الكويت', 'Alkuwait', 'kuwait', 'KUWAIT', 'Kuwait , Salwa', 'Qortuba, Kuwait', 'دولة الكويت', 'العاصمه, دولة الكويت', 'The Capital, Kuwait', 'Al Salam, Kuwait', 'Salwa, Kuwait', 'كوكب الشرق - Kuwait']
            }

In [104]:
'MAKKAH' in list(locations.values())[0]

True

In [105]:
'MAKKAH' in list(locations.values())[1]

False

In [106]:
locations.values()

dict_values([['Kingdom of Saudi Arabia', 'MAKKAH', 'saudi arabia', 'jeddah', 'مكة المكرمة', 'المملكة العربية', 'Jeddah', 'Riyadh', 'المملكة العربية السعودية', 'الرياض, المملكة العربية السعودية', 'الرياض, المملكة العربية السعودية', 'jeddah , saudi arabia', 'الرياض', 'آلقصيم ، بريده', 'جدة, المملكة العربية السعودية', 'المدينة المنورة, المملكة العربية السعودية', 'Riyadh, Kingdom of Saudi Arabia', 'makkah - saudi arabia', 'جده', 'Dammam', 'Dammam, Eastern', 'Al Khobar, Kingdom of Saudi Arabia'], ['الكويت', 'Alkuwait', 'kuwait', 'KUWAIT', 'Kuwait , Salwa', 'Qortuba, Kuwait', 'دولة الكويت', 'العاصمه, دولة الكويت', 'The Capital, Kuwait', 'Al Salam, Kuwait', 'Salwa, Kuwait', 'كوكب الشرق - Kuwait']])

In [107]:
#pseudo code

for word in query_cleaned['cleaned_geo'].str.split('_'):
    if word[0] in list(locations.values())[0]:
        query_cleaned['cleaned_geo'].replace(word, 'Saudi Arabia', inplace=True)
    else:
        if word[0] in list(locations.values())[1]:
            query_cleaned['cleaned_geo'].replace(word, 'Kuwait', inplace=True)

In [108]:
query_cleaned.cleaned_geo

6                                 United Arab Emirates
7                                               Dokhaa
8                                                 None
17                                                None
18                                              Kuwait
22                                                None
26                                              Konoha
30                                                None
34                                                None
35                                                None
37                                              Kuwait
39                                         upside down
42                                                None
46                                         مراح الوالد
48                                              Hateen
51                                              Kuwait
52                                                None
53                                       قيثارة الشّرق
55        

In [109]:
query_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 250 entries, 6 to 453
Data columns (total 3 columns):
cleaned_text    250 non-null object
cleaned_name    250 non-null object
cleaned_geo     250 non-null object
dtypes: object(3)
memory usage: 7.8+ KB


In [187]:
query_cleaned.sample(5)

Unnamed: 0,cleaned_text,cleaned_name,cleaned_geo
308,الفروانيه المقصد مو المحافظه المنطقه لانه يم الطريج ويم خيطان,MmrMmr41,
280,لما وصلت نص الطريج تعتذر؟؟؟؟؟؟؟؟,isarah72,دولة الكويت
55,الله يحييچ يلا مسافة الطريج وأكون عندچ,subzoe,
203,اكثر شي ينرفز لمن اكون طالعه بروح كلاس و بنص الطريج تعتذر,Masha3ell_,Kuwait - Bahrain
231,بعده في الطريج واقف يشرب كرك,AishaSalem77,


### Pickle to conduct EDA in seperate notebook

In [111]:
pwd

'/home/jovyan/capstone-35/gulf_twitter_raw'

In [112]:
query_cleaned.to_pickle('../gulf_twitter_pickled/stream_الطريج.p')