In [None]:
!pip install tweet-preprocessor

In [1]:
import preprocessor as p
import pandas as pd
import json
import re

In [3]:
pd.options.display.max_colwidth = 75

### Turn query documents (tweets) into generators

In [2]:
def load_tweets(file):
    with open(file, 'r') as f:
        tweets = (json.loads(line) for line in f.readlines())
    return tweets

In [9]:
ls

stream_ابخص.jsonl  stream_الطريج.jsonl  stream_خربز.jsonl  stream_مغسلة.jsonl


In [50]:
query_gen = load_tweets('stream_الطريج.jsonl')

### Turn query generators into dataframes

In [51]:
def tweet_to_df(tweets):
    data = {'text': [], 'screen_name': [], 'geo': [],
       }
    
    for t in tweets:
    
        data['text'].append(t['text'])
        data['screen_name'].append(t['user']['screen_name'])
        data['geo'].append(t['user']['location'])
    
    return pd.DataFrame(data)

In [52]:
query_df = tweet_to_df(query_gen)

In [53]:
query_df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 354 entries, 0 to 353
Data columns (total 3 columns):
geo            231 non-null object
screen_name    354 non-null object
text           354 non-null object
dtypes: object(3)
memory usage: 8.4+ KB


### Clean tweets (remove emojis, links, http, etc.)

In [54]:
cleaned_text = []

for tweet in query_df['text']:
    cleaned_text.append(p.clean(tweet)) 

query_df['cleaned_text']=cleaned_text

In [55]:
cleaned_name = []

for tweet in query_df['screen_name']:
    cleaned_name.append(p.clean(tweet))

query_df['cleaned_name']=cleaned_name

In [56]:
cleaned_geo = []

for tweet in query_df.geo:
    cleaned_geo.append(p.clean(str(tweet)))

query_df['cleaned_geo']=cleaned_geo


In [57]:
query_df.sample(4)

Unnamed: 0,geo,screen_name,text,cleaned_text,cleaned_name,cleaned_geo
319,Kuwait,h73849092,يايماعه الطريج بكره صوب حولي مسكر؟؟,يايماعه الطريج بكره صوب حولي مسكر؟؟,h73849092,Kuwait
322,الكويت,abotalal71,@shacaleta1 شاطره يا عطيات .... الوضع لا صواري...,شاطره يا عطيات .... الوضع لا صواريخ ولا غيره م...,abotalal71,الكويت
242,,Ai2x1,@i29xx_ أي وطول الطريج أدعي عالي معطيج الليسن 😊,أي وطول الطريج أدعي عالي معطيج الليسن,Ai2x1,
332,,DeviantFatma,سووووعال\nالطريج حق شويخ باجر مثل كل يوم ولا؟,سووووعال الطريج حق شويخ باجر مثل كل يوم ولا؟,DeviantFatma,


### Remove duplicated tweets

In [58]:
query_df['cleaned_text'].duplicated().sample(5)

238    False
73      True
141    False
312    False
138     True
Name: cleaned_text, dtype: bool

In [59]:
query_cleaned = query_df.drop_duplicates(['cleaned_text'], keep='last')
query_cleaned = query_cleaned.drop(['screen_name', 'text', 'geo'], axis=1)

In [60]:
query_cleaned.shape

(207, 3)

In [61]:
query_cleaned.sample(5)

Unnamed: 0,cleaned_text,cleaned_name,cleaned_geo
89,: • خاطري طاب من ذاك الفريج صـد قلـبي وانـا تـ...,wael_alyaseen,
313,لا راح اداوم بس انا على راسي ويشه يفتحون لي ال...,MHA25_,عالمي دونك صغير
263,من زعلك؟بعيونك السود نظرة لا شفتها حسيت بالحزن...,Maysonalsaleh84,
273,ما اروم ... الطريج يضيّق الخْلق,HKHALAWI,الله ثم الوطن ثم رئيس الدولة
321,ايييي والله لانه نفس الفكره الحين عطلو اللمدار...,baadryaa,KUWAIT


In [62]:
query_cleaned.cleaned_geo.value_counts().head()

None             72
Kuwait           19
دولة الكويت      12
Salwa, Kuwait     8
kuwait            7
Name: cleaned_geo, dtype: int64

In [63]:
query_cleaned.cleaned_name.value_counts().head()

Fahad_alenze      7
Nora_buhamad      4
savagecoffe_t     3
hadeelnasser34    2
albraikiq8        2
Name: cleaned_name, dtype: int64

In [64]:
query_cleaned.fillna('None')

Unnamed: 0,cleaned_text,cleaned_name,cleaned_geo
6,: على الاقل ارحم من ان تتعود على وجود احد ويغر...,typicallynorah,United Arab Emirates
7,وحدة مكافحة الموز في الطريج,Hasan95780025,Dokhaa
8,انا صوت الفريج وبنتٍ تناديك تدليك الفرح وينه ا...,FathiyaAjlan1,
17,اوك مسافة الطريج يايتلچ ‍️‍️‍️,hodaaa_q8,
18,كلام جميل لكن وين التطبيق.طلع قانون للخدم ونشر...,DzY9d,Kuwait
22,الثالث علي الطريج طولي بالج اول الله️,ZuSX6cXU62tZPUW,
26,لما أكون مستعيله ويغلط السواق ف الطريج,R__Aey,Konoha
30,احبك كثر ماتوقف على جنب الطريج اشجار احبك كثر ...,almutairi43__,
34,"لحد يسلمي الAUX ويقولي بسج توقفين بنص الاغنيه,...",skullxcrusherx,
35,انا نظامي اخليهم يسمعون اول دقايق والي بعده,_Alsh67,


In [65]:
query_cleaned.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 207 entries, 6 to 353
Data columns (total 3 columns):
cleaned_text    207 non-null object
cleaned_name    207 non-null object
cleaned_geo     207 non-null object
dtypes: object(3)
memory usage: 6.5+ KB


### Consolidate different geo tags

In [80]:
locations = {'Saudi Arabia': ['Kingdom of Saudi Arabia', 'MAKKAH', 'saudi arabia', 'jeddah', 'مكة المكرمة', 'المملكة العربية', 'Jeddah', 'Riyadh', 'المملكة العربية السعودية', 'الرياض, المملكة العربية السعودية', 'الرياض, المملكة العربية السعودية', 'jeddah , saudi arabia', 'الرياض', 'آلقصيم ، بريده', 'جدة, المملكة العربية السعودية', 'المدينة المنورة, المملكة العربية السعودية', 'Riyadh, Kingdom of Saudi Arabia', 'makkah - saudi arabia', 'جده', 'Dammam', 'Dammam, Eastern', 'Al Khobar, Kingdom of Saudi Arabia'],
             'Kuwait': ['الكويت', 'Alkuwait', 'kuwait', 'KUWAIT', 'Kuwait , Salwa', 'Qortuba, Kuwait', 'دولة الكويت', 'العاصمه, دولة الكويت', 'The Capital, Kuwait', 'Al Salam, Kuwait', 'Salwa, Kuwait', 'كوكب الشرق - Kuwait']
            }

In [81]:
'MAKKAH' in list(locations.values())[0]

True

In [82]:
'MAKKAH' in list(locations.values())[1]

False

In [83]:
locations.values()

dict_values([['Kingdom of Saudi Arabia', 'MAKKAH', 'saudi arabia', 'jeddah', 'مكة المكرمة', 'المملكة العربية', 'Jeddah', 'Riyadh', 'المملكة العربية السعودية', 'الرياض, المملكة العربية السعودية', 'الرياض, المملكة العربية السعودية', 'jeddah , saudi arabia', 'الرياض', 'آلقصيم ، بريده', 'جدة, المملكة العربية السعودية', 'المدينة المنورة, المملكة العربية السعودية', 'Riyadh, Kingdom of Saudi Arabia', 'makkah - saudi arabia', 'جده', 'Dammam', 'Dammam, Eastern', 'Al Khobar, Kingdom of Saudi Arabia'], ['الكويت', 'Alkuwait', 'kuwait', 'KUWAIT', 'Kuwait , Salwa', 'Qortuba, Kuwait', 'دولة الكويت', 'العاصمه, دولة الكويت', 'The Capital, Kuwait', 'Al Salam, Kuwait', 'Salwa, Kuwait', 'كوكب الشرق - Kuwait']])

In [90]:
#pseudo code

for word in query_cleaned['cleaned_geo'].str.split('_'):
    if word[0] in list(locations.values())[0]:
        query_cleaned['cleaned_geo'].replace(word, 'Saudi Arabia', inplace=True)
    else:
        if word[0] in list(locations.values())[1]:
            query_cleaned['cleaned_geo'].replace(word, 'Kuwait', inplace=True)

In [91]:
query_cleaned.cleaned_geo

6        United Arab Emirates
7                      Dokhaa
8                        None
17                       None
18                     Kuwait
22                       None
26                     Konoha
30                       None
34                       None
35                       None
37                     Kuwait
39                upside down
42                       None
46                مراح الوالد
48                     Hateen
51                     Kuwait
52                       None
53              قيثارة الشّرق
55                       None
66                       None
67                       None
68                       None
76                     Kuwait
78                     Kuwait
80                     Kuwait
82                     Kuwait
83                     Kuwait
89                       None
97               Saudi Arabia
98               Saudi Arabia
                ...          
320                    Kuwait
321                    Kuwait
322       

In [86]:
query_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 207 entries, 6 to 353
Data columns (total 3 columns):
cleaned_text    207 non-null object
cleaned_name    207 non-null object
cleaned_geo     207 non-null object
dtypes: object(3)
memory usage: 6.5+ KB


In [87]:
query_cleaned.sample(5)

Unnamed: 0,cleaned_text,cleaned_name,cleaned_geo
303,بيسكرون الطريج عشان مؤتمر القمة,om_zeena_93,
279,: حياهم الله .. وان شاء الله تكون الأمور على م...,MaherAlMalalha,Kuwait
137,: من صجج احس بينزلني بنص الطريج,m_memoshi,Kuwait
220,راح انتقل لان الطريج بعيد بس ما ارد حواء ️,al3baidly656,
89,: • خاطري طاب من ذاك الفريج صـد قلـبي وانـا تـ...,wael_alyaseen,


### Pickle to conduct EDA in seperate notebook

In [88]:
pwd

'/home/jovyan/capstone/gulf_twitter_raw'

In [89]:
query_cleaned.to_pickle('../gulf_twitter_pickled/stream_الطريج.p')