# [SWE485] Hitten Tweets - Phase 2

In [0]:
import pandas as pd # to use data frames
import csv # to read .CSV files
import re


In [0]:
df = pd.read_csv("notcleaned.csv") 


## Assessing Data

In [0]:
df.head(10)

In [0]:
df.info()

In [0]:
print(sum(df.duplicated()))

In [0]:
df.geo.value_counts()

In [0]:
df.username.value_counts().head(50)

In [0]:
df.replies.value_counts()

In [0]:
df.retweets.value_counts()

In [0]:
df.favorites.value_counts()


### Quality Issues



- Date Coulmn Type is not Timestamp, it can not be used to follow the timeline of the tweets and opnions. 
- Some Arabic Hashtag on the tweet will effect the classification, since they contian words indicating negitive contents.
- Puncutaion 
- Normlizing text by replacing some letters with others. 
- Mentions




### Tidness Issues


- Data shall be splited into day and time.
- Some data will not be needed on the analysis 


## Cleaning Data

In [0]:
#copy dataframes
df_clean= df.copy()

In [0]:
#Quality 
#Convert timestamp to datetime data type.
df_clean['date'] = pd.to_datetime(df_clean.date)

In [0]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881 entries, 0 to 880
Data columns (total 12 columns):
date         881 non-null datetime64[ns]
username     881 non-null object
to           205 non-null object
replies      881 non-null int64
retweets     881 non-null int64
favorites    881 non-null int64
text         881 non-null object
geo          0 non-null float64
mentions     174 non-null object
hashtags     0 non-null float64
id           881 non-null float64
permalink    881 non-null object
dtypes: datetime64[ns](1), float64(3), int64(3), object(5)
memory usage: 65.4+ KB


In [0]:
#Tidiness 
#Split Date into day and time 
df_clean['day'] = df_clean['date'].dt.strftime('%d/%m/%Y')
df_clean['time'] = df_clean['date'].dt.strftime('%H:%M')

In [0]:
#Tidiness
# Delete columns we don't need anymore
df_clean = df_clean.drop('geo', 1)
df_clean = df_clean.drop('mentions', 1)
df_clean = df_clean.drop('hashtags', 1)
df_clean = df_clean.drop('id', 1)
df_clean = df_clean.drop('to', 1)
df_clean = df_clean.drop('permalink', 1)
df_clean = df_clean.drop('date', 1)
df_clean = df_clean.drop('username', 1)

In [0]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 881 entries, 0 to 880
Data columns (total 6 columns):
replies      881 non-null int64
retweets     881 non-null int64
favorites    881 non-null int64
text         881 non-null object
day          881 non-null object
time         881 non-null object
dtypes: int64(3), object(3)
memory usage: 31.0+ KB


In [0]:
df_clean.head()

Unnamed: 0,replies,retweets,favorites,text,day,time
0,0,0,0,وماذا عن إزعاج ما يزيد على ستة أشهر لأحياء سكن...,02/08/2020,09:16
1,0,0,0,عدلك يا رب #معاناه_سكان_حطين #البوليفارد,02/04/2020,22:03
2,1,0,0,إلا قرقعة ودوشة قارفينا ببيتي قال فن قال #ليله...,24/01/2020,20:02
3,1,0,0,٦ شهور محبورة اعيش ببيتي والبوليفارد يردح على ...,21/01/2020,21:03
4,0,0,0,في شويه معرصين حطين الصورة دي ، انا مش مطالبه ...,19/01/2020,21:59


In [0]:


#Remove Arabic Hashtags
df_clean["text"] = df_clean['text'].str.replace("#[\\\p{أ-ى}_]+",' ')


#Remove Mentioned Account
df_clean["text"] = df_clean['text'].str.replace('@[^\s]+',' ')

#Remove Puncutaion
df_clean["text"] = df_clean['text'].str.replace('[^\w\s]','')





In [0]:
df_clean.head(60)

Unnamed: 0,replies,retweets,favorites,text,day,time
0,0,0,0,وماذا عن إزعاج ما يزيد على ستة أشهر لأحياء سكن...,02/08/2020,09:16
1,0,0,0,عدلك يا رب ين يفارد,02/04/2020,22:03
2,1,0,0,إلا قرقعة ودوشة قارفينا ببيتي قال فن قال يله_...,24/01/2020,20:02
3,1,0,0,٦ شهور محبورة اعيش ببيتي والبوليفارد يردح على ...,21/01/2020,21:03
4,0,0,0,في شويه معرصين حطين الصورة دي انا مش مطالبه ا...,19/01/2020,21:59
5,1,0,0,حسبي الله ونعم الوكيل عدلك يا رب العالمين ين,18/01/2020,20:01
6,0,0,0,حلول المرور مشاكل يقفلون اليوتيرن اللي عند اشا...,16/01/2020,20:50
7,1,0,0,عدلك يا رب في المسؤول عن هذا الازعاج و السماعا...,13/01/2020,20:17
8,1,0,0,اتمنى نلقى حل لهذي المشكلة جدا جدا جدا متعب ال...,01/12/2020,22:22
9,0,0,0,ين اقول روقو يااهل حطين المتر عندكم ب ٥٠٠٠الآ...,01/01/2020,10:51


In [0]:
#Replace Letters
df_clean['text'] = df_clean['text'].str.replace('أ','ا')
df_clean['text'] = df_clean['text'].str.replace('إ','ا')
df_clean['text'] = df_clean['text'].str.replace('ة','ه')


In [0]:
df_clean.text

0      وماذا عن ازعاج ما يزيد على سته اشهر لاحياء سكن...
1                                  عدلك يا رب  ين  يفارد
2      الا قرقعه ودوشه قارفينا ببيتي قال فن قال  يله_...
3      ٦ شهور محبوره اعيش ببيتي والبوليفارد يردح على ...
4      في شويه معرصين حطين الصوره دي  انا مش مطالبه ا...
                             ...                        
876      اتمنى منك عرض معاناه منطقه جازان في توسعه مل...
877      صدقني احس ان حطين بالدرجه الثانيه ماله حس و ...
878      مع ان جيرانا من حطين ولوبيه وصفوريه والمرين ...
879    اليوم الطائي يحل على حطين ضيف ولسان حال العشاق...
880    نبارك لاهالي حطين الكرام افتتاح جمعيتنا بعد مع...
Name: text, Length: 881, dtype: object

In [0]:
df_clean.to_csv(r'C:\Users\jwoha\Desktop\Cleaned.csv')