# Pre-processing the Data

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
df = pd.read_csv("Data/concatenated_data.csv")
df.shape

(203419, 12)

### Deleting 'geo' column as it doesn't have any information

In [3]:
del df['geo']
df.columns

Index(['date', 'username', 'to', 'replies', 'retweets', 'favorites', 'text',
       'mentions', 'hashtags', 'id', 'permalink'],
      dtype='object')

In [4]:
df.head()

Unnamed: 0,date,username,to,replies,retweets,favorites,text,mentions,hashtags,id,permalink
0,2020-01-01 00:03:23,shahokurdy,Newsweek,6,60,135,"قال مسؤول عراقي، لمجلة #نيوزويك ""إن مظاهرة الس...",@Jamal_Atamimihttps,#نيوزويك #انتفاضة_عراقية #تخطيط_عسكري #الحرس_ا...,1212162364012978176,https://twitter.com/shahokurdy/status/12121623...
1,2020-01-01 00:04:52,DarkPhoeinx,hmdkh67,1,0,0,داداش فارسی توییت میزنم چون میدونم فارسی متوجه...,,#قاسم_سلیمانی #خامنه #سپاه_تروریستی_پاسداران,1212162737704513537,https://twitter.com/DarkPhoeinx/status/1212162...
2,2020-01-01 00:26:43,benrezaei,,0,0,0,#خامنه‌ای #اعتراضات_سراسری #سفارت_آمریکا #آبان...,@IsraelPersian @USAdarFarsi,#خامنه #اعتراضات_سراسری #سفارت_آمریکا #آبان_٩٨...,1212168235673640960,https://twitter.com/benrezaei/status/121216823...
3,2020-01-01 00:58:39,DavoodKrm,,0,0,2,در سال ۱۳۵۸ جمهوری اسلامی با #اشغال_سفارت آمری...,@IranIntl @bbcpersian,#اشغال_سفارت #ایران_اینترنشنال #کتائب_حزب_الله...,1212176274069819393,https://twitter.com/DavoodKrm/status/121217627...
4,2020-01-01 02:54:03,Guidance_Free,,4,3,7,اللهم يا سميع الدعاء زلزل الأرض من تحت أقدام #...,,#خامنئي #قاسم_سليماني #الحشد_الشعبي #بسيج #الح...,1212205313358782464,https://twitter.com/Guidance_Free/status/12122...


### Cleaning the tweets and storing the result in 'cleaned_text', 'text_mentions' and 'text_links' columns

In [5]:
def clean_text(row):
    '''
    Takes the mentions and the links out of the text and add three columns to df:
    - text_mentions: mentions extracted from the text column 
    - text_links: links extracted from the text column
    - cleaned_text: the text column without links and mentions
    
    Arguments: 
     -row: a row of a pandas.DataFrame
    
    return: 
    - modified row: a row of a pandas.DataFrame
    '''
    text = row['text']
    mentions = re.findall('@[A-Za-z0-9_]+', text)
    links = re.findall('http[^\s#]+|pic.twitter.com/[^\s#]+', text)
    for m in mentions:
        start = text.find(m)
        end = start + len(m)
        text = text[:start] + text[end:]
    sm = ''
    for m in mentions:
        sm = sm + m  + ' '
    mentions_str = sm.strip()
    row['text_mentions'] = mentions_str
    for l in links:
        start = text.find(l)
        end = start + len(l)
        text = text[:start] + text[end:]
    sl = ''
    for l in links:
        sl = sl + l + ' '
    links_str = sl.strip()
    row['text_links'] = links_str
    row['cleaned_text'] = text
         
    return row

In [6]:
df = df.apply(clean_text, axis=1)
df.head()

Unnamed: 0,date,username,to,replies,retweets,favorites,text,mentions,hashtags,id,permalink,text_mentions,text_links,cleaned_text
0,2020-01-01 00:03:23,shahokurdy,Newsweek,6,60,135,"قال مسؤول عراقي، لمجلة #نيوزويك ""إن مظاهرة الس...",@Jamal_Atamimihttps,#نيوزويك #انتفاضة_عراقية #تخطيط_عسكري #الحرس_ا...,1212162364012978176,https://twitter.com/shahokurdy/status/12121623...,@Jamal_Atamimihttps,https://twitter.com/Newsweek/status/1212142920...,"قال مسؤول عراقي، لمجلة #نيوزويك ""إن مظاهرة الس..."
1,2020-01-01 00:04:52,DarkPhoeinx,hmdkh67,1,0,0,داداش فارسی توییت میزنم چون میدونم فارسی متوجه...,,#قاسم_سلیمانی #خامنه #سپاه_تروریستی_پاسداران,1212162737704513537,https://twitter.com/DarkPhoeinx/status/1212162...,,,داداش فارسی توییت میزنم چون میدونم فارسی متوجه...
2,2020-01-01 00:26:43,benrezaei,,0,0,0,#خامنه‌ای #اعتراضات_سراسری #سفارت_آمریکا #آبان...,@IsraelPersian @USAdarFarsi,#خامنه #اعتراضات_سراسری #سفارت_آمریکا #آبان_٩٨...,1212168235673640960,https://twitter.com/benrezaei/status/121216823...,@IsraelPersian @USAdarFarsi,pic.twitter.com/KgnsLi6oj6,#خامنه‌ای #اعتراضات_سراسری #سفارت_آمریکا #آبان...
3,2020-01-01 00:58:39,DavoodKrm,,0,0,2,در سال ۱۳۵۸ جمهوری اسلامی با #اشغال_سفارت آمری...,@IranIntl @bbcpersian,#اشغال_سفارت #ایران_اینترنشنال #کتائب_حزب_الله...,1212176274069819393,https://twitter.com/DavoodKrm/status/121217627...,@IranIntl @bbcpersian,,در سال ۱۳۵۸ جمهوری اسلامی با #اشغال_سفارت آمری...
4,2020-01-01 02:54:03,Guidance_Free,,4,3,7,اللهم يا سميع الدعاء زلزل الأرض من تحت أقدام #...,,#خامنئي #قاسم_سليماني #الحشد_الشعبي #بسيج #الح...,1212205313358782464,https://twitter.com/Guidance_Free/status/12122...,,,اللهم يا سميع الدعاء زلزل الأرض من تحت أقدام #...


In [7]:
df.columns

Index(['date', 'username', 'to', 'replies', 'retweets', 'favorites', 'text',
       'mentions', 'hashtags', 'id', 'permalink', 'text_mentions',
       'text_links', 'cleaned_text'],
      dtype='object')

### Comparing 'text_mentions' column I created with the 'mentions' column created when collecting the data 

In [8]:
df_test = df[df['mentions'] != df['text_mentions']]
df_test['mentions'].unique()

array([nan, '@', '@وتم', '@ @', '@ @Suzana_tour', '@adashtعاجل', '@ریئل',
       '@Abbasaghaبا',
       '@Sultan8230291 @majedalraeesi1 @qashe3i @sjadad1 @',
       '@realDonaldTrumpلقد', '@yazdmajazi @', '@ويطم', '@علي', '@نقدر',
       '@ر', '@ziad_hawat @ @samygemayel', '@realDonaldTrump @Israel @',
       '@mighat313 @liea_abnosدار', '@YouTubeالله', '@mostafatajzadeو',
       '@Amos_Alsalemحرب', '@جشن',
       '@Khamenei_faنتيجه @Rouhani_ir @JZarif', '@AJArabicهذا',
       '@Khamenei_fa @', '@غرد_مثل_خلف', '@وهو', '@TamimBinHamadأول',
       '@مام'], dtype=object)

In [9]:
df_test['text_mentions'].unique()

array(['', '@Suzana_tour', '@adasht', '@Abbasagha',
       '@Sultan8230291 @majedalraeesi1 @qashe3i @sjadad1',
       '@realDonaldTrump', '@yazdmajazi', '@ziad_hawat @samygemayel',
       '@realDonaldTrump @Israel', '@mighat313 @liea_abnos', '@YouTube',
       '@mostafatajzade', '@Amos_Alsalem',
       '@Khamenei_fa @Rouhani_ir @JZarif', '@AJArabic', '@Khamenei_fa',
       '@TamimBinHamad'], dtype=object)

In [10]:
df.to_csv("Data/cleaned_data.csv", index = False)