# Data and Text Preprocessing

In [1]:
import pandas as pd

In [2]:
all_annotators = pd.read_csv("annotations_all_annotators.csv")
final_annotator = pd.read_csv("annotations_final_annotator.csv")

In [3]:
ideologies = ['Turkish_Nationalism', 'Conservatism', 'Islamism', 'Liberalism', 'Kemalism']

## Data Preprocessing

In [4]:
all_annotators.head(3)

Unnamed: 0,Annotator,#,created_at,id_str,user_id_str,user_name,user_screen_name,user_location,user_description,user_created_at,created_at_year,created_at_month,created_at_day,full_text,Turkish_Nationalism,Conservatism,Islamism,Liberalism,Kemalism
0,Multiple,1,2021-08-18 11:38:30+00:00,1427958076259377160,351646870,Bülent USLU,bulentuslu1903,İSTANBUL,🦅Beşiktaş Kongre Üyesi🦅🤍🖤,2011-08-09 15:05:57+00:00,2021,8,18,Caner’in dudak okumasıyla ettiği küfürler için...,0,0,0,0,0
1,Multiple,2,2013-05-03 18:22:37+00:00,330386930283978753,460548834,hasan bora,pasivat,suadiye,https://t.co/HZ3jPWGoZH,2012-01-10 21:45:27+00:00,2013,5,3,Herkese iyi akşamlar hafta sonunuz çok çok güz...,0,0,0,0,0
2,Multiple,3,2021-03-09 19:03:18+00:00,1369363182683381764,888342558182711297,İbrahim Yıldız,Stratejist_57,,YarımKalmışHukukHikayesi,2017-07-21 10:19:05+00:00,2021,3,9,82 yaşında alzheimer hastası bir insanı bile c...,0,0,0,2,0


In [5]:
final_annotator.head(3)

Unnamed: 0,Annotator,#,created_at,id_str,user_id_str,user_name,user_screen_name,user_location,user_description,user_created_at,created_at_year,created_at_month,created_at_day,full_text,Turkish_Nationalism,Conservatism,Islamism,Liberalism,Kemalism
0,final,1,2021-08-18 11:38:30+00:00,1427958076259377160,351646870,Bülent USLU,bulentuslu1903,İSTANBUL,🦅Beşiktaş Kongre Üyesi🦅🤍🖤,2011-08-09 15:05:57+00:00,2021,8,18,Caner’in dudak okumasıyla ettiği küfürler için...,0,0,0,0,0
1,final,2,2013-05-03 18:22:37+00:00,330386930283978753,460548834,hasan bora,pasivat,suadiye,https://t.co/HZ3jPWGoZH,2012-01-10 21:45:27+00:00,2013,5,3,Herkese iyi akşamlar hafta sonunuz çok çok güz...,0,0,0,0,0
2,final,3,2021-03-09 19:03:18+00:00,1369363182683381764,888342558182711297,İbrahim Yıldız,Stratejist_57,,YarımKalmışHukukHikayesi,2017-07-21 10:19:05+00:00,2021,3,9,82 yaşında alzheimer hastası bir insanı bile c...,0,0,0,1,0


In [6]:
all_annotators.shape

(24100, 19)

In [7]:
final_annotator.shape

(24100, 19)

In [8]:
all_annotators.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24100 entries, 0 to 24099
Data columns (total 19 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Annotator            24100 non-null  object
 1   #                    24100 non-null  int64 
 2   created_at           24100 non-null  object
 3   id_str               24100 non-null  int64 
 4   user_id_str          24100 non-null  int64 
 5   user_name            24100 non-null  object
 6   user_screen_name     24100 non-null  object
 7   user_location        15296 non-null  object
 8   user_description     18878 non-null  object
 9   user_created_at      24100 non-null  object
 10  created_at_year      24100 non-null  int64 
 11  created_at_month     24100 non-null  int64 
 12  created_at_day       24100 non-null  int64 
 13  full_text            24100 non-null  object
 14  Turkish_Nationalism  24100 non-null  int64 
 15  Conservatism         24100 non-null  int64 
 16  Isla

In [9]:
final_annotator.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24100 entries, 0 to 24099
Data columns (total 19 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Annotator            24100 non-null  object
 1   #                    24100 non-null  int64 
 2   created_at           24100 non-null  object
 3   id_str               24100 non-null  int64 
 4   user_id_str          24100 non-null  int64 
 5   user_name            24100 non-null  object
 6   user_screen_name     24100 non-null  object
 7   user_location        15296 non-null  object
 8   user_description     18878 non-null  object
 9   user_created_at      24100 non-null  object
 10  created_at_year      24100 non-null  int64 
 11  created_at_month     24100 non-null  int64 
 12  created_at_day       24100 non-null  int64 
 13  full_text            24100 non-null  object
 14  Turkish_Nationalism  24100 non-null  int64 
 15  Conservatism         24100 non-null  int64 
 16  Isla

- **final_annotator** data set has only 0s and 1s for each ideology, but multiple ideology labels can have the value 1 (i.e., it is a multi-class multi-label problem at this point, but I will remove the ones with multiple labels to make it into a multi-class problem only).
- **all_annotators** data set has three labels for each ideology; “2” if annotators agree that the tweet is relevant to that ideology, “1” if they disagree, and “0” if they agree that tweet is irrelevant.

In [10]:
### Drop rows with value 1 in "all_annotators" data set --> Only annotations where both annotators agree
### This option is more robust, but highly reduces the counts of positive annotation in the data set (~900 tweets)
#
#indexes_to_drop_in_all_annotators = []
#
#for ideology in ideologies:
#    indexes_to_drop_in_all_annotators.extend(list(all_annotators[all_annotators[ideology] == 1].index))
#    
#indexes_to_drop_in_all_annotators = sorted(list(set(indexes_to_drop_in_all_annotators)))
#
#all_annotators = all_annotators.drop(indexes_to_drop_in_all_annotators).reset_index(drop=True)

In [11]:
## Convert values of 2 into 1 in "all_annotators" data set --> If any of the tweets are annotated by one of the annotator as
## "relevant", then regard it as "relevant"

all_annotators.iloc[:, -5:] = all_annotators.iloc[:, -5:].replace(to_replace=2, value=1)

In [12]:
# Dropping rows with multiple ideology annotations in "all_annotators"
multiple_annotation_indices_all_annotators = sorted(list(all_annotators.iloc[:, -5:].sum(axis=1)[all_annotators.iloc[:, -5:].sum(axis=1) > 1].index))

all_annotators = all_annotators.drop(multiple_annotation_indices_all_annotators).reset_index(drop=True)

In [13]:
# Dropping rows with multiple ideology annotations in "final_annotator"
multiple_annotation_indices_final_annotator = sorted(list(final_annotator.iloc[:, -5:].sum(axis=1)[final_annotator.iloc[:, -5:].sum(axis=1) > 1].index))

final_annotator = final_annotator.drop(multiple_annotation_indices_final_annotator).reset_index(drop=True)

- Now, all tweets in both dataset has only one ideology annotation, multiples are removed.

- I will create a single "label" column by combining separate ideology columns.

In [14]:
def create_label_column(df, row):
    return_val = ""
    for ideology in ideologies:
        if df.loc[row, ideology] == 1:
            return_val = ideology
    
    if return_val == "":
        return_val = "No_ideology"
        
    return return_val

In [15]:
final_annotator_labels = []

for i in range(len(final_annotator)):
    final_annotator_labels.append(create_label_column(final_annotator, i))
    
final_annotator = pd.concat([final_annotator.iloc[:, :-5], pd.Series(final_annotator_labels, name="label")], axis=1)

In [16]:
all_annotators_labels = []

for i in range(len(all_annotators)):
    all_annotators_labels.append(create_label_column(all_annotators, i))
    
all_annotators = pd.concat([all_annotators.iloc[:, :-5], pd.Series(all_annotators_labels, name="label")], axis=1)

In [17]:
final_annotator.shape

(23462, 15)

In [18]:
all_annotators.shape

(23372, 15)

In [19]:
print(f"Number of tweets that in the set difference of two datasets: {len(set(final_annotator['#']).difference(set(all_annotators['#'])))}")

Number of tweets that in the set difference of two datasets: 92


- I want to keep the same tweets for both data sets since their set difference is very small, therefore I will use the common tweet numbers from "#" column.

In [20]:
common_tweet_nums = sorted(list(set(final_annotator["#"]).intersection(set(all_annotators["#"]))))

In [21]:
final_annotator = final_annotator[final_annotator["#"].isin(common_tweet_nums)].reset_index(drop=True)
all_annotators = all_annotators[all_annotators["#"].isin(common_tweet_nums)].reset_index(drop=True)

In [22]:
all_annotators.head(3)

Unnamed: 0,Annotator,#,created_at,id_str,user_id_str,user_name,user_screen_name,user_location,user_description,user_created_at,created_at_year,created_at_month,created_at_day,full_text,label
0,Multiple,1,2021-08-18 11:38:30+00:00,1427958076259377160,351646870,Bülent USLU,bulentuslu1903,İSTANBUL,🦅Beşiktaş Kongre Üyesi🦅🤍🖤,2011-08-09 15:05:57+00:00,2021,8,18,Caner’in dudak okumasıyla ettiği küfürler için...,No_ideology
1,Multiple,2,2013-05-03 18:22:37+00:00,330386930283978753,460548834,hasan bora,pasivat,suadiye,https://t.co/HZ3jPWGoZH,2012-01-10 21:45:27+00:00,2013,5,3,Herkese iyi akşamlar hafta sonunuz çok çok güz...,No_ideology
2,Multiple,3,2021-03-09 19:03:18+00:00,1369363182683381764,888342558182711297,İbrahim Yıldız,Stratejist_57,,YarımKalmışHukukHikayesi,2017-07-21 10:19:05+00:00,2021,3,9,82 yaşında alzheimer hastası bir insanı bile c...,Liberalism


In [23]:
final_annotator.head(3)

Unnamed: 0,Annotator,#,created_at,id_str,user_id_str,user_name,user_screen_name,user_location,user_description,user_created_at,created_at_year,created_at_month,created_at_day,full_text,label
0,final,1,2021-08-18 11:38:30+00:00,1427958076259377160,351646870,Bülent USLU,bulentuslu1903,İSTANBUL,🦅Beşiktaş Kongre Üyesi🦅🤍🖤,2011-08-09 15:05:57+00:00,2021,8,18,Caner’in dudak okumasıyla ettiği küfürler için...,No_ideology
1,final,2,2013-05-03 18:22:37+00:00,330386930283978753,460548834,hasan bora,pasivat,suadiye,https://t.co/HZ3jPWGoZH,2012-01-10 21:45:27+00:00,2013,5,3,Herkese iyi akşamlar hafta sonunuz çok çok güz...,No_ideology
2,final,3,2021-03-09 19:03:18+00:00,1369363182683381764,888342558182711297,İbrahim Yıldız,Stratejist_57,,YarımKalmışHukukHikayesi,2017-07-21 10:19:05+00:00,2021,3,9,82 yaşında alzheimer hastası bir insanı bile c...,Liberalism


In [24]:
all_annotators.shape

(23370, 15)

In [25]:
final_annotator.shape

(23370, 15)

In [26]:
all_annotators.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23370 entries, 0 to 23369
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Annotator         23370 non-null  object
 1   #                 23370 non-null  int64 
 2   created_at        23370 non-null  object
 3   id_str            23370 non-null  int64 
 4   user_id_str       23370 non-null  int64 
 5   user_name         23370 non-null  object
 6   user_screen_name  23370 non-null  object
 7   user_location     14827 non-null  object
 8   user_description  18300 non-null  object
 9   user_created_at   23370 non-null  object
 10  created_at_year   23370 non-null  int64 
 11  created_at_month  23370 non-null  int64 
 12  created_at_day    23370 non-null  int64 
 13  full_text         23370 non-null  object
 14  label             23370 non-null  object
dtypes: int64(6), object(9)
memory usage: 2.7+ MB


In [27]:
final_annotator.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23370 entries, 0 to 23369
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Annotator         23370 non-null  object
 1   #                 23370 non-null  int64 
 2   created_at        23370 non-null  object
 3   id_str            23370 non-null  int64 
 4   user_id_str       23370 non-null  int64 
 5   user_name         23370 non-null  object
 6   user_screen_name  23370 non-null  object
 7   user_location     14827 non-null  object
 8   user_description  18300 non-null  object
 9   user_created_at   23370 non-null  object
 10  created_at_year   23370 non-null  int64 
 11  created_at_month  23370 non-null  int64 
 12  created_at_day    23370 non-null  int64 
 13  full_text         23370 non-null  object
 14  label             23370 non-null  object
dtypes: int64(6), object(9)
memory usage: 2.7+ MB


- A final check on the consistency between two data revealed that there are 5 rows where texts in two data slightly differ. I will drop them too to get the exact same input variable (X) to use in my models.

In [28]:
inconsistent_text_indices = []

for i in range(len(all_annotators)):
    if all_annotators.loc[i, "full_text"] != final_annotator.loc[i, "full_text"]:
        print(f"{i}- All annotators:\n{all_annotators.loc[i, 'full_text']}\n\n" + "-"*50 + "\n")
        print(f"{i}- Final annotator:\n{final_annotator.loc[i, 'full_text']}\n\n" + "-"*50+ "\n")
        inconsistent_text_indices.append(i)

1664- All annotators:
Memura zam teklifi

Akıllara ziyan

Türkiye’nin içinde olduğu türbülansı çok net gösteriyor

İktidar partisi bundan sonra ne konuşsa

YALAN, DOLAN…

--------------------------------------------------

1664- Final annotator:
Memura zam teklifi

Akıllara ziyan

Türkiye’nin içinde olduğu türbülansı çok net gösteriyor

İktidar partisi bundan sonra ne konuşsa

YALAN, DOLAN...

--------------------------------------------------

1833- All annotators:
 

--------------------------------------------------

1833- Final annotator:
Siktirin gidin lan ülkenize hainler  #suriyelileriistemiyoruz

--------------------------------------------------

9900- All annotators:
Bugün Galatasaray maçına hakem @TFF_Org tarafından resmen tetikçi olarak gönderilmiştir. Nihat’ın çocukları, şımarık yalı çocuğu ve ZORLU Center çetesi iş başında. 
#ALNvGS

--------------------------------------------------

9900- Final annotator:
Bugün Galatasaray maçına hakem @TFF_Org tarafından resmen tetikçi

In [29]:
len(inconsistent_text_indices)

5

In [30]:
all_annotators = all_annotators.drop(inconsistent_text_indices).reset_index(drop=True)
final_annotator = final_annotator.drop(inconsistent_text_indices).reset_index(drop=True)

- I want to keep only "full_text" and "label" columns, since I will work with them in my analysis.

In [31]:
all_annotators = all_annotators[["full_text", "label"]]
final_annotator = final_annotator[["full_text", "label"]]

In [32]:
all_annotators.head(3)

Unnamed: 0,full_text,label
0,Caner’in dudak okumasıyla ettiği küfürler için...,No_ideology
1,Herkese iyi akşamlar hafta sonunuz çok çok güz...,No_ideology
2,82 yaşında alzheimer hastası bir insanı bile c...,Liberalism


In [33]:
final_annotator.head(3)

Unnamed: 0,full_text,label
0,Caner’in dudak okumasıyla ettiği küfürler için...,No_ideology
1,Herkese iyi akşamlar hafta sonunuz çok çok güz...,No_ideology
2,82 yaşında alzheimer hastası bir insanı bile c...,Liberalism


In [34]:
all_annotators.shape

(23365, 2)

In [35]:
final_annotator.shape

(23365, 2)

In [36]:
all_annotators.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23365 entries, 0 to 23364
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   full_text  23365 non-null  object
 1   label      23365 non-null  object
dtypes: object(2)
memory usage: 365.2+ KB


In [37]:
final_annotator.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23365 entries, 0 to 23364
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   full_text  23365 non-null  object
 1   label      23365 non-null  object
dtypes: object(2)
memory usage: 365.2+ KB


In [38]:
all_annotators["label"].value_counts()

No_ideology            20591
Turkish_Nationalism     1244
Liberalism               564
Islamism                 483
Conservatism             277
Kemalism                 206
Name: label, dtype: int64

In [77]:
pd.DataFrame(all_annotators["label"].value_counts())

Unnamed: 0,label
No_ideology,20591
Turkish_Nationalism,1244
Liberalism,564
Islamism,483
Conservatism,277
Kemalism,206


In [39]:
final_annotator["label"].value_counts()

No_ideology            20813
Turkish_Nationalism     1198
Liberalism               534
Islamism                 380
Conservatism             242
Kemalism                 198
Name: label, dtype: int64

In [78]:
pd.DataFrame(final_annotator["label"].value_counts())

Unnamed: 0,label
No_ideology,20813
Turkish_Nationalism,1198
Liberalism,534
Islamism,380
Conservatism,242
Kemalism,198


## Exploring the Disagreements between "final_annotator" and "all_annotators"

In [40]:
disagreement_df = pd.DataFrame(columns=["full_text", "all_annotators_annotation", "final_annotator_annotation"])

for i in range(len(all_annotators)):
    if all_annotators.loc[i, "label"] != final_annotator.loc[i, "label"]:
        disagreement_df = disagreement_df.append(pd.Series([all_annotators.loc[i, "full_text"], all_annotators.loc[i, "label"], final_annotator.loc[i, "label"]], index=disagreement_df.columns), ignore_index=True)

In [41]:
disagreement_df.shape

(235, 3)

In [42]:
disagreement_df.head(3)

Unnamed: 0,full_text,all_annotators_annotation,final_annotator_annotation
0,"#alkolümedokunma pudra şekeri serbest mi ,hadi...",Islamism,No_ideology
1,Dünyada 1.5 milyar çinli var bi tutturamadık. ...,Turkish_Nationalism,No_ideology
2,Babam sohbet arasında kullandığı bir deyimden ...,Conservatism,No_ideology


In [43]:
disagreement_df.tail(3)

Unnamed: 0,full_text,all_annotators_annotation,final_annotator_annotation
232,Filistin için dışarı çıkan binlerce kişiye bir...,Islamism,No_ideology
233,Bence ruhsal rehabilitasyona alalım o arkadaşl...,Liberalism,No_ideology
234,#AVMlerAcılmasın AVM’ler açmayı nasıl düşünebi...,No_ideology,Liberalism


In [44]:
disagreement_df["final_annotator_annotation"].value_counts()

No_ideology            228
Turkish_Nationalism      6
Liberalism               1
Name: final_annotator_annotation, dtype: int64

In [45]:
disagreement_df["all_annotators_annotation"].value_counts()

Islamism               103
Turkish_Nationalism     52
Conservatism            35
Liberalism              31
Kemalism                 8
No_ideology              6
Name: all_annotators_annotation, dtype: int64

- It seems that most of the time, "final" decision turned the label into "No_ideology". Here is a mixed sample:

In [46]:
print("-"*60)
for i in disagreement_df.sample(5, random_state=4).index:
    print(f"Tweet Text:\n{disagreement_df.loc[i, 'full_text']}\n")
    print(f"All Annotators Annotation:  {disagreement_df.loc[i, 'all_annotators_annotation']}")
    print(f"Final Annotator Annotation: {disagreement_df.loc[i, 'final_annotator_annotation']}")
    print("-"*60)

------------------------------------------------------------
Tweet Text:
Çıkmış millet birbirinin Vatanseverliğini sorguluyor yaptığı icraatleri yargılıyor!! @varank sayın bakan doğru yoldasınız, aldanmayın dev-solculara

All Annotators Annotation:  No_ideology
Final Annotator Annotation: Turkish_Nationalism
------------------------------------------------------------
Tweet Text:
Heriflerin Genel Başkanı porno kasedi ile değişiyor
 yine en çok onlar millete ahlak edebiyatı yapıyor
Biz tecavüzcü çıkan Kemalistleri örnek gösterip bütün Kemalistler sapık diyor muyuz? 

#SAPIK

All Annotators Annotation:  Kemalism
Final Annotator Annotation: No_ideology
------------------------------------------------------------
Tweet Text:
Ben İstanbulluyum. 25 sene sonra bu şehri kaybedipte, yerel seçimi kazandık konuşmalarını bana yutturamazsın. Devran döndü, iyilik kazandı.

All Annotators Annotation:  Conservatism
Final Annotator Annotation: No_ideology
-----------------------------------------------

## Text Preprocessing

In [47]:
import re
import emoji
import string

In [48]:
X = all_annotators["full_text"]
X_original = X # keeping an original version to check the differences after preprocessing
y_all = all_annotators["label"]
y_final = final_annotator["label"]

### Lowercasing, De-emojizing & Removing non-alphanumeric characters

In [49]:
# Lowercase Turkish letters
X = X.apply(lambda x: x.replace("Ç", "ç").replace("Ğ", "ğ").replace("I", "ı").replace("İ", "i").replace("Ö", "ö").replace("Ş", "ş").replace("Ü", "ü"))
# Lowercase all letters
X = X.apply(lambda x: x.lower())
# Replace newline characters ("\n") with space
X = X.apply(lambda x: x.replace("\n", " "))

### Emojis

In [50]:
# Add whitespace before and after emojis

# search your emoji
def is_emoji(s):
    return s in emoji.UNICODE_EMOJI

# add space near your emoji
def add_space(text):
    return ''.join(' ' + char if is_emoji(char) else char for char in text).strip()

X = X.apply(add_space)

In [51]:
# De-emojize emojis
X = X.apply(lambda x: emoji.demojize(x))

In [52]:
def combine_emoji_name(text):
    """
    An example of emoji name --> :smiling_face_with_smiling_eyes:
    Output of this function --> smilingfacewithsmilingeyes
    The purpose of this function is to keep emoji name as a single word
    when the non-alphanumeric characters are replaced with space.
    """
    new_text = [] 
    
    for word in text.split():
        if word[0] == ":" and word[-1] == ":":
            new_text.append(word.translate(str.maketrans('', '', string.punctuation)))
        else:
            new_text.append(word)
    
    return ' '.join(new_text)

In [53]:
# Combine emoji words into a single word
X = X.apply(combine_emoji_name)

### Remove non-alphanumeric characters

In [54]:
def remove_non_alphanumeric(text):
    """
    Remove non-alphanumeric characters in the text
    """
    
    text = re.sub(r"(?<!\d)[.,;:](?!\d)", "", text) # keep .,;: if they are between digits
    text = re.sub('[^A-Za-z0-9 #@çğıöşü.,;:%]+',' ', text) # replace non-alphanumeric characters with a space
    return text

In [55]:
# Replace non-alphanumeric characters with a space
X = X.apply(remove_non_alphanumeric)

In [56]:
for i in X.sample(5, random_state=4).index:
    print(f"Original tweet:      {X_original[i]}")
    print(f"Preprocessed tweet:  {X[i]}\n\n")

Original tweet:      Öyle bir zamandayız ki !
Kendi kazdığı kuyuya kendi düşenler bile
Kendini Hz. Yusuf ilan ediyor.
Preprocessed tweet:  öyle bir zamandayız ki   kendi kazdığı kuyuya kendi düşenler bile kendini hz yusuf ilan ediyor


Original tweet:      Bu sıcak ten tene değmemeli🥵😆
Preprocessed tweet:  bu sıcak ten tene değmemeli hotface grinningsquintingface


Original tweet:      Maske satışı yasak.❌
Ptt ile dağıtılacak. ❌
E-devlet başvurusu ile dağıtılacak. ❌
Şifre ile eczanelerden temin edilecek.❌
Çalışanlar iş yerinden temin edecek.❌
Hayat Eve Sığar uygulamasından başvuru yapılacak. ❌
MASKE SATIŞI SERBEST✅

Başınız döndü mü?
Preprocessed tweet:  maske satışı yasak crossmark ptt ile dağıtılacak crossmark e devlet başvurusu ile dağıtılacak crossmark şifre ile eczanelerden temin edilecek crossmark çalışanlar iş yerinden temin edecek crossmark hayat eve sığar uygulamasından başvuru yapılacak crossmark maske satışı serbest whiteheavycheckmark başınız döndü mü 


Original tweet:    

### Stop Word Removal

In [57]:
# Turkish Stop Words
trstop = [
    'a', 'acaba', 'altı', 'altmış', 'ama', 'ancak', 'arada', 'artık', 'asla', 'aslında', 'aslında', 'ayrıca', 'az', 'bana',
    'bazen', 'bazı', 'bazıları', 'belki', 'ben', 'benden', 'beni', 'benim', 'beri', 'beş', 'bile', 'bilhassa', 'bin', 'bir',
    'biraz', 'birçoğu', 'birçok', 'biri', 'birisi', 'birkaç', 'birşey', 'biz', 'bizden', 'bize', 'bizi', 'bizim', 'böyle',
    'böylece', 'bu', 'buna', 'bunda', 'bundan', 'bunlar', 'bunları', 'bunların', 'bunu', 'bunun', 'burada', 'bütün', 'çoğu',
    'çoğunu', 'çok', 'çünkü', 'da', 'daha', 'dahi', 'dan', 'de', 'defa', 'değil', 'diğer', 'diğeri', 'diğerleri', 'diye',
    'doksan', 'dokuz', 'dolayı', 'dolayısıyla', 'dört', 'e', 'edecek', 'eden', 'ederek', 'edilecek', 'ediliyor', 'edilmesi',
    'ediyor', 'eğer', 'elbette', 'elli', 'en', 'etmesi', 'etti', 'ettiği', 'ettiğini', 'fakat', 'falan', 'filan', 'gene',
    'gereği', 'gerek', 'gibi', 'göre', 'hala', 'halde', 'halen', 'hangi', 'hangisi', 'hani', 'hatta', 'hem', 'henüz', 'hep',
    'hepsi', 'her', 'herhangi', 'herkes', 'herkese', 'herkesi', 'herkesin', 'hiç', 'hiçbir', 'hiçbiri', 'i', 'ı', 'için',
    'içinde', 'iki', 'ile', 'ilgili', 'ise', 'işte', 'itibaren', 'itibariyle', 'kaç', 'kadar', 'karşın', 'kendi', 'kendilerine',
    'kendine', 'kendini', 'kendisi', 'kendisine', 'kendisini', 'kez', 'ki', 'kim', 'kime', 'kimi', 'kimin', 'kimisi', 'kimse',
    'kırk', 'madem', 'mi', 'mı', 'milyar', 'milyon', 'mu', 'mü', 'nasıl', 'ne', 'neden', 'nedenle', 'nerde', 'nerede', 'nereye',
    'neyse', 'niçin', 'nin', 'nın', 'niye', 'nun', 'nün', 'o', 'öbür', 'olan', 'olarak', 'oldu', 'olduğu', 'olduğunu',
    'olduklarını', 'olmadı', 'olmadığı', 'olmak', 'olması', 'olmayan', 'olmaz', 'olsa', 'olsun', 'olup', 'olur', 'olur',
    'olursa', 'oluyor', 'on', 'ön', 'ona', 'önce', 'ondan', 'onlar', 'onlara', 'onlardan', 'onları', 'onların', 'onu', 'onun',
    'orada', 'öte', 'ötürü', 'otuz', 'öyle', 'oysa', 'pek', 'rağmen', 'sana', 'sanki', 'sanki', 'şayet', 'şekilde', 'sekiz',
    'seksen', 'sen', 'senden', 'seni', 'senin', 'şey', 'şeyden', 'şeye', 'şeyi', 'şeyler', 'şimdi', 'siz', 'siz', 'sizden',
    'sizden', 'size', 'sizi', 'sizi', 'sizin', 'sizin', 'sonra', 'şöyle', 'şu', 'şuna', 'şunları', 'şunu', 'ta', 'tabii',
    'tam', 'tamam', 'tamamen', 'tarafından', 'trilyon', 'tüm', 'tümü', 'u', 'ü', 'üç', 'un', 'ün', 'üzere', 'var', 'vardı',
    've', 'veya', 'ya', 'yani', 'yapacak', 'yapılan', 'yapılması', 'yapıyor', 'yapmak', 'yaptı', 'yaptığı', 'yaptığını',
    'yaptıkları', 'ye', 'yedi', 'yerine', 'yetmiş', 'yi', 'yı', 'yine', 'yirmi', 'yoksa', 'yu', 'yüz', 'zaten', 'zira'
] # https://github.com/ahmetax/trstop/blob/master/dosyalar/turkce-stop-words

nltk_trstop = [
    'acaba', 'ama', 'aslında', 'az', 'bazı', 'belki', 'biri', 'birkaç', 'birşey', 'biz', 'bu', 'çok', 'çünkü', 'da', 'daha',
    'de', 'defa', 'diye', 'eğer', 'en', 'gibi', 'hem', 'hep', 'hepsi', 'her', 'hiç', 'için', 'ile', 'ise', 'kez', 'ki', 'kim',
    'mı', 'mu', 'mü', 'nasıl', 'ne', 'neden', 'nerde', 'nerede', 'nereye', 'niçin', 'niye', 'o', 'sanki', 'şey', 'siz', 'şu',
    'tüm', 've', 'veya', 'ya', 'yani'
] # https://github.com/xiamx/node-nltk-stopwords/blob/master/data/stopwords/turkish

add_stop = [
    'a', 'b', 'c', 'ç', 'd', 'e', 'f', 'g', 'ğ', 'h', 'ı', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'ö', 'p', 'r', 's', 'ş', 't',
    'u', 'ü', 'v', 'y', 'z', 'li', 'lı', 'si', 'sı', 'te', 'ta', 'ın', 'in', 'na', 'ne', 'ler', 'lar', 'de', 'da', 'nın', 'nin',
    'lık', 'ım', 'im', 'yok', 'di', 'dı'
]

stop_words = sorted(list(set(trstop).union(nltk_trstop).union(add_stop)))

In [58]:
# Stop word removal
X = X.apply(lambda x: ' '.join([word for word in x.split() if word not in stop_words]))

In [59]:
for i in X.sample(5, random_state=4).index:
    print(f"Original tweet:      {X_original[i]}")
    print(f"Preprocessed tweet:  {X[i]}\n\n")

Original tweet:      Öyle bir zamandayız ki !
Kendi kazdığı kuyuya kendi düşenler bile
Kendini Hz. Yusuf ilan ediyor.
Preprocessed tweet:  zamandayız kazdığı kuyuya düşenler hz yusuf ilan


Original tweet:      Bu sıcak ten tene değmemeli🥵😆
Preprocessed tweet:  sıcak ten tene değmemeli hotface grinningsquintingface


Original tweet:      Maske satışı yasak.❌
Ptt ile dağıtılacak. ❌
E-devlet başvurusu ile dağıtılacak. ❌
Şifre ile eczanelerden temin edilecek.❌
Çalışanlar iş yerinden temin edecek.❌
Hayat Eve Sığar uygulamasından başvuru yapılacak. ❌
MASKE SATIŞI SERBEST✅

Başınız döndü mü?
Preprocessed tweet:  maske satışı yasak crossmark ptt dağıtılacak crossmark devlet başvurusu dağıtılacak crossmark şifre eczanelerden temin crossmark çalışanlar iş yerinden temin crossmark hayat eve sığar uygulamasından başvuru yapılacak crossmark maske satışı serbest whiteheavycheckmark başınız döndü


Original tweet:      Yorumlayın bakalım 90 dk.lik maçı saatlerce.. Siz bu milleti iyice embesil zannet

### Tokenization

In [60]:
import nltk

In [61]:
# Tokenize tweets with nltk's TweetTokenizer()
tweet_tokenizer = nltk.tokenize.TweetTokenizer()

X_tokens = X.apply(lambda x: tweet_tokenizer.tokenize(x))

### Lemmatization

In [62]:
import time
import zeyrek
analyzer = zeyrek.MorphAnalyzer()

In [63]:
def lemmatize(word):
    return analyzer.lemmatize(word)[0][1][0]

In [64]:
print("Lemmatization progress:\n")

X_lemmatized = []
start_time = time.time()

for i in range(len(X_tokens)):
    # analyzer.lemmatize() gave error only for the word "ulemalık"
    X_lemmatized.append([lemmatize(word).lower() if word != "ulemalık" and word[0] not in ["#","@",".",",",";",":","%"] else word.lower() for word in X_tokens[i]])
    if i % 1000 == 0:
        print(f"{i}/{len(X_tokens)} | {(i+1)/len(X_tokens)*100:.2f}%")
        
print(f"{len(X_tokens)}/{len(X_tokens)} | 100%")
    
X_lemmatized = pd.Series(X_lemmatized)

print(f"\nLemmatization took {(time.time() - start_time)/60:.2f} minutes.")

Lemmatization progress:

0/23365 | 0.00%
1000/23365 | 4.28%
2000/23365 | 8.56%
3000/23365 | 12.84%
4000/23365 | 17.12%
5000/23365 | 21.40%
6000/23365 | 25.68%
7000/23365 | 29.96%
8000/23365 | 34.24%
9000/23365 | 38.52%
10000/23365 | 42.80%
11000/23365 | 47.08%
12000/23365 | 51.36%
13000/23365 | 55.64%
14000/23365 | 59.92%
15000/23365 | 64.20%
16000/23365 | 68.48%
17000/23365 | 72.76%
18000/23365 | 77.04%
19000/23365 | 81.32%
20000/23365 | 85.60%
21000/23365 | 89.88%
22000/23365 | 94.16%
23000/23365 | 98.44%
23365/23365 | 100%

Lemmatization took 10.64 minutes.


In [65]:
# Removing stop words once more after lemmatization
X_lemmatized = X_lemmatized.apply(lambda x: [word for word in x if word not in stop_words])

In [66]:
for i in X.sample(10, random_state=4).index:
    print(f"- Original tweet:\n{X_original[i]}")
    print(f"- Lemmatized tweet tokens: {X_lemmatized[i]}\n\n")

- Original tweet:
Öyle bir zamandayız ki !
Kendi kazdığı kuyuya kendi düşenler bile
Kendini Hz. Yusuf ilan ediyor.
- Lemmatized tweet tokens: ['zaman', 'kazmak', 'kuyu', 'düşenler', 'hz', 'yusuf', 'ilân']


- Original tweet:
Bu sıcak ten tene değmemeli🥵😆
- Lemmatized tweet tokens: ['sıcak', 'değmek', 'hotface', 'grinningsquintingface']


- Original tweet:
Maske satışı yasak.❌
Ptt ile dağıtılacak. ❌
E-devlet başvurusu ile dağıtılacak. ❌
Şifre ile eczanelerden temin edilecek.❌
Çalışanlar iş yerinden temin edecek.❌
Hayat Eve Sığar uygulamasından başvuru yapılacak. ❌
MASKE SATIŞI SERBEST✅

Başınız döndü mü?
- Lemmatized tweet tokens: ['maske', 'satış', 'yasak', 'crossmark', 'ptt', 'dağıtılacak', 'crossmark', 'devlet', 'başvuru', 'dağıtılacak', 'crossmark', 'şifre', 'eczane', 'crossmark', 'çalışanlar', 'iş', 'yerinde', 'crossmark', 'hayat', 'ev', 'sığmak', 'uygulamak', 'başvuru', 'yapılacak', 'crossmark', 'maske', 'satış', 'serbest', 'whiteheavycheckmark', 'baş', 'dönmek']


- Original twee

### Finalizing Preprocessing

- I want to keep tweet versions before and after lemmatization step to compare them later while building models.

In [67]:
X_preprocessed = X_tokens.apply(lambda x: ' '.join(x))
X_preprocessed_lemmatized = X_lemmatized.apply(lambda x: ' '.join(x))

In [68]:
# Difference between X_preprocessed and X_preprocessed_lemmatized:

for i in X_preprocessed.sample(5, random_state=530).index:
    print(f"{i}- X_preprocessed:\n{X_preprocessed[i]}\n")
    print(f"{i}- X_preprocessed_lemmatized:\n{X_preprocessed_lemmatized[i]}\n")

14493- X_preprocessed:
takip ricamı kırmayan güzel insanların hepsine tek tek teşekkür etmeye çalıştım gözümden kaçan olmuşsa birde burdan edeyim dedim kırmadınız hepinize teşekkür ediyorum sizleri seviyorum hayırlı geceler diliyorum huzurla smilingfacewithsmilingeyes smilingfacewithsmilingeyes wavinghand wavinghand

14493- X_preprocessed_lemmatized:
takip rica kırmak güzel insan tek tek teşekkür etmek çalışmak göz kaçan bura etmek demek kırmak teşekkür etmek seviyorum hayır gece dilemek huzur smilingfacewithsmilingeyes smilingfacewithsmilingeyes wavinghand wavinghand

9245- X_preprocessed:
faşizm hastalık tercihtir tercih tercihinin bedelini ödeme vakti geldiğinde deli taklidi yapmasın inandırıcı

9245- X_preprocessed_lemmatized:
faşizm hastalık tercih tercih tercih bedel ödem vakit gelmek deli taklidî inandırıcı

4101- X_preprocessed:
bugün yapılacak bilim kurulu toplantısında aşı olmayanların avm lere alınmayacağı planlanırken 1 öğrenciyi 2,5 saat odada tutmaya müsade edebiliyorsunu

In [69]:
# Export preprocessed data to csv files
X_preprocessed.to_csv("data/X_preprocessed.csv", index=False)
X_preprocessed_lemmatized.to_csv("data/X_preprocessed_lemmatized.csv", index=False)
y_all.to_csv("data/y_all.csv", index=False)
y_final.to_csv("data/y_final.csv", index=False)