In [1]:
import numpy as np
import pandas as pd
import csv
import advertools as adv
import nltk
import string
import re

In [2]:
stopwords = nltk.corpus.stopwords.words('english')

In [3]:
stopwordsT = adv.stopwords['tagalog']
sorted(adv.stopwords['tagalog'])[:20]

['akin',
 'aking',
 'ako',
 'alin',
 'am',
 'amin',
 'aming',
 'ang',
 'ano',
 'anumang',
 'apat',
 'at',
 'atin',
 'ating',
 'ay',
 'bababa',
 'bago',
 'bakit',
 'bawat',
 'bilang']

In [4]:
df = pd.read_csv("tagalog.csv")
df["tweet"] = df["tweet"].str.lower()
df.head()

Unnamed: 0,tweet
0,"nagutom lang ako, yun lang natutunan ko sa kla..."
1,"uy, gagi! 'wag kang magpaniwala sa haka-hakang..."
2,so bat nambobomba ng tubig?
3,"marcos, duterte, walang pinag-iba! parehong tu..."
4,malinaw na malinaw na malinaw na pinapatagal l...


# Removal of Punctiations and URLs

In [5]:
def depure_data(df):

    #Removing URLs with a regular expression
    url_pattern = re.compile(r'https?://\S+|www.\S+')
    df = url_pattern.sub(r'', df)

    # Remove Emails
    df = re.sub('\S@\S\s?', '', df)

    # Remove new line characters
    df = re.sub('\s+', ' ', df)

    # Remove distracting single quotes
    df = re.sub("'", "", df)
    
    #Remove @ tags (mentions)
    df = re.sub(r'@[A-Za-z0-9]+','',df)

    #Remove hashtags
    #df = re.sub("[^a-zA-Z]", " ", df)

    #Remove non-alphanumeric characters
    df = re.sub("[^a-z0-9]"," ", df)

    return df

df['tweets'] = df['tweet'].apply(lambda x: depure_data(x))
df

Unnamed: 0,tweet,tweets
0,"nagutom lang ako, yun lang natutunan ko sa kla...",nagutom lang ako yun lang natutunan ko sa kla...
1,"uy, gagi! 'wag kang magpaniwala sa haka-hakang...",uy gagi wag kang magpaniwala sa haka hakang ...
2,so bat nambobomba ng tubig?,so bat nambobomba ng tubig
3,"marcos, duterte, walang pinag-iba! parehong tu...",marcos duterte walang pinag iba parehong tu...
4,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...
...,...,...
5156,@johnlloydalnzo @alohamhowenn @heyrooo1 gooodb...,gooodbye alak
5157,pass na sa inuman tangina hahahahahahaha,pass na sa inuman tangina hahahahahahaha
5158,literal na huling inom ko na,literal na huling inom ko na
5159,a rare picture of yorme wendy na namimigay ng ...,a rare picture of yorme wendy na namimigay ng ...


In [6]:
def remove_punct(text):
    text = "".join([char for char in text if char not in string.punctuation])
    return text

df['text'] = df['tweets'].apply(lambda x: remove_punct(x))

df.head(20)

Unnamed: 0,tweet,tweets,text
0,"nagutom lang ako, yun lang natutunan ko sa kla...",nagutom lang ako yun lang natutunan ko sa kla...,nagutom lang ako yun lang natutunan ko sa kla...
1,"uy, gagi! 'wag kang magpaniwala sa haka-hakang...",uy gagi wag kang magpaniwala sa haka hakang ...,uy gagi wag kang magpaniwala sa haka hakang ...
2,so bat nambobomba ng tubig?,so bat nambobomba ng tubig,so bat nambobomba ng tubig
3,"marcos, duterte, walang pinag-iba! parehong tu...",marcos duterte walang pinag iba parehong tu...,marcos duterte walang pinag iba parehong tu...
4,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...
5,"marcos, hindi magiging bayani kailanman! basa...",marcos hindi magiging bayani kailanman basah...,marcos hindi magiging bayani kailanman basah...
6,#neveragaintomartiallaw resist the rehabilitat...,neveragaintomartiallaw resist the rehabilitat...,neveragaintomartiallaw resist the rehabilitat...
7,as we remember the 49th anniversary of martial...,as we remember the 49th anniversary of martial...,as we remember the 49th anniversary of martial...
8,#neveragain #notohistoricalrevisionism #endimp...,neveragain notohistoricalrevisionism endimp...,neveragain notohistoricalrevisionism endimp...
9,"duterte, marcos, walang pinag-iba, parehong tu...",duterte marcos walang pinag iba parehong tu...,duterte marcos walang pinag iba parehong tu...


# Tokenization

In [7]:
# Define a function to split our sentences into a list of words
def tokenize(text):
    tokens = re.split('\W+', text)
    return tokens

df['tweet_Tokenized'] = df['text'].apply(lambda x: tokenize(x.lower()))

df.head()

Unnamed: 0,tweet,tweets,text,tweet_Tokenized
0,"nagutom lang ako, yun lang natutunan ko sa kla...",nagutom lang ako yun lang natutunan ko sa kla...,nagutom lang ako yun lang natutunan ko sa kla...,"[nagutom, lang, ako, yun, lang, natutunan, ko,..."
1,"uy, gagi! 'wag kang magpaniwala sa haka-hakang...",uy gagi wag kang magpaniwala sa haka hakang ...,uy gagi wag kang magpaniwala sa haka hakang ...,"[uy, gagi, wag, kang, magpaniwala, sa, haka, h..."
2,so bat nambobomba ng tubig?,so bat nambobomba ng tubig,so bat nambobomba ng tubig,"[so, bat, nambobomba, ng, tubig, ]"
3,"marcos, duterte, walang pinag-iba! parehong tu...",marcos duterte walang pinag iba parehong tu...,marcos duterte walang pinag iba parehong tu...,"[marcos, duterte, walang, pinag, iba, parehong..."
4,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...,"[malinaw, na, malinaw, na, malinaw, na, pinapa..."


# Stopwords Removal

In [8]:
# Define a function to remove all stopwords
def remove_stopwords(tokenized_text):    
    text = [word for word in tokenized_text if word not in stopwords]
    return text

df['cleanedTweet'] = df['tweet_Tokenized'].apply(lambda x: remove_stopwords(x))

df.head()

Unnamed: 0,tweet,tweets,text,tweet_Tokenized,cleanedTweet
0,"nagutom lang ako, yun lang natutunan ko sa kla...",nagutom lang ako yun lang natutunan ko sa kla...,nagutom lang ako yun lang natutunan ko sa kla...,"[nagutom, lang, ako, yun, lang, natutunan, ko,...","[nagutom, lang, ako, yun, lang, natutunan, ko,..."
1,"uy, gagi! 'wag kang magpaniwala sa haka-hakang...",uy gagi wag kang magpaniwala sa haka hakang ...,uy gagi wag kang magpaniwala sa haka hakang ...,"[uy, gagi, wag, kang, magpaniwala, sa, haka, h...","[uy, gagi, wag, kang, magpaniwala, sa, haka, h..."
2,so bat nambobomba ng tubig?,so bat nambobomba ng tubig,so bat nambobomba ng tubig,"[so, bat, nambobomba, ng, tubig, ]","[bat, nambobomba, ng, tubig, ]"
3,"marcos, duterte, walang pinag-iba! parehong tu...",marcos duterte walang pinag iba parehong tu...,marcos duterte walang pinag iba parehong tu...,"[marcos, duterte, walang, pinag, iba, parehong...","[marcos, duterte, walang, pinag, iba, parehong..."
4,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...,"[malinaw, na, malinaw, na, malinaw, na, pinapa...","[malinaw, na, malinaw, na, malinaw, na, pinapa..."


In [9]:
def remove_tagalog_stopwords(tokenized_text):    
    text = [word for word in tokenized_text if word not in stopwordsT]
    return text

df['cleanedTweet2'] = df['cleanedTweet'].apply(lambda x: remove_tagalog_stopwords(x))

df.head()

Unnamed: 0,tweet,tweets,text,tweet_Tokenized,cleanedTweet,cleanedTweet2
0,"nagutom lang ako, yun lang natutunan ko sa kla...",nagutom lang ako yun lang natutunan ko sa kla...,nagutom lang ako yun lang natutunan ko sa kla...,"[nagutom, lang, ako, yun, lang, natutunan, ko,...","[nagutom, lang, ako, yun, lang, natutunan, ko,...","[nagutom, lang, yun, lang, natutunan, klase, s..."
1,"uy, gagi! 'wag kang magpaniwala sa haka-hakang...",uy gagi wag kang magpaniwala sa haka hakang ...,uy gagi wag kang magpaniwala sa haka hakang ...,"[uy, gagi, wag, kang, magpaniwala, sa, haka, h...","[uy, gagi, wag, kang, magpaniwala, sa, haka, h...","[uy, gagi, wag, kang, magpaniwala, haka, hakan..."
2,so bat nambobomba ng tubig?,so bat nambobomba ng tubig,so bat nambobomba ng tubig,"[so, bat, nambobomba, ng, tubig, ]","[bat, nambobomba, ng, tubig, ]","[bat, nambobomba, tubig, ]"
3,"marcos, duterte, walang pinag-iba! parehong tu...",marcos duterte walang pinag iba parehong tu...,marcos duterte walang pinag iba parehong tu...,"[marcos, duterte, walang, pinag, iba, parehong...","[marcos, duterte, walang, pinag, iba, parehong...","[marcos, duterte, pinag, parehong, tuta, dikta..."
4,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...,malinaw na malinaw na malinaw na pinapatagal l...,"[malinaw, na, malinaw, na, malinaw, na, pinapa...","[malinaw, na, malinaw, na, malinaw, na, pinapa...","[malinaw, malinaw, malinaw, pinapatagal, pande..."


In [10]:
clean_df = df.drop(['tweet','tweet_Tokenized','cleanedTweet','tweets','text'], axis=1)
clean_df

Unnamed: 0,cleanedTweet2
0,"[nagutom, lang, yun, lang, natutunan, klase, s..."
1,"[uy, gagi, wag, kang, magpaniwala, haka, hakan..."
2,"[bat, nambobomba, tubig, ]"
3,"[marcos, duterte, pinag, parehong, tuta, dikta..."
4,"[malinaw, malinaw, malinaw, pinapatagal, pande..."
...,...
5156,"[, gooodbye, alak]"
5157,"[pass, inuman, tangina, hahahahahahaha]"
5158,"[literal, huling, inom]"
5159,"[rare, picture, yorme, wendy, namimigay, ayuda..."


In [11]:
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5161 entries, 0 to 5160
Data columns (total 1 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   cleanedTweet2  5161 non-null   object
dtypes: object(1)
memory usage: 40.4+ KB


# Lemmatization

In [12]:
import nltk
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Ryan\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [13]:
lemmatizer = WordNetLemmatizer()

lemmatized_output = ' '.join([lemmatizer.lemmatize(w) for w in clean_df['cleanedTweet2'][5160]])
print(lemmatized_output)

happy 13th anniv love iuofficial ft cake yorme bukas magcelebrate talaga milk tea lang something makakain 13 spring iu 13yearswithiu 13 


In [14]:
def lemmatize(s):
     s = [lemmatizer.lemmatize(word) for word in s]
     return s

df5 = clean_df.assign(col_lemma = clean_df['cleanedTweet2'].apply(lambda x: lemmatize(x)))
df5

Unnamed: 0,cleanedTweet2,col_lemma
0,"[nagutom, lang, yun, lang, natutunan, klase, s...","[nagutom, lang, yun, lang, natutunan, klase, s..."
1,"[uy, gagi, wag, kang, magpaniwala, haka, hakan...","[uy, gagi, wag, kang, magpaniwala, haka, hakan..."
2,"[bat, nambobomba, tubig, ]","[bat, nambobomba, tubig, ]"
3,"[marcos, duterte, pinag, parehong, tuta, dikta...","[marcos, duterte, pinag, parehong, tuta, dikta..."
4,"[malinaw, malinaw, malinaw, pinapatagal, pande...","[malinaw, malinaw, malinaw, pinapatagal, pande..."
...,...,...
5156,"[, gooodbye, alak]","[, gooodbye, alak]"
5157,"[pass, inuman, tangina, hahahahahahaha]","[pas, inuman, tangina, hahahahahahaha]"
5158,"[literal, huling, inom]","[literal, huling, inom]"
5159,"[rare, picture, yorme, wendy, namimigay, ayuda...","[rare, picture, yorme, wendy, namimigay, ayuda..."


In [15]:
df6 = df5.drop(['cleanedTweet2'], axis=1)
df6

Unnamed: 0,col_lemma
0,"[nagutom, lang, yun, lang, natutunan, klase, s..."
1,"[uy, gagi, wag, kang, magpaniwala, haka, hakan..."
2,"[bat, nambobomba, tubig, ]"
3,"[marcos, duterte, pinag, parehong, tuta, dikta..."
4,"[malinaw, malinaw, malinaw, pinapatagal, pande..."
...,...
5156,"[, gooodbye, alak]"
5157,"[pas, inuman, tangina, hahahahahahaha]"
5158,"[literal, huling, inom]"
5159,"[rare, picture, yorme, wendy, namimigay, ayuda..."


In [16]:
df6.to_csv(r"Preprocessed tagalog.csv", index = False)