## Title: Sentiment Analysis in Social Media Text using Neural Network <a class="anchor" id="intro"></a>

#### Description:
Preprocess dataset (emoji will be removed as well)

Dataset pre-processing is a very important step in sentiment analysis which have direct relationship with the accuracy in classification model later. In this step, noises in dataset will be removed and thus reducing the complexity of the data. Study conducted has shown that performance of model increased after stop words has been removed from dataset. 

![alt text](../../report/preprocess.png "Logo Title Text 1")

### Table of Content

* [Introduction](#intro)
	* [Set-up environment](#set_up)
	* [Load Dataset](#load_data)
	* [View All Unique Date in Dataset](#unique_date)
* [Pre-Processing](#preprocess)
	* [Drop Duplicate Rows](#drop_row)
	* [Remove Noises](#remove_noises)
	* [Normalize Number to Word](#number_word)
	* [Word Normalizer (Malaya)](#word_normalize)
	* [Custom Corrector](#custom_corrector)
	* [Stopwords Removal (Malay)](#remove_stopwords)
	* [Stopwords Removal (English)](#remove_stopwords_eng)
	* [Save Pre-Processed Dataset](#save_file)

#### Set-up Environment <a class="anchor" id="set_up"></a>

In [2]:
%%time
import malaya

CPU times: user 7.73 s, sys: 1.4 s, total: 9.14 s
Wall time: 13.1 s


In [2]:
import pandas as pd 
import numpy as np
import string
import re

# for emoji handling
import emoji
import functools
import operator


#pd.set_option('display.max_rows', 5000)
pd.set_option('display.max_colwidth', None)

In [5]:
"""df_raw = pd.concat(csv_files, axis=0, ignore_index=True)
df_raw.shape"""

(7988, 7)

#### Load Dataset <a class="anchor" id="load_data"></a>

In [40]:
texts = pd.read_csv('3 classes/facebook_health_cases (all).csv')
df_train = pd.DataFrame(texts)

#### See the first five rows of dataset

In [41]:
df_train.head()

Unnamed: 0,date,text,sentiment,processed,normalized,check,check_stop,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,20210221,#dsnr salam dato.. lebih kurang 15km dari rumah ke kilang tu dato.. pkp pkb pkpp masih tidak turun2 kes...cara pengurusan tunggang terbalik.. kejap buka kejap tutup kejap buka kejap tutup.. begini gayanya 10tahun pun tak habis..,negative,salam dato lebih kurang km dari rumah ke kilang tu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tak habis,salam dato lebih kurang km dari rumah ke kilang itu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tidak habis,salam dato lebih kurang kkm dari rumah ke kilang itu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tidak habis,kurang kkm rumah kilang pkp pkb pkpp tidak turun kes pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup gayanya tidak habis,,,,
1,20210204,"#noorhishamabdullah you’re not dr.fauci material, you’re just pn grabmart boy",negative,you re not dr fauci material you re just pn grabmart boy,you re not dr fauci material you re just pun grabmart boy,you re not dr fauci material you re just pun grabmart boy,not fauci material grabmart boy,,,,
2,20210130,#share dan #like page #the_information_news untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani (selatan thailand). link : https://www.facebook.com/theinformationnews/,neutral,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,page khabar berita saudara patani selatan thailand link,,,,
3,20210202,"1 dunia sedang & terus diperbodohkan dgn agenda2 yahudi ekonomi dunia.. covid & pkp ni rkyat dah bosan & serik.. sbb klau x kais, x sodok la.. mcm mna pun nk kena kais jugak.. ingt 1 je, kais yg halal demi allah swt. klau dh smpai ajal nnti mati jugak..☝🏾",negative,satu dunia sedang and terus diperbodohkan dgn agenda yahudi ekonomi dunia covid and pkp ni rkyat dah bosan and serik sbb klau tak kais tak sodok la mcm mna pun nk kena kais jugak ingt satu je kais yg halal demi allah swt klau dh smpai ajal nnti mati jugak,satu dunia sedang and terus diperbodohkan dengan agenda yahudi ekonomi dunia covid and pkp ini rkyat dah bosan and serik sebab kalau tidak kais tidak sodok la macam mana pun nak kena kais juga ingat satu sahaja kais yang halal demi allah swt kalau dah sampai ajal nanti mati juga,satu dunia sedang and terus diperbodohkan dengan agenda yahudi ekonomi dunia covid and pkp ini rakyat dah bosan and serik sebab kalau tidak kais tidak sodok la macam mana pun nak kena kais juga ingat satu sahaja kais yang halal demi allah swt kalau dah sampai ajal nanti mati juga,dunia diperbodohkan agenda yahudi ekonomi dunia covid pkp rakyat bosan serik tidak kais tidak sodok kena kais halal swt sampai ajal mati,,,,
4,20210206,1 hari sy harap angka nie turun single digit mcm kita capai 0 case 3hari berturut2 sebelum nie..doakan n sama2 la kita follow sop guys..🤲,positive,satu hari sy harap angka nie turun single digit mcm kita capai zero case hari berturut sebelum nie doakan sama la kita follow sop guys,satu hari sy harap angka ini turun single digit macam kita capai zero case hari berturut sebelum ini doakan sama la kita follow sop guys,satu hari sy harap angka ini turun single digit macam kita capai zero case hari berturut sebelum ini doakan sama la kita follow sop guys,harap angka turun single digit capai zero case doakan follow sop guys,,,,


#### Remove unwanted column, usaully for scenario when we revise the pre-process

In [42]:
df_raw = df_train[['date', 'text', 'sentiment']]
df_raw

Unnamed: 0,date,text,sentiment
0,20210221,#dsnr salam dato.. lebih kurang 15km dari rumah ke kilang tu dato.. pkp pkb pkpp masih tidak turun2 kes...cara pengurusan tunggang terbalik.. kejap buka kejap tutup kejap buka kejap tutup.. begini gayanya 10tahun pun tak habis..,negative
1,20210204,"#noorhishamabdullah you’re not dr.fauci material, you’re just pn grabmart boy",negative
2,20210130,#share dan #like page #the_information_news untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani (selatan thailand). link : https://www.facebook.com/theinformationnews/,neutral
3,20210202,"1 dunia sedang & terus diperbodohkan dgn agenda2 yahudi ekonomi dunia.. covid & pkp ni rkyat dah bosan & serik.. sbb klau x kais, x sodok la.. mcm mna pun nk kena kais jugak.. ingt 1 je, kais yg halal demi allah swt. klau dh smpai ajal nnti mati jugak..☝🏾",negative
4,20210206,1 hari sy harap angka nie turun single digit mcm kita capai 0 case 3hari berturut2 sebelum nie..doakan n sama2 la kita follow sop guys..🤲,positive
...,...,...,...
7902,20210121,wish,positive
7903,20210123,"ya allah.. sy rasa satu pkra kita terlepas pandang.. kita lupa mntk tlg pd allah.. dulu ada solat hajat..bacaan yasin.. skrg x ada lagi.. buat la lockdown lama mana pun.. jaga la sop mcm mna pn, kalau kita x mntk tlg pd allah, tetap kes makin tggi sbb allah murka.. mohon pihak yg di atas utarakan pd yg berkenaan.. setiap pagi satu jam siaran baca yasin di radio, televisyen dan semua media massa. adakan solat hajat beramai2 di rumah. mungkin salah sorg dari kita doanya dimakbulkan allah.. kita contohi negara brunei.. yg baik kita ambil.. mohon sama2 kita sampaikan pd pm kita.. hanya allah shj tempat kita memohon pertolongan.. dalam al quran pn ada tulis.. kun fayakun.. jadi, maka jadikan lah..",positive
7904,20210124,ya allah mari kita brdoa bnyk2 smoga allah ampunkn dosa kita smua..hrp sngt cpat smbuh hlng smuanya amin..🤲🤲🤲🤲,positive
7905,20210125,yaallah ya tuhan ku sembuhkan la semua pesakit covid 19 yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid 19 yaallah ya tuhan ku hilangkan la virus covid 19 ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid 19 aamiin2,positive


In [43]:
# in case we dont want to run the preproccessing on the next day
# texts = pd.read_csv('facebook_health_cases.csv', names=['date', 'text'])
# df_raw = pd.DataFrame(texts)
# df_raw

#### View all unique date in dataset <a class="anchor" id="unique_date"></a>

dataset collected period: 01.01.2021 - 20.04.2021

In [44]:
date_unique = df_raw.date.unique()
date_unique.sort()
date_unique

array([20210101, 20210102, 20210103, 20210104, 20210105, 20210106,
       20210107, 20210108, 20210109, 20210110, 20210111, 20210112,
       20210113, 20210114, 20210115, 20210116, 20210117, 20210118,
       20210119, 20210120, 20210121, 20210122, 20210123, 20210124,
       20210125, 20210126, 20210127, 20210128, 20210129, 20210130,
       20210131, 20210201, 20210202, 20210203, 20210204, 20210205,
       20210206, 20210207, 20210208, 20210209, 20210210, 20210211,
       20210212, 20210213, 20210214, 20210215, 20210216, 20210217,
       20210218, 20210219, 20210220, 20210221, 20210222, 20210223,
       20210224, 20210225, 20210226, 20210227, 20210228, 20210301,
       20210302, 20210303, 20210304, 20210305, 20210306, 20210307,
       20210308, 20210309, 20210310, 20210311, 20210312, 20210313,
       20210315, 20210316, 20210318, 20210416, 20210417, 20210418,
       20210419, 20210420])

#### View information such as data type (Dtype), null value in each column

In [45]:
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7907 entries, 0 to 7906
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   date       7907 non-null   int64 
 1   text       7907 non-null   object
 2   sentiment  7907 non-null   object
dtypes: int64(1), object(2)
memory usage: 185.4+ KB


### Pre-Processing <a class="anchor" id="preprocess"></a>

#### Drop Duplicate Row(s) <a class="anchor" id="drop_row"></a>

In [46]:
# dropping ALL duplicte values
df_raw = df_raw.drop_duplicates(subset ="text") 

In [47]:
df_raw.shape

(7907, 3)

#### Remove empty cell 

In [48]:
# remove empty text cell
df_raw['text'].replace('', np.nan, inplace=True)
df_raw = df_raw.dropna()
print(f"size: {df_raw.shape}")

size: (7907, 3)


#### Remove Noises <a class="anchor" id="remove_noises"></a>

- text lowercasing
- remove words that may falsly normalized by Malaya
- emoji and text spacing
- convert symbol to its original words (eg: & -> and)
- remove url, hashtags
- remove all symbols
- remove emoji

In [3]:
table = str.maketrans(dict.fromkeys(string.punctuation))

def remove_noise(text):
    text = text.lower()
    
    text = re.sub(r'(\s|^)skit(\s|$)', ' ', text)
    # why remove "skit"?
    # because malaya normalizer automatically correct skit to "sakit", but it could be "sikit"
    # both have totally different sentiment
    
    # some string and emoji does nt have spaces, separate them
    em_split_emoji = emoji.get_emoji_regexp().split(text)
    em_split_whitespace = [substr.split() for substr in em_split_emoji]
    em_split = functools.reduce(operator.concat, em_split_whitespace)
    text = ' '.join(em_split)
    
    text = re.sub(r'(\s|^)\+(\s|$)', ' positive ', text)
    text = re.sub(r'(\s|^)-(\s|$)', ' negative ', text)
    text = re.sub(r'(\s|^)\+ve(\s|$|\W|\D)', ' positive ', text)
    text = re.sub(r'(\s|^)-ve(\s|$|\W|\D)', ' negative ', text)
    #text = BeautifulSoup(text, 'html.parser').get_text() #convert html encoding to its original symbol
    text = re.sub(r'&', ' and ', text)
    #text = re.sub(r'@[\w]+', '', text) #remove mention username, for twitter only
    #text = re.sub(r'&[a-zA-z]+;', '', text) #remove text like &amp; &gt;
    #text = re.sub(r'^\s*(RT|rt)( @\w*)?[: ]', '', text) #remove RT and mention right after it #twitter
    text = re.sub(r'#\S+[ \t]*', ' ', text) #remove hashtag symbol
    text = re.sub(r'https?:\/\/\S+', ' ', text) #remove hyperlink
    text = re.sub(r'\n', ' ', text) #remove \n
    #text = re.sub(r'\s+(RT|rt)', '', text)
    text = re.sub(r"[。\$\.|!,%=?’`'\-()@\/:*\+\"<>\^~]+", " ", text)
    #table = str.maketrans(dict.fromkeys(string.punctuation))
    #new_text = text.translate(table) 
    
    text = re.sub(r"[¹²³⁰ⁱ⁴⁵⁶⁷⁸⁹⁺⁻⁼⁽⁾ⁿ]+", '', text)
    text = re.sub(r"see more$", "", text)

    text = re.sub('(\s|^)(giler|gila)(\s|$)', ' ', text)
    text = re.sub('(\s|^)x(\s|$)', ' tak ', text)
    text = re.sub('(\s|^)sembu[h\1]+(\s|$)', ' sembuh ', text)
    text = re.sub(r'(\s|^)pil vit c(\s|$)', '  vitamin ', text)
    text = re.sub(r'(\s|^)1st(\s|$)', ' first ', text)
    text = re.sub(r'(\s|^)4th(\s|$)', ' fourth ', text) 
    text = re.sub(r'(\s|^)5th(\s|$)', ' fifth ', text) 
    text = re.sub(r'(\s|^)3rd(\s|$)', ' third ', text) 
    text = re.sub(r'(\s|^)2nd(\s|$)', ' second ', text) 
    text = re.sub(r'(\s|^)0(\s|$)', ' zero ', text)
    text = re.sub(r'(\s|^)c19(\s|$)', ' covid ', text)
    text = re.sub(r'(\s|^)covchina 19(\s|$)', ' covid ', text)
    text = re.sub(r'(\s|^)cv 19(\s|$)', ' covid ', text)
    text = re.sub(r'(\s|^)i[n]+ shaa allah(\s|$)', ' inshaaallah ', text)
    text = re.sub(r'(\s|^)membe(\s|$)', ' member ', text)
    text = re.sub('(\s|^)xbole(\s|$)', ' tak boleh ', text)
    text = re.sub('(\s|^)mybe(\s|$)', ' maybe ', text)
    
    text = re.sub(r'(\s|^)1(\s|$)', ' satu ', text)
    text = re.sub(r'(\s|^)2(\s|$)', ' dua ', text)
    text = re.sub(r'(\s|^)3(\s|$)', ' tiga ', text)
    # cmt the following line if we need emoji
    #text = ' '.join([c for c in text if ord(c) < 128]) #remove ascii character like ðŸ˜
    text = deEmojify(text) 
    # bcuz malaya normalizer will normalize words end with "la" "ler", giler/gila -> gi
    # gi = pergi, hence meaning is being twisted
    # therefore, better remove it
    #print(text)
    return text

deEmojify(): remove emoji

In [4]:
def deEmojify(text):
    text = text.encode('utf8')
    return emoji.get_emoji_regexp().sub(r'', text.decode('utf8'))

In [5]:
deEmojify("😰more deaths. god have mercy 😰")

'more deaths. god have mercy '

#### Normalize Number to Word  <a class="anchor" id="number_word"></a>

1k = satu ribu

In [None]:
from malaya.num2word import to_cardinal

def case_num_normalize(in_text):
    new_sent = []
    in_text = in_text.split()
    for i in in_text:
        match = re.sub(r'^(\d?k)$', extract_num,  i)
        match = re.sub("\d+", " ", match) #remove numbers
        new_sent.append(match)
        
    return (' '.join([w for w in new_sent if len(w)>1]))

def extract_num(in_text):
    in_text = in_text.group()
    match = re.findall(r'(\d+)(\w+)', in_text)
    if match:
        match = list(match[0])
        match[0] = to_cardinal(int(match[0]))
        if match[1] == 'k':
            match[1] = 'ribu'
        return ' '.join(match)
        x = to_cardinal(int(in_text))
    #print(x)

Apply functions

In [52]:
df_raw['processed'] = df_raw['text'].apply(remove_noise) #remove url, etc
df_raw['processed'] = df_raw['processed'].apply(case_num_normalize)  #normalize string such as 1k cases -> satu ribu cases
df_raw

Unnamed: 0,date,text,sentiment,processed
0,20210221,#dsnr salam dato.. lebih kurang 15km dari rumah ke kilang tu dato.. pkp pkb pkpp masih tidak turun2 kes...cara pengurusan tunggang terbalik.. kejap buka kejap tutup kejap buka kejap tutup.. begini gayanya 10tahun pun tak habis..,negative,salam dato lebih kurang km dari rumah ke kilang tu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tak habis
1,20210204,"#noorhishamabdullah you’re not dr.fauci material, you’re just pn grabmart boy",negative,you re not dr fauci material you re just pn grabmart boy
2,20210130,#share dan #like page #the_information_news untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani (selatan thailand). link : https://www.facebook.com/theinformationnews/,neutral,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link
3,20210202,"1 dunia sedang & terus diperbodohkan dgn agenda2 yahudi ekonomi dunia.. covid & pkp ni rkyat dah bosan & serik.. sbb klau x kais, x sodok la.. mcm mna pun nk kena kais jugak.. ingt 1 je, kais yg halal demi allah swt. klau dh smpai ajal nnti mati jugak..☝🏾",negative,satu dunia sedang and terus diperbodohkan dgn agenda yahudi ekonomi dunia covid and pkp ni rkyat dah bosan and serik sbb klau tak kais tak sodok la mcm mna pun nk kena kais jugak ingt satu je kais yg halal demi allah swt klau dh smpai ajal nnti mati jugak
4,20210206,1 hari sy harap angka nie turun single digit mcm kita capai 0 case 3hari berturut2 sebelum nie..doakan n sama2 la kita follow sop guys..🤲,positive,satu hari sy harap angka nie turun single digit mcm kita capai zero case hari berturut sebelum nie doakan sama la kita follow sop guys
...,...,...,...,...
7902,20210121,wish,positive,wish
7903,20210123,"ya allah.. sy rasa satu pkra kita terlepas pandang.. kita lupa mntk tlg pd allah.. dulu ada solat hajat..bacaan yasin.. skrg x ada lagi.. buat la lockdown lama mana pun.. jaga la sop mcm mna pn, kalau kita x mntk tlg pd allah, tetap kes makin tggi sbb allah murka.. mohon pihak yg di atas utarakan pd yg berkenaan.. setiap pagi satu jam siaran baca yasin di radio, televisyen dan semua media massa. adakan solat hajat beramai2 di rumah. mungkin salah sorg dari kita doanya dimakbulkan allah.. kita contohi negara brunei.. yg baik kita ambil.. mohon sama2 kita sampaikan pd pm kita.. hanya allah shj tempat kita memohon pertolongan.. dalam al quran pn ada tulis.. kun fayakun.. jadi, maka jadikan lah..",positive,ya allah sy rasa satu pkra kita terlepas pandang kita lupa mntk tlg pd allah dulu ada solat hajat bacaan yasin skrg tak ada lagi buat la lockdown lama mana pun jaga la sop mcm mna pn kalau kita tak mntk tlg pd allah tetap kes makin tggi sbb allah murka mohon pihak yg di atas utarakan pd yg berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yg baik kita ambil mohon sama kita sampaikan pd pm kita hanya allah shj tempat kita memohon pertolongan dalam al quran pn ada tulis kun fayakun jadi maka jadikan lah
7904,20210124,ya allah mari kita brdoa bnyk2 smoga allah ampunkn dosa kita smua..hrp sngt cpat smbuh hlng smuanya amin..🤲🤲🤲🤲,positive,ya allah mari kita brdoa bnyk smoga allah ampunkn dosa kita smua hrp sngt cpat smbuh hlng smuanya amin
7905,20210125,yaallah ya tuhan ku sembuhkan la semua pesakit covid 19 yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid 19 yaallah ya tuhan ku hilangkan la virus covid 19 ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid 19 aamiin2,positive,yaallah ya tuhan ku sembuhkan la semua pesakit covid yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaallah ya tuhan ku hilangkan la virus covid ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid aamiin


After remove noises, remove possible empty comments

In [53]:
# remove empty processed cell
df_raw['processed'].replace('', np.nan, inplace=True)
df_raw = df_raw.dropna()
print(f"size: {df_raw.shape}")

size: (7907, 4)


In [54]:
# df_raw.to_csv("facebook_health_cases (preprocessed).csv", encoding='utf-8', index=False)

#### Word Normalizer (Malaya) <a class="anchor" id="word_normalize"></a>

Abbreviation is very common in social media text. Just like the scenario in lowercasing, spelling error can reduce the size of word embedding and prevent the possibilities of corresponding abbreviation not recognized by neural network. For example, in Malay, the abbreviation such as “mmg” can be expand to “memang”.

In [55]:
normalizer = malaya.normalize.normalizer()
#corrector = malaya.spell.probability()
#normalizer = malaya.normalize.normalizer(corrector)

#why i dislike corrector:
#inshah allah -> nishah allah
#add -> ad
#aik -> baik (aik is more like a sound words)

In [56]:
def normalizee(in_text):
    return normalizer.normalize(in_text, normalize_text=True, normalize_year=False, normalize_telephone=False)['normalize']

In [57]:
df_raw['normalized'] = df_raw['processed'].apply(normalizee) #remove url, etc
df_raw

Unnamed: 0,date,text,sentiment,processed,normalized
0,20210221,#dsnr salam dato.. lebih kurang 15km dari rumah ke kilang tu dato.. pkp pkb pkpp masih tidak turun2 kes...cara pengurusan tunggang terbalik.. kejap buka kejap tutup kejap buka kejap tutup.. begini gayanya 10tahun pun tak habis..,negative,salam dato lebih kurang km dari rumah ke kilang tu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tak habis,salam dato lebih kurang km dari rumah ke kilang itu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tidak habis
1,20210204,"#noorhishamabdullah you’re not dr.fauci material, you’re just pn grabmart boy",negative,you re not dr fauci material you re just pn grabmart boy,you re not dr fauci material you re just pun grabmart boy
2,20210130,#share dan #like page #the_information_news untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani (selatan thailand). link : https://www.facebook.com/theinformationnews/,neutral,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link
3,20210202,"1 dunia sedang & terus diperbodohkan dgn agenda2 yahudi ekonomi dunia.. covid & pkp ni rkyat dah bosan & serik.. sbb klau x kais, x sodok la.. mcm mna pun nk kena kais jugak.. ingt 1 je, kais yg halal demi allah swt. klau dh smpai ajal nnti mati jugak..☝🏾",negative,satu dunia sedang and terus diperbodohkan dgn agenda yahudi ekonomi dunia covid and pkp ni rkyat dah bosan and serik sbb klau tak kais tak sodok la mcm mna pun nk kena kais jugak ingt satu je kais yg halal demi allah swt klau dh smpai ajal nnti mati jugak,satu dunia sedang and terus diperbodohkan dengan agenda yahudi ekonomi dunia covid and pkp ini rkyat dah bosan and serik sebab kalau tidak kais tidak sodok la macam mana pun nak kena kais juga ingat satu sahaja kais yang halal demi allah swt kalau dah sampai ajal nanti mati juga
4,20210206,1 hari sy harap angka nie turun single digit mcm kita capai 0 case 3hari berturut2 sebelum nie..doakan n sama2 la kita follow sop guys..🤲,positive,satu hari sy harap angka nie turun single digit mcm kita capai zero case hari berturut sebelum nie doakan sama la kita follow sop guys,satu hari sy harap angka ini turun single digit macam kita capai zero case hari berturut sebelum ini doakan sama la kita follow sop guys
...,...,...,...,...,...
7902,20210121,wish,positive,wish,wish
7903,20210123,"ya allah.. sy rasa satu pkra kita terlepas pandang.. kita lupa mntk tlg pd allah.. dulu ada solat hajat..bacaan yasin.. skrg x ada lagi.. buat la lockdown lama mana pun.. jaga la sop mcm mna pn, kalau kita x mntk tlg pd allah, tetap kes makin tggi sbb allah murka.. mohon pihak yg di atas utarakan pd yg berkenaan.. setiap pagi satu jam siaran baca yasin di radio, televisyen dan semua media massa. adakan solat hajat beramai2 di rumah. mungkin salah sorg dari kita doanya dimakbulkan allah.. kita contohi negara brunei.. yg baik kita ambil.. mohon sama2 kita sampaikan pd pm kita.. hanya allah shj tempat kita memohon pertolongan.. dalam al quran pn ada tulis.. kun fayakun.. jadi, maka jadikan lah..",positive,ya allah sy rasa satu pkra kita terlepas pandang kita lupa mntk tlg pd allah dulu ada solat hajat bacaan yasin skrg tak ada lagi buat la lockdown lama mana pun jaga la sop mcm mna pn kalau kita tak mntk tlg pd allah tetap kes makin tggi sbb allah murka mohon pihak yg di atas utarakan pd yg berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yg baik kita ambil mohon sama kita sampaikan pd pm kita hanya allah shj tempat kita memohon pertolongan dalam al quran pn ada tulis kun fayakun jadi maka jadikan lah,ya allah sy rasa satu pkra kita terlepas pandang kita lupa minta tolong pada allah dahulu ada solat hajat bacaan yasin sekarang tidak ada lagi buat la lockdown lama mana pun jaga la sop macam mana pun kalau kita tidak minta tolong pada allah tetap kes makin tggi sebab allah murka mohon pihak yang di atas utarakan pada yang berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yang baik kita ambil mohon sama kita sampaikan pada pm kita hanya allah shj tempat kita memohon pertolongan dalam al quran pun ada tulis kun fayakun jadi maka jadikan lah
7904,20210124,ya allah mari kita brdoa bnyk2 smoga allah ampunkn dosa kita smua..hrp sngt cpat smbuh hlng smuanya amin..🤲🤲🤲🤲,positive,ya allah mari kita brdoa bnyk smoga allah ampunkn dosa kita smua hrp sngt cpat smbuh hlng smuanya amin,ya allah mari kita brdoa banyak semoga allah ampunkn dosa kita semua harap sangat cpat smbuh hlng smuanya amin
7905,20210125,yaallah ya tuhan ku sembuhkan la semua pesakit covid 19 yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid 19 yaallah ya tuhan ku hilangkan la virus covid 19 ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid 19 aamiin2,positive,yaallah ya tuhan ku sembuhkan la semua pesakit covid yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaallah ya tuhan ku hilangkan la virus covid ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid aamiin,yaal lah ya tuhan ku sembuhkan la semua pesakit covid yaal lah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaal lah ya tuhan ku hilangkan la virus covid ini dari muka bumi ini dengan segara yaal lah ya tuhan ku balikan la keadaan kami aman tiada virus covid aamiin


#### Custom Corrector <a class="anchor" id="custom_correct"></a>

In [58]:
def custom_corrector(in_text):
    
    in_text = re.sub(r'(\s|^)(\w)\2(\s|$)', ' ', in_text) #remove text like aa, bb, cc, ....
    #in_text = re.sub(r'((\w)\2)(\s|$)', r'\g<2> ', in_text) #replace eg: lagii -> lagi
    
    in_text = re.sub('(\s|^)(dk|der|dak|ad[o|e]*)(\s|$)', ' ada ', in_text)
    in_text = re.sub('(\s|^)(pe|ape|aper|ap|ap[o]+)(\s|$)', ' apa ', in_text)
    in_text = re.sub('(\s|^)ape(\s|$)', ' apa ', in_text)
    in_text = re.sub('(\s|^)aper(\s|$)', ' apa ', in_text)
    in_text = re.sub('(\s|^)ap(\s|$)', ' apa ', in_text)
    in_text = re.sub('(\s|^)apoo(\s|$)', ' apa ', in_text)
    in_text = re.sub('(\s|^)apepon(\s|$)', ' apa pun ', in_text)
    in_text = re.sub('(\s|^)awl(\s|$)', ' awal ', in_text)
    in_text = re.sub('(\s|^)(ku|ak|aq)(\s|$)', ' aku ', in_text)
    in_text = re.sub('(\s|^)akhr(\s|$)', ' akhir ', in_text)
    in_text = re.sub('(\s|^)atao(\s|$)', ' atau ', in_text)
    in_text = re.sub('(\s|^)ap[a]?s[a]?l(\s|$)', ' apa pasal ', in_text)
    in_text = re.sub('(\s|^)apes[a]?l(\s|$)', ' apa pasal ', in_text)
    in_text = re.sub('(\s|^)asl(\s|$)', ' asal ', in_text)
    in_text = re.sub('(\s|^)alpa(\s|$)', ' alpha ', in_text)
    in_text = re.sub('(\s|^)apapon(\s|$)', ' apa pun ', in_text)
    in_text = re.sub('(\s|^)apebenda(\s|$)', ' apa benda ', in_text)
    
    in_text = re.sub('(\s|^)b[r]?doa(\s|$)', ' berdoa ', in_text)
    in_text = re.sub('(\s|^)(bole|bolih|bolea|bloh)(\s|$)', ' boleh ', in_text)
    in_text = re.sub('(\s|^)bolehtak(\s|$)', ' boleh tak ', in_text)
    in_text = re.sub('(\s|^)benti(\s|$)', ' berhenti ', in_text)
    in_text = re.sub('(\s|^)bwh(\s|$)', ' bawah ', in_text)
    in_text = re.sub('(\s|^)b[a]?wak(\s|$)', ' bawa ', in_text)
    in_text = re.sub('(\s|^)bw(\s|$)', ' bawa ', in_text)
    in_text = re.sub('(\s|^)bdmnton(\s|$)', ' badminton ', in_text)
    in_text = re.sub('(\s|^)br(\s|$)', ' baru ', in_text)
    in_text = re.sub('(\s|^)bgkit(\s|$)', ' bangkit ', in_text)
    in_text = re.sub('(\s|^)bljar(\s|$)', ' belajar ', in_text)
    in_text = re.sub('(\s|^)bk[e]?rja(\s|$)', ' bekerja ', in_text)
    in_text = re.sub('(\s|^)bolum(\s|$)', ' belum ', in_text)
    in_text = re.sub('(\s|^)b[e]?t[o]?[l|i]?(\s|$)', ' betul ', in_text)
    in_text = re.sub('(\s|^)(bpe|brap)(\s|$)', ' berapa ', in_text)
    in_text = re.sub('(\s|^)bhenti(\s|$)', ' berhenti ', in_text)
    in_text = re.sub('(\s|^)bsatu(\s|$)', ' bersatu ', in_text)
    in_text = re.sub('(\s|^)btindak(\s|$)', ' bertindak ', in_text)
    in_text = re.sub('(\s|^)(blkg|bl[a]?k[a]?ng)(\s|$)', ' belakang ', in_text)
    in_text = re.sub('(\s|^)(btol|tui)(\s|$)', ' betul ', in_text)
    in_text = re.sub('(\s|^)bile(\s|$)', ' bila ', in_text)
    in_text = re.sub('(\s|^)b[u]?kk(\s|$)', ' buka ', in_text)
    in_text = re.sub('(\s|^)byngkan(\s|$)', ' bayangkan ', in_text)
    in_text = re.sub('(\s|^)blan(\s|$)', ' bulan ', in_text)
    in_text = re.sub('(\s|^)bendo(\s|$)', ' benda ', in_text)
    in_text = re.sub('(\s|^)bnjir(\s|$)', ' banjir ', in_text)
    # because 'hadapan' is stopwords
    in_text = re.sub('(\s|^)barisan hadapan(\s|$)', ' barisanhadapan ', in_text)
    in_text = re.sub('(\s|^)b[a]?h[a]?y[a]?(\s|$)', ' bahaya ', in_text)
    in_text = re.sub('(\s|^)berjln(\s|$)', ' jalan ', in_text)
    in_text = re.sub('(\s|^)bpe(\s|$)', ' berapa ', in_text)
    in_text = re.sub('(\s|^)bnding(\s|$)', ' banding ', in_text)
    in_text = re.sub('(\s|^)(berpose|b[e]?[r]?puasa)(\s|$)', ' berpuasa ', in_text)
    in_text = re.sub('(\s|^)bazar(\s|$)', ' bazaar ', in_text)
    in_text = re.sub('(\s|^)bwah(\s|$)', ' bawah ', in_text)
    in_text = re.sub('(\s|^)betui(\s|$)', ' betul ', in_text)
    in_text = re.sub('(\s|^)bg[i]?tau(\s|$)', ' bagi tahu ', in_text)
    in_text = re.sub('(\s|^)b[e]?k[e]?rjasama(\s|$)', ' bekerjasama ', in_text)
    in_text = re.sub('(\s|^)bgy(\s|$)', ' bagi ', in_text)
    in_text = re.sub('(\s|^)bdk(\s|$)', ' budak ', in_text)
    in_text = re.sub('(\s|^)bjaya(\s|$)', ' berjaya ', in_text)
    in_text = re.sub(r'(\s|^)bjamaah(\s|$)', ' berjamaah ', in_text)
    in_text = re.sub('(\s|^)bijkk(\s|$)', ' bijak ', in_text)
    in_text = re.sub(r'(\s|^)berthan(\s|$)', ' bertahan ', in_text)
    in_text = re.sub(r'(\s|^)b[a]?nyok(\s|$)', ' banyak ', in_text)
    in_text = re.sub('(\s|^)bykkan(\s|$)', ' banyak ', in_text)
    in_text = re.sub('(\s|^)bhgian(\s|$)', ' bahagian ', in_text)
    in_text = re.sub('(\s|^)bntuan(\s|$)', ' bantuan ', in_text)
    in_text = re.sub('(\s|^)brtmbah(\s|$)', ' bertambah ', in_text)
    in_text = re.sub('(\s|^)bbrapa(\s|$)', ' beberapa ', in_text)
    in_text = re.sub('(\s|^)sikal(\s|$)', ' basikal ', in_text)
    in_text = re.sub('(\s|^)bagun(\s|$)', ' bangun ', in_text)
    
    
    in_text = re.sub('(\s|^)(kobit|kobid|kovik|convid|convic|cocid|cvd|covic|covit|cov|vaksinn)(\s|$)', ' covid ', in_text)
    in_text = re.sub('(\s|^)confius(\s|$)', ' confuse ', in_text)
    in_text = re.sub('(\s|^)cmmt(\s|$)', ' comment ', in_text)
    in_text = re.sub('(\s|^)ckap(\s|$)', ' cakap ', in_text)
    in_text = re.sub('(\s|^)cigu(\s|$)', ' cikgu ', in_text)
    in_text = re.sub('(\s|^)(ct[ae])(\s|$)', ' cerita ', in_text)
    in_text = re.sub('(\s|^)brcmpr(\s|$)', ' campur ', in_text)
    in_text = re.sub(r'(\s|^)cg(\s|$)', ' cikgu ', in_text)
    in_text = re.sub('(\s|^)crta(\s|$)', ' carta ', in_text)
    in_text = re.sub('(\s|^)chepat(\s|$)', ' cepat ', in_text)
    

    in_text = re.sub('(\s|^)deta(\s|$)', ' data ', in_text)
    in_text = re.sub('(\s|^)dngn(\s|$)', ' dengan ', in_text)
    in_text = re.sub('(\s|^)dpan(\s|$)', ' depan ', in_text)
    in_text = re.sub('(\s|^)drp(\s|$)', ' daripada ', in_text)
    in_text = re.sub('(\s|^)dok(\s|$)', ' duduk ', in_text)
    in_text = re.sub('(\s|^)dlam(\s|$)', ' dalam ', in_text)
    in_text = re.sub('(\s|^)dtngny[a|e](\s|$)', ' datangnya ', in_text)
    in_text = re.sub('(\s|^)difhmkn(\s|$)', ' difahamkan ', in_text)
    in_text = re.sub('(\s|^)duk(\s|$)', ' duduk ', in_text)
    in_text = re.sub('(\s|^)d[i]?or[n]?g(\s|$)', ' dia orang ', in_text)
    in_text = re.sub('(\s|^)dsbbkan(\s|$)', ' disebabkan ', in_text)
    in_text = re.sub('(\s|^)di[a]?org(\s|$)', ' dia orang ', in_text)
    in_text = re.sub('(\s|^)dioarang(\s|$)', ' dia orang ', in_text)
    in_text = re.sub('(\s|^)displn(\s|$)', ' disiplin ', in_text)
    in_text = re.sub('(\s|^)dl(\s|$)', ' dulu ', in_text)
    in_text = re.sub('(\s|^)d[d]?uk(\s|$)', ' duduk ', in_text)
    in_text = re.sub('(\s|^)dgit(\s|$)', ' digit ', in_text)
    in_text = re.sub('(\s|^)dnt(\s|$)', ' dont ', in_text)
    in_text = re.sub('(\s|^)dibenrkan(\s|$)', ' dibenarkan ', in_text)
    in_text = re.sub(r'(\s|^)dpartment(\s|$)', ' department ', in_text)
    in_text = re.sub('(\s|^)dirumoh(\s|$)', ' di rumah ', in_text)
    in_text = re.sub('(\s|^)ditlg(\s|$)', ' tolong ', in_text)
    
    in_text = re.sub('(\s|^)esp(\s|$)', ' especially ', in_text)
    in_text = re.sub('(\s|^)(esk|vesok|besok)(\s|$)', ' esok ', in_text)
    
    in_text = re.sub('(\s|^)folo(\s|$)', ' follow ', in_text)
    in_text = re.sub('(\s|^)(paham|fhm|pham)(\s|$)', ' faham ', in_text)
    in_text = re.sub('(\s|^)[f|p]?kir(\s|$)', ' fikir ', in_text)
    in_text = re.sub('(\s|^)fmly(\s|$)', ' family ', in_text)
    in_text = re.sub('(\s|^)frnliner(\s|$)', ' frontliner ', in_text)
    
    in_text = re.sub('(\s|^)govt(\s|$)', ' government ', in_text)
    in_text = re.sub('(\s|^)goog(\s|$)', ' google ', in_text)
    
    in_text = re.sub('(\s|^)ari(\s|$)', ' hari ', in_text)
    in_text = re.sub('(\s|^)arap(\s|$)', ' harap ', in_text)
    in_text = re.sub('(\s|^)[h]?rini(\s|$)', ' hari ini ', in_text)
    in_text = re.sub('(\s|^)arini(\s|$)', ' hari ini ', in_text)
    in_text = re.sub('(\s|^)hrap(\s|$)', ' harap ', in_text)
    in_text = re.sub('(\s|^)habih(\s|$)', ' habis ', in_text)
    in_text = re.sub('(\s|^)hadiah(\s|$)', ' adiah ', in_text)
    in_text = re.sub('(\s|^)(spital|hosp)(\s|$)', ' hospital ', in_text)
    in_text = re.sub(r'(\s|^)h(e|a)+ll(o)+(\s|$)', ' hello ', in_text)
    in_text = re.sub('(\s|^)h[a]?sl(\s|$)', ' hasil ', in_text)
    in_text = re.sub('(\s|^)hmba(\s|$)', ' hamba ', in_text)
    in_text = re.sub('(\s|^)ujan(\s|$)', ' hujan ', in_text)
    in_text = re.sub('(\s|^)hta(\s|$)', ' hantar ', in_text)
    in_text = re.sub('(\s|^)hbz(\s|$)', ' habis ', in_text)
    in_text = re.sub('(\s|^)hrni(\s|$)', ' harini ', in_text)
    in_text = re.sub('(\s|^)arib[u]?l[a]?n(\s|$)', ' hari bulan ', in_text)
    in_text = re.sub('(\s|^)hjng(\s|$)', ' hujung ', in_text)
    in_text = re.sub('(\s|^)htr(\s|$)', ' hantar ', in_text)
    
    
    in_text = re.sub('(\s|^)idk(\s|$)', ' i don\'t know ', in_text)
    in_text = re.sub('(\s|^)nih(\s|$)', ' ini ', in_text)
    in_text = re.sub('(\s|^)ibubapa(\s|$)', ' ibu bapa ', in_text)
    in_text = re.sub('(\s|^)nei(\s|$)', ' ini ', in_text)
    in_text = re.sub('(\s|^)islm(\s|$)', ' islam ', in_text)
    in_text = re.sub('(\s|^)tue(\s|$)', ' itu ', in_text)
    in_text = re.sub('(\s|^)iany[a]?(\s|$)', ' ia nya ', in_text)
    in_text = re.sub(r'(\s|^)igt(\s|$)', ' ingat ', in_text)
    in_text = re.sub('(\s|^)ikot(\s|$)', ' ikut ', in_text)
    
    in_text = re.sub('(\s|^)jnji(\s|$)', ' janji ', in_text)
    in_text = re.sub('(\s|^)jgnlh(\s|$)', ' janganlah ', in_text)
    in_text = re.sub('(\s|^)jgkitan(\s|$)', ' jangkitan ', in_text)
    in_text = re.sub('(\s|^)jmpa(\s|$)', ' jumpa ', in_text)
    in_text = re.sub('(\s|^)jjln(\s|$)', ' jalan ', in_text)
    in_text = re.sub('(\s|^)jel(\s|$)', ' jail ', in_text)
    in_text = re.sub('(\s|^)jmlah(\s|$)', ' jumlah ', in_text)
    in_text = re.sub('(\s|^)jwtn(\s|$)', ' jawatan ', in_text)
    
    in_text = re.sub('(\s|^)(kecian|sian|kcian)(\s|$)', ' kesian ', in_text)
    in_text = re.sub('(\s|^)kate(\s|$)', ' kata ', in_text)
    in_text = re.sub('(\s|^)kite(\s|$)', ' kita ', in_text)
    in_text = re.sub('(\s|^)kaseh(\s|$)', ' kasih ', in_text)
    in_text = re.sub('(\s|^)kdai(\s|$)', ' kedai ', in_text)
    in_text = re.sub('(\s|^)(kuar|kluaq)(\s|$)', ' keluar ', in_text)
    in_text = re.sub('(\s|^)kluaq(\s|$)', ' keluar ', in_text)
    in_text = re.sub('(\s|^)kna(\s|$)', ' kena ', in_text)
    in_text = re.sub('(\s|^)kal[a]?o(\s|$)', ' kalau ', in_text)
    in_text = re.sub('(\s|^)n[a]?p[a|e]+(\s|$)', ' kenapa ', in_text)
    in_text = re.sub('(\s|^)nape(\s|$)', ' kenapa ', in_text)
    in_text = re.sub('(\s|^)kja(\s|$)', ' kerja ', in_text)
    in_text = re.sub('(\s|^)ksian(\s|$)', ' kesian ', in_text)
    in_text = re.sub('(\s|^)kmatian(\s|$)', ' kematian ', in_text)
    in_text = re.sub('(\s|^)kmtian(\s|$)', ' kematian ', in_text)
    in_text = re.sub('(\s|^)kjaan(\s|$)', ' kerajaan ', in_text)
    in_text = re.sub('(\s|^)kalini(\s|$)', ' kali ini ', in_text)
    # although 'kawin' is same as 'kahwin', we normalize it into one words to reduce word dimension size
    in_text = re.sub('(\s|^)(kwen|kawin)(\s|$)', ' kahwin ', in_text) 
    in_text = re.sub('(\s|^)kitorg(\s|$)', ' kita orang ', in_text)
    in_text = re.sub('(\s|^)(k[r]?eta|keter)(\s|$)', ' kereta ', in_text)
    in_text = re.sub('(\s|^)korng(\s|$)', ' korang ', in_text)
    in_text = re.sub('(\s|^)kamp[o]?ng(\s|$)', ' kampung ', in_text)
    in_text = re.sub('(\s|^)kilng(\s|$)', ' kilang ', in_text)
    in_text = re.sub('(\s|^)klakar(\s|$)', ' kelakar ', in_text)
    in_text = re.sub('(\s|^)kuarintin(\s|$)', ' kuarantin ', in_text)
    in_text = re.sub('(\s|^)(krngkn|kurg)(\s|$)', ' kurang ', in_text)
    in_text = re.sub('(\s|^)klmarin(\s|$)', ' kelmarin ', in_text)
    in_text = re.sub('(\s|^)(kmpong|kmpg)(\s|$)', ' kampung ', in_text)
    in_text = re.sub('(\s|^)kbykkan(\s|$)', ' kebanyakkan ', in_text)
    in_text = re.sub('(\s|^)bkumpul(\s|$)', ' berkumpul ', in_text)
    in_text = re.sub('(\s|^)kesah(\s|$)', ' kisah ', in_text)
    in_text = re.sub('(\s|^)kwn(\s|$)', ' kawan ', in_text)
    in_text = re.sub('(\s|^)klua(\s|$)', ' keluar ', in_text)
    in_text = re.sub('(\s|^)k[e]?benrn(\s|$)', ' kebenaran ', in_text)
    in_text = re.sub('(\s|^)kecemsn(\s|$)', ' kecemasan ', in_text)
    in_text = re.sub(r'(\s|^)kilg(\s|$)', ' kilang ', in_text)
    in_text = re.sub('(\s|^)jap(\s|$)', ' kejap ', in_text)
    in_text = re.sub('(\s|^)bkurg(\s|$)', ' kurang ', in_text)
    in_text = re.sub(r'(\s|^)nasi kandaq(\s|$)', ' nasi kandar ', in_text)
    
    
    
    in_text = re.sub('(\s|^)lyn(\s|$)', ' layan ', in_text)
    in_text = re.sub('(\s|^)lock down(\s|$)', ' lockdown ', in_text)
    in_text = re.sub('(\s|^)(lagy|lgi)(\s|$)', ' lagi ', in_text)
    in_text = re.sub('(\s|^)p[a]?st[uo](\s|$)', ' lepas itu ', in_text)
    in_text = re.sub('(\s|^)(pahtu|lpstu)(\s|$)', ' lepas itu ', in_text)
    in_text = re.sub('(\s|^)lmbt(\s|$)', ' lambat ', in_text)
    in_text = re.sub('(\s|^)lp(\s|$)', ' lupa ', in_text)
    in_text = re.sub('(\s|^)laki(\s|$)', ' lelaki ', in_text)
    in_text = re.sub('(\s|^)l[e]?p[a]?s(\s|$)', ' lepas ', in_text)
    in_text = re.sub('(\s|^)l[e]?m[a]?h(\s|$)', ' lemah ', in_text)
    in_text = re.sub('(\s|^)pas(\s|$)', ' lepas itu ', in_text)
    in_text = re.sub('(\s|^)lp[a]?sni(\s|$)', ' lepas ini ', in_text)
    in_text = re.sub('(\s|^)ltk(\s|$)', ' letak ', in_text)
    
    
    in_text = re.sub('(\s|^)((mcm((na)|(mn)))|(camn[ae]))(\s|$)', ' macam mana ', in_text)
    in_text = re.sub('(\s|^)(m[a]?c[a]?m[m]?ana)(\s|$)', ' macam mana ', in_text)
    in_text = re.sub('(\s|^)cmn[ea](\s|$)', ' macam mana ', in_text)
    in_text = re.sub('(\s|^)mls(\s|$)', ' malas ', in_text)
    in_text = re.sub('(\s|^)ml[a]?ysia(\s|$)', ' malaysia ', in_text)
    in_text = re.sub('(\s|^)malaysua(\s|$)', ' malaysia ', in_text)
    in_text = re.sub('(\s|^)(masik|maseh)(\s|$)', ' masih ', in_text)
    in_text = re.sub('(\s|^)m[n]?[g]?gu(\s|$)', ' minggu ', in_text)
    in_text = re.sub('(\s|^)mri(\s|$)', ' mari ', in_text)
    in_text = re.sub('(\s|^)mnipu(\s|$)', ' menipu ', in_text)
    in_text = re.sub('(\s|^)mnusia(\s|$)', ' manusia ', in_text)
    in_text = re.sub('(\s|^)menrun(\s|$)', ' menurun ', in_text)
    in_text = re.sub('(\s|^)msti(\s|$)', ' mesti ', in_text)
    in_text = re.sub('(\s|^)mnang(\s|$)', ' menang ', in_text)
    in_text = re.sub('(\s|^)msing(\s|$)', ' masing ', in_text)
    in_text = re.sub('(\s|^)mnsia(\s|$)', ' manusia ', in_text)
    in_text = re.sub('(\s|^)mnurun(\s|$)', ' menurun ', in_text)
    in_text = re.sub('(\s|^)mslahnya(\s|$)', ' masalahnya ', in_text)
    in_text = re.sub('(\s|^)c[a]?mtu(\s|$)', ' macam itu ', in_text)
    in_text = re.sub('(\s|^)(camni|mcmni)(\s|$)', ' macam ini ', in_text)
    in_text = re.sub('(\s|^)cam(\s|$)', ' macam ', in_text)
    in_text = re.sub('(\s|^)mule(\s|$)', ' mula ', in_text)
    in_text = re.sub('(\s|^)m[a]?sok(\s|$)', ' masuk ', in_text)
    in_text = re.sub('(\s|^)mngement(\s|$)', ' management ', in_text)
    in_text = re.sub('(\s|^)mw(\s|$)', ' mahu ', in_text)
    in_text = re.sub('(\s|^)mrebak(\s|$)', ' merebak ', in_text)
    in_text = re.sub('(\s|^)macamx(\s|$)', ' macam tak ', in_text)
    in_text = re.sub('(\s|^)mta(\s|$)', ' mata ', in_text)
    in_text = re.sub('(\s|^)m[a]?l[a]?m(\s|$)', ' malam ', in_text)
    in_text = re.sub('(\s|^)mcam(\s|$)', ' macam ', in_text)
    in_text = re.sub('(\s|^)m[a]?kcik(\s|$)', ' mak cik ', in_text)
    in_text = re.sub('(\s|^)menten(\s|$)', ' maintain ', in_text)
    in_text = re.sub('(\s|^)m[e]?l[a]?nc[o]?ng(\s|$)', ' melancong ', in_text)
    in_text = re.sub('(\s|^)mlbihi(\s|$)', ' melebihi ', in_text)
    in_text = re.sub('(\s|^)menteli(\s|$)', ' menteri ', in_text)
    in_text = re.sub('(\s|^)mkna(\s|$)', ' makna ', in_text)
    in_text = re.sub('(\s|^)mtk(\s|$)', ' minta ', in_text)
    in_text = re.sub('(\s|^)mga(\s|$)', ' moga ', in_text)
    in_text = re.sub('(\s|^)mningkat(\s|$)', ' meningkat ', in_text)
    
    #in_text = re.sub('(\s|^)ngeri(\s|$)', ' negeri ', in_text) 
    in_text = re.sub('(\s|^)nogori(\s|$)', ' negeri ', in_text)
    in_text = re.sub('(\s|^)nmpak(\s|$)', ' nampak ', in_text)
    in_text = re.sub('(\s|^)nma(\s|$)', ' nama ', in_text)
    in_text = re.sub('(\s|^)ngra(\s|$)', ' negara ', in_text)
    in_text = re.sub('(\s|^)nm(\s|$)', ' namum ', in_text)
    in_text = re.sub('(\s|^)nsb bek(\s|$)', ' nasib baik ', in_text)
    in_text = re.sub(r'(\s|^)nkpi(\s|$)', ' nak pergi ', in_text)
    in_text = re.sub(r'(\s|^)npk(\s|$)', ' nampak ', in_text)
    in_text = re.sub('(\s|^)nonit(\s|$)', ' no need ', in_text)
    
    
    in_text = re.sub('(\s|^)opis(\s|$)', ' office ', in_text)
    
    in_text = re.sub('(\s|^)pndai(\s|$)', ' pandai ', in_text)
    in_text = re.sub('(\s|^)(prgi|gi|pi)(\s|$)', ' pergi ', in_text)
    in_text = re.sub('(\s|^)pntai(\s|$)', ' pantai ', in_text)
    in_text = re.sub('(\s|^)prnyakit(\s|$)', ' penyakit ', in_text)
    in_text = re.sub('(\s|^)prkara(\s|$)', ' perkara ', in_text)
    in_text = re.sub('(\s|^)(plak|pulk)(\s|$)', ' pula ', in_text)
    in_text = re.sub('(\s|^)(p[a]?y[a]?h|paya)(\s|$)', ' payah ', in_text)
    in_text = re.sub('(\s|^)pnyakit(\s|$)', ' penyakit ', in_text)
    in_text = re.sub('(\s|^)posa(\s|$)', ' puasa ', in_text)
    in_text = re.sub('(\s|^)(pelek|plik)(\s|$)', ' pelik ', in_text)
    in_text = re.sub('(\s|^)pkjaan(\s|$)', ' pekerjaan ', in_text)
    in_text = re.sub('(\s|^)psl(\s|$)', ' pasal ', in_text)
    in_text = re.sub('(\s|^)politikus(\s|$)', ' politik ', in_text)
    in_text = re.sub('(\s|^)ptt(\s|$)', ' patut ', in_text)
    in_text = re.sub('(\s|^)ples(\s|$)', ' please ', in_text)
    in_text = re.sub('(\s|^)pnjg(\s|$)', ' panjang ', in_text)
    in_text = re.sub('(\s|^)pown(\s|$)', ' pun ', in_text)
    in_text = re.sub('(\s|^)prk(\s|$)', ' perak ', in_text)
    in_text = re.sub('(\s|^)pom(\s|$)', ' pun ', in_text)
    in_text = re.sub('(\s|^)pk[u]?l(\s|$)', ' pukul ', in_text)
    in_text = re.sub('(\s|^)pasau(\s|$)', ' pasar ', in_text)
    in_text = re.sub('(\s|^)fositif(\s|$)', ' positive ', in_text)
    in_text = re.sub('(\s|^)ptg(\s|$)', ' petang ', in_text)
    in_text = re.sub('(\s|^)ppl(\s|$)', ' people ', in_text)
    in_text = re.sub('(\s|^)patoh(\s|$)', ' patuh ', in_text)
    in_text = re.sub('(\s|^)pnurunan(\s|$)', ' turun ', in_text)
    
    
    in_text = re.sub('(\s|^)rky[a]?t(\s|$)', ' rakyat ', in_text)
    in_text = re.sub('(\s|^)rsa(\s|$)', ' rasa ', in_text)
    in_text = re.sub('(\s|^)redzona(\s|$)', ' redzone ', in_text)
    in_text = re.sub('(\s|^)umh(\s|$)', ' rumah ', in_text)
    in_text = re.sub('(\s|^)rkan(\s|$)', ' rakan ', in_text)
    in_text = re.sub('(\s|^)gumah(\s|$)', ' rumah ', in_text)
    in_text = re.sub('(\s|^)(ralyat|ryt|rakyt)(\s|$)', ' rakyat ', in_text)
    in_text = re.sub('(\s|^)roblock(\s|$)', ' roadblock ', in_text)
    in_text = re.sub('(\s|^)rile[kx](\s|$)', ' relex ', in_text)
    in_text = re.sub('(\s|^)rmai(\s|$)', ' ramai ', in_text)
    in_text = re.sub('(\s|^)rsau(\s|$)', ' risau ', in_text)
    in_text = re.sub('(\s|^)[b]?r[a]?ya(\s|$)', ' raya ', in_text)
    in_text = re.sub('(\s|^)mrasa(\s|$)', ' rasa ', in_text)
    in_text = re.sub('(\s|^)rangkian(\s|$)', ' rangkaian ', in_text)
    in_text = re.sub('(\s|^)rilek[s]?(\s|$)', ' relax ', in_text)
    
    
    
    in_text = re.sub('(\s|^)(sabo|sabaq|sbar|sabor)(\s|$)', ' sabar ', in_text)
    in_text = re.sub('(\s|^)(smua|smuanya)(\s|$)', ' semua ', in_text)
    in_text = re.sub('(\s|^)slagi(\s|$)', ' selagi ', in_text)
    in_text = re.sub('(\s|^)s[e]?b[a]?bk[a]?n(\s|$)', ' sebab ', in_text)
    in_text = re.sub('(\s|^)sb(\s|$)', ' sebab ', in_text)
    in_text = re.sub('(\s|^)smbung(\s|$)', ' sambung ', in_text)
    in_text = re.sub('(\s|^)s[e]?mlm(\s|$)', ' semalam ', in_text)
    in_text = re.sub('(\s|^)sum[ea](\s|$)', ' semua ', in_text)
    in_text = re.sub('(\s|^)smu[ea](\s|$)', ' semua ', in_text)
    in_text = re.sub('(\s|^)(sma|samo)(\s|$)', ' sama ', in_text)
    in_text = re.sub('(\s|^)s[a]?mp[a]?[i\1]+(\s|$)', ' sampai ', in_text)
    in_text = re.sub('(\s|^)sgor(\s|$)', ' selangor ', in_text)
    in_text = re.sub('(\s|^)slngor(\s|$)', ' selangor ', in_text)
    in_text = re.sub('(\s|^)(slps|slepas)(\s|$)', ' selepas ', in_text)
    in_text = re.sub('(\s|^)slpas(\s|$)', ' selepas ', in_text)
    in_text = re.sub('(\s|^)sm[i]?[n]?g[g]?u(\s|$)', ' seminggu ', in_text)
    in_text = re.sub('(\s|^)slalunya(\s|$)', ' selalunya ', in_text)
    in_text = re.sub('(\s|^)sng(\s|$)', ' senang ', in_text)
    in_text = re.sub('(\s|^)sy[ae](\s|$)', ' saya ', in_text)
    in_text = re.sub('(\s|^)sgpora(\s|$)', ' singapora ', in_text)
    in_text = re.sub('(\s|^)sapa(\s|$)', ' siapa ', in_text)
    in_text = re.sub('(\s|^)sk[a]?ng(\s|$)', ' sekarang ', in_text)
    in_text = re.sub('(\s|^)sekrg(\s|$)', ' sekarang ', in_text)
    in_text = re.sub('(\s|^)(da|suda)(\s|$)', ' sudah ', in_text)
    in_text = re.sub('(\s|^)simpn(\s|$)', ' simpan ', in_text)
    in_text = re.sub('(\s|^)ckt(\s|$)', ' sikit ', in_text)
    in_text = re.sub('(\s|^)sch(\s|$)', ' school ', in_text)
    in_text = re.sub('(\s|^)s[a]?l[a]?h(\s|$)', ' salah ', in_text)
    in_text = re.sub('(\s|^)s[a]?l[a]?hkan(\s|$)', ' salahkan ', in_text)
    in_text = re.sub('(\s|^)s[e]?g[e]?r[a]?(\s|$)', ' segera ', in_text)
    in_text = re.sub('(\s|^)samad(a|e)?(\s|$)', ' sama ada ', in_text)
    in_text = re.sub('(\s|^)[cs]ni(\s|$)', ' sini ', in_text)
    in_text = re.sub('(\s|^)(suh|suroh)(\s|$)', ' suruh ', in_text)
    in_text = re.sub('(\s|^)sdgkan(\s|$)', ' sedangkan ', in_text)
    in_text = re.sub('(\s|^)(jela|sj|jelahh|jelah)(\s|$)', ' saja ', in_text)
    in_text = re.sub('(\s|^)s[a]?h[a]?j[a]?(\s|$)', ' sahaja ', in_text)
    in_text = re.sub('(\s|^)sm(\s|$)', ' sama ', in_text)
    in_text = re.sub('(\s|^)skolh(\s|$)', ' sekolah ', in_text)
    in_text = re.sub('(\s|^)sty(\s|$)', ' stay ', in_text)
    in_text = re.sub('(\s|^)sngat(\s|$)', ' sangat ', in_text)
    in_text = re.sub('(\s|^)sp[a]?ya(\s|$)', ' supaya ', in_text)
    in_text = re.sub('(\s|^)sdiri(\s|$)', ' sendiri ', in_text)
    in_text = re.sub('(\s|^)sbuk(\s|$)', ' sibuk ', in_text)
    in_text = re.sub('(\s|^)s[e]?muga(\s|$)', ' semoga ', in_text)
    in_text = re.sub('(\s|^)s[e]?k[e]?j[a]?p(\s|$)', ' sekejap ', in_text)
    in_text = re.sub('(\s|^)sebernonye(\s|$)', ' sebenarnya ', in_text)
    in_text = re.sub('(\s|^)s[e]?h[a]?ri(\s|$)', ' sehari ', in_text)
    in_text = re.sub('(\s|^)(sorang|sowg)(\s|$)', ' seorang ', in_text)
    in_text = re.sub('(\s|^)kendiri(\s|$)', ' sendiri ', in_text)
    in_text = re.sub('(\s|^)sebelom(\s|$)', ' sebelum ', in_text)
    in_text = re.sub('(\s|^)sptutnya(\s|$)', ' sepatutnya ', in_text)
    in_text = re.sub('(\s|^)sdia(\s|$)', ' sedia ', in_text)
    in_text = re.sub('(\s|^)smbuh(\s|$)', ' sembuh ', in_text)
    in_text = re.sub('(\s|^)silapnyer(\s|$)', ' silap ', in_text)
    in_text = re.sub(r'(\s|^)srh(\s|$)', ' suruh ', in_text)
    in_text = re.sub(r'(\s|^)sholat(\s|$)', ' solat ', in_text)
    in_text = re.sub(r'(\s|^)stndby(\s|$)', ' standby ', in_text)
    in_text = re.sub(r'(\s|^)stgi(\s|$)', ' nanti ', in_text) #stgi = saat-lagi = nanti
    in_text = re.sub('(\s|^)nntikan(\s|$)', ' nantikan ', in_text)
    in_text = re.sub(r'(\s|^)seksiap(\s|$)', ' sekolah ', in_text)
    in_text = re.sub('(\s|^)sesgt(\s|$)', ' sangat ', in_text)
    in_text = re.sub('(\s|^)seriyes(\s|$)', ' serious ', in_text)
    in_text = re.sub('(\s|^)sesapa(\s|$)', ' sesiapa ', in_text)
    in_text = re.sub('(\s|^)selsema(\s|$)', ' selesema ', in_text)
    in_text = re.sub('(\s|^)strusnya(\s|$)', ' seterusnya ', in_text)
    in_text = re.sub('(\s|^)sdra(\s|$)', ' saudara ', in_text)
    in_text = re.sub('(\s|^)strt(\s|$)', ' start ', in_text)
    in_text = re.sub('(\s|^)sedara mare(\s|$)', ' suadara mara ', in_text)
    
    
    in_text = re.sub('(\s|^)td(\s|$)', ' tadi ', in_text)
    in_text = re.sub('(\s|^)tpuk(\s|$)', ' tepuk ', in_text)
    in_text = re.sub('(\s|^)tegor(\s|$)', ' tegur ', in_text)
    in_text = re.sub('(\s|^)tmat(\s|$)', ' tamat ', in_text)
    in_text = re.sub('(\s|^)taun(\s|$)', ' tahun ', in_text)
    in_text = re.sub('(\s|^)(tkt|t[a]?k[uo]t)(\s|$)', ' takut ', in_text)
    in_text = re.sub('(\s|^)tkotkn(\s|$)', ' takutkan ', in_text)
    in_text = re.sub('(\s|^)tmpat(\s|$)', ' tempat ', in_text)
    in_text = re.sub('(\s|^)(tgok|tngk)(\s|$)', ' tengok ', in_text)
    in_text = re.sub('(\s|^)tlh(\s|$)', ' telah ', in_text)
    in_text = re.sub('(\s|^)tt[a]?pi(\s|$)', ' tetapi ', in_text)
    in_text = re.sub('(\s|^)t[g]?gi(\s|$)', ' tinggi ', in_text)
    in_text = re.sub('(\s|^)(tg|t[n]?g[g]?u)(\s|$)', ' tunggu ', in_text)
    in_text = re.sub('(\s|^)(trn|trun)(\s|$)', ' turun ', in_text)
    in_text = re.sub('(\s|^)ttup(\s|$)', ' tutup ', in_text)
    in_text = re.sub('(\s|^)t[r]?[i]?ma(\s|$)', ' terima ', in_text)
    in_text = re.sub('(\s|^)tk[a]?sih(\s|$)', ' terima kasih ', in_text)
    in_text = re.sub('(\s|^)takpayh(\s|$)', ' tak payah ', in_text)
    in_text = re.sub('(\s|^)tggjawab(\s|$)', ' tanggung jawab ', in_text)
    in_text = re.sub('(\s|^)tganu(\s|$)', ' terengganu ', in_text)
    in_text = re.sub('(\s|^)t[a]?kyah(\s|$)', ' tak payah ', in_text)
    in_text = re.sub('(\s|^)tak y[a]?h(\s|$)', ' tak payah ', in_text)
    in_text = re.sub('(\s|^)taw(\s|$)', ' tahu ', in_text)
    in_text = re.sub('(\s|^)tba(\s|$)', ' tiba ', in_text)
    in_text = re.sub('(\s|^)terok(\s|$)', ' teruk ', in_text)
    in_text = re.sub('(\s|^)tau(\s|$)', ' tahu ', in_text)
    in_text = re.sub('(\s|^)ta(\s|$)', ' tak ', in_text)
    in_text = re.sub('(\s|^)tlong(\s|$)', ' tolong ', in_text)
    in_text = re.sub('(\s|^)tak pa(\s|$)', ' tak apa ', in_text)
    in_text = re.sub('(\s|^)ttba(\s|$)', ' tertiba ', in_text)
    in_text = re.sub('(\s|^)idak(\s|$)', ' tidak ', in_text)
    in_text = re.sub('(\s|^)d[i]?tutup(\s|$)', ' tutup ', in_text)
    in_text = re.sub('(\s|^)tmsok(\s|$)', ' termasuk ', in_text)
    in_text = re.sub('(\s|^)tnd[a]?k[a]?n(\s|$)', ' tindakan ', in_text)
    in_text = re.sub('(\s|^)tertnya(\s|$)', ' tertanya ', in_text)
    in_text = re.sub('(\s|^)t[e]?rk[a]?w[a]?l(\s|$)', ' terkawal ', in_text)
    in_text = re.sub('(\s|^)tnggal(\s|$)', ' tinggal ', in_text)
    in_text = re.sub(r'(\s|^)tkl[e]?h(\s|$)', ' tak boleh ', in_text)
    in_text = re.sub('(\s|^)tats(\s|$)', ' thats ', in_text)
    in_text = re.sub('(\s|^)tngguh(\s|$)', ' tangguh ', in_text)
    in_text = re.sub('(\s|^)tampa(\s|$)', ' tanpa ', in_text)
    in_text = re.sub('(\s|^)trjejas(\s|$)', ' jejas ', in_text)
    
    
    in_text = re.sub('(\s|^)untong(\s|$)', ' untung ', in_text)
    in_text = re.sub('(\s|^)utuk(\s|$)', ' untuk ', in_text)
    in_text = re.sub('(\s|^)ulg(\s|$)', ' ulang ', in_text)
    
    in_text = re.sub('(\s|^)(vaccinna|baksin|vax)(\s|$)', ' vaccine ', in_text)
    
    in_text = re.sub('(\s|^)(wlaupn|wlupun|walaupon|walupon|wpun|wpun)(\s|$)', ' walaupun ', in_text)
    
    in_text = re.sub('(\s|^)youra(\s|$)', ' you are ', in_text)
    
    
    in_text = re.sub(r'(\s|^)itula[\w]*(\s|$)', ' itulah ', in_text)
    in_text = re.sub(r'(\s|^)b[\w]*i[\w]*l[\w]*a[\w]*(\s|$)', ' bila ', in_text)
    in_text = re.sub(r'(\s|^)(n\1)+(y\1)+(a\1)+(\s|$)', ' nya ', in_text)
    in_text = re.sub(r'(\s|^)l[\w]*b[\w]*h[\w]*(\s|$)', ' lebih ', in_text)
    in_text = re.sub(r'(\s|^)[a\1]+[m\1]+[i\1]+[n\1]+(\s|$)', ' amin ', in_text)
    in_text = re.sub(r'(\s|^)[a\1]+[i\1]+[k\1]+(\s|$)', ' ', in_text)
    in_text = re.sub(r'(\s|^)[a\1]+[i\1]+(\s|$)', ' ', in_text)
    in_text = re.sub(r'(\s|^)[k\1]+[m\1]+(\s|$)', ' kkm ', in_text)
    in_text = re.sub(r'(\s|^)[p\1]+[l\1]+[s\1]+(\s|$)', ' please ', in_text)
    in_text = re.sub(r'(\s|^)[p\1]+[l\1]+[i\1]+[s\1]+(\s|$)', ' please ', in_text)
    
    
    in_text = re.sub(r'(\s|^)zmn(\s|$)', ' zaman ', in_text)
    
    in_text = re.sub(r'(\s|^)kuala lumpur(\s|$)', ' ', in_text)
    in_text = re.sub(r'(\s|^)pulau pinang(\s|$)', ' ', in_text)
    in_text = re.sub(r'(\s|^)pulau penang(\s|$)', ' ', in_text)
    in_text = re.sub(r'(\s|^)sungai buloh(\s|$)', ' ', in_text)
    in_text = re.sub(r'(\s|^)bukit jalil(\s|$)', ' ', in_text)
    in_text = re.sub(r'(\s|^)…(\s|$)', ' ', in_text)
    
    
    
    #dialek
    in_text = re.sub('(\s|^)malaih(\s|$)', ' malas ', in_text)
    in_text = re.sub('(\s|^)susag(\s|$)', ' susah ', in_text)
    in_text = re.sub('(\s|^)teruih(\s|$)', ' terus ', in_text)
    in_text = re.sub('(\s|^)mo(\s|$)', ' mahu ', in_text)
    
    #convert trailing 'kn' -> 'kan'
    in_text = re.sub(r'(kn)(\s|$)', 'kan ', in_text)
    #convert trailing 'lh' -> 'lah'
    in_text = re.sub(r'(lh)(\s|$)', 'lah ', in_text)
    
    
    in_text = re.sub('(\s|^)jkan(\s|$)', ' jkn ', in_text)
    in_text = re.sub('(\s|^)mkan(\s|$)', ' mkn ', in_text)
    in_text = re.sub(r'(\s|^)bersabaq(\s|$)', ' sabar ', in_text)
    
    #final cleanse
    #remove duplicate words side by side, eg: hi hi awak -> hi awak
    in_text = re.sub(r'\b(\w+)( \1\b)+', r'\1', in_text)
    in_text = re.sub(r'(\s)(tidak|tak)$', r' ', in_text)
    in_text = ' '.join([x for x in in_text.split()])
    in_text = re.sub('(\s|^)-(\s|$)', ' ', in_text) #at least -> sekurang - kurangnya (translated in normalized)
    return in_text

In [59]:
df_raw['check'] = df_raw['normalized'].apply(custom_corrector) 
df_raw

Unnamed: 0,date,text,sentiment,processed,normalized,check
0,20210221,#dsnr salam dato.. lebih kurang 15km dari rumah ke kilang tu dato.. pkp pkb pkpp masih tidak turun2 kes...cara pengurusan tunggang terbalik.. kejap buka kejap tutup kejap buka kejap tutup.. begini gayanya 10tahun pun tak habis..,negative,salam dato lebih kurang km dari rumah ke kilang tu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tak habis,salam dato lebih kurang km dari rumah ke kilang itu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tidak habis,salam dato lebih kurang kkm dari rumah ke kilang itu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tidak habis
1,20210204,"#noorhishamabdullah you’re not dr.fauci material, you’re just pn grabmart boy",negative,you re not dr fauci material you re just pn grabmart boy,you re not dr fauci material you re just pun grabmart boy,you re not dr fauci material you re just pun grabmart boy
2,20210130,#share dan #like page #the_information_news untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani (selatan thailand). link : https://www.facebook.com/theinformationnews/,neutral,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link
3,20210202,"1 dunia sedang & terus diperbodohkan dgn agenda2 yahudi ekonomi dunia.. covid & pkp ni rkyat dah bosan & serik.. sbb klau x kais, x sodok la.. mcm mna pun nk kena kais jugak.. ingt 1 je, kais yg halal demi allah swt. klau dh smpai ajal nnti mati jugak..☝🏾",negative,satu dunia sedang and terus diperbodohkan dgn agenda yahudi ekonomi dunia covid and pkp ni rkyat dah bosan and serik sbb klau tak kais tak sodok la mcm mna pun nk kena kais jugak ingt satu je kais yg halal demi allah swt klau dh smpai ajal nnti mati jugak,satu dunia sedang and terus diperbodohkan dengan agenda yahudi ekonomi dunia covid and pkp ini rkyat dah bosan and serik sebab kalau tidak kais tidak sodok la macam mana pun nak kena kais juga ingat satu sahaja kais yang halal demi allah swt kalau dah sampai ajal nanti mati juga,satu dunia sedang and terus diperbodohkan dengan agenda yahudi ekonomi dunia covid and pkp ini rakyat dah bosan and serik sebab kalau tidak kais tidak sodok la macam mana pun nak kena kais juga ingat satu sahaja kais yang halal demi allah swt kalau dah sampai ajal nanti mati juga
4,20210206,1 hari sy harap angka nie turun single digit mcm kita capai 0 case 3hari berturut2 sebelum nie..doakan n sama2 la kita follow sop guys..🤲,positive,satu hari sy harap angka nie turun single digit mcm kita capai zero case hari berturut sebelum nie doakan sama la kita follow sop guys,satu hari sy harap angka ini turun single digit macam kita capai zero case hari berturut sebelum ini doakan sama la kita follow sop guys,satu hari sy harap angka ini turun single digit macam kita capai zero case hari berturut sebelum ini doakan sama la kita follow sop guys
...,...,...,...,...,...,...
7902,20210121,wish,positive,wish,wish,wish
7903,20210123,"ya allah.. sy rasa satu pkra kita terlepas pandang.. kita lupa mntk tlg pd allah.. dulu ada solat hajat..bacaan yasin.. skrg x ada lagi.. buat la lockdown lama mana pun.. jaga la sop mcm mna pn, kalau kita x mntk tlg pd allah, tetap kes makin tggi sbb allah murka.. mohon pihak yg di atas utarakan pd yg berkenaan.. setiap pagi satu jam siaran baca yasin di radio, televisyen dan semua media massa. adakan solat hajat beramai2 di rumah. mungkin salah sorg dari kita doanya dimakbulkan allah.. kita contohi negara brunei.. yg baik kita ambil.. mohon sama2 kita sampaikan pd pm kita.. hanya allah shj tempat kita memohon pertolongan.. dalam al quran pn ada tulis.. kun fayakun.. jadi, maka jadikan lah..",positive,ya allah sy rasa satu pkra kita terlepas pandang kita lupa mntk tlg pd allah dulu ada solat hajat bacaan yasin skrg tak ada lagi buat la lockdown lama mana pun jaga la sop mcm mna pn kalau kita tak mntk tlg pd allah tetap kes makin tggi sbb allah murka mohon pihak yg di atas utarakan pd yg berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yg baik kita ambil mohon sama kita sampaikan pd pm kita hanya allah shj tempat kita memohon pertolongan dalam al quran pn ada tulis kun fayakun jadi maka jadikan lah,ya allah sy rasa satu pkra kita terlepas pandang kita lupa minta tolong pada allah dahulu ada solat hajat bacaan yasin sekarang tidak ada lagi buat la lockdown lama mana pun jaga la sop macam mana pun kalau kita tidak minta tolong pada allah tetap kes makin tggi sebab allah murka mohon pihak yang di atas utarakan pada yang berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yang baik kita ambil mohon sama kita sampaikan pada pm kita hanya allah shj tempat kita memohon pertolongan dalam al quran pun ada tulis kun fayakun jadi maka jadikan lah,ya allah sy rasa satu pkra kita terlepas pandang kita lupa minta tolong pada allah dahulu ada solat hajat bacaan yasin sekarang tidak ada lagi buat la lockdown lama mana pun jaga la sop macam mana pun kalau kita tidak minta tolong pada allah tetap kes makin tinggi sebab allah murka mohon pihak yang di atas utarakan pada yang berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yang baik kita ambil mohon sama kita sampaikan pada pm kita hanya allah sahaja tempat kita memohon pertolongan dalam al quran pun ada tulis kun fayakun jadi maka jadikan lah
7904,20210124,ya allah mari kita brdoa bnyk2 smoga allah ampunkn dosa kita smua..hrp sngt cpat smbuh hlng smuanya amin..🤲🤲🤲🤲,positive,ya allah mari kita brdoa bnyk smoga allah ampunkn dosa kita smua hrp sngt cpat smbuh hlng smuanya amin,ya allah mari kita brdoa banyak semoga allah ampunkn dosa kita semua harap sangat cpat smbuh hlng smuanya amin,ya allah mari kita berdoa banyak semoga allah ampunkan dosa kita semua harap sangat cpat sembuh hlng semua amin
7905,20210125,yaallah ya tuhan ku sembuhkan la semua pesakit covid 19 yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid 19 yaallah ya tuhan ku hilangkan la virus covid 19 ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid 19 aamiin2,positive,yaallah ya tuhan ku sembuhkan la semua pesakit covid yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaallah ya tuhan ku hilangkan la virus covid ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid aamiin,yaal lah ya tuhan ku sembuhkan la semua pesakit covid yaal lah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaal lah ya tuhan ku hilangkan la virus covid ini dari muka bumi ini dengan segara yaal lah ya tuhan ku balikan la keadaan kami aman tiada virus covid aamiin,yaal lah ya tuhan aku sembuhkan la semua pesakit covid yaal lah ya tuhan aku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaal lah ya tuhan aku hilangkan la virus covid ini dari muka bumi ini dengan segara yaal lah ya tuhan aku balikan la keadaan kami aman tiada virus covid amin


#### Stopwords Removal (Malay) <a class="anchor" id="remove_stopwords"></a>

The words which are generally filtered out before processing a natural language are called stop words. These are actually the most common words in any language (like articles, prepositions, pronouns, conjunctions, etc) and does not add much information to the text.

In [60]:
#https://github.com/huseinzol05/malaya/blob/master/malaya/text/tatabahasa.py
from malaya.text.tatabahasa import (
    stopword_tatabahasa,
    stopwords,
    stopwords_calon,
    laughing,
    mengeluh,
    hujung_malaysian,
    negate_words
)

state_name = ['selangor', 'klang', 'bangi', 'johor', 'cheras', 'melaka', 'sabah', 'sarawak'] +\
             ['melaka', 'pinang', 'pahang', 'kelantan', 'terengganu', 'penang', 'perlis', 'kedah'] +\
             ['putrajaya', 'labuan', 'perak', 'langkawi', 'serawak', 'gombak', 'seremban', 'nismilan'] +\
             ['selayang', 'mlk', 'jb', 'klntan']

MALAY_STOPWORDS = stopwords + stopword_tatabahasa + stopwords_calon + hujung_malaysian + state_name + \
                    ["ok", "iya", "ker", "na", "hmm", "eh", "nye", "ber", "nya", "ye", "lak", "kot", "yer"] + \
                    ["jew", "de", "jeh", "ala", "yra", "lh", "oii", "tah", "ayoo", "aduh", "bekerja", "lin"] + \
                    ["inn", "sha", "insya", "insyaal", "insyal", "dak", "apadia", "yop", "oii", "aikk"] + \
                    ["erm", "ermm", "kann", "yer", "ne", "jek", "deh", "ka", "weh", "aiya", "plk", "hurmm"] + \
                    ["ish", "ishh", "ekk", "haizz", "la", "kah", "adeh", "han", "iye", "hooi", "aiish"] + \
                    ["haha", "wat", "teruskan", "hawo", "sy", "kcuali", "kome", "nieh", "blk", "gais", "unt"] + \
                    ["hawau", "ea", "eaa", "jr", "jk", "bj", "papa", "jah", "abah", "yh", "ek", "ajee", "kew"] +\
                    ["puk", "ha", "cik", "mang", "wau", "hawauu", "yaal", "oi", "hb", "jak", "semu", "oyak"] +\
                    ["okey", "an", "gituu", "gitu", "swk", "niki"]
# kome = kamu
# jk = jika/joking

In [61]:
# words that are defined as stopword by malaya but in this dataset actually have sentiment
remain_words = ['naik', "baik", "diri", "kurang", "tinggi", "masa", "banyak", "penting", "keluar", "jadi",
               "ikut", "lama", "tanpa", "bawah", "balik", "adakah", "lama", "belum", "zero", "malam", "sampai",
               "walaupun", "tegas", "cepat", "tepat", "doa", "bukan", "bila", "boleh", "masalah", "not", "tapi",
               "no", "harap", "depan", "kalau", "awal", "mungkin", "dulu", "hanya", "bulan", "had", "baru",
               "digunakan", "atas", "betul", "ke", "berapa"]

#carta = carta atas
#baru = norma baru
#bila = Bila lah Kes harian Selangor ni nak turun -> kes selnagor turun (total diff meaning)
#baik = nasib baik, baik jangan
#masa = buang masa
#diri = bunuh diri
#words that describe the status of current cases: kes naik, kes banyak, kes kurang
#bawah = (target seribu) vs (target bawah seribu)
#balik = balik kampung 
#belum = 'menang' vs 'belum menang'
#walaupun = Syukur pada Allah walaupun kes ada meningkat -> syukur kes meningkat (preprocessed and stopwords removed)

In [62]:
def malay_stops(text):
    text = text.split() #tokenization
    new_sent = []
    for word in text:
        if word in negate_words:
            new_sent.append(word) # consider negation
        elif word in remain_words:
            new_sent.append(word) # consider customized stopwords remain_words
        elif word not in MALAY_STOPWORDS:
            new_sent.append(word)
    
    new_sent = ' '.join(new_sent)
    new_sent = re.sub(r'\b(\w+)( \1\b)+', r'\1', new_sent)
    return new_sent
    #return ' '.join([word for word in text if word not in MALAY_STOPWORDS])

In [63]:
df_raw['check_stop'] = df_raw['check'].apply(malay_stops)

In [64]:
df_raw

Unnamed: 0,date,text,sentiment,processed,normalized,check,check_stop
0,20210221,#dsnr salam dato.. lebih kurang 15km dari rumah ke kilang tu dato.. pkp pkb pkpp masih tidak turun2 kes...cara pengurusan tunggang terbalik.. kejap buka kejap tutup kejap buka kejap tutup.. begini gayanya 10tahun pun tak habis..,negative,salam dato lebih kurang km dari rumah ke kilang tu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tak habis,salam dato lebih kurang km dari rumah ke kilang itu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tidak habis,salam dato lebih kurang kkm dari rumah ke kilang itu dato pkp pkb pkpp masih tidak turun kes cara pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup begini gayanya tahun pun tidak habis,kurang kkm rumah ke kilang pkp pkb pkpp tidak turun kes pengurusan tunggang terbalik kejap buka kejap tutup kejap buka kejap tutup gayanya tidak habis
1,20210204,"#noorhishamabdullah you’re not dr.fauci material, you’re just pn grabmart boy",negative,you re not dr fauci material you re just pn grabmart boy,you re not dr fauci material you re just pun grabmart boy,you re not dr fauci material you re just pun grabmart boy,you re not fauci material you re just grabmart boy
2,20210130,#share dan #like page #the_information_news untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani (selatan thailand). link : https://www.facebook.com/theinformationnews/,neutral,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,dan page untuk mendapatkan khabar berita yang terjadi kepada saudara kita di patani selatan thailand link,page khabar berita saudara patani selatan thailand link
3,20210202,"1 dunia sedang & terus diperbodohkan dgn agenda2 yahudi ekonomi dunia.. covid & pkp ni rkyat dah bosan & serik.. sbb klau x kais, x sodok la.. mcm mna pun nk kena kais jugak.. ingt 1 je, kais yg halal demi allah swt. klau dh smpai ajal nnti mati jugak..☝🏾",negative,satu dunia sedang and terus diperbodohkan dgn agenda yahudi ekonomi dunia covid and pkp ni rkyat dah bosan and serik sbb klau tak kais tak sodok la mcm mna pun nk kena kais jugak ingt satu je kais yg halal demi allah swt klau dh smpai ajal nnti mati jugak,satu dunia sedang and terus diperbodohkan dengan agenda yahudi ekonomi dunia covid and pkp ini rkyat dah bosan and serik sebab kalau tidak kais tidak sodok la macam mana pun nak kena kais juga ingat satu sahaja kais yang halal demi allah swt kalau dah sampai ajal nanti mati juga,satu dunia sedang and terus diperbodohkan dengan agenda yahudi ekonomi dunia covid and pkp ini rakyat dah bosan and serik sebab kalau tidak kais tidak sodok la macam mana pun nak kena kais juga ingat satu sahaja kais yang halal demi allah swt kalau dah sampai ajal nanti mati juga,dunia and diperbodohkan agenda yahudi ekonomi dunia covid and pkp rakyat bosan and serik tidak kais tidak sodok kena kais halal swt sampai ajal mati
4,20210206,1 hari sy harap angka nie turun single digit mcm kita capai 0 case 3hari berturut2 sebelum nie..doakan n sama2 la kita follow sop guys..🤲,positive,satu hari sy harap angka nie turun single digit mcm kita capai zero case hari berturut sebelum nie doakan sama la kita follow sop guys,satu hari sy harap angka ini turun single digit macam kita capai zero case hari berturut sebelum ini doakan sama la kita follow sop guys,satu hari sy harap angka ini turun single digit macam kita capai zero case hari berturut sebelum ini doakan sama la kita follow sop guys,harap angka turun single digit capai zero case doakan follow sop guys
...,...,...,...,...,...,...,...
7902,20210121,wish,positive,wish,wish,wish,wish
7903,20210123,"ya allah.. sy rasa satu pkra kita terlepas pandang.. kita lupa mntk tlg pd allah.. dulu ada solat hajat..bacaan yasin.. skrg x ada lagi.. buat la lockdown lama mana pun.. jaga la sop mcm mna pn, kalau kita x mntk tlg pd allah, tetap kes makin tggi sbb allah murka.. mohon pihak yg di atas utarakan pd yg berkenaan.. setiap pagi satu jam siaran baca yasin di radio, televisyen dan semua media massa. adakan solat hajat beramai2 di rumah. mungkin salah sorg dari kita doanya dimakbulkan allah.. kita contohi negara brunei.. yg baik kita ambil.. mohon sama2 kita sampaikan pd pm kita.. hanya allah shj tempat kita memohon pertolongan.. dalam al quran pn ada tulis.. kun fayakun.. jadi, maka jadikan lah..",positive,ya allah sy rasa satu pkra kita terlepas pandang kita lupa mntk tlg pd allah dulu ada solat hajat bacaan yasin skrg tak ada lagi buat la lockdown lama mana pun jaga la sop mcm mna pn kalau kita tak mntk tlg pd allah tetap kes makin tggi sbb allah murka mohon pihak yg di atas utarakan pd yg berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yg baik kita ambil mohon sama kita sampaikan pd pm kita hanya allah shj tempat kita memohon pertolongan dalam al quran pn ada tulis kun fayakun jadi maka jadikan lah,ya allah sy rasa satu pkra kita terlepas pandang kita lupa minta tolong pada allah dahulu ada solat hajat bacaan yasin sekarang tidak ada lagi buat la lockdown lama mana pun jaga la sop macam mana pun kalau kita tidak minta tolong pada allah tetap kes makin tggi sebab allah murka mohon pihak yang di atas utarakan pada yang berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yang baik kita ambil mohon sama kita sampaikan pada pm kita hanya allah shj tempat kita memohon pertolongan dalam al quran pun ada tulis kun fayakun jadi maka jadikan lah,ya allah sy rasa satu pkra kita terlepas pandang kita lupa minta tolong pada allah dahulu ada solat hajat bacaan yasin sekarang tidak ada lagi buat la lockdown lama mana pun jaga la sop macam mana pun kalau kita tidak minta tolong pada allah tetap kes makin tinggi sebab allah murka mohon pihak yang di atas utarakan pada yang berkenaan setiap pagi satu jam siaran baca yasin di radio televisyen dan semua media massa adakan solat hajat beramai di rumah mungkin salah sorg dari kita doanya dimakbulkan allah kita contohi negara brunei yang baik kita ambil mohon sama kita sampaikan pada pm kita hanya allah sahaja tempat kita memohon pertolongan dalam al quran pun ada tulis kun fayakun jadi maka jadikan lah,pkra terlepas pandang lupa solat hajat bacaan yasin tidak lockdown lama jaga sop tidak kes tinggi murka mohon atas utarakan jam siaran baca yasin radio televisyen media massa solat hajat beramai rumah mungkin salah sorg doanya dimakbulkan contohi negara brunei baik ambil mohon pm hanya memohon pertolongan quran tulis kun fayakun jadi jadikan
7904,20210124,ya allah mari kita brdoa bnyk2 smoga allah ampunkn dosa kita smua..hrp sngt cpat smbuh hlng smuanya amin..🤲🤲🤲🤲,positive,ya allah mari kita brdoa bnyk smoga allah ampunkn dosa kita smua hrp sngt cpat smbuh hlng smuanya amin,ya allah mari kita brdoa banyak semoga allah ampunkn dosa kita semua harap sangat cpat smbuh hlng smuanya amin,ya allah mari kita berdoa banyak semoga allah ampunkan dosa kita semua harap sangat cpat sembuh hlng semua amin,mari berdoa banyak semoga ampunkan dosa harap cpat sembuh hlng amin
7905,20210125,yaallah ya tuhan ku sembuhkan la semua pesakit covid 19 yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid 19 yaallah ya tuhan ku hilangkan la virus covid 19 ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid 19 aamiin2,positive,yaallah ya tuhan ku sembuhkan la semua pesakit covid yaallah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaallah ya tuhan ku hilangkan la virus covid ni dari muka bumi ni dengan segara yaallah ya tuhan ku balikan la keadaan kami aman tiada virus covid aamiin,yaal lah ya tuhan ku sembuhkan la semua pesakit covid yaal lah ya tuhan ku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaal lah ya tuhan ku hilangkan la virus covid ini dari muka bumi ini dengan segara yaal lah ya tuhan ku balikan la keadaan kami aman tiada virus covid aamiin,yaal lah ya tuhan aku sembuhkan la semua pesakit covid yaal lah ya tuhan aku lindungi la kimi seluruh ummat maknusia di muka bumi ini dari virus covid yaal lah ya tuhan aku hilangkan la virus covid ini dari muka bumi ini dengan segara yaal lah ya tuhan aku balikan la keadaan kami aman tiada virus covid amin,tuhan sembuhkan pesakit covid tuhan lindungi kimi ummat maknusia muka bumi virus covid tuhan hilangkan virus covid muka bumi segara tuhan balikan aman tiada virus covid amin


Another Notebook for English Stopwords Removal

In [65]:
from nltk.corpus import stopwords

#### Stopwords Removal (English) <a class="anchor" id="remove_stopwords_eng"></a>

In [66]:
stop = stopwords.words('english')
stop.remove('not')
stop.remove('no')

stop = stop + ['la', 'lah', 'ah', 'oh']

In [67]:
# remove possible empty text cell
df_raw = df_raw.drop_duplicates(subset=['check_stop'])
df_raw = df_raw.reset_index(drop=True)
df_raw.shape

(7907, 7)

In [68]:
df_raw['check_stop'] = df_raw['check_stop'].apply(lambda x: ' '.join([item for item in x.split() if item not in stop]))

In [69]:
df_raw.shape

(7907, 7)

#### Save Pre-Processed Dataset <a class="anchor" id="save_file"></a>

In [85]:
df_raw.to_csv("3 classes/facebook_health_cases (all).csv", encoding='utf-8', index=False)

In [83]:
lst_test = list(zip(X_test, y_test))
df_test = pd.DataFrame(lst_test, columns=['text', 'sentiment'])
df_test

Unnamed: 0,text,sentiment
0,alhamdulillah syukur kes turun jangan naik vaksin kes turun harap,positive
1,sounds like get better response talking brick wall,negative
2,malaysia negara tinggi kes harian harap kkm sarankan mkn ambil tindakan jangan pentingkan ekonomi negara,negative
3,kes baharu tinggi tapi zone merah kedai banyak buka shah alam dll semoga dijauhi virus,negative
4,tak payah aca salahkan kes naik balik kampung tak balik kampung jaga tua anak bini lelaki duduk kampung covid nasib kena duduk tanah tak keluar,negative
...,...,...
786,zero meninggal akibat covid bmkna covid tidk steruk merbahaya sangkakan pyakit sdiada mlainkan pratus kematian kes sbnr mcapai,negative
787,alhamdulillah usaha semoga ramadhan syawal kenangan manis tidak lupakan perayaan berusaha berdoa terima kasih penghargaan tentera barisanhadapan jasa pengorbanan hanya membalasnya abaikan negatif tidak kudis kehidupan semoga istikamah perjuangan kejayaan milik semoga sinar rakyat malaysia amin,positive
788,gayanya main ribu chance raya rumah raya kurang bulan flatten curve short span time logically impossible without full mco malaysia afford nationwide mco like year economic cost loss not less myr day far great absorbed country revenue kesiannya workers daily wage basis gaji harian kasihan tertekan make double impossible flatten curve like malaysia achieved july year perangai tidak semenggah malaysians take things grated stay safe everyone,negative
789,alhamduli izinkan banyak penyembuhan semoga izinkan covid hilang keajaiban doakan amin,positive


In [84]:
df_train.to_csv("3 classes/train.csv", encoding='utf-8', index=False)
df_test.to_csv("3 classes/test.csv", encoding='utf-8', index=False)