## Preprocessing

In [1]:
# import library

import pandas as pd
import re, string
from nltk.tokenize import word_tokenize
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

In [2]:
df = pd.read_csv('kompas_20211201.csv')
df

Unnamed: 0.1,Unnamed: 0,date,title
0,0,2021-12-01,"Genoa Vs AC Milan, Shevchenko Ingin Buat Manta..."
1,1,2021-12-01,ODHA di Depok Masih Dapat Stigma Negatif
2,2,2021-12-01,Pemprov Jakarta Bentuk Tim Khusus Awasi Alat M...
3,3,2021-12-01,Penonton Lokal Piala AFF 2020 Acuhkan 5 Aturan...
4,4,2021-12-01,"Pada Akhir Pekan, Penumpang di Bandara Soekarn..."
...,...,...,...
195,195,2021-12-01,Pemerintah Bakal Kembali Terbitkan SKB 4 Mente...
196,196,2021-12-01,Densus 88 Sita Senapan M16 dan 124 Peluru dari...
197,197,2021-12-01,Foto Viral Pasutri Naik Motor hingga Menara Ei...
198,198,2021-12-01,Momen Indro Satukan Lagi Warkop DKI Setelah Ka...


In [3]:
# casefolding
def case_folding(text):
    text = text.lower()
    text = re.sub(r"\d+", "", text)
    text = text.translate(str.maketrans("","", string.punctuation))
    text = text.rstrip().lstrip()
    text = text.replace('   ',' ')

    return text

In [4]:
# Menghilangkan stopwords

def remove_stopwords(text:str):
    stopwords_engine = StopWordRemoverFactory()
    stopwords = stopwords_engine.get_stop_words()
    more_stopwords = ['di', 'dan','yang', 'ini', 'untuk', 'ke'] # menambahkan stopwords
    
    result = []
    for word in text:
        if word not in stopwords + more_stopwords:
        # if word not in stopwords:
            result.append(word)
    return result 

In [5]:
# for i in df['title']:
#     print(remove_stopwords(df['title']))

In [6]:
# stemming

def stemming(text:string):
    '''
    input: string
    output: string

    mengubah bentuk dasar pada kalimat
    '''
    
    engine = StemmerFactory()
    stemmer = engine.create_stemmer()
    text = stemmer.stem(text)

    return text

In [7]:
result = []

for text in df['title']:
    text = case_folding(text)
    # text = tokenizing(text)
    # text = remove_stopwords(text)
    text = stemming(text)
    result.append(text)

In [8]:
new_result = remove_stopwords(result)
new_result

['genoa vs ac mil shevchenko ingin buat mantan klub sulit',
 'odha di depok masih dapat stigma negatif',
 'pemprov jakarta bentuk tim khusus awas alat makan bahan melamin tak bersni',
 'tonton lokal piala aff acuh atur ini',
 'pada akhir pekan tumpang di bandara soekarnohatta capai orang',
 'ppkm level regulasi ptm di jakarta barat tidak ubah',
 'link live streaming bologna vs roma kickoff pukul wib',
 'singgung varian corona omicron menlu ungkap agenda ri wujud visi',
 'real madrid vs athletic bilbao singa basque wajib waspada benzema',
 'latih timnas china aku sulit lantar covid',
 'mensos ingat guru ajar siswa tak bully sandang disabilitas',
 'link live streaming inter mil vs spezia kickoff pukul wib',
 'ragam istilah teknis pada ac yang perlu tahu',
 'massa reuni bakal kumpul di patung kuda ini respons wagub dki',
 'mypertamina fair siap manja langgan setia pertamina',
 'duga korupsi dana koni padang urus cabor minta kejar usut alir dana',
 'daftar veteran di skuad timnas indonesia

In [9]:
clean_title = pd.DataFrame(data=new_result, columns=['cleaned title'])
clean_title

Unnamed: 0,cleaned title
0,genoa vs ac mil shevchenko ingin buat mantan k...
1,odha di depok masih dapat stigma negatif
2,pemprov jakarta bentuk tim khusus awas alat ma...
3,tonton lokal piala aff acuh atur ini
4,pada akhir pekan tumpang di bandara soekarnoha...
...,...
195,perintah bakal kembali terbit skb menteri jela...
196,densus sita senapan m dan peluru dari duga ter...
197,foto viral pasutri naik motor hingga menara ei...
198,momen indro satu lagi warkop dki telah kasino ...


In [10]:
new_df = df.join(clean_title)
new_df

Unnamed: 0.1,Unnamed: 0,date,title,cleaned title
0,0,2021-12-01,"Genoa Vs AC Milan, Shevchenko Ingin Buat Manta...",genoa vs ac mil shevchenko ingin buat mantan k...
1,1,2021-12-01,ODHA di Depok Masih Dapat Stigma Negatif,odha di depok masih dapat stigma negatif
2,2,2021-12-01,Pemprov Jakarta Bentuk Tim Khusus Awasi Alat M...,pemprov jakarta bentuk tim khusus awas alat ma...
3,3,2021-12-01,Penonton Lokal Piala AFF 2020 Acuhkan 5 Aturan...,tonton lokal piala aff acuh atur ini
4,4,2021-12-01,"Pada Akhir Pekan, Penumpang di Bandara Soekarn...",pada akhir pekan tumpang di bandara soekarnoha...
...,...,...,...,...
195,195,2021-12-01,Pemerintah Bakal Kembali Terbitkan SKB 4 Mente...,perintah bakal kembali terbit skb menteri jela...
196,196,2021-12-01,Densus 88 Sita Senapan M16 dan 124 Peluru dari...,densus sita senapan m dan peluru dari duga ter...
197,197,2021-12-01,Foto Viral Pasutri Naik Motor hingga Menara Ei...,foto viral pasutri naik motor hingga menara ei...
198,198,2021-12-01,Momen Indro Satukan Lagi Warkop DKI Setelah Ka...,momen indro satu lagi warkop dki telah kasino ...


In [11]:
new_df.to_csv('kompas_20211201_clean.csv')