In [10]:
# ------ Load Dataset ---------
# import library
import pandas as pd
import numpy as np

# membaca file csv
TWEET_DATA = pd.read_csv("D:/Kuliah Online/Pemrosesan Teks Praktik/PTP Project/Data/G20Indonesia_Normalization.csv")

# mengganti nama kolom
TWEET_DATA.columns = ['tweet']

# menampilkan data bagian head
TWEET_DATA.head()

Unnamed: 0,tweet
0,A dan C Jawaban nya min mainNakerpresidensiGGI...
1,Ayo siapa yang takut .. Amerika Rusia Ketemuan...
2,Gerakan nasional literasi digital Digital tale...
3,Indonesia ... IndonesiaJuara IndonesiaHebatInd...
4,Keren bangetMas Memtri dengan Program Merdeka ...


In [11]:
# ------ Case Folding ---------
# mengubah semua huruf menjadi kecil
TWEET_DATA['tweet'] = TWEET_DATA['tweet'].str.lower()

print('Hasil Case Folding :')
TWEET_DATA.head()

Hasil Case Folding :


Unnamed: 0,tweet
0,a dan c jawaban nya min mainnakerpresidensiggi...
1,ayo siapa yang takut .. amerika rusia ketemuan...
2,gerakan nasional literasi digital digital tale...
3,indonesia ... indonesiajuara indonesiahebatind...
4,keren bangetmas memtri dengan program merdeka ...


In [12]:
# ------ Tokenizing ---------
# import library
import string 
import re # regex library

# import word_tokenize & FreqDist from NLTK
from nltk.tokenize import word_tokenize 
from nltk.probability import FreqDist

# menghapus karakter spesial
def remove_tweet_special(text):
    # menghapus tab, baris baru & back slice
    text = text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")
    # menghapus non ASCII (emoticon, dll.)
    text = text.encode('ascii', 'replace').decode('ascii')
    text = re.sub("b'|b\"",'',text)
    # menghapus mention, link, hashtag
    text = ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())
    # menghapus incomplete URL
    return text.replace("http://", " ").replace("https://", " ")
                
TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_tweet_special)

# menghapus nomor
def remove_number(text):
    return  re.sub(r"\d+", "", text)

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_number)

# menghapus tanda baca
def remove_punctuation(text):
    return text.translate(str.maketrans("","",string.punctuation))

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_punctuation)

# menghapus spasi awal & akhir
def remove_whitespace_LT(text):
    return text.strip()

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_whitespace_LT)

# menghapus banyak spasi menjadi satu spasi
def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_whitespace_multiple)

# menghapus karakter tunggal
def remove_singl_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

TWEET_DATA['tweet'] = TWEET_DATA['tweet'].apply(remove_singl_char)

# NLTK tokenisasi kata 
def word_tokenize_wrapper(text):
    return word_tokenize(text)

TWEET_DATA['tweet_tokens'] = TWEET_DATA['tweet'].apply(word_tokenize_wrapper)

print('Hasil Tokenizing :') 
TWEET_DATA.head()

Hasil Tokenizing :


Unnamed: 0,tweet,tweet_tokens
0,dan jawaban nya min mainnakerpresidensiggind...,"[dan, jawaban, nya, min, mainnakerpresidensigg..."
1,ayo siapa yang takut amerika rusia ketemuan di...,"[ayo, siapa, yang, takut, amerika, rusia, kete..."
2,gerakan nasional literasi digital digital tale...,"[gerakan, nasional, literasi, digital, digital..."
3,indonesia indonesiajuara indonesiahebatindones...,"[indonesia, indonesiajuara, indonesiahebatindo..."
4,keren bangetmas memtri dengan program merdeka ...,"[keren, bangetmas, memtri, dengan, program, me..."


In [13]:
# ------ Filtering (Stopword Removal) --------- 
from nltk.corpus import stopwords

# ---------------------------- stopword from NLTK stopword -------------------------------------
# stopword indonesia
list_stopwords = stopwords.words('indonesian')

# ---------------------------- menambahkan stopword manual  ------------------------------------
# menambahkan stopword tambahan
list_stopwords.extend(["yg", "dg", "rt", "dgn", "ny", "d", 'klo', 'kalo', 'amp', 'biar', 'bikin', 'bilang', 
                       'gak', 'ga', 'krn', 'nya', 'nih', 'sih', 'si', 'tau', 'tdk', 'tuh', 'utk', 'ya','jd',
                       'jgn', 'sdh', 'aja', 'n', 't', 'nyg', 'hehe', 'pen', 'u', 'nan', 'loh', 'rt', 'noh'
                       '&amp', 'yah', 'gk', 'ya', 'mo', 'mah', 'oh', 'bgt', 'ah', 'lg', 'gini', 'gni', 'dll'
                       'hny', 'in', 'gk', 'gin', 'mh', 'ma', 'Pe', 'Sa', 'su', 'in', 'd'])

# --------------------------- menambahkan stopword dari file txt -------------------------------
# membaca file stopword txt menggunakan pandas
txt_stopword = pd.read_csv("D:/Kuliah Online/Pemrosesan Teks Praktik/PTP Project/Resource/stopwordbahasa.txt", names= ["stopwords"], header = None)

# konversi string stopword ke daftar & tambahkan stopword tambahan
list_stopwords.extend(txt_stopword["stopwords"][0].split(' '))

# ---------------------------------------------------------------------------------------

# konversi list ke dictionary
list_stopwords = set(list_stopwords)


# hapus stopword pada list token
def stopwords_removal(words):
    return [word for word in words if word not in list_stopwords]

TWEET_DATA['tweet_tokens_WSW'] = TWEET_DATA['tweet_tokens'].apply(stopwords_removal) 

print('Hasil Filtering :') 
TWEET_DATA.head()

Hasil Filtering :


Unnamed: 0,tweet,tweet_tokens,tweet_tokens_WSW
0,dan jawaban nya min mainnakerpresidensiggind...,"[dan, jawaban, nya, min, mainnakerpresidensigg...","[min, mainnakerpresidensiggindonesiaewgindonesia]"
1,ayo siapa yang takut amerika rusia ketemuan di...,"[ayo, siapa, yang, takut, amerika, rusia, kete...","[ayo, takut, amerika, rusia, ketemuan, bali, g..."
2,gerakan nasional literasi digital digital tale...,"[gerakan, nasional, literasi, digital, digital...","[gerakan, nasional, literasi, digital, digital..."
3,indonesia indonesiajuara indonesiahebatindones...,"[indonesia, indonesiajuara, indonesiahebatindo...","[indonesia, indonesiajuara, indonesiahebatindo..."
4,keren bangetmas memtri dengan program merdeka ...,"[keren, bangetmas, memtri, dengan, program, me...","[keren, bangetmas, memtri, program, merdeka, b..."


In [14]:
# ------ Stemming --------- 
# import package Sastrawi 
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import swifter

# membuat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# stemmed
def stemmed_wrapper(term):
    return stemmer.stem(term)

term_dict = {}

for document in TWEET_DATA['tweet_tokens_WSW']:
    for term in document:
        if term not in term_dict:
            term_dict[term] = ' '
            
print(len(term_dict))
print("------------------------")

for term in term_dict:
    term_dict[term] = stemmed_wrapper(term)
    print(term,":" ,term_dict[term])
    
print(term_dict)
print("------------------------")


# menerapkan stemmed term ke dataframe
def get_stemmed_term(document):
    return [term_dict[term] for term in document]

TWEET_DATA['tweet_tokens_stemmed'] = TWEET_DATA['tweet_tokens_WSW'].swifter.apply(get_stemmed_term)

print('Hasil Stemming :') 
TWEET_DATA.head()

912
------------------------
min : min
mainnakerpresidensiggindonesiaewgindonesia : mainnakerpresidensiggindonesiaewgindonesia
ayo : ayo
takut : takut
amerika : amerika
rusia : rusia
ketemuan : ketemu
bali : bal
gindonesia : gindonesia
hebatnya : hebat
bu : bu
da : da
gerakan : gera
nasional : nasional
literasi : literasi
digital : digital
talent : talent
scholarship : scholarship
leadership : leadership
academy : academy
program : program
kartu : kartu
prakerjalpsi : prakerjalpsi
indonesia : indonesia
indonesiajuara : indonesiajuara
indonesiahebatindonesiadamai : indonesiahebatindonesiadamai
keren : keren
bangetmas : bangetmas
memtri : memtri
merdeka : merdeka
belajarnyagindonesia : belajarnyagindonesia
presidensiindonesia : presidensiindonesia
konsumen : konsumen
industri : industri
rumah : rumah
tangga : tangga
diberdayakan : daya
koperasi : koperasi
lapor : lapor
bisanya : bisa
cewe : cewe
bego : bego
bencong : bencong
joget : joget
disuka : suka
mendingan : mending
doa : doa
peran

Pandas Apply:   0%|          | 0/207 [00:00<?, ?it/s]

Hasil Stemming :


Unnamed: 0,tweet,tweet_tokens,tweet_tokens_WSW,tweet_tokens_stemmed
0,dan jawaban nya min mainnakerpresidensiggind...,"[dan, jawaban, nya, min, mainnakerpresidensigg...","[min, mainnakerpresidensiggindonesiaewgindonesia]","[min, mainnakerpresidensiggindonesiaewgindonesia]"
1,ayo siapa yang takut amerika rusia ketemuan di...,"[ayo, siapa, yang, takut, amerika, rusia, kete...","[ayo, takut, amerika, rusia, ketemuan, bali, g...","[ayo, takut, amerika, rusia, ketemu, bal, gind..."
2,gerakan nasional literasi digital digital tale...,"[gerakan, nasional, literasi, digital, digital...","[gerakan, nasional, literasi, digital, digital...","[gera, nasional, literasi, digital, digital, t..."
3,indonesia indonesiajuara indonesiahebatindones...,"[indonesia, indonesiajuara, indonesiahebatindo...","[indonesia, indonesiajuara, indonesiahebatindo...","[indonesia, indonesiajuara, indonesiahebatindo..."
4,keren bangetmas memtri dengan program merdeka ...,"[keren, bangetmas, memtri, dengan, program, me...","[keren, bangetmas, memtri, program, merdeka, b...","[keren, bangetmas, memtri, program, merdeka, b..."


In [15]:
TWEET_DATA.to_csv("D:/Kuliah Online/Pemrosesan Teks Praktik/PTP Project/Data/G20Indonesia_Preprocessing.csv")
TWEET_DATA['tweet_tokens'].to_csv("D:/Kuliah Online/Pemrosesan Teks Praktik/PTP Project/Data/G20Indonesia_Preprocessing_tweet_tokens.csv")
TWEET_DATA['tweet_tokens_WSW'].to_csv("D:/Kuliah Online/Pemrosesan Teks Praktik/PTP Project/Data/G20Indonesia_Preprocessing_tweet_tokens_WSW.csv")
TWEET_DATA['tweet_tokens_stemmed'].to_csv("D:/Kuliah Online/Pemrosesan Teks Praktik/PTP Project/Data/G20Indonesia_Preprocessing_tweet_tokens_stemmed.csv")