# **Preprocessing | Kampus IT PLN**

# Text Preprocessing (Clean Data)

In [1]:
import pandas as pd
import string
import re
df = pd.read_csv('../../dataset/IT_PLN_Reviews.csv')

output_path = '../../dataset/cleaned-data/IT_PLN_Reviews_cleaned.csv'

# df.head()
df.shape

(539, 9)

In [38]:
# drop the columns
df = df.drop(columns=['page', 'link', 'thumbnail', 'date', 'images', 'local_guide'], axis=1)
df.head()

Unnamed: 0,name,rating,snippet
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil..."
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...


## Convert to lowercase

In [39]:
df['temp_text'] = df['snippet'].str.lower()
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus para mahasiswa teknik menimba ilmu tapi...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...","untuk sekarang kampus udah bagus, banyak fasil..."
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,sangat cocok untuk abis sma belajar teknik kel...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus. ada fasilitas yg mumpuni\n\...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan. mudah dijangkau karna terli...


## Remove Missings Values

In [40]:
df.isnull().sum()

name           0
rating         0
snippet      352
temp_text    352
dtype: int64

In [41]:
df = df.dropna(subset=['temp_text'])
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus para mahasiswa teknik menimba ilmu tapi...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...","untuk sekarang kampus udah bagus, banyak fasil..."
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,sangat cocok untuk abis sma belajar teknik kel...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus. ada fasilitas yg mumpuni\n\...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan. mudah dijangkau karna terli...


In [42]:
df.isnull().sum()

name         0
rating       0
snippet      0
temp_text    0
dtype: int64

## Menghapus Whitespace

In [43]:
def remove_extra_whitespace(text):
    # Menghapus spasi di awal dan akhir teks
    text = text.strip()
    # Menghapus spasi berlebih di tengah teks
    text = re.sub('\s+', ' ', text)
    return text

# Menerapkan fungsi pada kolom 'temp_text'
df['temp_text'] = df['temp_text'].apply(lambda x: remove_extra_whitespace(x))
df.head()

  text = re.sub('\s+', ' ', text)


Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus para mahasiswa teknik menimba ilmu tapi...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...","untuk sekarang kampus udah bagus, banyak fasil..."
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,sangat cocok untuk abis sma belajar teknik kel...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus. ada fasilitas yg mumpuni ju...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan. mudah dijangkau karna terli...


## Removal of Punctuations

In [44]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [45]:
def remove_punctuations(text):
    punctuations = string.punctuation
    return text.translate(str.maketrans('', '', punctuations))

In [46]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_punctuations(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus para mahasiswa teknik menimba ilmu tapi...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",untuk sekarang kampus udah bagus banyak fasili...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,sangat cocok untuk abis sma belajar teknik kel...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus ada fasilitas yg mumpuni jug...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna terlih...


## Normalisasi Teks

In [47]:
# Kamus slang dan kata yang sudah dinormalisasi
slang_dict = {
    "gak": "tidak",
    "u": "you",
    "yg": "yang",
    "kalo": "kalau",
    "aja": "saja",
    "tdk": "tidak",
    "bgt": "banget",
    "dgn": "dengan",
    "dr": "dari",
    "dlm": "dalam",
    "sbg": "sebagai",
    "spt": "seperti",
    "utk": "untuk",
    "krn": "karena",
    "tp": "tapi",
    "jd": "jadi",
    "sy": "saya",
    "dg": "dengan",
    "trs": "terus",
    "sm": "sama",
    "pd": "pada",
    "blm": "belum",
    "sdh": "sudah",
    "td": "tadi",
    "lg": "lagi",
    "gmn": "gimana",
    "knp": "kenapa",
    "dpt": "dapat",
    "bbrp": "beberapa",
    "dl": "dulu",
    "kl": "kalau",
    "tmn": "teman",
    "msh": "masih",
    "syg": "sayang",
    "cm": "cuma",
    "bs": "bisa",
    "jg": "juga",
    "org": "orang",
    "bkn": "bukan",
    "bbrp": "beberapa",
    "dpt": "dapat",
    "dgn": "dengan",
    "dr": "dari",
    "gmn": "gimana",
    "hrs": "harus",
    "jgn": "jangan",
    "krn": "karena",
    "lg": "lagi",
    "pd": "pada",
    "sdh": "sudah",
    "sm": "sama",
    "tdk": "tidak",
    "tp": "tapi",
    "utk": "untuk",
    "yg": "yang"
}

# Fungsi untuk mengganti kata slang dengan kata yang sudah dinormalisasi
def normalize_text(text):
    words = text.split()
    normalized_words = [slang_dict.get(word, word) for word in words]
    return " ".join(normalized_words)

# Menerapkan normalisasi pada kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda x: normalize_text(x))
df.head(10)

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus para mahasiswa teknik menimba ilmu tapi...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",untuk sekarang kampus udah bagus banyak fasili...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,sangat cocok untuk abis sma belajar teknik kel...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus ada fasilitas yang mumpuni j...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna terlih...
5,Si Jabat,2.0,Apakah benar klo lulusan itpln gampang cari ke...,apakah benar klo lulusan itpln gampang cari ke...
6,Aprida Siahaan,1.0,UKT ELIT ANJUNGAN SULIT.\n1. perubahan passwor...,ukt elit anjungan sulit 1 perubahan password h...
7,Irvan Adianto,1.0,"ANAK2 KULIAH DISINI RATA2 GK PUNYA ATTITUDE, T...",anak2 kuliah disini rata2 gk punya attitude ti...
8,Cahyana Wiyana,5.0,"Lokasi mudah dijangkau, mahasiswa dari Sabang...",lokasi mudah dijangkau mahasiswa dari sabang s...
9,Aldian Rahman,5.0,Kampus kecil yang menjadikan mahasiswa menjadi...,kampus kecil yang menjadikan mahasiswa menjadi...


## Removal of Stopwords

In [48]:
from nltk.corpus import stopwords
", ".join(stopwords.words('indonesian'))

'ada, adalah, adanya, adapun, agak, agaknya, agar, akan, akankah, akhir, akhiri, akhirnya, aku, akulah, amat, amatlah, anda, andalah, antar, antara, antaranya, apa, apaan, apabila, apakah, apalagi, apatah, artinya, asal, asalkan, atas, atau, ataukah, ataupun, awal, awalnya, bagai, bagaikan, bagaimana, bagaimanakah, bagaimanapun, bagi, bagian, bahkan, bahwa, bahwasanya, baik, bakal, bakalan, balik, banyak, bapak, baru, bawah, beberapa, begini, beginian, beginikah, beginilah, begitu, begitukah, begitulah, begitupun, bekerja, belakang, belakangan, belum, belumlah, benar, benarkah, benarlah, berada, berakhir, berakhirlah, berakhirnya, berapa, berapakah, berapalah, berapapun, berarti, berawal, berbagai, berdatangan, beri, berikan, berikut, berikutnya, berjumlah, berkali-kali, berkata, berkehendak, berkeinginan, berkenaan, berlainan, berlalu, berlangsung, berlebihan, bermacam, bermacam-macam, bermaksud, bermula, bersama, bersama-sama, bersiap, bersiap-siap, bertanya, bertanya-tanya, berturut

In [49]:
from nltk.corpus import stopwords

STOPWORDS = set(stopwords.words('indonesian'))
def remove_stopwords(text):
    return " ".join([word for word in text.split() if word not in STOPWORDS])

In [50]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_stopwords(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...


## !!!Removal of Frequent Words

In [51]:
# Menghapus semua kata "nya" yang berdiri sendiri dalam kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda text: ' '.join([word for word in text.split() if word != 'nya']))

df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...


In [52]:
from collections import Counter
word_count = Counter()
for text in df['temp_text']:
    for word in text.split():
        word_count[word] += 1
        
word_count.most_common(10)

[('kampus', 44),
 ('pln', 28),
 ('bagus', 23),
 ('teknik', 22),
 ('masuk', 11),
 ('s1', 11),
 ('mahasiswa', 10),
 ('dosen', 9),
 ('lengkap', 9),
 ('in', 9)]

In [53]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...


In [54]:
# FREQUENT_WORDS = set(word for (word, wc) in word_count.most_common(3))
# def remove_freq_words(text):
#     return " ".join([word for word in text.split() if word not in FREQUENT_WORDS])

In [55]:
# df['temp_text'] = df['temp_text'].apply(lambda x: remove_freq_words(x))
# df.head()

## Removal of Rare Words

In [56]:
# This cell should be moved after CELL INDEX 22
RARE_WORDS = set(word for (word, wc) in word_count.most_common()[:-10:-1])
print(RARE_WORDS)

{'ntaps', 'hm', 'yeah', 'elektrooo', 'night', 'mantaap', 'oo', 'wonderful', 'worst'}


In [57]:
def remove_rare_words(text):
    return " ".join([word for word in text.split() if word not in RARE_WORDS])

In [58]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_rare_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...


## Removal of Special characters

In [59]:
import re
def remove_spl_chars(text):
    text = re.sub('[^a-zA-Z0-9]', ' ', text)
    text = re.sub('\s+', ' ', text)
    return text

  text = re.sub('\s+', ' ', text)


In [60]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_spl_chars(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...


## Stemming

In [61]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer bahasa Indonesia
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi stemming
def stem_words(text):
    return stemmer.stem(text)

In [62]:
# Menerapkan stemming pada kolom temp_text
df['stemmed_text'] = df['temp_text'].apply(lambda x: stem_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...,kampus mahasiswa teknik timba ilmu fakultas te...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...,kampus udah bagus fasilitas pada alangkah baik...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...,cocok abis sma ajar teknik listrik fakultas tu...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...,ruang kelas bagus fasilitas mumpuni jurus leng...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...,kampus sayang mudah jangkau karna tol jalan mo...


## Lemmatization & POS Tagging

In [63]:
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
wordnet_map = {"N":wordnet.NOUN, "V": wordnet.VERB, "J": wordnet.ADJ, "R": wordnet.ADV}

def lemmatize_words(text):
    # find pos tags
    pos_text = pos_tag(text.split())
    return " ".join([lemmatizer.lemmatize(word, wordnet_map.get(pos[0], wordnet.NOUN)) for word, pos in pos_text])

In [64]:
from nltk.corpus import wordnet

wordnet.NOUN

'n'

In [65]:
# import nltk
# nltk.download('averaged_perceptron_tagger')

# df['lemmatized_text'] = df['temp_text'].apply(lambda x: lemmatize_words(x))
# df.head()

In [66]:
df.sample(frac=1).head(10)

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
159,Vito Dery Alvi Silalahi,5.0,"kampus terbaik, dekat PT Dwiandra Cipta Anuger...",kampus terbaik pt dwiandra cipta anugerah elev...,kampus baik pt dwiandra cipta anugerah elevato...
119,Kamran J.Rappo,5.0,Cakep,cakep,cakep
139,I Wyn Hadi S,5.0,Kampus kotak,kampus kotak,kampus kotak
100,Agus Supriyono,5.0,Tempat kost atau kontrakan yang dekat kampus a...,kost kontrakan kampus ya,kost kontra kampus ya
70,Adin Insya,5.0,Tempatnya dimana anak teknik berprestasi berad...,tempatnya dimana anak teknik berprestasi dikem...,tempat mana anak teknik prestasi kemudi insya ...
12,Sinung Abie,5.0,Biaya kuliahnya mahal. Belum tentu semua mahas...,biaya kuliahnya mahal mahasiswai masuk kelas k...,biaya kuliah mahal mahasiswa masuk kelas kerja...
16,Grab Trisuseno,1.0,Byk aturan sttpln Cengkareng Jakarta barat mah...,byk aturan sttpln cengkareng jakarta barat mah...,byk atur sttpln cengkareng jakarta barat mahas...
88,Budi Herlambang,5.0,Keren kampusnya..adem ada danaunya,keren kampusnyaadem danaunya,keren kampusnyaadem danau
30,victor assani,5.0,"Keren, recomended lah ..... peringkat ke-7 Per...",keren recomended peringkat ke7 perguruan swast...,keren recomended peringkat ke7 guru swasta bai...
153,Seza Abelia Putri,5.0,even it looks like 'Teh Koyak' from any angle ...,even it looks like teh koyak from any angle of...,even it looks like teh koyak from any angle of...


## Tokenization

In [67]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...,kampus mahasiswa teknik timba ilmu fakultas te...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...,kampus udah bagus fasilitas pada alangkah baik...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...,cocok abis sma ajar teknik listrik fakultas tu...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...,ruang kelas bagus fasilitas mumpuni jurus leng...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...,kampus sayang mudah jangkau karna tol jalan mo...


In [68]:
df.isnull().sum()

name            0
rating          0
snippet         0
temp_text       0
stemmed_text    0
dtype: int64

In [69]:
from nltk.tokenize import word_tokenize

# Tokenisasi
df['tokenized_text'] = df['stemmed_text'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...,kampus mahasiswa teknik timba ilmu fakultas te...,"[kampus, mahasiswa, teknik, timba, ilmu, fakul..."
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...,kampus udah bagus fasilitas pada alangkah baik...,"[kampus, udah, bagus, fasilitas, pada, alangka..."
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...,cocok abis sma ajar teknik listrik fakultas tu...,"[cocok, abis, sma, ajar, teknik, listrik, faku..."
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...,ruang kelas bagus fasilitas mumpuni jurus leng...,"[ruang, kelas, bagus, fasilitas, mumpuni, juru..."
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...,kampus sayang mudah jangkau karna tol jalan mo...,"[kampus, sayang, mudah, jangkau, karna, tol, j..."


In [70]:
# Cleaned text
df['cleaned_text'] = df['tokenized_text']
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text,cleaned_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...,kampus mahasiswa teknik timba ilmu fakultas te...,"[kampus, mahasiswa, teknik, timba, ilmu, fakul...","[kampus, mahasiswa, teknik, timba, ilmu, fakul..."
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...,kampus udah bagus fasilitas pada alangkah baik...,"[kampus, udah, bagus, fasilitas, pada, alangka...","[kampus, udah, bagus, fasilitas, pada, alangka..."
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...,cocok abis sma ajar teknik listrik fakultas tu...,"[cocok, abis, sma, ajar, teknik, listrik, faku...","[cocok, abis, sma, ajar, teknik, listrik, faku..."
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...,ruang kelas bagus fasilitas mumpuni jurus leng...,"[ruang, kelas, bagus, fasilitas, mumpuni, juru...","[ruang, kelas, bagus, fasilitas, mumpuni, juru..."
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...,kampus sayang mudah jangkau karna tol jalan mo...,"[kampus, sayang, mudah, jangkau, karna, tol, j...","[kampus, sayang, mudah, jangkau, karna, tol, j..."


In [71]:
df.isnull().sum()

name              0
rating            0
snippet           0
temp_text         0
stemmed_text      0
tokenized_text    0
cleaned_text      0
dtype: int64

In [72]:
import os

try:
	# Save the dataframe to a CSV file
	df.to_csv(output_path, index=False)
	print(f"DataFrame successfully saved to {output_path}")
except Exception as e:
	print(f"An error occurred: {e}")

DataFrame successfully saved to ../../dataset/cleaned-data/IT_PLN_Reviews_cleaned.csv
