# Text Preprocessing (Clean Data)

In [1]:
import pandas as pd
import string
import re
df = pd.read_csv('../../dataset/UISI_reviews.csv')

output_path = '../../dataset/cleaned-data/UISI_Reviews_cleaned.csv'

df.head()

Unnamed: 0,page,name,link,thumbnail,rating,date,snippet,images,local_guide
0,1,Firdaus Agil Prasetyo,https://www.google.com/maps/contrib/1114238106...,https://lh3.googleusercontent.com/a-/ALV-UjWYy...,5.0,2 tahun lalu,Dari luar tampak seperti rumah hantu. Tapi lih...,['https://lh5.googleusercontent.com/p/AF1QipNj...,True
1,1,Miftah NG,https://www.google.com/maps/contrib/1127338953...,https://lh3.googleusercontent.com/a-/ALV-UjXiM...,5.0,5 tahun lalu,"Unik. Kampus ""heritage"" pertama yang pernah sa...",['https://lh5.googleusercontent.com/p/AF1QipOw...,True
2,1,Hafiz Nafi'uddin,https://www.google.com/maps/contrib/1069934634...,https://lh3.googleusercontent.com/a-/ALV-UjWTC...,3.0,setahun lalu,"Universitasnya sangat bagus, tapi lebih diperh...",,True
3,1,Chandra Bintang,https://www.google.com/maps/contrib/1180606762...,https://lh3.googleusercontent.com/a/ACg8ocKeJe...,1.0,7 bulan lalu,"Hati-hati dengan dosen gadungan yang bernama ""...",,True
4,1,Wandy Bear,https://www.google.com/maps/contrib/1006073327...,https://lh3.googleusercontent.com/a-/ALV-UjVt8...,3.0,setahun lalu,"Sementara 3 bintang dulu ya min.\nMin, calon m...",,True


In [2]:
# drop the columns
df = df.drop(columns=['page', 'link', 'thumbnail', 'date', 'images', 'local_guide'], axis=1)
df.head()

Unnamed: 0,name,rating,snippet
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa..."
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh..."
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""..."
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m..."


## Convert to lowercase

In [3]:
df['clean_text'] = df['snippet'].str.lower()
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,dari luar tampak seperti rumah hantu. tapi lih...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...","unik. kampus ""heritage"" pertama yang pernah sa..."
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...","universitasnya sangat bagus, tapi lebih diperh..."
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...","hati-hati dengan dosen gadungan yang bernama ""..."
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...","sementara 3 bintang dulu ya min.\nmin, calon m..."


## Remove Missings Values

In [4]:
df.isnull().sum()

name            0
rating          0
snippet       139
clean_text    139
dtype: int64

In [5]:
df = df.dropna(subset=['clean_text'])
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,dari luar tampak seperti rumah hantu. tapi lih...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...","unik. kampus ""heritage"" pertama yang pernah sa..."
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...","universitasnya sangat bagus, tapi lebih diperh..."
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...","hati-hati dengan dosen gadungan yang bernama ""..."
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...","sementara 3 bintang dulu ya min.\nmin, calon m..."


In [6]:
df.isnull().sum()

name          0
rating        0
snippet       0
clean_text    0
dtype: int64

## Menghapus Whitespace

In [7]:
def remove_extra_whitespace(text):
    # Menghapus spasi di awal dan akhir teks
    text = text.strip()
    # Menghapus spasi berlebih di tengah teks
    text = re.sub('\s+', ' ', text)
    return text

# Menerapkan fungsi pada kolom 'clean_text'
df['clean_text'] = df['clean_text'].apply(lambda x: remove_extra_whitespace(x))
df.head()

  text = re.sub('\s+', ' ', text)


Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,dari luar tampak seperti rumah hantu. tapi lih...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...","unik. kampus ""heritage"" pertama yang pernah sa..."
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...","universitasnya sangat bagus, tapi lebih diperh..."
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...","hati-hati dengan dosen gadungan yang bernama ""..."
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...","sementara 3 bintang dulu ya min. min, calon ma..."


## Removal of Punctuations

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
def remove_punctuations(text):
    punctuations = string.punctuation
    return text.translate(str.maketrans('', '', punctuations))

In [10]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_punctuations(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,dari luar tampak seperti rumah hantu tapi liha...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...",unik kampus heritage pertama yang pernah saya ...
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...",universitasnya sangat bagus tapi lebih diperha...
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...",hatihati dengan dosen gadungan yang bernama ok...
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...",sementara 3 bintang dulu ya min min calon maha...


## Normalisasi Teks

In [11]:
# Kamus slang dan kata yang sudah dinormalisasi
slang_dict = {
    "gak": "tidak",
    "u": "you",
    "yg": "yang",
    "kalo": "kalau",
    "aja": "saja",
    "tdk": "tidak",
    "bgt": "banget",
    "dgn": "dengan",
    "dr": "dari",
    "dlm": "dalam",
    "sbg": "sebagai",
    "spt": "seperti",
    "utk": "untuk",
    "krn": "karena",
    "tp": "tapi",
    "jd": "jadi",
    "sy": "saya",
    "dg": "dengan",
    "trs": "terus",
    "sm": "sama",
    "pd": "pada",
    "blm": "belum",
    "sdh": "sudah",
    "td": "tadi",
    "lg": "lagi",
    "gmn": "gimana",
    "knp": "kenapa",
    "dpt": "dapat",
    "bbrp": "beberapa",
    "dl": "dulu",
    "kl": "kalau",
    "tmn": "teman",
    "msh": "masih",
    "syg": "sayang",
    "cm": "cuma",
    "bs": "bisa",
    "jg": "juga",
    "org": "orang",
    "bkn": "bukan",
    "bbrp": "beberapa",
    "dpt": "dapat",
    "dgn": "dengan",
    "dr": "dari",
    "gmn": "gimana",
    "hrs": "harus",
    "jgn": "jangan",
    "krn": "karena",
    "lg": "lagi",
    "pd": "pada",
    "sdh": "sudah",
    "sm": "sama",
    "tdk": "tidak",
    "tp": "tapi",
    "utk": "untuk",
    "yg": "yang"
}

# Fungsi untuk mengganti kata slang dengan kata yang sudah dinormalisasi
def normalize_text(text):
    words = text.split()
    normalized_words = [slang_dict.get(word, word) for word in words]
    return " ".join(normalized_words)

# Menerapkan normalisasi pada kolom clean_text
df['clean_text'] = df['clean_text'].apply(lambda x: normalize_text(x))
df.head(10)

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,dari luar tampak seperti rumah hantu tapi liha...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...",unik kampus heritage pertama yang pernah saya ...
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...",universitasnya sangat bagus tapi lebih diperha...
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...",hatihati dengan dosen gadungan yang bernama ok...
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...",sementara 3 bintang dulu ya min min calon maha...
5,Fajar Rifat,2.0,Jalan masuk untuk motor ke kampus B paving nya...,jalan masuk untuk motor ke kampus b paving nya...
6,Justin Hubner,1.0,"Dapat Orderan Go Ride Atas Nama ""Amelia S"" pad...",dapat orderan go ride atas nama amelia s pada ...
7,MiawLegenD_,1.0,Kekurangan yang ada :\n1. Parkiran\nGa ada par...,kekurangan yang ada 1 parkiran ga ada parkiran...
8,thandmustedi Pur,1.0,1. Syarat pendaftaran kurang terperinci dan si...,1 syarat pendaftaran kurang terperinci dan sis...
9,Nurtoha Mr,4.0,"Lokasinya cukup Sejuk, asri dan bersih, banyak...",lokasinya cukup sejuk asri dan bersih banyak p...


## Removal of Stopwords

In [12]:
from nltk.corpus import stopwords
", ".join(stopwords.words('indonesian'))

'ada, adalah, adanya, adapun, agak, agaknya, agar, akan, akankah, akhir, akhiri, akhirnya, aku, akulah, amat, amatlah, anda, andalah, antar, antara, antaranya, apa, apaan, apabila, apakah, apalagi, apatah, artinya, asal, asalkan, atas, atau, ataukah, ataupun, awal, awalnya, bagai, bagaikan, bagaimana, bagaimanakah, bagaimanapun, bagi, bagian, bahkan, bahwa, bahwasanya, baik, bakal, bakalan, balik, banyak, bapak, baru, bawah, beberapa, begini, beginian, beginikah, beginilah, begitu, begitukah, begitulah, begitupun, bekerja, belakang, belakangan, belum, belumlah, benar, benarkah, benarlah, berada, berakhir, berakhirlah, berakhirnya, berapa, berapakah, berapalah, berapapun, berarti, berawal, berbagai, berdatangan, beri, berikan, berikut, berikutnya, berjumlah, berkali-kali, berkata, berkehendak, berkeinginan, berkenaan, berlainan, berlalu, berlangsung, berlebihan, bermacam, bermacam-macam, bermaksud, bermula, bersama, bersama-sama, bersiap, bersiap-siap, bertanya, bertanya-tanya, berturut

In [13]:
from nltk.corpus import stopwords

STOPWORDS = set(stopwords.words('indonesian'))
def remove_stopwords(text):
    return " ".join([word for word in text.split() if word not in STOPWORDS])

In [14]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_stopwords(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,rumah hantu lihatlah masuk sempurna tempatnya ...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...",unik kampus heritage datangi area bekas pabrik...
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...",universitasnya bagus diperhatikan dikampus 2 j...
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...",hatihati dosen gadungan bernama oktavian zulfi...
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...",3 bintang ya min min calon mahasiswamahasiswi ...


## !!!Removal of Frequent Words

In [15]:
# Menghapus semua kata "nya" yang berdiri sendiri dalam kolom clean_text
df['clean_text'] = df['clean_text'].apply(lambda text: ' '.join([word for word in text.split() if word != 'nya']))

df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,rumah hantu lihatlah masuk sempurna tempatnya ...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...",unik kampus heritage datangi area bekas pabrik...
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...",universitasnya bagus diperhatikan dikampus 2 j...
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...",hatihati dosen gadungan bernama oktavian zulfi...
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...",3 bintang ya min min calon mahasiswamahasiswi ...


In [16]:
from collections import Counter
word_count = Counter()
for text in df['clean_text']:
    for word in text.split():
        word_count[word] += 1
        
word_count.most_common(10)

[('kampus', 33),
 ('bagus', 11),
 ('gresik', 10),
 ('mahasiswa', 8),
 ('indonesia', 7),
 ('ac', 6),
 ('ga', 6),
 ('masuk', 5),
 ('kuliah', 5),
 ('semen', 5)]

In [17]:
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,rumah hantu lihatlah masuk sempurna tempatnya ...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...",unik kampus heritage datangi area bekas pabrik...
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...",universitasnya bagus diperhatikan dikampus 2 j...
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...",hatihati dosen gadungan bernama oktavian zulfi...
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...",3 bintang ya min min calon mahasiswamahasiswi ...


In [18]:
# FREQUENT_WORDS = set(word for (word, wc) in word_count.most_common(3))
# def remove_freq_words(text):
#     return " ".join([word for word in text.split() if word not in FREQUENT_WORDS])

In [19]:
# df['clean_text'] = df['clean_text'].apply(lambda x: remove_freq_words(x))
# df.head()

## Removal of Rare Words

In [20]:
# This cell should be moved after CELL INDEX 22
RARE_WORDS = set(word for (word, wc) in word_count.most_common()[:-10:-1])
print(RARE_WORDS)

{'tekkim', 'facilities', 'homy', 'dabest💕👌', 'reputable', 'stimsi', 'niceeee', 'people', 'private'}


In [21]:
def remove_rare_words(text):
    return " ".join([word for word in text.split() if word not in RARE_WORDS])

In [22]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_rare_words(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,rumah hantu lihatlah masuk sempurna tempatnya ...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...",unik kampus heritage datangi area bekas pabrik...
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...",universitasnya bagus diperhatikan dikampus 2 j...
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...",hatihati dosen gadungan bernama oktavian zulfi...
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...",3 bintang ya min min calon mahasiswamahasiswi ...


## Removal of Special characters

In [23]:
import re
def remove_spl_chars(text):
    text = re.sub('[^a-zA-Z0-9]', ' ', text)
    text = re.sub('\s+', ' ', text)
    return text

  text = re.sub('\s+', ' ', text)


In [24]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_spl_chars(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Firdaus Agil Prasetyo,5.0,Dari luar tampak seperti rumah hantu. Tapi lih...,rumah hantu lihatlah masuk sempurna tempatnya ...
1,Miftah NG,5.0,"Unik. Kampus ""heritage"" pertama yang pernah sa...",unik kampus heritage datangi area bekas pabrik...
2,Hafiz Nafi'uddin,3.0,"Universitasnya sangat bagus, tapi lebih diperh...",universitasnya bagus diperhatikan dikampus 2 j...
3,Chandra Bintang,1.0,"Hati-hati dengan dosen gadungan yang bernama ""...",hatihati dosen gadungan bernama oktavian zulfi...
4,Wandy Bear,3.0,"Sementara 3 bintang dulu ya min.\nMin, calon m...",3 bintang ya min min calon mahasiswamahasiswi ...


## Stemming

In [25]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer bahasa Indonesia
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi stemming
def stem_words(text):
    return stemmer.stem(text)

In [None]:
# Menerapkan stemming pada kolom clean_text
df['stemmed_text'] = df['clean_text'].apply(lambda x: stem_words(x))
df.head()

## Lemmatization & POS Tagging

In [57]:
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
wordnet_map = {"N":wordnet.NOUN, "V": wordnet.VERB, "J": wordnet.ADJ, "R": wordnet.ADV}

def lemmatize_words(text):
    # find pos tags
    pos_text = pos_tag(text.split())
    return " ".join([lemmatizer.lemmatize(word, wordnet_map.get(pos[0], wordnet.NOUN)) for word, pos in pos_text])

In [58]:
from nltk.corpus import wordnet

wordnet.NOUN

'n'

In [59]:
# import nltk
# nltk.download('averaged_perceptron_tagger')

# df['lemmatized_text'] = df['clean_text'].apply(lambda x: lemmatize_words(x))
# df.head()

In [60]:
df.sample(frac=1).head(10)

Unnamed: 0,name,rating,snippet,clean_text,stemmed_text
159,Vito Dery Alvi Silalahi,5.0,"kampus terbaik, dekat PT Dwiandra Cipta Anuger...",kampus terbaik pt dwiandra cipta anugerah elev...,kampus baik pt dwiandra cipta anugerah elevato...
77,Fajar Riyanto,5.0,tempat yg mengajarkan ku tentang listrik di te...,mengajarkan ku listrik belajar,ajar ku listrik ajar
52,nurmiati pasra,5.0,"Dosen2 yang berkualitas, Fasilitas Laboratoriu...",dosen2 berkualitas fasilitas laboratorium leng...,dosen2 kualitas fasilitas laboratorium lengkap...
67,Eka Yuda.k,5.0,Sttpln duri kosambi,sttpln duri kosambi,sttpln duri kosambi
162,hokage minato,5.0,Lantai 8 tempat paling sejuk,lantai 8 sejuk,lantai 8 sejuk
64,Tristan Tata,5.0,Keren,keren,keren
151,Nanang Sadikin,4.0,"This campus has major in Computer Science, Civ...",this campus has major in computer science civi...,this campus has major in computer science civi...
185,hadi. saputra,4.0,See u STTPLN,see you sttpln,see you sttpln
72,Puja Trisdayanti,5.0,Boleh info koskosan sekitaran kampus dong,info koskosan sekitaran kampus,info koskosan sekitar kampus
183,Friendy Aji Prastiyo,1.0,Worst,,


## Tokenization

In [61]:
df.head()

Unnamed: 0,name,rating,snippet,clean_text,stemmed_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...,kampus mahasiswa teknik timba ilmu fakultas te...
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...,kampus udah bagus fasilitas pada alangkah baik...
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...,cocok abis sma ajar teknik listrik fakultas tu...
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...,ruang kelas bagus fasilitas mumpuni jurus leng...
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...,kampus sayang mudah jangkau karna tol jalan mo...


In [62]:
df.isnull().sum()

name            0
rating          0
snippet         0
clean_text      0
stemmed_text    0
dtype: int64

In [63]:
from nltk.tokenize import word_tokenize

# Tokenisasi
df['tokenized_text'] = df['stemmed_text'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text,stemmed_text,tokenized_text
0,Nindyo Yuwono,4.0,Kampus para mahasiswa teknik menimba ilmu tapi...,kampus mahasiswa teknik menimba ilmu fakultas ...,kampus mahasiswa teknik timba ilmu fakultas te...,"[kampus, mahasiswa, teknik, timba, ilmu, fakul..."
1,Muhammad Fanani Hafifudin,2.0,"Untuk sekarang kampus udah bagus, banyak fasil...",kampus udah bagus fasilitas memadai alangkah b...,kampus udah bagus fasilitas pada alangkah baik...,"[kampus, udah, bagus, fasilitas, pada, alangka..."
2,Hafizh Hilman Asyhari,5.0,Sangat cocok untuk abis SMA belajar teknik kel...,cocok abis sma belajar teknik kelistrikan faku...,cocok abis sma ajar teknik listrik fakultas tu...,"[cocok, abis, sma, ajar, teknik, listrik, faku..."
3,The Scrivener's Presenter Global,5.0,Ruang kelas bagus. Ada fasilitas yg mumpuni\n\...,ruang kelas bagus fasilitas mumpuni jurusan le...,ruang kelas bagus fasilitas mumpuni jurus leng...,"[ruang, kelas, bagus, fasilitas, mumpuni, juru..."
4,MUHAMMAD RIZKY,5.0,Kampus kesayangan. Mudah dijangkau karna terli...,kampus kesayangan mudah dijangkau karna tol ja...,kampus sayang mudah jangkau karna tol jalan mo...,"[kampus, sayang, mudah, jangkau, karna, tol, j..."


In [64]:
df.isnull().sum()

name              0
rating            0
snippet           0
clean_text        0
stemmed_text      0
tokenized_text    0
dtype: int64

In [65]:
import os

try:
	# Save the dataframe to a CSV file
	df.to_csv(output_path, index=False)
	print(f"DataFrame successfully saved to {output_path}")
except Exception as e:
	print(f"An error occurred: {e}")

DataFrame successfully saved to ../../dataset/cleaned-data/IT_PLN_Reviews_cleaned.csv
