# **Preprocessing | Sekolah Tinggi Manajemen Logistik Indonesia (STIMLOG)**

# Text Preprocessing (Clean Data)

In [1]:
import pandas as pd
import string
import re
df = pd.read_csv('../../dataset/STIMLOG_Reviews.csv')

output_path = '../../dataset/cleaned-data/STIMLOG_Reviews_cleaned.csv'

df.head()

Unnamed: 0,page,name,link,thumbnail,rating,date,snippet,images,local_guide
0,1,Rian Syahariany,https://www.google.com/maps/contrib/1002537162...,https://lh3.googleusercontent.com/a-/ALV-UjWws...,5.0,2 bulan lalu,Kampus kereen...dosennya sangat support lokasi...,,True
1,1,Ananda Hafizhah Putri,https://www.google.com/maps/contrib/1184453129...,https://lh3.googleusercontent.com/a-/ALV-UjWw_...,4.0,2 tahun lalu,Kampus yang nyaman. Suasana cukup heteorgen ka...,['https://lh5.googleusercontent.com/p/AF1QipMO...,True
2,1,PRADYA PARAMITHA,https://www.google.com/maps/contrib/1107620026...,https://lh3.googleusercontent.com/a/ACg8ocJFiR...,1.0,7 bulan lalu,Ada salah satu dosen yg mempersulit mahasiswan...,,
3,1,Juli Amirah Nasution,https://www.google.com/maps/contrib/1151706215...,https://lh3.googleusercontent.com/a-/ALV-UjVB0...,5.0,6 tahun lalu,Sekolah Tinggi pertama di Indonesia yang berko...,['https://lh5.googleusercontent.com/p/AF1QipMO...,True
4,1,Ayah Endah,https://www.google.com/maps/contrib/1110976044...,https://lh3.googleusercontent.com/a-/ALV-UjXMt...,5.0,3 tahun lalu,"Kampus nya luas, bersih dan bagus. Udaranya se...",['https://lh5.googleusercontent.com/p/AF1QipMR...,True


In [2]:
# drop the columns
df = df.drop(columns=['page', 'link', 'thumbnail', 'date', 'images', 'local_guide'], axis=1)
df.head()

Unnamed: 0,name,rating,snippet
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se..."


## Convert to lowercase

In [3]:
df['temp_text'] = df['snippet'].str.lower()
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereen...dosennya sangat support lokasi...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus yang nyaman. suasana cukup heteorgen ka...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,ada salah satu dosen yg mempersulit mahasiswan...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah tinggi pertama di indonesia yang berko...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...","kampus nya luas, bersih dan bagus. udaranya se..."


## Remove Missings Values

In [4]:
df.isnull().sum()

name          0
rating        0
snippet      95
temp_text    95
dtype: int64

In [5]:
df = df.dropna(subset=['temp_text'])
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereen...dosennya sangat support lokasi...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus yang nyaman. suasana cukup heteorgen ka...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,ada salah satu dosen yg mempersulit mahasiswan...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah tinggi pertama di indonesia yang berko...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...","kampus nya luas, bersih dan bagus. udaranya se..."


In [6]:
df.isnull().sum()

name         0
rating       0
snippet      0
temp_text    0
dtype: int64

## Menghapus Whitespace

In [7]:
def remove_extra_whitespace(text):
    # Menghapus spasi di awal dan akhir teks
    text = text.strip()
    # Menghapus spasi berlebih di tengah teks
    text = re.sub('\s+', ' ', text)
    return text

# Menerapkan fungsi pada kolom 'temp_text'
df['temp_text'] = df['temp_text'].apply(lambda x: remove_extra_whitespace(x))
df.head()

  text = re.sub('\s+', ' ', text)


Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereen...dosennya sangat support lokasi...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus yang nyaman. suasana cukup heteorgen ka...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,ada salah satu dosen yg mempersulit mahasiswan...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah tinggi pertama di indonesia yang berko...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...","kampus nya luas, bersih dan bagus. udaranya se..."


## Removal of Punctuations

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
def remove_punctuations(text):
    punctuations = string.punctuation
    return text.translate(str.maketrans('', '', punctuations))

In [10]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_punctuations(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya sangat support lokasi te...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus yang nyaman suasana cukup heteorgen kar...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,ada salah satu dosen yg mempersulit mahasiswan...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah tinggi pertama di indonesia yang berko...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus nya luas bersih dan bagus udaranya sejuk


## Normalisasi Teks

In [11]:
# Kamus slang dan kata yang sudah dinormalisasi
slang_dict = {
    "gak": "tidak",
    "u": "you",
    "yg": "yang",
    "kalo": "kalau",
    "aja": "saja",
    "tdk": "tidak",
    "bgt": "banget",
    "dgn": "dengan",
    "dr": "dari",
    "dlm": "dalam",
    "sbg": "sebagai",
    "spt": "seperti",
    "utk": "untuk",
    "krn": "karena",
    "tp": "tapi",
    "jd": "jadi",
    "sy": "saya",
    "dg": "dengan",
    "trs": "terus",
    "sm": "sama",
    "pd": "pada",
    "blm": "belum",
    "sdh": "sudah",
    "td": "tadi",
    "lg": "lagi",
    "gmn": "gimana",
    "knp": "kenapa",
    "dpt": "dapat",
    "bbrp": "beberapa",
    "dl": "dulu",
    "kl": "kalau",
    "tmn": "teman",
    "msh": "masih",
    "syg": "sayang",
    "cm": "cuma",
    "bs": "bisa",
    "jg": "juga",
    "org": "orang",
    "bkn": "bukan",
    "bbrp": "beberapa",
    "dpt": "dapat",
    "dgn": "dengan",
    "dr": "dari",
    "gmn": "gimana",
    "hrs": "harus",
    "jgn": "jangan",
    "krn": "karena",
    "lg": "lagi",
    "pd": "pada",
    "sdh": "sudah",
    "sm": "sama",
    "tdk": "tidak",
    "tp": "tapi",
    "utk": "untuk",
    "yg": "yang"
}

# Fungsi untuk mengganti kata slang dengan kata yang sudah dinormalisasi
def normalize_text(text):
    words = text.split()
    normalized_words = [slang_dict.get(word, word) for word in words]
    return " ".join(normalized_words)

# Menerapkan normalisasi pada kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda x: normalize_text(x))
df.head(10)

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya sangat support lokasi te...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus yang nyaman suasana cukup heteorgen kar...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,ada salah satu dosen yang mempersulit mahasisw...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah tinggi pertama di indonesia yang berko...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus nya luas bersih dan bagus udaranya sejuk
5,KDKW CENTER KOTA MOJOKERTO (Wa jek pak moh yusri),3.0,Sepi kuliah belum berjalan secara tatap muka k...,sepi kuliah belum berjalan secara tatap muka k...
6,Denis Erlangga Maulana,5.0,"Adem,bersih,luas,cocok untuk mahasiswa",adembersihluascocok untuk mahasiswa
7,Rosid S,5.0,"Sejuk, tempat tepat untuk belajar",sejuk tempat tepat untuk belajar
8,lina lusiana,5.0,Saya sih cm di luar kampusnya aja.. G msk sih....,saya sih cuma di luar kampusnya saja g msk sih...
9,M. J. S. Priatna,3.0,"Karena letaknya yang sama dengan poltekpos, te...",karena letaknya yang sama dengan poltekpos ten...


## Removal of Stopwords

In [12]:
from nltk.corpus import stopwords
", ".join(stopwords.words('indonesian'))

'ada, adalah, adanya, adapun, agak, agaknya, agar, akan, akankah, akhir, akhiri, akhirnya, aku, akulah, amat, amatlah, anda, andalah, antar, antara, antaranya, apa, apaan, apabila, apakah, apalagi, apatah, artinya, asal, asalkan, atas, atau, ataukah, ataupun, awal, awalnya, bagai, bagaikan, bagaimana, bagaimanakah, bagaimanapun, bagi, bagian, bahkan, bahwa, bahwasanya, baik, bakal, bakalan, balik, banyak, bapak, baru, bawah, beberapa, begini, beginian, beginikah, beginilah, begitu, begitukah, begitulah, begitupun, bekerja, belakang, belakangan, belum, belumlah, benar, benarkah, benarlah, berada, berakhir, berakhirlah, berakhirnya, berapa, berapakah, berapalah, berapapun, berarti, berawal, berbagai, berdatangan, beri, berikan, berikut, berikutnya, berjumlah, berkali-kali, berkata, berkehendak, berkeinginan, berkenaan, berlainan, berlalu, berlangsung, berlebihan, bermacam, bermacam-macam, bermaksud, bermula, bersama, bersama-sama, bersiap, bersiap-siap, bertanya, bertanya-tanya, berturut

In [13]:
from nltk.corpus import stopwords

STOPWORDS = set(stopwords.words('indonesian'))
def remove_stopwords(text):
    return " ".join([word for word in text.split() if word not in STOPWORDS])

In [14]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_stopwords(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus nya luas bersih bagus udaranya sejuk


## !!!Removal of Frequent Words

In [15]:
# Menghapus semua kata "nya" yang berdiri sendiri dalam kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda text: ' '.join([word for word in text.split() if word != 'nya']))

df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus luas bersih bagus udaranya sejuk


In [16]:
from collections import Counter
word_count = Counter()
for text in df['temp_text']:
    for word in text.split():
        word_count[word] += 1
        
word_count.most_common(10)

[('kampus', 11),
 ('bagus', 7),
 ('kuliah', 5),
 ('logistik', 5),
 ('kampusnya', 5),
 ('sejuk', 5),
 ('nyaman', 4),
 ('luas', 4),
 ('stimlog', 4),
 ('dosen', 4)]

In [17]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus luas bersih bagus udaranya sejuk


In [18]:
# FREQUENT_WORDS = set(word for (word, wc) in word_count.most_common(3))
# def remove_freq_words(text):
#     return " ".join([word for word in text.split() if word not in FREQUENT_WORDS])

In [19]:
# df['temp_text'] = df['temp_text'].apply(lambda x: remove_freq_words(x))
# df.head()

## Removal of Rare Words

In [20]:
# This cell should be moved after CELL INDEX 22
RARE_WORDS = set(word for (word, wc) in word_count.most_common()[:-10:-1])
print(RARE_WORDS)

{'in', 'bad', 'first', 'nice', 'university', 'smart', 'slog', 'green', 'top'}


In [21]:
def remove_rare_words(text):
    return " ".join([word for word in text.split() if word not in RARE_WORDS])

In [22]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_rare_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus luas bersih bagus udaranya sejuk


## Removal of Special characters

In [23]:
import re
def remove_spl_chars(text):
    text = re.sub('[^a-zA-Z0-9]', ' ', text)
    text = re.sub('\s+', ' ', text)
    return text

  text = re.sub('\s+', ' ', text)


In [24]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_spl_chars(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus luas bersih bagus udaranya sejuk


## Stemming

In [25]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer bahasa Indonesia
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi stemming
def stem_words(text):
    return stemmer.stem(text)

In [26]:
# Menerapkan stemming pada kolom temp_text
df['stemmed_text'] = df['temp_text'].apply(lambda x: stem_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...,kampus kereendosennya support lokasi tenang ny...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...,kampus nyaman suasana heteorgen mahasiswa asal...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...,salah dosen sulit mahasiswa adik lulus kampus ...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...,sekolah indonesia konsentrasi bidang logistik ...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus luas bersih bagus udaranya sejuk,kampus luas bersih bagus udara sejuk


## Lemmatization & POS Tagging

In [27]:
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
wordnet_map = {"N":wordnet.NOUN, "V": wordnet.VERB, "J": wordnet.ADJ, "R": wordnet.ADV}

def lemmatize_words(text):
    # find pos tags
    pos_text = pos_tag(text.split())
    return " ".join([lemmatizer.lemmatize(word, wordnet_map.get(pos[0], wordnet.NOUN)) for word, pos in pos_text])

In [28]:
from nltk.corpus import wordnet

wordnet.NOUN

'n'

In [29]:
# import nltk
# nltk.download('averaged_perceptron_tagger')

# df['lemmatized_text'] = df['temp_text'].apply(lambda x: lemmatize_words(x))
# df.head()

In [30]:
df.sample(frac=1).head(10)

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
20,Marten Beos,5.0,Anak sy kuliah di polban stimlog,anak kuliah polban stimlog,anak kuliah polban stimlog
44,Muhammad Sardafi Rais Nur,5.0,First S.Log in indonesia,indonesia,indonesia
28,Ilham Akhir Sahbana,5.0,Adem,adem,adem
34,Indra Mahyudi. S,5.0,"Kampusnya asri, di atas bukit, sejuk dan nyaman.",kampusnya asri bukit sejuk nyaman,kampus asri bukit sejuk nyaman
30,Agus Suryana,5.0,Kampus Orange,kampus orange,kampus orange
32,Nabil Kusuma,5.0,Bagus,bagus,bagus
21,Muhammad Akbar,5.0,Sangat bagus,bagus,bagus
16,Zahra Nadhifa,5.0,Tempatnya bagus dan nyamana 🤩,tempatnya bagus nyamana,tempat bagus nyamana
5,KDKW CENTER KOTA MOJOKERTO (Wa jek pak moh yusri),3.0,Sepi kuliah belum berjalan secara tatap muka k...,sepi kuliah berjalan tatap muka effek corona,sepi kuliah jalan tatap muka effek corona
31,Muhammad Riyan Prayoga,5.0,Mantap,mantap,mantap


## Tokenization

In [31]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...,kampus kereendosennya support lokasi tenang ny...
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...,kampus nyaman suasana heteorgen mahasiswa asal...
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...,salah dosen sulit mahasiswa adik lulus kampus ...
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...,sekolah indonesia konsentrasi bidang logistik ...
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus luas bersih bagus udaranya sejuk,kampus luas bersih bagus udara sejuk


In [32]:
df.isnull().sum()

name            0
rating          0
snippet         0
temp_text       0
stemmed_text    0
dtype: int64

In [33]:
from nltk.tokenize import word_tokenize

# Tokenisasi
df['tokenized_text'] = df['stemmed_text'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...,kampus kereendosennya support lokasi tenang ny...,"[kampus, kereendosennya, support, lokasi, tena..."
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...,kampus nyaman suasana heteorgen mahasiswa asal...,"[kampus, nyaman, suasana, heteorgen, mahasiswa..."
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...,salah dosen sulit mahasiswa adik lulus kampus ...,"[salah, dosen, sulit, mahasiswa, adik, lulus, ..."
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...,sekolah indonesia konsentrasi bidang logistik ...,"[sekolah, indonesia, konsentrasi, bidang, logi..."
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus luas bersih bagus udaranya sejuk,kampus luas bersih bagus udara sejuk,"[kampus, luas, bersih, bagus, udara, sejuk]"


In [34]:
# Cleaned text
df['cleaned_text'] = df['tokenized_text']
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text,cleaned_text
0,Rian Syahariany,5.0,Kampus kereen...dosennya sangat support lokasi...,kampus kereendosennya support lokasi tenang ny...,kampus kereendosennya support lokasi tenang ny...,"[kampus, kereendosennya, support, lokasi, tena...","[kampus, kereendosennya, support, lokasi, tena..."
1,Ananda Hafizhah Putri,4.0,Kampus yang nyaman. Suasana cukup heteorgen ka...,kampus nyaman suasana heteorgen mahasiswa bera...,kampus nyaman suasana heteorgen mahasiswa asal...,"[kampus, nyaman, suasana, heteorgen, mahasiswa...","[kampus, nyaman, suasana, heteorgen, mahasiswa..."
2,PRADYA PARAMITHA,1.0,Ada salah satu dosen yg mempersulit mahasiswan...,salah dosen mempersulit mahasiswanya adik lulu...,salah dosen sulit mahasiswa adik lulus kampus ...,"[salah, dosen, sulit, mahasiswa, adik, lulus, ...","[salah, dosen, sulit, mahasiswa, adik, lulus, ..."
3,Juli Amirah Nasution,5.0,Sekolah Tinggi pertama di Indonesia yang berko...,sekolah indonesia berkonsentrasi dibidang logi...,sekolah indonesia konsentrasi bidang logistik ...,"[sekolah, indonesia, konsentrasi, bidang, logi...","[sekolah, indonesia, konsentrasi, bidang, logi..."
4,Ayah Endah,5.0,"Kampus nya luas, bersih dan bagus. Udaranya se...",kampus luas bersih bagus udaranya sejuk,kampus luas bersih bagus udara sejuk,"[kampus, luas, bersih, bagus, udara, sejuk]","[kampus, luas, bersih, bagus, udara, sejuk]"


In [35]:
df.isnull().sum()

name              0
rating            0
snippet           0
temp_text         0
stemmed_text      0
tokenized_text    0
cleaned_text      0
dtype: int64

In [36]:
import os

try:
	# Save the dataframe to a CSV file
	df.to_csv(output_path, index=False)
	print(f"DataFrame successfully saved to {output_path}")
except Exception as e:
	print(f"An error occurred: {e}")

DataFrame successfully saved to ../../dataset/cleaned-data/STIMLOG_Reviews_cleaned.csv
