# **Preprocessing | Cyber University (BRI Institute)**

# Text Preprocessing (Clean Data)

In [2]:
import pandas as pd
import string
import re
df = pd.read_csv('../../dataset/CyberU_reviews.csv')

output_path = '../../dataset/cleaned-data/CyberU_reviews_cleaned.csv'

df.head()

Unnamed: 0,page,name,link,thumbnail,rating,date,snippet,images,local_guide
0,1,Mahasiswa Pelajar,https://www.google.com/maps/contrib/1125439316...,https://lh3.googleusercontent.com/a-/ALV-UjVjy...,5.0,seminggu lalu,"Lokasi Kampusnya strategis, 1 menit keluar tol...",,
1,1,Fathia Rizky,https://www.google.com/maps/contrib/1036827544...,https://lh3.googleusercontent.com/a-/ALV-UjXng...,5.0,2 minggu lalu,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,,True
2,1,Michael Sitorus,https://www.google.com/maps/contrib/1149239308...,https://lh3.googleusercontent.com/a-/ALV-UjVv9...,5.0,setahun lalu,Kampus yang cocok untuk era digitalisasi dan m...,['https://lh5.googleusercontent.com/p/AF1QipPj...,True
3,1,Malinda Malinda,https://www.google.com/maps/contrib/1027179724...,https://lh3.googleusercontent.com/a-/ALV-UjVeh...,5.0,2 minggu lalu,"dosen dosen Universitas Siber Indonesia, berpe...",,True
4,1,Yudi Mulyawan,https://www.google.com/maps/contrib/1022158108...,https://lh3.googleusercontent.com/a-/ALV-UjWFg...,5.0,setahun lalu,"Kampus saya makin keren aja,\n😁, sebagai angka...",,


In [39]:
# drop the columns
df = df.drop(columns=['page', 'link', 'thumbnail', 'date', 'images', 'local_guide'], axis=1)
df.head()

Unnamed: 0,name,rating,snippet
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol..."
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka..."


## Convert to lowercase

In [40]:
df['temp_text'] = df['snippet'].str.lower()
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...","lokasi kampusnya strategis, 1 menit keluar tol..."
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...","dosen dosen universitas siber indonesia, berpe..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...","kampus saya makin keren aja,\n😁, sebagai angka..."


## Remove Missings Values

In [41]:
df.isnull().sum()

name          0
rating        0
snippet      38
temp_text    38
dtype: int64

In [42]:
df = df.dropna(subset=['temp_text'])
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...","lokasi kampusnya strategis, 1 menit keluar tol..."
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...","dosen dosen universitas siber indonesia, berpe..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...","kampus saya makin keren aja,\n😁, sebagai angka..."


In [43]:
df.isnull().sum()

name         0
rating       0
snippet      0
temp_text    0
dtype: int64

## Menghapus Whitespace

In [44]:
def remove_extra_whitespace(text):
    # Menghapus spasi di awal dan akhir teks
    text = text.strip()
    # Menghapus spasi berlebih di tengah teks
    text = re.sub('\s+', ' ', text)
    return text

# Menerapkan fungsi pada kolom 'temp_text'
df['temp_text'] = df['temp_text'].apply(lambda x: remove_extra_whitespace(x))
df.head()

  text = re.sub('\s+', ' ', text)


Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...","lokasi kampusnya strategis, 1 menit keluar tol..."
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas nya ⭐⭐⭐⭐⭐ ac nya masyaallah dingin b...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...","dosen dosen universitas siber indonesia, berpe..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...","kampus saya makin keren aja, 😁, sebagai angkat..."


## Removal of Punctuations

In [45]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [46]:
def remove_punctuations(text):
    punctuations = string.punctuation
    return text.translate(str.maketrans('', '', punctuations))

In [47]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_punctuations(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit keluar tol ...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas nya ⭐⭐⭐⭐⭐ ac nya masyaallah dingin b...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus saya makin keren aja 😁 sebagai angkatan...


## Normalisasi Teks

In [48]:
# Kamus slang dan kata yang sudah dinormalisasi
slang_dict = {
    "gak": "tidak",
    "u": "you",
    "yg": "yang",
    "kalo": "kalau",
    "aja": "saja",
    "tdk": "tidak",
    "bgt": "banget",
    "dgn": "dengan",
    "dr": "dari",
    "dlm": "dalam",
    "sbg": "sebagai",
    "spt": "seperti",
    "utk": "untuk",
    "krn": "karena",
    "tp": "tapi",
    "jd": "jadi",
    "sy": "saya",
    "dg": "dengan",
    "trs": "terus",
    "sm": "sama",
    "pd": "pada",
    "blm": "belum",
    "sdh": "sudah",
    "td": "tadi",
    "lg": "lagi",
    "gmn": "gimana",
    "knp": "kenapa",
    "dpt": "dapat",
    "bbrp": "beberapa",
    "dl": "dulu",
    "kl": "kalau",
    "tmn": "teman",
    "msh": "masih",
    "syg": "sayang",
    "cm": "cuma",
    "bs": "bisa",
    "jg": "juga",
    "org": "orang",
    "bkn": "bukan",
    "bbrp": "beberapa",
    "dpt": "dapat",
    "dgn": "dengan",
    "dr": "dari",
    "gmn": "gimana",
    "hrs": "harus",
    "jgn": "jangan",
    "krn": "karena",
    "lg": "lagi",
    "pd": "pada",
    "sdh": "sudah",
    "sm": "sama",
    "tdk": "tidak",
    "tp": "tapi",
    "utk": "untuk",
    "yg": "yang"
}

# Fungsi untuk mengganti kata slang dengan kata yang sudah dinormalisasi
def normalize_text(text):
    words = text.split()
    normalized_words = [slang_dict.get(word, word) for word in words]
    return " ".join(normalized_words)

# Menerapkan normalisasi pada kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda x: normalize_text(x))
df.head(10)

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit keluar tol ...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas nya ⭐⭐⭐⭐⭐ ac nya masyaallah dingin b...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus saya makin keren saja 😁 sebagai angkata...
5,Nur Raly,5.0,"Pengajar yg bepengalam, kampus yg nyaman, biay...",pengajar yang bepengalam kampus yang nyaman bi...
6,Hendra Rudystira,5.0,"Berawal dari BRI Institute, menjadikan Cyber U...",berawal dari bri institute menjadikan cyber un...
7,Palupi R,5.0,ternyata ada kampus bagus di TB Simatupang...,ternyata ada kampus bagus di tb simatupang
8,Andreas Wardoyo,5.0,Baik sekali,baik sekali
9,Desvika Elsar,5.0,"Kampusnya sangat nyaman terutama di perpusnya,...",kampusnya sangat nyaman terutama di perpusnya ...


## Removal of Stopwords

In [49]:
from nltk.corpus import stopwords
", ".join(stopwords.words('indonesian'))

'ada, adalah, adanya, adapun, agak, agaknya, agar, akan, akankah, akhir, akhiri, akhirnya, aku, akulah, amat, amatlah, anda, andalah, antar, antara, antaranya, apa, apaan, apabila, apakah, apalagi, apatah, artinya, asal, asalkan, atas, atau, ataukah, ataupun, awal, awalnya, bagai, bagaikan, bagaimana, bagaimanakah, bagaimanapun, bagi, bagian, bahkan, bahwa, bahwasanya, baik, bakal, bakalan, balik, banyak, bapak, baru, bawah, beberapa, begini, beginian, beginikah, beginilah, begitu, begitukah, begitulah, begitupun, bekerja, belakang, belakangan, belum, belumlah, benar, benarkah, benarlah, berada, berakhir, berakhirlah, berakhirnya, berapa, berapakah, berapalah, berapapun, berarti, berawal, berbagai, berdatangan, beri, berikan, berikut, berikutnya, berjumlah, berkali-kali, berkata, berkehendak, berkeinginan, berkenaan, berlainan, berlalu, berlangsung, berlebihan, bermacam, bermacam-macam, bermaksud, bermula, bersama, bersama-sama, bersiap, bersiap-siap, bertanya, bertanya-tanya, berturut

In [50]:
from nltk.corpus import stopwords

STOPWORDS = set(stopwords.words('indonesian'))
def remove_stopwords(text):
    return " ".join([word for word in text.split() if word not in STOPWORDS])

In [51]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_stopwords(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas nya ⭐⭐⭐⭐⭐ ac nya masyaallah dingin b...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren 😁 angkatan lulus semoga adek kela...


## !!!Removal of Frequent Words

In [52]:
# Menghapus semua kata "nya" yang berdiri sendiri dalam kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda text: ' '.join([word for word in text.split() if word != 'nya']))

df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ⭐⭐⭐⭐⭐ ac masyaallah dingin banget 🥶
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren 😁 angkatan lulus semoga adek kela...


In [53]:
from collections import Counter
word_count = Counter()
for text in df['temp_text']:
    for word in text.split():
        word_count[word] += 1
        
word_count.most_common(10)

[('kampus', 14),
 ('keren', 11),
 ('kampusnya', 8),
 ('dosen', 7),
 ('nyaman', 7),
 ('strategis', 6),
 ('lokasi', 4),
 ('bagus', 4),
 ('cyber', 3),
 ('university', 3)]

In [54]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ⭐⭐⭐⭐⭐ ac masyaallah dingin banget 🥶
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren 😁 angkatan lulus semoga adek kela...


In [55]:
# FREQUENT_WORDS = set(word for (word, wc) in word_count.most_common(3))
# def remove_freq_words(text):
#     return " ".join([word for word in text.split() if word not in FREQUENT_WORDS])

In [56]:
# df['temp_text'] = df['temp_text'].apply(lambda x: remove_freq_words(x))
# df.head()

## Removal of Rare Words

In [57]:
# This cell should be moved after CELL INDEX 22
RARE_WORDS = set(word for (word, wc) in word_count.most_common()[:-10:-1])
print(RARE_WORDS)

{'nice', 'will', 'in', 'campoes', 'smart', 'wish', 'fintech', 'we', 'be'}


In [58]:
def remove_rare_words(text):
    return " ".join([word for word in text.split() if word not in RARE_WORDS])

In [59]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_rare_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ⭐⭐⭐⭐⭐ ac masyaallah dingin banget 🥶
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren 😁 angkatan lulus semoga adek kela...


## Removal of Special characters

In [60]:
import re
def remove_spl_chars(text):
    text = re.sub('[^a-zA-Z0-9]', ' ', text)
    text = re.sub('\s+', ' ', text)
    return text

  text = re.sub('\s+', ' ', text)


In [61]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_spl_chars(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...


## Stemming

In [62]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer bahasa Indonesia
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi stemming
def stem_words(text):
    return stemmer.stem(text)

In [63]:
# Menerapkan stemming pada kolom temp_text
df['stemmed_text'] = df['temp_text'].apply(lambda x: stem_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...,lokasi kampus strategis 1 menit tol pasar ming...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget,fasilitas ac masyaallah dingin banget
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...,kampus cocok era digitalisasi milenial kampus ...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...,dosen dosen universitas siber indonesia alam
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...,kampus keren angkat lulus moga adek kelas dose...


## Lemmatization & POS Tagging

In [64]:
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
wordnet_map = {"N":wordnet.NOUN, "V": wordnet.VERB, "J": wordnet.ADJ, "R": wordnet.ADV}

def lemmatize_words(text):
    # find pos tags
    pos_text = pos_tag(text.split())
    return " ".join([lemmatizer.lemmatize(word, wordnet_map.get(pos[0], wordnet.NOUN)) for word, pos in pos_text])

In [65]:
from nltk.corpus import wordnet

wordnet.NOUN

'n'

In [66]:
# import nltk
# nltk.download('averaged_perceptron_tagger')

# df['lemmatized_text'] = df['temp_text'].apply(lambda x: lemmatize_words(x))
# df.head()

In [67]:
df.sample(frac=1).head(10)

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...,lokasi kampus strategis 1 menit tol pasar ming...
38,Fitria,5.0,the new generation IT campus,the new generation it campus,the new generation it campus
20,"Gunawan Witjaksono, PhD",5.0,Kampusnya keren dan mudah aksesnya,kampusnya keren mudah aksesnya,kampus keren mudah akses
5,Nur Raly,5.0,"Pengajar yg bepengalam, kampus yg nyaman, biay...",pengajar bepengalam kampus nyaman biaya kuliah...,ajar bepengalam kampus nyaman biaya kuliah jan...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget,fasilitas ac masyaallah dingin banget
12,ZIL ZIL,5.0,"bagus kampusnya, bersih enak buat belajar",bagus kampusnya bersih enak belajar,bagus kampus bersih enak ajar
14,Sofian Wirahadi,5.0,"Kampus Cyber University bersih dan nyaman, adm...",kampus cyber university bersih nyaman adminnya...,kampus cyber university bersih nyaman adminnya...
24,hasan basri,5.0,Suka perpus nya ...,suka perpus,suka pus
31,alwie risnandar,5.0,Lokasinya strategis..,lokasinya strategis,lokasi strategis
13,wahyu Susetyo,5.0,"Kampus terkeren dengan dosen yang luar biasa, ...",kampus terkeren dosen sukses,kampus keren dosen sukses


## Tokenization

In [68]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...,lokasi kampus strategis 1 menit tol pasar ming...
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget,fasilitas ac masyaallah dingin banget
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...,kampus cocok era digitalisasi milenial kampus ...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...,dosen dosen universitas siber indonesia alam
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...,kampus keren angkat lulus moga adek kelas dose...


In [69]:
df.isnull().sum()

name            0
rating          0
snippet         0
temp_text       0
stemmed_text    0
dtype: int64

In [70]:
from nltk.tokenize import word_tokenize

# Tokenisasi
df['tokenized_text'] = df['stemmed_text'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...,lokasi kampus strategis 1 menit tol pasar ming...,"[lokasi, kampus, strategis, 1, menit, tol, pas..."
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget,fasilitas ac masyaallah dingin banget,"[fasilitas, ac, masyaallah, dingin, banget]"
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...,kampus cocok era digitalisasi milenial kampus ...,"[kampus, cocok, era, digitalisasi, milenial, k..."
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...,dosen dosen universitas siber indonesia alam,"[dosen, dosen, universitas, siber, indonesia, ..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...,kampus keren angkat lulus moga adek kelas dose...,"[kampus, keren, angkat, lulus, moga, adek, kel..."


In [71]:
# Cleaned text
df['cleaned_text'] = df['tokenized_text']
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text,cleaned_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...,lokasi kampus strategis 1 menit tol pasar ming...,"[lokasi, kampus, strategis, 1, menit, tol, pas...","[lokasi, kampus, strategis, 1, menit, tol, pas..."
1,Fathia Rizky,5.0,fasilitas nya ⭐⭐⭐⭐⭐\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget,fasilitas ac masyaallah dingin banget,"[fasilitas, ac, masyaallah, dingin, banget]","[fasilitas, ac, masyaallah, dingin, banget]"
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...,kampus cocok era digitalisasi milenial kampus ...,"[kampus, cocok, era, digitalisasi, milenial, k...","[kampus, cocok, era, digitalisasi, milenial, k..."
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...,dosen dosen universitas siber indonesia alam,"[dosen, dosen, universitas, siber, indonesia, ...","[dosen, dosen, universitas, siber, indonesia, ..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\n😁, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...,kampus keren angkat lulus moga adek kelas dose...,"[kampus, keren, angkat, lulus, moga, adek, kel...","[kampus, keren, angkat, lulus, moga, adek, kel..."


In [72]:
df.isnull().sum()

name              0
rating            0
snippet           0
temp_text         0
stemmed_text      0
tokenized_text    0
cleaned_text      0
dtype: int64

In [73]:
import os

try:
	# Save the dataframe to a CSV file
	df.to_csv(output_path, index=False)
	print(f"DataFrame successfully saved to {output_path}")
except Exception as e:
	print(f"An error occurred: {e}")

An error occurred: [Errno 13] Permission denied: '../../dataset/cleaned-data/CyberU_reviews_cleaned.csv'
