# Text Preprocessing (Clean Data)

In [1]:
import pandas as pd
import string
import re
df = pd.read_csv('../../dataset/CyberU_reviews.csv')

output_path = '../../dataset/cleaned-data/CyberU_reviews_cleaned.csv'

df.head()

Unnamed: 0,page,name,link,thumbnail,rating,date,snippet,images,local_guide
0,1,Mahasiswa Pelajar,https://www.google.com/maps/contrib/1125439316...,https://lh3.googleusercontent.com/a-/ALV-UjVjy...,5.0,seminggu lalu,"Lokasi Kampusnya strategis, 1 menit keluar tol...",,
1,1,Fathia Rizky,https://www.google.com/maps/contrib/1036827544...,https://lh3.googleusercontent.com/a-/ALV-UjXng...,5.0,2 minggu lalu,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,,True
2,1,Michael Sitorus,https://www.google.com/maps/contrib/1149239308...,https://lh3.googleusercontent.com/a-/ALV-UjVv9...,5.0,setahun lalu,Kampus yang cocok untuk era digitalisasi dan m...,['https://lh5.googleusercontent.com/p/AF1QipPj...,True
3,1,Malinda Malinda,https://www.google.com/maps/contrib/1027179724...,https://lh3.googleusercontent.com/a-/ALV-UjVeh...,5.0,2 minggu lalu,"dosen dosen Universitas Siber Indonesia, berpe...",,True
4,1,Yudi Mulyawan,https://www.google.com/maps/contrib/1022158108...,https://lh3.googleusercontent.com/a-/ALV-UjWFg...,5.0,setahun lalu,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",,


In [2]:
# drop the columns
df = df.drop(columns=['page', 'link', 'thumbnail', 'date', 'images', 'local_guide'], axis=1)
df.head()

Unnamed: 0,name,rating,snippet
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol..."
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka..."


## Convert to lowercase

In [3]:
df['clean_text'] = df['snippet'].str.lower()
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...","lokasi kampusnya strategis, 1 menit keluar tol..."
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...","dosen dosen universitas siber indonesia, berpe..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...","kampus saya makin keren aja,\nüòÅ, sebagai angka..."


## Remove Missings Values

In [4]:
df.isnull().sum()

name           0
rating         0
snippet       38
clean_text    38
dtype: int64

In [5]:
df = df.dropna(subset=['clean_text'])
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...","lokasi kampusnya strategis, 1 menit keluar tol..."
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...","dosen dosen universitas siber indonesia, berpe..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...","kampus saya makin keren aja,\nüòÅ, sebagai angka..."


In [6]:
df.isnull().sum()

name          0
rating        0
snippet       0
clean_text    0
dtype: int64

## Menghapus Whitespace

In [7]:
def remove_extra_whitespace(text):
    # Menghapus spasi di awal dan akhir teks
    text = text.strip()
    # Menghapus spasi berlebih di tengah teks
    text = re.sub('\s+', ' ', text)
    return text

# Menerapkan fungsi pada kolom 'clean_text'
df['clean_text'] = df['clean_text'].apply(lambda x: remove_extra_whitespace(x))
df.head()

  text = re.sub('\s+', ' ', text)


Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...","lokasi kampusnya strategis, 1 menit keluar tol..."
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê ac nya masyaallah dingin b...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...","dosen dosen universitas siber indonesia, berpe..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...","kampus saya makin keren aja, üòÅ, sebagai angkat..."


## Removal of Punctuations

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
def remove_punctuations(text):
    punctuations = string.punctuation
    return text.translate(str.maketrans('', '', punctuations))

In [10]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_punctuations(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit keluar tol ...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê ac nya masyaallah dingin b...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus saya makin keren aja üòÅ sebagai angkatan...


## Normalisasi Teks

In [11]:
# Kamus slang dan kata yang sudah dinormalisasi
slang_dict = {
    "gak": "tidak",
    "u": "you",
    "yg": "yang",
    "kalo": "kalau",
    "aja": "saja",
    "tdk": "tidak",
    "bgt": "banget",
    "dgn": "dengan",
    "dr": "dari",
    "dlm": "dalam",
    "sbg": "sebagai",
    "spt": "seperti",
    "utk": "untuk",
    "krn": "karena",
    "tp": "tapi",
    "jd": "jadi",
    "sy": "saya",
    "dg": "dengan",
    "trs": "terus",
    "sm": "sama",
    "pd": "pada",
    "blm": "belum",
    "sdh": "sudah",
    "td": "tadi",
    "lg": "lagi",
    "gmn": "gimana",
    "knp": "kenapa",
    "dpt": "dapat",
    "bbrp": "beberapa",
    "dl": "dulu",
    "kl": "kalau",
    "tmn": "teman",
    "msh": "masih",
    "syg": "sayang",
    "cm": "cuma",
    "bs": "bisa",
    "jg": "juga",
    "org": "orang",
    "bkn": "bukan",
    "bbrp": "beberapa",
    "dpt": "dapat",
    "dgn": "dengan",
    "dr": "dari",
    "gmn": "gimana",
    "hrs": "harus",
    "jgn": "jangan",
    "krn": "karena",
    "lg": "lagi",
    "pd": "pada",
    "sdh": "sudah",
    "sm": "sama",
    "tdk": "tidak",
    "tp": "tapi",
    "utk": "untuk",
    "yg": "yang"
}

# Fungsi untuk mengganti kata slang dengan kata yang sudah dinormalisasi
def normalize_text(text):
    words = text.split()
    normalized_words = [slang_dict.get(word, word) for word in words]
    return " ".join(normalized_words)

# Menerapkan normalisasi pada kolom clean_text
df['clean_text'] = df['clean_text'].apply(lambda x: normalize_text(x))
df.head(10)

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit keluar tol ...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê ac nya masyaallah dingin b...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus yang cocok untuk era digitalisasi dan m...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus saya makin keren saja üòÅ sebagai angkata...
5,Nur Raly,5.0,"Pengajar yg bepengalam, kampus yg nyaman, biay...",pengajar yang bepengalam kampus yang nyaman bi...
6,Hendra Rudystira,5.0,"Berawal dari BRI Institute, menjadikan Cyber U...",berawal dari bri institute menjadikan cyber un...
7,Palupi R,5.0,ternyata ada kampus bagus di TB Simatupang...,ternyata ada kampus bagus di tb simatupang
8,Andreas Wardoyo,5.0,Baik sekali,baik sekali
9,Desvika Elsar,5.0,"Kampusnya sangat nyaman terutama di perpusnya,...",kampusnya sangat nyaman terutama di perpusnya ...


## Removal of Stopwords

In [12]:
from nltk.corpus import stopwords
", ".join(stopwords.words('indonesian'))

'ada, adalah, adanya, adapun, agak, agaknya, agar, akan, akankah, akhir, akhiri, akhirnya, aku, akulah, amat, amatlah, anda, andalah, antar, antara, antaranya, apa, apaan, apabila, apakah, apalagi, apatah, artinya, asal, asalkan, atas, atau, ataukah, ataupun, awal, awalnya, bagai, bagaikan, bagaimana, bagaimanakah, bagaimanapun, bagi, bagian, bahkan, bahwa, bahwasanya, baik, bakal, bakalan, balik, banyak, bapak, baru, bawah, beberapa, begini, beginian, beginikah, beginilah, begitu, begitukah, begitulah, begitupun, bekerja, belakang, belakangan, belum, belumlah, benar, benarkah, benarlah, berada, berakhir, berakhirlah, berakhirnya, berapa, berapakah, berapalah, berapapun, berarti, berawal, berbagai, berdatangan, beri, berikan, berikut, berikutnya, berjumlah, berkali-kali, berkata, berkehendak, berkeinginan, berkenaan, berlainan, berlalu, berlangsung, berlebihan, bermacam, bermacam-macam, bermaksud, bermula, bersama, bersama-sama, bersiap, bersiap-siap, bertanya, bertanya-tanya, berturut

In [13]:
from nltk.corpus import stopwords

STOPWORDS = set(stopwords.words('indonesian'))
def remove_stopwords(text):
    return " ".join([word for word in text.split() if word not in STOPWORDS])

In [14]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_stopwords(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê ac nya masyaallah dingin b...
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus keren üòÅ angkatan lulus semoga adek kela...


## !!!Removal of Frequent Words

In [15]:
# Menghapus semua kata "nya" yang berdiri sendiri dalam kolom clean_text
df['clean_text'] = df['clean_text'].apply(lambda text: ' '.join([word for word in text.split() if word != 'nya']))

df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê ac masyaallah dingin banget ü•∂
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus keren üòÅ angkatan lulus semoga adek kela...


In [16]:
from collections import Counter
word_count = Counter()
for text in df['clean_text']:
    for word in text.split():
        word_count[word] += 1
        
word_count.most_common(10)

[('kampus', 14),
 ('keren', 11),
 ('kampusnya', 8),
 ('dosen', 7),
 ('nyaman', 7),
 ('strategis', 6),
 ('lokasi', 4),
 ('bagus', 4),
 ('cyber', 3),
 ('university', 3)]

In [17]:
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê ac masyaallah dingin banget ü•∂
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus keren üòÅ angkatan lulus semoga adek kela...


In [18]:
# FREQUENT_WORDS = set(word for (word, wc) in word_count.most_common(3))
# def remove_freq_words(text):
#     return " ".join([word for word in text.split() if word not in FREQUENT_WORDS])

In [19]:
# df['clean_text'] = df['clean_text'].apply(lambda x: remove_freq_words(x))
# df.head()

## Removal of Rare Words

In [20]:
# This cell should be moved after CELL INDEX 22
RARE_WORDS = set(word for (word, wc) in word_count.most_common()[:-10:-1])
print(RARE_WORDS)

{'be', 'we', 'campoes', 'in', 'smart', 'fintech', 'wish', 'nice', 'will'}


In [21]:
def remove_rare_words(text):
    return " ".join([word for word in text.split() if word not in RARE_WORDS])

In [22]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_rare_words(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê ac masyaallah dingin banget ü•∂
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus keren üòÅ angkatan lulus semoga adek kela...


## Removal of Special characters

In [23]:
import re
def remove_spl_chars(text):
    text = re.sub('[^a-zA-Z0-9]', ' ', text)
    text = re.sub('\s+', ' ', text)
    return text

  text = re.sub('\s+', ' ', text)


In [24]:
df['clean_text'] = df['clean_text'].apply(lambda x: remove_spl_chars(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...


## Stemming

In [25]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer bahasa Indonesia
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi stemming
def stem_words(text):
    return stemmer.stem(text)

In [26]:
# Menerapkan stemming pada kolom clean_text
df['stemmed_text'] = df['clean_text'].apply(lambda x: stem_words(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text,stemmed_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...,lokasi kampus strategis 1 menit tol pasar ming...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget,fasilitas ac masyaallah dingin banget
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...,kampus cocok era digitalisasi milenial kampus ...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...,dosen dosen universitas siber indonesia alam
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...,kampus keren angkat lulus moga adek kelas dose...


## Lemmatization & POS Tagging

In [27]:
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
wordnet_map = {"N":wordnet.NOUN, "V": wordnet.VERB, "J": wordnet.ADJ, "R": wordnet.ADV}

def lemmatize_words(text):
    # find pos tags
    pos_text = pos_tag(text.split())
    return " ".join([lemmatizer.lemmatize(word, wordnet_map.get(pos[0], wordnet.NOUN)) for word, pos in pos_text])

In [28]:
from nltk.corpus import wordnet

wordnet.NOUN

'n'

In [29]:
# import nltk
# nltk.download('averaged_perceptron_tagger')

# df['lemmatized_text'] = df['clean_text'].apply(lambda x: lemmatize_words(x))
# df.head()

In [30]:
df.sample(frac=1).head(10)

Unnamed: 0,name,rating,snippet,clean_text,stemmed_text
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...,dosen dosen universitas siber indonesia alam
27,Putri Artanti,5.0,kampus dengan akses sangat mudah,kampus akses mudah,kampus akses mudah
20,"Gunawan Witjaksono, PhD",5.0,Kampusnya keren dan mudah aksesnya,kampusnya keren mudah aksesnya,kampus keren mudah akses
18,Safrilla Bagas,5.0,Lokasi kampus nya sangat strategisüëçüëç,lokasi kampus strategis,lokasi kampus strategis
16,Arisena Hendrawan,5.0,"Dosen muda yang punya pengalaman bidang IT, ek...",dosen muda pengalaman bidang it ekonomi kewira...,dosen muda alam bidang it ekonomi kewirausahaa...
39,Ninuk Wiliani,5.0,nice,,
8,Andreas Wardoyo,5.0,Baik sekali,,
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...,kampus cocok era digitalisasi milenial kampus ...
26,Kastin Tinara,5.0,Kampusnya kerenn üëçüëç,kampusnya kerenn,kampus kerenn
7,Palupi R,5.0,ternyata ada kampus bagus di TB Simatupang...,kampus bagus tb simatupang,kampus bagus tb simatupang


## Tokenization

In [31]:
df.head()

Unnamed: 0,name,rating,snippet,clean_text,stemmed_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...,lokasi kampus strategis 1 menit tol pasar ming...
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget,fasilitas ac masyaallah dingin banget
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...,kampus cocok era digitalisasi milenial kampus ...
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...,dosen dosen universitas siber indonesia alam
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...,kampus keren angkat lulus moga adek kelas dose...


In [32]:
df.isnull().sum()

name            0
rating          0
snippet         0
clean_text      0
stemmed_text    0
dtype: int64

In [33]:
from nltk.tokenize import word_tokenize

# Tokenisasi
df['tokenized_text'] = df['stemmed_text'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,name,rating,snippet,clean_text,stemmed_text,tokenized_text
0,Mahasiswa Pelajar,5.0,"Lokasi Kampusnya strategis, 1 menit keluar tol...",lokasi kampusnya strategis 1 menit tol pasar m...,lokasi kampus strategis 1 menit tol pasar ming...,"[lokasi, kampus, strategis, 1, menit, tol, pas..."
1,Fathia Rizky,5.0,fasilitas nya ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê\nac nya masyaallah dingin ...,fasilitas ac masyaallah dingin banget,fasilitas ac masyaallah dingin banget,"[fasilitas, ac, masyaallah, dingin, banget]"
2,Michael Sitorus,5.0,Kampus yang cocok untuk era digitalisasi dan m...,kampus cocok era digitalisasi milenial kampusn...,kampus cocok era digitalisasi milenial kampus ...,"[kampus, cocok, era, digitalisasi, milenial, k..."
3,Malinda Malinda,5.0,"dosen dosen Universitas Siber Indonesia, berpe...",dosen dosen universitas siber indonesia berpen...,dosen dosen universitas siber indonesia alam,"[dosen, dosen, universitas, siber, indonesia, ..."
4,Yudi Mulyawan,5.0,"Kampus saya makin keren aja,\nüòÅ, sebagai angka...",kampus keren angkatan lulus semoga adek kelas ...,kampus keren angkat lulus moga adek kelas dose...,"[kampus, keren, angkat, lulus, moga, adek, kel..."


In [34]:
df.isnull().sum()

name              0
rating            0
snippet           0
clean_text        0
stemmed_text      0
tokenized_text    0
dtype: int64

In [35]:
import os

try:
	# Save the dataframe to a CSV file
	df.to_csv(output_path, index=False)
	print(f"DataFrame successfully saved to {output_path}")
except Exception as e:
	print(f"An error occurred: {e}")

DataFrame successfully saved to ../../dataset/cleaned-data/CyberU_reviews_cleaned.csv
