# **Preprocessing | Universitas Pertamina (UPer)**

# Text Preprocessing (Clean Data)

In [1]:
import pandas as pd
import string
import re
df = pd.read_csv('../../dataset/UPer_reviews.csv')

output_path = '../../dataset/cleaned-data/UPer_Reviews_cleaned.csv'

df.head()

Unnamed: 0,page,name,link,thumbnail,rating,date,snippet,images,local_guide
0,1,Te Ir,https://www.google.com/maps/contrib/1132768062...,https://lh3.googleusercontent.com/a-/ALV-UjUpa...,4.0,sebulan lalu,Universitas yang menjadi bagian Pertamina (per...,['https://lh5.googleusercontent.com/p/AF1QipOA...,True
1,1,RHDN,https://www.google.com/maps/contrib/1155154390...,https://lh3.googleusercontent.com/a-/ALV-UjWqG...,4.0,7 bulan lalu,"Kampus nya cukup besar, lokasi pinggir jalan s...",['https://lh5.googleusercontent.com/p/AF1QipPu...,True
2,1,Mega Safitri,https://www.google.com/maps/contrib/1039782495...,https://lh3.googleusercontent.com/a/ACg8ocJH8h...,3.0,sebulan lalu,Kami pilih kampus ini dg harapan setelah lulus...,,
3,1,Muhammad Zidane A,https://www.google.com/maps/contrib/1166708707...,https://lh3.googleusercontent.com/a-/ALV-UjWL4...,5.0,7 bulan lalu,"walaupun terbilang masih baru, tetapi kampus i...",['https://lh5.googleusercontent.com/p/AF1QipPI...,True
4,1,Fahmi Amhar,https://www.google.com/maps/contrib/1122985339...,https://lh3.googleusercontent.com/a-/ALV-UjUOg...,4.0,6 tahun lalu,"Campus ini memiliki sarana yang cukup lengkap,...",['https://lh5.googleusercontent.com/p/AF1QipNr...,True


In [2]:
# drop the columns
df = df.drop(columns=['page', 'link', 'thumbnail', 'date', 'images', 'local_guide'], axis=1)
df.head()

Unnamed: 0,name,rating,snippet
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s..."
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i..."
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,..."


## Convert to lowercase

In [3]:
df['temp_text'] = df['snippet'].str.lower()
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas yang menjadi bagian pertamina (per...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...","kampus nya cukup besar, lokasi pinggir jalan s..."
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,kami pilih kampus ini dg harapan setelah lulus...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...","walaupun terbilang masih baru, tetapi kampus i..."
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...","campus ini memiliki sarana yang cukup lengkap,..."


## Remove Missings Values

In [4]:
df.isnull().sum()

name           0
rating         0
snippet      554
temp_text    554
dtype: int64

In [5]:
df = df.dropna(subset=['temp_text'])
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas yang menjadi bagian pertamina (per...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...","kampus nya cukup besar, lokasi pinggir jalan s..."
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,kami pilih kampus ini dg harapan setelah lulus...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...","walaupun terbilang masih baru, tetapi kampus i..."
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...","campus ini memiliki sarana yang cukup lengkap,..."


In [6]:
df.isnull().sum()

name         0
rating       0
snippet      0
temp_text    0
dtype: int64

## Menghapus Whitespace

In [7]:
def remove_extra_whitespace(text):
    # Menghapus spasi di awal dan akhir teks
    text = text.strip()
    # Menghapus spasi berlebih di tengah teks
    text = re.sub('\s+', ' ', text)
    return text

# Menerapkan fungsi pada kolom 'temp_text'
df['temp_text'] = df['temp_text'].apply(lambda x: remove_extra_whitespace(x))
df.head()

  text = re.sub('\s+', ' ', text)


Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas yang menjadi bagian pertamina (per...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...","kampus nya cukup besar, lokasi pinggir jalan s..."
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,kami pilih kampus ini dg harapan setelah lulus...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...","walaupun terbilang masih baru, tetapi kampus i..."
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...","campus ini memiliki sarana yang cukup lengkap,..."


## Removal of Punctuations

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
def remove_punctuations(text):
    punctuations = string.punctuation
    return text.translate(str.maketrans('', '', punctuations))

In [10]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_punctuations(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas yang menjadi bagian pertamina pers...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus nya cukup besar lokasi pinggir jalan si...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,kami pilih kampus ini dg harapan setelah lulus...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",walaupun terbilang masih baru tetapi kampus in...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus ini memiliki sarana yang cukup lengkap ...


## Normalisasi Teks

In [11]:
# Kamus slang dan kata yang sudah dinormalisasi
slang_dict = {
    "gak": "tidak",
    "u": "you",
    "yg": "yang",
    "kalo": "kalau",
    "aja": "saja",
    "tdk": "tidak",
    "bgt": "banget",
    "dgn": "dengan",
    "dr": "dari",
    "dlm": "dalam",
    "sbg": "sebagai",
    "spt": "seperti",
    "utk": "untuk",
    "krn": "karena",
    "tp": "tapi",
    "jd": "jadi",
    "sy": "saya",
    "dg": "dengan",
    "trs": "terus",
    "sm": "sama",
    "pd": "pada",
    "blm": "belum",
    "sdh": "sudah",
    "td": "tadi",
    "lg": "lagi",
    "gmn": "gimana",
    "knp": "kenapa",
    "dpt": "dapat",
    "bbrp": "beberapa",
    "dl": "dulu",
    "kl": "kalau",
    "tmn": "teman",
    "msh": "masih",
    "syg": "sayang",
    "cm": "cuma",
    "bs": "bisa",
    "jg": "juga",
    "org": "orang",
    "bkn": "bukan",
    "bbrp": "beberapa",
    "dpt": "dapat",
    "dgn": "dengan",
    "dr": "dari",
    "gmn": "gimana",
    "hrs": "harus",
    "jgn": "jangan",
    "krn": "karena",
    "lg": "lagi",
    "pd": "pada",
    "sdh": "sudah",
    "sm": "sama",
    "tdk": "tidak",
    "tp": "tapi",
    "utk": "untuk",
    "yg": "yang"
}

# Fungsi untuk mengganti kata slang dengan kata yang sudah dinormalisasi
def normalize_text(text):
    words = text.split()
    normalized_words = [slang_dict.get(word, word) for word in words]
    return " ".join(normalized_words)

# Menerapkan normalisasi pada kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda x: normalize_text(x))
df.head(10)

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas yang menjadi bagian pertamina pers...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus nya cukup besar lokasi pinggir jalan si...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,kami pilih kampus ini dengan harapan setelah l...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",walaupun terbilang masih baru tetapi kampus in...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus ini memiliki sarana yang cukup lengkap ...
5,ares rahmawan,5.0,Tiket nya 75 ribu utk Olympic Size Pool. Clean...,tiket nya 75 ribu untuk olympic size pool clea...
6,Frenda Fawzia,5.0,Dulu terkenalnya dengan nama Pertamina Trainin...,dulu terkenalnya dengan nama pertamina trainin...
7,Nanda,5.0,"Kampus yang bagus, fasilitas 90% lengkap, deka...",kampus yang bagus fasilitas 90 lengkap dekat d...
8,Reginaldi,5.0,"baguss universitasnyaa ,salam buat angel anak ...",baguss universitasnyaa salam buat angel anak t...
9,Caesar,5.0,Area Kampus Sangat Ramah Lingkungan. nuansa as...,area kampus sangat ramah lingkungan nuansa asr...


## Removal of Stopwords

In [12]:
from nltk.corpus import stopwords
", ".join(stopwords.words('indonesian'))

'ada, adalah, adanya, adapun, agak, agaknya, agar, akan, akankah, akhir, akhiri, akhirnya, aku, akulah, amat, amatlah, anda, andalah, antar, antara, antaranya, apa, apaan, apabila, apakah, apalagi, apatah, artinya, asal, asalkan, atas, atau, ataukah, ataupun, awal, awalnya, bagai, bagaikan, bagaimana, bagaimanakah, bagaimanapun, bagi, bagian, bahkan, bahwa, bahwasanya, baik, bakal, bakalan, balik, banyak, bapak, baru, bawah, beberapa, begini, beginian, beginikah, beginilah, begitu, begitukah, begitulah, begitupun, bekerja, belakang, belakangan, belum, belumlah, benar, benarkah, benarlah, berada, berakhir, berakhirlah, berakhirnya, berapa, berapakah, berapalah, berapapun, berarti, berawal, berbagai, berdatangan, beri, berikan, berikut, berikutnya, berjumlah, berkali-kali, berkata, berkehendak, berkeinginan, berkenaan, berlainan, berlalu, berlangsung, berlebihan, bermacam, bermacam-macam, bermaksud, bermula, bersama, bersama-sama, bersiap, bersiap-siap, bertanya, bertanya-tanya, berturut

In [13]:
from nltk.corpus import stopwords

STOPWORDS = set(stopwords.words('indonesian'))
def remove_stopwords(text):
    return " ".join([word for word in text.split() if word not in STOPWORDS])

In [14]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_stopwords(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus nya lokasi pinggir jalan simprug byk fa...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...


## !!!Removal of Frequent Words

In [15]:
# Menghapus semua kata "nya" yang berdiri sendiri dalam kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda text: ' '.join([word for word in text.split() if word != 'nya']))

df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus lokasi pinggir jalan simprug byk fasili...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...


In [16]:
from collections import Counter
word_count = Counter()
for text in df['temp_text']:
    for word in text.split():
        word_count[word] += 1
        
word_count.most_common(10)

[('universitas', 47),
 ('pertamina', 39),
 ('kampus', 36),
 ('bagus', 26),
 ('good', 24),
 ('semoga', 18),
 ('fasilitas', 16),
 ('gedung', 16),
 ('kuliah', 16),
 ('the', 15)]

In [17]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus lokasi pinggir jalan simprug byk fasili...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...


In [18]:
# FREQUENT_WORDS = set(word for (word, wc) in word_count.most_common(3))
# def remove_freq_words(text):
#     return " ".join([word for word in text.split() if word not in FREQUENT_WORDS])

In [19]:
# df['temp_text'] = df['temp_text'].apply(lambda x: remove_freq_words(x))
# df.head()

## Removal of Rare Words

In [20]:
# This cell should be moved after CELL INDEX 22
RARE_WORDS = set(word for (word, wc) in word_count.most_common()[:-10:-1])
print(RARE_WORDS)

{'pcu', 'mantułl', 'good😘👍🏻👍🏻👍🏻', 'calon', 'ml', 'ir', 'hi16', 'engineer', '😋'}


In [21]:
def remove_rare_words(text):
    return " ".join([word for word in text.split() if word not in RARE_WORDS])

In [22]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_rare_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus lokasi pinggir jalan simprug byk fasili...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...


## Removal of Special characters

In [23]:
import re
def remove_spl_chars(text):
    text = re.sub('[^a-zA-Z0-9]', ' ', text)
    text = re.sub('\s+', ' ', text)
    return text

  text = re.sub('\s+', ' ', text)


In [24]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_spl_chars(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus lokasi pinggir jalan simprug byk fasili...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...


## Stemming

In [25]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer bahasa Indonesia
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi stemming
def stem_words(text):
    return stemmer.stem(text)

In [26]:
# Menerapkan stemming pada kolom temp_text
df['stemmed_text'] = df['temp_text'].apply(lambda x: stem_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...,universitas pertamina persero dukung tenaga aj...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus lokasi pinggir jalan simprug byk fasili...,kampus lokasi pinggir jalan simprug byk fasili...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...,pilih kampus harap lulus salur pertaminasejeni...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...,bilang kampus akreditasi unggul masuk peringka...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...,campus milik sarana lengkap kelola hasil mahas...


## Lemmatization & POS Tagging

In [27]:
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
wordnet_map = {"N":wordnet.NOUN, "V": wordnet.VERB, "J": wordnet.ADJ, "R": wordnet.ADV}

def lemmatize_words(text):
    # find pos tags
    pos_text = pos_tag(text.split())
    return " ".join([lemmatizer.lemmatize(word, wordnet_map.get(pos[0], wordnet.NOUN)) for word, pos in pos_text])

In [28]:
from nltk.corpus import wordnet

wordnet.NOUN

'n'

In [29]:
# import nltk
# nltk.download('averaged_perceptron_tagger')

# df['lemmatized_text'] = df['temp_text'].apply(lambda x: lemmatize_words(x))
# df.head()

In [30]:
df.sample(frac=1).head(10)

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
240,Muhammad Rizky Hafizha,5.0,Maba HI'16,maba,maba
26,Zuliani Dalimunthe,4.0,Jalan menuju lokasi macet banget. Dari Depok b...,jalan lokasi macet banget depok better kereta ...,jalan lokasi macet banget depok better kereta ...
10,Adi Noor Fajarudin,5.0,"Mantap,, Kampus Teknologi dan Bisnis Energi Un...",mantap kampus teknologi bisnis energi unggulan,mantap kampus teknologi bisnis energi unggul
224,ALFADI SUDARMA,5.0,Petroleum Engineer,petroleum,petroleum
196,Zefania Tampi,4.0,"Overall, it has comfortable atmosphere to study",overall it has comfortable atmosphere to study,overall it has comfortable atmosphere to study
178,Irsyad Hawari,5.0,Kampus amazing,kampus amazing,kampus amazing
86,Ryono Agung,3.0,sayangnya akses agak muter klo dari permata hi...,sayangnya akses muter klo permata hijau,sayang akses muter klo permata hijau
179,Tedy Hermawan35,4.0,Tutup,tutup,tutup
207,Raka Firdaus,5.0,Soon will be 500 World Best University,soon will be 500 world best university,soon will be 500 world best university
7,Nanda,5.0,"Kampus yang bagus, fasilitas 90% lengkap, deka...",kampus bagus fasilitas 90 lengkap jalan raya t...,kampus bagus fasilitas 90 lengkap jalan raya t...


## Tokenization

In [31]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...,universitas pertamina persero dukung tenaga aj...
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus lokasi pinggir jalan simprug byk fasili...,kampus lokasi pinggir jalan simprug byk fasili...
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...,pilih kampus harap lulus salur pertaminasejeni...
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...,bilang kampus akreditasi unggul masuk peringka...
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...,campus milik sarana lengkap kelola hasil mahas...


In [32]:
df.isnull().sum()

name            0
rating          0
snippet         0
temp_text       0
stemmed_text    0
dtype: int64

In [33]:
from nltk.tokenize import word_tokenize

# Tokenisasi
df['tokenized_text'] = df['stemmed_text'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...,universitas pertamina persero dukung tenaga aj...,"[universitas, pertamina, persero, dukung, tena..."
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus lokasi pinggir jalan simprug byk fasili...,kampus lokasi pinggir jalan simprug byk fasili...,"[kampus, lokasi, pinggir, jalan, simprug, byk,..."
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...,pilih kampus harap lulus salur pertaminasejeni...,"[pilih, kampus, harap, lulus, salur, pertamina..."
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...,bilang kampus akreditasi unggul masuk peringka...,"[bilang, kampus, akreditasi, unggul, masuk, pe..."
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...,campus milik sarana lengkap kelola hasil mahas...,"[campus, milik, sarana, lengkap, kelola, hasil..."


In [34]:
# Cleaned text
df['cleaned_text'] = df['tokenized_text']
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text,cleaned_text
0,Te Ir,4.0,Universitas yang menjadi bagian Pertamina (per...,universitas pertamina persero didukung tenaga ...,universitas pertamina persero dukung tenaga aj...,"[universitas, pertamina, persero, dukung, tena...","[universitas, pertamina, persero, dukung, tena..."
1,RHDN,4.0,"Kampus nya cukup besar, lokasi pinggir jalan s...",kampus lokasi pinggir jalan simprug byk fasili...,kampus lokasi pinggir jalan simprug byk fasili...,"[kampus, lokasi, pinggir, jalan, simprug, byk,...","[kampus, lokasi, pinggir, jalan, simprug, byk,..."
2,Mega Safitri,3.0,Kami pilih kampus ini dg harapan setelah lulus...,pilih kampus harapan lulus tersalurkan pertami...,pilih kampus harap lulus salur pertaminasejeni...,"[pilih, kampus, harap, lulus, salur, pertamina...","[pilih, kampus, harap, lulus, salur, pertamina..."
3,Muhammad Zidane A,5.0,"walaupun terbilang masih baru, tetapi kampus i...",terbilang kampus akreditasi unggul masuk perin...,bilang kampus akreditasi unggul masuk peringka...,"[bilang, kampus, akreditasi, unggul, masuk, pe...","[bilang, kampus, akreditasi, unggul, masuk, pe..."
4,Fahmi Amhar,4.0,"Campus ini memiliki sarana yang cukup lengkap,...",campus memiliki sarana lengkap dikelola mengha...,campus milik sarana lengkap kelola hasil mahas...,"[campus, milik, sarana, lengkap, kelola, hasil...","[campus, milik, sarana, lengkap, kelola, hasil..."


In [35]:
import os

try:
	# Save the dataframe to a CSV file
	df.to_csv(output_path, index=False)
	print(f"DataFrame successfully saved to {output_path}")
except Exception as e:
	print(f"An error occurred: {e}")

DataFrame successfully saved to ../../dataset/cleaned-data/UPer_Reviews_cleaned.csv
