# **Preprocessing | Telkom University (Bandung)**

# Text Preprocessing (Clean Data)

In [1]:
import pandas as pd
import string
import re
df = pd.read_csv('../../dataset/TelU_reviews.csv')

output_path = '../../dataset/cleaned-data/TelU_Reviews_cleaned.csv'

df.head()

Unnamed: 0,page,name,link,thumbnail,rating,date,snippet,images,local_guide
0,1,Daryl Cokelat,https://www.google.com/maps/contrib/1138191723...,https://lh3.googleusercontent.com/a-/ALV-UjXVE...,4.0,5 bulan lalu,"Kampus swasta di area yg padat, luas sekali t...",['https://lh5.googleusercontent.com/p/AF1QipMg...,True
1,1,Aries Indanarto,https://www.google.com/maps/contrib/1140064560...,https://lh3.googleusercontent.com/a/ACg8ocL-bK...,1.0,4 minggu lalu,Siang hari ini hadir wisuda anak. Tempat wisud...,['https://lh5.googleusercontent.com/p/AF1QipPt...,True
2,1,mfft_27,https://www.google.com/maps/contrib/1171607731...,https://lh3.googleusercontent.com/a-/ALV-UjVIK...,5.0,3 minggu lalu,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,['https://lh5.googleusercontent.com/p/AF1QipNP...,True
3,1,Fadhil Muhammad,https://www.google.com/maps/contrib/1038668775...,https://lh3.googleusercontent.com/a-/ALV-UjWsF...,5.0,6 bulan lalu,"Kampus swasta ternama, lokasi di bojongsoang k...",['https://lh5.googleusercontent.com/p/AF1QipMp...,True
4,1,Rachmat Hidayar,https://www.google.com/maps/contrib/1001440503...,https://lh3.googleusercontent.com/a-/ALV-UjVWC...,1.0,3 minggu lalu,Yang terhormat bapak kepala satpam dan manajem...,,True


In [2]:
# drop the columns
df = df.drop(columns=['page', 'link', 'thumbnail', 'date', 'images', 'local_guide'], axis=1)
df.head()

Unnamed: 0,name,rating,snippet
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t..."
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k..."
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...


## Convert to lowercase

In [3]:
df['temp_text'] = df['snippet'].str.lower()
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...","kampus swasta di area yg padat, luas sekali t..."
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hari ini hadir wisuda anak. tempat wisud...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,jangan lupa follow ig : mfft_27\ntrmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...","kampus swasta ternama, lokasi di bojongsoang k..."
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,yang terhormat bapak kepala satpam dan manajem...


## Remove Missings Values

In [4]:
df.isnull().sum()

name          0
rating        0
snippet      28
temp_text    28
dtype: int64

In [5]:
df = df.dropna(subset=['temp_text'])
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...","kampus swasta di area yg padat, luas sekali t..."
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hari ini hadir wisuda anak. tempat wisud...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,jangan lupa follow ig : mfft_27\ntrmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...","kampus swasta ternama, lokasi di bojongsoang k..."
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,yang terhormat bapak kepala satpam dan manajem...


In [6]:
df.isnull().sum()

name         0
rating       0
snippet      0
temp_text    0
dtype: int64

## Menghapus Whitespace

In [7]:
def remove_extra_whitespace(text):
    # Menghapus spasi di awal dan akhir teks
    text = text.strip()
    # Menghapus spasi berlebih di tengah teks
    text = re.sub('\s+', ' ', text)
    return text

# Menerapkan fungsi pada kolom 'temp_text'
df['temp_text'] = df['temp_text'].apply(lambda x: remove_extra_whitespace(x))
df.head()

  text = re.sub('\s+', ' ', text)


Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...","kampus swasta di area yg padat, luas sekali tp..."
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hari ini hadir wisuda anak. tempat wisud...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,jangan lupa follow ig : mfft_27 trmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...","kampus swasta ternama, lokasi di bojongsoang k..."
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,yang terhormat bapak kepala satpam dan manajem...


## Removal of Punctuations

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
def remove_punctuations(text):
    punctuations = string.punctuation
    return text.translate(str.maketrans('', '', punctuations))

In [10]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_punctuations(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta di area yg padat luas sekali tp ...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hari ini hadir wisuda anak tempat wisuda...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,jangan lupa follow ig mfft27 trmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi di bojongsoang ka...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,yang terhormat bapak kepala satpam dan manajem...


## Normalisasi Teks

In [11]:
# Kamus slang dan kata yang sudah dinormalisasi
slang_dict = {
    "gak": "tidak",
    "u": "you",
    "yg": "yang",
    "kalo": "kalau",
    "aja": "saja",
    "tdk": "tidak",
    "bgt": "banget",
    "dgn": "dengan",
    "dr": "dari",
    "dlm": "dalam",
    "sbg": "sebagai",
    "spt": "seperti",
    "utk": "untuk",
    "krn": "karena",
    "tp": "tapi",
    "jd": "jadi",
    "sy": "saya",
    "dg": "dengan",
    "trs": "terus",
    "sm": "sama",
    "pd": "pada",
    "blm": "belum",
    "sdh": "sudah",
    "td": "tadi",
    "lg": "lagi",
    "gmn": "gimana",
    "knp": "kenapa",
    "dpt": "dapat",
    "bbrp": "beberapa",
    "dl": "dulu",
    "kl": "kalau",
    "tmn": "teman",
    "msh": "masih",
    "syg": "sayang",
    "cm": "cuma",
    "bs": "bisa",
    "jg": "juga",
    "org": "orang",
    "bkn": "bukan",
    "bbrp": "beberapa",
    "dpt": "dapat",
    "dgn": "dengan",
    "dr": "dari",
    "gmn": "gimana",
    "hrs": "harus",
    "jgn": "jangan",
    "krn": "karena",
    "lg": "lagi",
    "pd": "pada",
    "sdh": "sudah",
    "sm": "sama",
    "tdk": "tidak",
    "tp": "tapi",
    "utk": "untuk",
    "yg": "yang"
}

# Fungsi untuk mengganti kata slang dengan kata yang sudah dinormalisasi
def normalize_text(text):
    words = text.split()
    normalized_words = [slang_dict.get(word, word) for word in words]
    return " ".join(normalized_words)

# Menerapkan normalisasi pada kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda x: normalize_text(x))
df.head(10)

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta di area yang padat luas sekali t...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hari ini hadir wisuda anak tempat wisuda...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,jangan lupa follow ig mfft27 trmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi di bojongsoang ka...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,yang terhormat bapak kepala satpam dan manajem...
5,Gelar Tanaya Risno Okta Pamungkas,3.0,"Securitynya disana engga ramah ya, terus pada ...",securitynya disana engga ramah ya terus pada s...
6,Yuhardin SSI,5.0,"2016, Bisa Bikin Brand, Terimakasih Ilmunya Pa...",2016 bisa bikin brand terimakasih ilmunya pak bi
7,Yadi setiadi,1.0,ATURA SIH ATURAN MASA DRIVER ONLINE OJOL MASU...,atura sih aturan masa driver online ojol masuk...
8,Muhammad Iqbal Winahyu,1.0,WASTE TIME BANGET DI SURUH JALAN KE ASRAMA PUT...,waste time banget di suruh jalan ke asrama put...
9,Betha AF,5.0,Kampus swasta terbaik di Indonesia. Kereeen...,kampus swasta terbaik di indonesia kereeen


## Removal of Stopwords

In [12]:
from nltk.corpus import stopwords
", ".join(stopwords.words('indonesian'))

'ada, adalah, adanya, adapun, agak, agaknya, agar, akan, akankah, akhir, akhiri, akhirnya, aku, akulah, amat, amatlah, anda, andalah, antar, antara, antaranya, apa, apaan, apabila, apakah, apalagi, apatah, artinya, asal, asalkan, atas, atau, ataukah, ataupun, awal, awalnya, bagai, bagaikan, bagaimana, bagaimanakah, bagaimanapun, bagi, bagian, bahkan, bahwa, bahwasanya, baik, bakal, bakalan, balik, banyak, bapak, baru, bawah, beberapa, begini, beginian, beginikah, beginilah, begitu, begitukah, begitulah, begitupun, bekerja, belakang, belakangan, belum, belumlah, benar, benarkah, benarlah, berada, berakhir, berakhirlah, berakhirnya, berapa, berapakah, berapalah, berapapun, berarti, berawal, berbagai, berdatangan, beri, berikan, berikut, berikutnya, berjumlah, berkali-kali, berkata, berkehendak, berkeinginan, berkenaan, berlainan, berlalu, berlangsung, berlebihan, bermacam, bermacam-macam, bermaksud, bermula, bersama, bersama-sama, bersiap, bersiap-siap, bertanya, bertanya-tanya, berturut

In [13]:
from nltk.corpus import stopwords

STOPWORDS = set(stopwords.words('indonesian'))
def remove_stopwords(text):
    return " ".join([word for word in text.split() if word not in STOPWORDS])

In [14]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_stopwords(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...


## !!!Removal of Frequent Words

In [15]:
# Menghapus semua kata "nya" yang berdiri sendiri dalam kolom temp_text
df['temp_text'] = df['temp_text'].apply(lambda text: ' '.join([word for word in text.split() if word != 'nya']))

df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...


In [16]:
from collections import Counter
word_count = Counter()
for text in df['temp_text']:
    for word in text.split():
        word_count[word] += 1
        
word_count.most_common(10)

[('kampus', 252),
 ('telkom', 146),
 ('bagus', 103),
 ('university', 95),
 ('luas', 93),
 ('the', 90),
 ('universitas', 85),
 ('nyaman', 70),
 ('jalan', 68),
 ('kuliah', 62)]

In [17]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...


In [18]:
# FREQUENT_WORDS = set(word for (word, wc) in word_count.most_common(3))
# def remove_freq_words(text):
#     return " ".join([word for word in text.split() if word not in FREQUENT_WORDS])

In [19]:
# df['temp_text'] = df['temp_text'].apply(lambda x: remove_freq_words(x))
# df.head()

## Removal of Rare Words

In [20]:
# This cell should be moved after CELL INDEX 22
RARE_WORDS = set(word for (word, wc) in word_count.most_common()[:-10:-1])
print(RARE_WORDS)

{'like', 'bro', 'day', 'enjoy', 'toward', 'heaven', 'relax', 'coment', 'negry'}


In [21]:
def remove_rare_words(text):
    return " ".join([word for word in text.split() if word not in RARE_WORDS])

In [22]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_rare_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh 🙏🤩
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...


## Removal of Special characters

In [23]:
import re
def remove_spl_chars(text):
    text = re.sub('[^a-zA-Z0-9]', ' ', text)
    text = re.sub('\s+', ' ', text)
    return text

  text = re.sub('\s+', ' ', text)


In [24]:
df['temp_text'] = df['temp_text'].apply(lambda x: remove_spl_chars(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...


## Stemming

In [25]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer bahasa Indonesia
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Fungsi stemming
def stem_words(text):
    return stemmer.stem(text)

In [26]:
# Menerapkan stemming pada kolom temp_text
df['stemmed_text'] = df['temp_text'].apply(lambda x: stem_words(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...,kampus swasta area padat luas sayang tata park...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...,siang hadir wisuda anak wisuda worted duduk se...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh,lupa follow ig mfft27 trmksh
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...,kampus swasta nama lokasi bojongsoang kabupate...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...,hormat kepala satpam manajemen telkom mohon at...


## Lemmatization & POS Tagging

In [27]:
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
wordnet_map = {"N":wordnet.NOUN, "V": wordnet.VERB, "J": wordnet.ADJ, "R": wordnet.ADV}

def lemmatize_words(text):
    # find pos tags
    pos_text = pos_tag(text.split())
    return " ".join([lemmatizer.lemmatize(word, wordnet_map.get(pos[0], wordnet.NOUN)) for word, pos in pos_text])

In [28]:
from nltk.corpus import wordnet

wordnet.NOUN

'n'

In [29]:
# import nltk
# nltk.download('averaged_perceptron_tagger')

# df['lemmatized_text'] = df['temp_text'].apply(lambda x: lemmatize_words(x))
# df.head()

In [30]:
df.sample(frac=1).head(10)

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
672,Nabilla Syahvalensi Durasid,5.0,kampus tercinta ~~~~♥♥,kampus tercinta,kampus cinta
80,Edi Kurniadi,5.0,Kini tambah asri dan hijau banyak bangunan baru,asri hijau bangunan,asri hijau bangun
758,Ahmad Afif,4.0,Universitas swasta,universitas swasta,universitas swasta
675,Muhammad Rafif,5.0,kampus world class university,kampus world class university,kampus world class university
78,Azzahra Dhanindya,5.0,"Di stt adem banget, buat yang suka sama IT waj...",stt adem banget suka it wajib masuk nih,stt adem banget suka it wajib masuk nih
430,Pak Akmal,4.0,Mau info kpn msk asrama telkom utk mhs 2018,info kpn msk asrama telkom mhs 2018,info kpn msk asrama telkom mhs 2018
32,Adetia Adetia,5.0,Setelah 2 tahun ga ke sini ternyata perubahann...,2 ga perubahannya berasa vibes green campusnya...,2 ga ubah asa vibes green campusnya pohon rind...
397,achmad ridwan,1.0,Tempatnya kotor gak menyenangkan,tempatnya kotor menyenangkan,tempat kotor senang
399,Arfan Nur Akbar,5.0,minusnya panas sama suka banjir doang,minusnya panas suka banjir doang,minus panas suka banjir doang
739,SUYATNO,4.0,Mantul,mantul,mantul


## Tokenization

In [31]:
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...,kampus swasta area padat luas sayang tata park...
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...,siang hadir wisuda anak wisuda worted duduk se...
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh,lupa follow ig mfft27 trmksh
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...,kampus swasta nama lokasi bojongsoang kabupate...
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...,hormat kepala satpam manajemen telkom mohon at...


In [32]:
df.isnull().sum()

name            0
rating          0
snippet         0
temp_text       0
stemmed_text    0
dtype: int64

In [33]:
from nltk.tokenize import word_tokenize

# Tokenisasi
df['tokenized_text'] = df['stemmed_text'].apply(lambda x: word_tokenize(x))
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...,kampus swasta area padat luas sayang tata park...,"[kampus, swasta, area, padat, luas, sayang, ta..."
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...,siang hadir wisuda anak wisuda worted duduk se...,"[siang, hadir, wisuda, anak, wisuda, worted, d..."
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh,lupa follow ig mfft27 trmksh,"[lupa, follow, ig, mfft27, trmksh]"
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...,kampus swasta nama lokasi bojongsoang kabupate...,"[kampus, swasta, nama, lokasi, bojongsoang, ka..."
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...,hormat kepala satpam manajemen telkom mohon at...,"[hormat, kepala, satpam, manajemen, telkom, mo..."


In [34]:
# Cleaned text
df['cleaned_text'] = df['tokenized_text']
df.head()

Unnamed: 0,name,rating,snippet,temp_text,stemmed_text,tokenized_text,cleaned_text
0,Daryl Cokelat,4.0,"Kampus swasta di area yg padat, luas sekali t...",kampus swasta area padat luas sayang penataan ...,kampus swasta area padat luas sayang tata park...,"[kampus, swasta, area, padat, luas, sayang, ta...","[kampus, swasta, area, padat, luas, sayang, ta..."
1,Aries Indanarto,1.0,Siang hari ini hadir wisuda anak. Tempat wisud...,siang hadir wisuda anak wisuda worted duduknya...,siang hadir wisuda anak wisuda worted duduk se...,"[siang, hadir, wisuda, anak, wisuda, worted, d...","[siang, hadir, wisuda, anak, wisuda, worted, d..."
2,mfft_27,5.0,jangan lupa follow Ig : mfft_27\ntrmksh 🙏🤩,lupa follow ig mfft27 trmksh,lupa follow ig mfft27 trmksh,"[lupa, follow, ig, mfft27, trmksh]","[lupa, follow, ig, mfft27, trmksh]"
3,Fadhil Muhammad,5.0,"Kampus swasta ternama, lokasi di bojongsoang k...",kampus swasta ternama lokasi bojongsoang kabup...,kampus swasta nama lokasi bojongsoang kabupate...,"[kampus, swasta, nama, lokasi, bojongsoang, ka...","[kampus, swasta, nama, lokasi, bojongsoang, ka..."
4,Rachmat Hidayar,1.0,Yang terhormat bapak kepala satpam dan manajem...,terhormat kepala satpam manajemen telkom dimoh...,hormat kepala satpam manajemen telkom mohon at...,"[hormat, kepala, satpam, manajemen, telkom, mo...","[hormat, kepala, satpam, manajemen, telkom, mo..."


In [35]:
import os

try:
	# Save the dataframe to a CSV file
	df.to_csv(output_path, index=False)
	print(f"DataFrame successfully saved to {output_path}")
except Exception as e:
	print(f"An error occurred: {e}")

DataFrame successfully saved to ../../dataset/cleaned-data/TelU_Reviews_cleaned.csv
