# Preprocessing data

Import library

In [4]:
from dotenv import load_dotenv
from pymongo import MongoClient
import os
import pandas as pd

In [2]:
# Memuat value dari file .env
load_dotenv()

mongo_uri = os.getenv('URL_SANDY')

#### Import dataset dari MongoDB

In [88]:
# Koneksi ke MongoDB
client = MongoClient(mongo_uri)

# Pilih database dan koleksi
db = client['youtube_rewind_indonesia']
collection = db['cleansing_2015']

# Query data dari koleksi
cursor = collection.find()

# Konversi cursor ke list dan kemudian ke DataFrame
data = list(cursor)
df = pd.DataFrame(data)

# Menutup koneksi
client.close()

In [89]:
df

Unnamed: 0,_id,text
0,664b4774d0e4a8c2ded86821,salam dari 2024
1,664b4774d0e4a8c2ded86822,"Hahaha...btw niii udah 2024,GK kerasa😢"
2,664b4774d0e4a8c2ded86823,the best
3,664b4774d0e4a8c2ded86824,Sorry telat 9 tahun
4,664b4774d0e4a8c2ded86825,Ah gila udah mau 9 tahun masih apal lagu nya😂
...,...,...
24306,664b4774d0e4a8c2ded8d70c,woeee
24307,664b4774d0e4a8c2ded8d70d,1
24308,664b4774d0e4a8c2ded8d713,=))) kerenn
24309,664b4774d0e4a8c2ded8d714,Mantep :v


#### Mengubah data text menjadi lowercase

In [90]:
df['text'] = df['text'].str.lower()

df

Unnamed: 0,_id,text
0,664b4774d0e4a8c2ded86821,salam dari 2024
1,664b4774d0e4a8c2ded86822,"hahaha...btw niii udah 2024,gk kerasa😢"
2,664b4774d0e4a8c2ded86823,the best
3,664b4774d0e4a8c2ded86824,sorry telat 9 tahun
4,664b4774d0e4a8c2ded86825,ah gila udah mau 9 tahun masih apal lagu nya😂
...,...,...
24306,664b4774d0e4a8c2ded8d70c,woeee
24307,664b4774d0e4a8c2ded8d70d,1
24308,664b4774d0e4a8c2ded8d713,=))) kerenn
24309,664b4774d0e4a8c2ded8d714,mantep :v


#### Menghapus data dengan atribut text null

In [91]:
df = df[df['text'] != '']
df

Unnamed: 0,_id,text
0,664b4774d0e4a8c2ded86821,salam dari 2024
1,664b4774d0e4a8c2ded86822,"hahaha...btw niii udah 2024,gk kerasa😢"
2,664b4774d0e4a8c2ded86823,the best
3,664b4774d0e4a8c2ded86824,sorry telat 9 tahun
4,664b4774d0e4a8c2ded86825,ah gila udah mau 9 tahun masih apal lagu nya😂
...,...,...
24306,664b4774d0e4a8c2ded8d70c,woeee
24307,664b4774d0e4a8c2ded8d70d,1
24308,664b4774d0e4a8c2ded8d713,=))) kerenn
24309,664b4774d0e4a8c2ded8d714,mantep :v


#### Menghapus baris dengan nilai yang hanya berupa numeric pada kolom 'text'

In [92]:
df = df[~df['text'].str.isnumeric()]

df

Unnamed: 0,_id,text
0,664b4774d0e4a8c2ded86821,salam dari 2024
1,664b4774d0e4a8c2ded86822,"hahaha...btw niii udah 2024,gk kerasa😢"
2,664b4774d0e4a8c2ded86823,the best
3,664b4774d0e4a8c2ded86824,sorry telat 9 tahun
4,664b4774d0e4a8c2ded86825,ah gila udah mau 9 tahun masih apal lagu nya😂
...,...,...
24305,664b4774d0e4a8c2ded8d70b,first?
24306,664b4774d0e4a8c2ded8d70c,woeee
24308,664b4774d0e4a8c2ded8d713,=))) kerenn
24309,664b4774d0e4a8c2ded8d714,mantep :v


#### Fungsi untuk membersihkan teks dari beberapa pola yang umum ditemukan dalam data teks

In [93]:
def clean_data_text(text):
    # Menghapus username
    text = re.sub(r'@[A-Za-z0-9_]+', '', text)
    # Menghapus hashtag
    text = re.sub(r'#\w+', '', text)
    # Menghapus angka
    text = re.sub(r'\d+', '', text)
    # Menghapus 'RT' (retweet)
    text = re.sub(r'RT[\s]+', '', text)
    # Menghapus URL
    text = re.sub(r'https?://\S+', '', text)
    # Menghapus karakter non-alfanumerik
    text = re.sub(r'[^A-Za-z0-9 ]', '', text)
    # Menghapus spasi ekstra di awal dan akhir teks, serta spasi berlebih di antara kata
    text = re.sub(r'\s+', ' ', text).strip()
    # Mencari dan menghapus karakter tunggal yang terpisah dari kata-kata
    text = re.sub(r'\b\w\b', '', text)
    # Menghapus angka tunggal
    text = re.sub(r'\b\d+\b', '', text)
    # Menghapus karakter berulang, misalnya: 'aa', 'bbb', 'ccc'
    text = re.sub(r'(.)\1+', r'\1', text)
    # Menghapus emotikon
    text = re.sub(r'(?::|;|=)(?:-)?(?:\)|\(|D|P)', '', text)
    return text

In [94]:
# Apply clean_data_text pada dataframe
# Menggunakan .loc untuk mengakses DataFrame
df.loc[:, 'text'] = df['text'].apply(clean_data_text)

df

Unnamed: 0,_id,text
0,664b4774d0e4a8c2ded86821,salam dari
1,664b4774d0e4a8c2ded86822,hahahabtw ni udah gk kerasa
2,664b4774d0e4a8c2ded86823,the best
3,664b4774d0e4a8c2ded86824,sory telat tahun
4,664b4774d0e4a8c2ded86825,ah gila udah mau tahun masih apal lagu nya
...,...,...
24305,664b4774d0e4a8c2ded8d70b,first
24306,664b4774d0e4a8c2ded8d70c,woe
24308,664b4774d0e4a8c2ded8d713,keren
24309,664b4774d0e4a8c2ded8d714,mantep


#### Memeriksa panjang teks pada kolom 'text' dan menyimpan hanya baris dengan panjang antara 20 sampai 200 karakter

In [95]:
df = df[(df['text'].str.len() >= 20) & (df['text'].str.len() <= 200)]

df

Unnamed: 0,_id,text
1,664b4774d0e4a8c2ded86822,hahahabtw ni udah gk kerasa
4,664b4774d0e4a8c2ded86825,ah gila udah mau tahun masih apal lagu nya
5,664b4774d0e4a8c2ded86826,zaman di mna jdi youtuber hrus dgn karya terba...
7,664b4774d0e4a8c2ded86828,nyesek bgt wlapun ak di situ msih tk masih suk...
9,664b4774d0e4a8c2ded8682a,abis liat yg btw bryan furan yg bikin gw nonto...
...,...,...
24266,664b4774d0e4a8c2ded8d6c9,terus berkarya ya bagi semua youtubers indones...
24269,664b4774d0e4a8c2ded8d6cf,keren njir videonya bikin ane merinding terus ...
24277,664b4774d0e4a8c2ded8d6e0,akhirnya youtube rewind indonesia
24281,664b4774d0e4a8c2ded8d6e5,gw ke berapa kampret


## Normalisasi

In [96]:
norm = {
    " yg ": " yang ",
    " kren ": " keren",
    " sdh ": " sudah ",
    " dgn ": " dengan ",
    " tdk ": " tidak ",
    " dlm ": " dalam ",
    " dl ": " dulu ",
    " gw ": " saya ",
    " kok ": " kenapa ",
    " bs ": " bisa ",
    " bgt ": " sangat ",
    " njir ": " kagum ",
    " anjir ": " kagum ",
    " g ": " tidak ",
    " lg ": " lagi ",
    " dr ": " dari ",
    " tp ": " tapi ",
    " jg ": " juga ",
    " sm ": " sama ",
    " krn ": " karena ",
    " spt ": " seperti ",
    " yg ": " yang ",
    " pd ": " pada ",
    " dn ": " dan ",
    " d ": " di ",
    " kt ": " kita ",
    " km ": " kamu ",
    " ms ": " masih ",
    " tlg ": " tolong ",
    " sja ": " saja ",
    " sy ": " saya ",
    " sdikit ": " sedikit ",
    " dket ": " dekat ",
    " lbh ": " lebih ",
    " sj ": " saja ",
    " bnyk ": " banyak ",
    " dgnnya ": " dengannya ",
    " sgala ": " segala ",
    " skrg ": " sekarang ",
    " nmr ": " nomor ",
    " srg ": " sering ",
    " ttg ": " tentang ",
    " smua ": " semua ",
    " trus ": " terus ",
    " pdhl ": " padahal ",
    " kt ": " kita ",
    " dkt ": " dekat ",
    " jg ": " juga ",
    " dlm ": " dalam ",
    " bhw ": " bahwa ",
    " sja ": " saja ",
    " mrk ": " mereka ",
    " sgth ": " sangat ",
    " dn ": " dan ",
    " trlalu ": " terlalu ",
    " msing2 ": " masing-masing ",
    " brp ": " berapa ",
    " aq ": " aku ",
    " smpe ": " sampai ",
    " kalo ": " kalau ",
    " bkn ": " bukan ",
    " jd ": " jadi ",
    " dket ": " dekat ",
    " ntr ": " nanti ",
    " klo ": " kalau ",
    " sda ": " sudah ",
    " sy ": " saya ",
    " kpn ": " kapan ",
    " dmn ": " dimana ",
    " lgsng ": " langsung ",
    " tdk ": " tidak ",
    " pgi ": " pagi ",
    " ngga ": " tidak ",
    " gak ": " tidak ",
    " lbih ": " lebih ",
    " cm ": " cuman ",
    " sgt ": " sangat ",
    " aj ": " saja ",
    " apa2 ": " apa-apa ",
    " krg ": " kurang ",
    " ngerti ": " mengerti ",
    " slalu ": " selalu ",
    " bbrp ": " beberapa ",
    " smpe ": " sampai ",
    " krja ": " kerja ",
    " bbrp ": " beberapa ",
    " jln ": " jalan ",
    " hr ": " hari ",
    " kok ": " kenapa ",
    " mgkin ": " mungkin "
    # Tambahkan aturan normalisasi lainnya di sini sesuai kebutuhan
}

#### Fungsi normalisasi

In [97]:
def normalisasi(text):
    for i in norm:
        text = text.replace(i, norm[i])
    return text

In [98]:
df.loc[:, 'text'] = df['text'].apply(normalisasi)
df

Unnamed: 0,_id,text
1,664b4774d0e4a8c2ded86822,hahahabtw ni udah gk kerasa
4,664b4774d0e4a8c2ded86825,ah gila udah mau tahun masih apal lagu nya
5,664b4774d0e4a8c2ded86826,zaman di mna jdi youtuber hrus dengan karya te...
7,664b4774d0e4a8c2ded86828,nyesek sangat wlapun ak di situ msih tk masih ...
9,664b4774d0e4a8c2ded8682a,abis liat yang btw bryan furan yang bikin saya...
...,...,...
24266,664b4774d0e4a8c2ded8d6c9,terus berkarya ya bagi semua youtubers indones...
24269,664b4774d0e4a8c2ded8d6cf,keren kagum videonya bikin ane merinding terus...
24277,664b4774d0e4a8c2ded8d6e0,akhirnya youtube rewind indonesia
24281,664b4774d0e4a8c2ded8d6e5,gw ke berapa kampret


## Stopwords

In [99]:
import Sastrawi

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, StopWordRemover, ArrayDictionary

more_stop_words = ["tidak"]

stop_words = StopWordRemoverFactory().get_stop_words()
stop_words.extend(more_stop_words)

new_array = ArrayDictionary(stop_words)
stop_words_remover_new = StopWordRemover(new_array)

def stopword(str_text):
  str_text = stop_words_remover_new.remove(str_text)
  return str_text

In [100]:
df.loc[:, 'text'] = df['text'].apply(stopword)

df

Unnamed: 0,_id,text
1,664b4774d0e4a8c2ded86822,hahahabtw ni udah gk kerasa
4,664b4774d0e4a8c2ded86825,ah gila udah mau tahun apal lagu nya
5,664b4774d0e4a8c2ded86826,zaman mna jdi youtuber hrus karya terbaik vibe...
7,664b4774d0e4a8c2ded86828,nyesek sangat wlapun ak situ msih tk suka main...
9,664b4774d0e4a8c2ded8682a,abis liat btw bryan furan bikin nonton biasa l...
...,...,...
24266,664b4774d0e4a8c2ded8d6c9,terus berkarya bagi semua youtubers indonesia ...
24269,664b4774d0e4a8c2ded8d6cf,keren kagum videonya bikin ane merinding terus...
24277,664b4774d0e4a8c2ded8d6e0,akhirnya youtube rewind indonesia
24281,664b4774d0e4a8c2ded8d6e5,gw berapa kampret


## Tokenisasi
#### Memisahkan kalimat menjadi kata-kata

In [101]:
tokenized = df['text'].apply(lambda x:x.split())
tokenized

1                        [hahahabtw, ni, udah, gk, kerasa]
4            [ah, gila, udah, mau, tahun, apal, lagu, nya]
5        [zaman, mna, jdi, youtuber, hrus, karya, terba...
7        [nyesek, sangat, wlapun, ak, situ, msih, tk, s...
9        [abis, liat, btw, bryan, furan, bikin, nonton,...
                               ...                        
24266    [terus, berkarya, bagi, semua, youtubers, indo...
24269    [keren, kagum, videonya, bikin, ane, merinding...
24277               [akhirnya, youtube, rewind, indonesia]
24281                                [gw, berapa, kampret]
24290    [congratulation, guys, for, make, this, awesom...
Name: text, Length: 16242, dtype: object

## Stemming
#### Mengubah kata berimbuhan menjadi kata dasar

In [102]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Inisialisasi counter
counter = 1

def stemming(text_cleaning):
    global counter
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
    do = []
    for w in text_cleaning:
        dt = stemmer.stem(w)
        do.append(dt)
    d_clean = []
    d_clean = " ".join(do)
    print(f"{counter}: {d_clean}") 
    counter += 1
    return d_clean

Proses berikut agak lama karena data besar

In [103]:
tokenized = tokenized.apply(stemming)
# tokenized.to_csv("tokenized_comments.csv", index=False)
tokenized

1: hahahabtw ni udah gk rasa
2: ah gila udah mau tahun apal lagu nya
3: zaman mna jdi youtuber hrus karya baik vibesnya uhskrg mah dah wgwg
4: nyesek sangat wlapun ak situ msih tk suka main sma temn umur dulu ak kangen vibesnya ak orang anak smp
5: abis liat btw bryan furan bikin nonton biasa lewat beranda skip eh liat baru jadi nyampe sini
6: kok goyang dumang ada
7: just eka gustiwana thing elavate everything
8: jaman yutub penuh karya bukan drama
9: gw kangen masa masa
10: makasih banget buat nya sedih sedih bahagia
11: presiden delapan prabowo
12: kangen konten youtube dulu
13: nostalgia dulu pas pake hp nokia nonton berulangulang kali
14: tahun blm beban
15: jadi keinget kangen tahun benar benar tahun senang kesan
16: aku baru nonton video di
17: gw masadepan msih sering play ytb rewind nich
18: kasih jejak lah baru nonton
19: siapa kesini karna udh liat rewind
20: siapa kesini gara talkpod azka bocah reza ngapain anj
21: kangen youtuber dulu
22: lucu banget azka kecil coba bikin 

1                                hahahabtw ni udah gk rasa
4                     ah gila udah mau tahun apal lagu nya
5        zaman mna jdi youtuber hrus karya baik vibesny...
7        nyesek sangat wlapun ak situ msih tk suka main...
9        abis liat btw bryan furan bikin nonton biasa l...
                               ...                        
24266    terus karya bagi semua youtubers indonesia sem...
24269    keren kagum video bikin ane merinding terus ka...
24277                       akhir youtube rewind indonesia
24281                                    gw berapa kampret
24290    congratulation guys for make this awesome vide...
Name: text, Length: 16242, dtype: object

In [104]:
tokenized

1                                hahahabtw ni udah gk rasa
4                     ah gila udah mau tahun apal lagu nya
5        zaman mna jdi youtuber hrus karya baik vibesny...
7        nyesek sangat wlapun ak situ msih tk suka main...
9        abis liat btw bryan furan bikin nonton biasa l...
                               ...                        
24266    terus karya bagi semua youtubers indonesia sem...
24269    keren kagum video bikin ane merinding terus ka...
24277                       akhir youtube rewind indonesia
24281                                    gw berapa kampret
24290    congratulation guys for make this awesome vide...
Name: text, Length: 16242, dtype: object

#### Mengimpan Tokenized Comments ke MongoDB Atlas

In [3]:
# Koneksi ke MongoDB
client = MongoClient("mongodb+srv://ekaputrajuniawan:9yyb7lj6k557n45i@cluster0.dboezoc.mongodb.net/")
db = client["youtube_rewind_indonesia"]
collection = db["preprocessing_2015"]

# Konversi tokenized menjadi list of dictionaries
data_to_insert = [{'text': text} for text in tokenized]

# Masukkan data ke dalam koleksi MongoDB
collection.insert_many(data_to_insert)

print("Data berhasil diimpor ke MongoDB Atlas.")

NameError: name 'tokenized' is not defined

## Translate

import data dari file csv

In [105]:
# data = pd.read_csv("tokenized_comments.csv", encoding="latin1")
# data

In [106]:
# from translate import Translator

# # Inisialisasi counter
# counter = 1

# def convert_eng(text):
#     global counter  # Menggunakan counter sebagai variabel global
#     translator = Translator(to_lang="en", from_lang="id")
#     translation = translator.translate(text)
#     print(f"{counter}: {translation}")  # Mencetak teks terjemahan dengan nomor urut
#     counter += 1  # Menambah nilai counter setiap kali fungsi dipanggil
#     return translation

In [107]:
# # data["tweet_english"] = data["text"].apply(convert_eng)
# data.to_csv("translate_comments.csv", index=False)