In [14]:
import pandas as pd
from textblob import TextBlob
import inflect
import nltk
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from nltk.corpus import stopwords

# Download stopwords untuk nltk
nltk.download('stopwords')

# Inisialisasi inflect engine untuk konversi angka ke kata
p = inflect.engine()

# Inisialisasi stemmer Bahasa Indonesia dari Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Mengambil daftar stopwords bahasa Indonesia
stop_words = set(stopwords.words('indonesian'))

# Fungsi untuk memperbaiki typo
# def perbaiki_typo(teks):
#     blob = TextBlob(teks)
#     return str(blob.correct())

# Fungsi untuk mengganti angka dengan kata
angka_to_kata = {
    '0': 'nol', '1': 'satu', '2': 'dua', '3': 'tiga', '4': 'empat',
    '5': 'lima', '6': 'enam', '7': 'tujuh', '8': 'delapan', '9': 'sembilan'
}

# Fungsi untuk mengganti angka dengan kata
def ganti_angka_dengan_kata(teks):
    def replace(match):
        return angka_to_kata[match.group(0)]
    return re.sub(r'\d', replace, teks)

# Fungsi untuk tokenisasi
def tokenize(teks):
    return teks.split()

# Fungsi untuk transformasi kasus (menjadi huruf kecil)
def transform_case(teks):
    return teks.lower()

# Fungsi untuk menghapus stopwords
def hapus_stopwords(teks):
    tokens = teks.split()
    tokens = [word for word in tokens if word not in stop_words]
    return ' '.join(tokens)

# Fungsi untuk stemming
def stem_text(teks):
    return stemmer.stem(teks)

# Membaca file excel
df = pd.read_excel('./dataset-GTask.xlsx')

# Proses preprocessing dengan cetakan proses
for index, row in df.iterrows():
    print(f"Original: {row['content']}")

#     row['content'] = perbaiki_typo(row['content'])
#     print(f"After typo correction: {row['content']}")

    row['content'] = ganti_angka_dengan_kata(row['content'])
    print(f"After replacing numbers: {row['content']}")

    row['content'] = transform_case(row['content'])
    print(f"After case transformation: {row['content']}")

    tokens = tokenize(row['content'])
    print(f"After tokenization: {tokens}")

    row['content'] = ' '.join(tokens)
    row['content'] = hapus_stopwords(row['content'])
    print(f"After stopword removal: {row['content']}")

    row['content'] = stem_text(row['content'])
    print(f"After stemming: {row['content']}")

    # Update the dataframe with processed content
    df.at[index, 'content'] = row['content']
    print("------")

# Menyimpan kembali ke file excel atau menampilkan hasil
df.to_excel('dataset-GTask-after-preprocess.xlsx', index=False)
print(df.head())


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Original: Aplikasi ini sudah bagus, tetapi selain centang tugas, tambahkan fitur Nama, berdasarkan tanggal, dan Notifikasi. Buruan download!
After replacing numbers: Aplikasi ini sudah bagus, tetapi selain centang tugas, tambahkan fitur Nama, berdasarkan tanggal, dan Notifikasi. Buruan download!
After case transformation: aplikasi ini sudah bagus, tetapi selain centang tugas, tambahkan fitur nama, berdasarkan tanggal, dan notifikasi. buruan download!
After tokenization: ['aplikasi', 'ini', 'sudah', 'bagus,', 'tetapi', 'selain', 'centang', 'tugas,', 'tambahkan', 'fitur', 'nama,', 'berdasarkan', 'tanggal,', 'dan', 'notifikasi.', 'buruan', 'download!']
After stopword removal: aplikasi bagus, centang tugas, tambahkan fitur nama, berdasarkan tanggal, notifikasi. buruan download!
After stemming: aplikasi bagus centang tugas tambah fitur nama dasar tanggal notifikasi buru download
------
Original: bagus google
After replacing numbers: bagus google
After case transformation: bagus google
After

After stemming: bagus google tasks sila coba ya
------
Original: simple dan mudah digunakan
After replacing numbers: simple dan mudah digunakan
After case transformation: simple dan mudah digunakan
After tokenization: ['simple', 'dan', 'mudah', 'digunakan']
After stopword removal: simple mudah
After stemming: simple mudah
------
Original: Saya ingin google, kedepan semakin mudah, pengguna menggunakannya
After replacing numbers: Saya ingin google, kedepan semakin mudah, pengguna menggunakannya
After case transformation: saya ingin google, kedepan semakin mudah, pengguna menggunakannya
After tokenization: ['saya', 'ingin', 'google,', 'kedepan', 'semakin', 'mudah,', 'pengguna', 'menggunakannya']
After stopword removal: google, kedepan mudah, pengguna menggunakannya
After stemming: google depan mudah guna guna
------
Original: sementara masih bagus, tidak ada iklan
After replacing numbers: sementara masih bagus, tidak ada iklan
After case transformation: sementara masih bagus, tidak ada ik

After stemming: manfaat tugas susun rapih
------
Original: aplikasi bagus, terhubung google drive
After replacing numbers: aplikasi bagus, terhubung google drive
After case transformation: aplikasi bagus, terhubung google drive
After tokenization: ['aplikasi', 'bagus,', 'terhubung', 'google', 'drive']
After stopword removal: aplikasi bagus, terhubung google drive
After stemming: aplikasi bagus hubung google drive
------
Original: Kasih Bintang 5 lah biar semangat, Install saja lah jarang dipake ge produk Google punya
After replacing numbers: Kasih Bintang lima lah biar semangat, Install saja lah jarang dipake ge produk Google punya
After case transformation: kasih bintang lima lah biar semangat, install saja lah jarang dipake ge produk google punya
After tokenization: ['kasih', 'bintang', 'lima', 'lah', 'biar', 'semangat,', 'install', 'saja', 'lah', 'jarang', 'dipake', 'ge', 'produk', 'google', 'punya']
After stopword removal: kasih bintang biar semangat, install jarang dipake ge produ

After stemming: sederhana interaktif guna praktik
------
Original: sebelumnya aku kasih 4, sekarang sudah 5. untuk Google LLC semoga bisa ciptakan aplikasi lainnya yang punya fitur keren seperti ini lagi 
After replacing numbers: sebelumnya aku kasih empat, sekarang sudah lima. untuk Google LLC semoga bisa ciptakan aplikasi lainnya yang punya fitur keren seperti ini lagi 
After case transformation: sebelumnya aku kasih empat, sekarang sudah lima. untuk google llc semoga bisa ciptakan aplikasi lainnya yang punya fitur keren seperti ini lagi 
After tokenization: ['sebelumnya', 'aku', 'kasih', 'empat,', 'sekarang', 'sudah', 'lima.', 'untuk', 'google', 'llc', 'semoga', 'bisa', 'ciptakan', 'aplikasi', 'lainnya', 'yang', 'punya', 'fitur', 'keren', 'seperti', 'ini', 'lagi']
After stopword removal: kasih empat, lima. google llc semoga ciptakan aplikasi fitur keren
After stemming: kasih empat lima google llc moga cipta aplikasi fitur keren
------
Original: Bagus, ditambahkan fitur berganti warn

After stemming: google tasks bantu tugas laku dasar batas akhir bagus depan fitur lockscreen google fitur google tasks
------
Original: keren sekali aplikasi ini saya benar-benar sangat sukaa !!
After replacing numbers: keren sekali aplikasi ini saya benar-benar sangat sukaa !!
After case transformation: keren sekali aplikasi ini saya benar-benar sangat sukaa !!
After tokenization: ['keren', 'sekali', 'aplikasi', 'ini', 'saya', 'benar-benar', 'sangat', 'sukaa', '!!']
After stopword removal: keren aplikasi benar-benar sukaa !!
After stemming: keren aplikasi benar sukaa
------
Original: Mudah digunakan
After replacing numbers: Mudah digunakan
After case transformation: mudah digunakan
After tokenization: ['mudah', 'digunakan']
After stopword removal: mudah
After stemming: mudah
------
Original: Simple enak digunakan mantap, tambahin fitur yang lebih menarik ya
After replacing numbers: Simple enak digunakan mantap, tambahin fitur yang lebih menarik ya
After case transformation: simple ena

After stemming: bagus moga tingkat desain transparan tampil widgetnya
------
Original: aplikasinya sudah bagus nanti saya kasih bintang 5, jika ada menu tampilan seperti kanban board (Todo, doing, done)
After replacing numbers: aplikasinya sudah bagus nanti saya kasih bintang lima, jika ada menu tampilan seperti kanban board (Todo, doing, done)
After case transformation: aplikasinya sudah bagus nanti saya kasih bintang lima, jika ada menu tampilan seperti kanban board (todo, doing, done)
After tokenization: ['aplikasinya', 'sudah', 'bagus', 'nanti', 'saya', 'kasih', 'bintang', 'lima,', 'jika', 'ada', 'menu', 'tampilan', 'seperti', 'kanban', 'board', '(todo,', 'doing,', 'done)']
After stopword removal: aplikasinya bagus kasih bintang lima, menu tampilan kanban board (todo, doing, done)
After stemming: aplikasi bagus kasih bintang lima menu tampil kanban board todo doing done
------
Original: Gratis dan tidak ada iklan
After replacing numbers: Gratis dan tidak ada iklan
After case transf

After stemming: sekali pakai gtask android ios
------
Original: Mantap sudah
After replacing numbers: Mantap sudah
After case transformation: mantap sudah
After tokenization: ['mantap', 'sudah']
After stopword removal: mantap
After stemming: mantap
------
Original: sempurna dan sangat mudah digunakan
After replacing numbers: sempurna dan sangat mudah digunakan
After case transformation: sempurna dan sangat mudah digunakan
After tokenization: ['sempurna', 'dan', 'sangat', 'mudah', 'digunakan']
After stopword removal: sempurna mudah
After stemming: sempurna mudah
------
Original: sangat membantu  banyak pekerjaan
After replacing numbers: sangat membantu  banyak pekerjaan
After case transformation: sangat membantu  banyak pekerjaan
After tokenization: ['sangat', 'membantu', 'banyak', 'pekerjaan']
After stopword removal: membantu pekerjaan
After stemming: bantu kerja
------
Original: mantap, bisa terhubung dengan kalender
After replacing numbers: mantap, bisa terhubung dengan kalender
Afte

After stemming: mudah banget pakai liat langsung paham praktis nge-list aja tampil sederhana simple recommended nyatat tugas classroom edit logo ganti dong bagus dulu logo udah liat aplikasi
------
Original: Coba buat halaman di mana kita bisa melihat semua tugas, dan tambahkan fitur skala prioritas juga, yang lainnya sudah bagus.
After replacing numbers: Coba buat halaman di mana kita bisa melihat semua tugas, dan tambahkan fitur skala prioritas juga, yang lainnya sudah bagus.
After case transformation: coba buat halaman di mana kita bisa melihat semua tugas, dan tambahkan fitur skala prioritas juga, yang lainnya sudah bagus.
After tokenization: ['coba', 'buat', 'halaman', 'di', 'mana', 'kita', 'bisa', 'melihat', 'semua', 'tugas,', 'dan', 'tambahkan', 'fitur', 'skala', 'prioritas', 'juga,', 'yang', 'lainnya', 'sudah', 'bagus.']
After stopword removal: coba halaman tugas, tambahkan fitur skala prioritas juga, bagus.
After stemming: coba halaman tugas tambah fitur skala prioritas juga b

After stemming: fiturnya lengkap repey juga jadwal juga bagus banget pokok paket komplit gratis dah google
------
Original: mudah digunakan dan ramah pengguna
After replacing numbers: mudah digunakan dan ramah pengguna
After case transformation: mudah digunakan dan ramah pengguna
After tokenization: ['mudah', 'digunakan', 'dan', 'ramah', 'pengguna']
After stopword removal: mudah ramah pengguna
After stemming: mudah ramah guna
------
Original: Ngebantu saya bikin agenda
After replacing numbers: Ngebantu saya bikin agenda
After case transformation: ngebantu saya bikin agenda
After tokenization: ['ngebantu', 'saya', 'bikin', 'agenda']
After stopword removal: ngebantu bikin agenda
After stemming: ngebantu bikin agenda
------
Original: membantu buat pekerjaan, buat kita jadi bisa kerja lebih keras
After replacing numbers: membantu buat pekerjaan, buat kita jadi bisa kerja lebih keras
After case transformation: membantu buat pekerjaan, buat kita jadi bisa kerja lebih keras
After tokenization

After stemming: gak ngerti bantu
------
Original: Terimakasih sangat membantu saya untuk pekerjaan saya
After replacing numbers: Terimakasih sangat membantu saya untuk pekerjaan saya
After case transformation: terimakasih sangat membantu saya untuk pekerjaan saya
After tokenization: ['terimakasih', 'sangat', 'membantu', 'saya', 'untuk', 'pekerjaan', 'saya']
After stopword removal: terimakasih membantu pekerjaan
After stemming: terimakasih bantu kerja
------
Original: bagus banget buat bantu kerjaan ku
After replacing numbers: bagus banget buat bantu kerjaan ku
After case transformation: bagus banget buat bantu kerjaan ku
After tokenization: ['bagus', 'banget', 'buat', 'bantu', 'kerjaan', 'ku']
After stopword removal: bagus banget bantu kerjaan ku
After stemming: bagus banget bantu kerja ku
------
Original: Terkagum
After replacing numbers: Terkagum
After case transformation: terkagum
After tokenization: ['terkagum']
After stopword removal: terkagum
After stemming: kagum
------
Original

After stemming: terimakasih google bantu kontrol tugas beranta
------
Original: semoga Google tasks semakin keren dan bisa membantu tugas tugas selanjutnya
After replacing numbers: semoga Google tasks semakin keren dan bisa membantu tugas tugas selanjutnya
After case transformation: semoga google tasks semakin keren dan bisa membantu tugas tugas selanjutnya
After tokenization: ['semoga', 'google', 'tasks', 'semakin', 'keren', 'dan', 'bisa', 'membantu', 'tugas', 'tugas', 'selanjutnya']
After stopword removal: semoga google tasks keren membantu tugas tugas
After stemming: moga google tasks keren bantu tugas tugas
------
Original: Aplikasi bagus.. tolong isi tombol pencarian saja.
After replacing numbers: Aplikasi bagus.. tolong isi tombol pencarian saja.
After case transformation: aplikasi bagus.. tolong isi tombol pencarian saja.
After tokenization: ['aplikasi', 'bagus..', 'tolong', 'isi', 'tombol', 'pencarian', 'saja.']
After stopword removal: aplikasi bagus.. tolong isi tombol pencari

After stemming: aplikasi task yg bagus mudah pakai melist tugas saya mohon tambah task tugas hari minggu bulan pilah cerdas ponsel anda aplikasi orang bantu aplikasi pintar
------
Original: Sangat handal kalau memberikan pengingat pada waktu yang tepat
After replacing numbers: Sangat handal kalau memberikan pengingat pada waktu yang tepat
After case transformation: sangat handal kalau memberikan pengingat pada waktu yang tepat
After tokenization: ['sangat', 'handal', 'kalau', 'memberikan', 'pengingat', 'pada', 'waktu', 'yang', 'tepat']
After stopword removal: handal pengingat
After stemming: handal ingat
------
Original: Cocok untuk pengguna yang mencari aplikasi tugas yang tidak ribet.
After replacing numbers: Cocok untuk pengguna yang mencari aplikasi tugas yang tidak ribet.
After case transformation: cocok untuk pengguna yang mencari aplikasi tugas yang tidak ribet.
After tokenization: ['cocok', 'untuk', 'pengguna', 'yang', 'mencari', 'aplikasi', 'tugas', 'yang', 'tidak', 'ribet.']


After stemming: manfaat masuk login
------
Original: Fitur pengingat yang dapat disesuaikan sangat membantu
After replacing numbers: Fitur pengingat yang dapat disesuaikan sangat membantu
After case transformation: fitur pengingat yang dapat disesuaikan sangat membantu
After tokenization: ['fitur', 'pengingat', 'yang', 'dapat', 'disesuaikan', 'sangat', 'membantu']
After stopword removal: fitur pengingat disesuaikan membantu
After stemming: fitur ingat sesuai bantu
------
Original: tool yang hebat, saya akan menyukainya kalau ada juga di smartwatch
After replacing numbers: tool yang hebat, saya akan menyukainya kalau ada juga di smartwatch
After case transformation: tool yang hebat, saya akan menyukainya kalau ada juga di smartwatch
After tokenization: ['tool', 'yang', 'hebat,', 'saya', 'akan', 'menyukainya', 'kalau', 'ada', 'juga', 'di', 'smartwatch']
After stopword removal: tool hebat, menyukainya smartwatch
After stemming: tool hebat suka smartwatch
------
Original: bagus tapi ubah l

After stemming: ingat bantu organisir sibuk
------
Original: Membantu fokus pada key activites kita.
After replacing numbers: Membantu fokus pada key activites kita.
After case transformation: membantu fokus pada key activites kita.
After tokenization: ['membantu', 'fokus', 'pada', 'key', 'activites', 'kita.']
After stopword removal: membantu fokus key activites kita.
After stemming: bantu fokus key activites kita
------
Original: ringan simple dan gampang dipakai
After replacing numbers: ringan simple dan gampang dipakai
After case transformation: ringan simple dan gampang dipakai
After tokenization: ['ringan', 'simple', 'dan', 'gampang', 'dipakai']
After stopword removal: ringan simple gampang dipakai
After stemming: ringan simple gampang pakai
------
Original: suka aplikasi ini, ada di mana-mana. Saya dapat menggunakannya dari aplikasi google lainnya. berguna.
After replacing numbers: suka aplikasi ini, ada di mana-mana. Saya dapat menggunakannya dari aplikasi google lainnya. bergun

After stemming: aplikasi ini banding ingat apple tingkat fakta sederhana benar layar beranda ponsel ingat tetap banding benar pergi aplikasi fitur selamat lupa kali
------
Original: aplikasinya responsif nyaman digunakan
After replacing numbers: aplikasinya responsif nyaman digunakan
After case transformation: aplikasinya responsif nyaman digunakan
After tokenization: ['aplikasinya', 'responsif', 'nyaman', 'digunakan']
After stopword removal: aplikasinya responsif nyaman
After stemming: aplikasi responsif nyaman
------
Original: Penggunaan nya mudah tetapi memang perlu bisa integrasi ke email
After replacing numbers: Penggunaan nya mudah tetapi memang perlu bisa integrasi ke email
After case transformation: penggunaan nya mudah tetapi memang perlu bisa integrasi ke email
After tokenization: ['penggunaan', 'nya', 'mudah', 'tetapi', 'memang', 'perlu', 'bisa', 'integrasi', 'ke', 'email']
After stopword removal: penggunaan nya mudah integrasi email
After stemming: guna nya mudah integrasi 

After stemming: suka aplikasi ini integrasi item google saya mudah crash platform stabil
------
Original: Bisa membantu meremender Tugas2 kerja
After replacing numbers: Bisa membantu meremender Tugasdua kerja
After case transformation: bisa membantu meremender tugasdua kerja
After tokenization: ['bisa', 'membantu', 'meremender', 'tugasdua', 'kerja']
After stopword removal: membantu meremender tugasdua kerja
After stemming: bantu meremender tugasdua kerja
------
Original: Aplikasi Luar Biasa untuk menjaga jadwal selalu terbaru
After replacing numbers: Aplikasi Luar Biasa untuk menjaga jadwal selalu terbaru
After case transformation: aplikasi luar biasa untuk menjaga jadwal selalu terbaru
After tokenization: ['aplikasi', 'luar', 'biasa', 'untuk', 'menjaga', 'jadwal', 'selalu', 'terbaru']
After stopword removal: aplikasi menjaga jadwal terbaru
After stemming: aplikasi jaga jadwal baru
------
Original: Baru coba dan suka banget aplikasinya
After replacing numbers: Baru coba dan suka banget

After stemming: aplikasi mudah kelola tugas fitur ulang tugas muncul pemberitahuan area pintas layar beranda
------
Original: Saya baru pakai. Sip. Langsung singkron. Hanya foto gak bisa.
After replacing numbers: Saya baru pakai. Sip. Langsung singkron. Hanya foto gak bisa.
After case transformation: saya baru pakai. sip. langsung singkron. hanya foto gak bisa.
After tokenization: ['saya', 'baru', 'pakai.', 'sip.', 'langsung', 'singkron.', 'hanya', 'foto', 'gak', 'bisa.']
After stopword removal: pakai. sip. langsung singkron. foto gak bisa.
After stemming: pakai sip langsung singkron foto gak bisa
------
Original: sudah bagus. Terutama dengan dihadirkan fitur notifikasi atau pengingat berupa alarm untuk semua tugas
After replacing numbers: sudah bagus. Terutama dengan dihadirkan fitur notifikasi atau pengingat berupa alarm untuk semua tugas
After case transformation: sudah bagus. terutama dengan dihadirkan fitur notifikasi atau pengingat berupa alarm untuk semua tugas
After tokenizatio

After stemming: bantu atur prioritas hidup aplikasi hubung akun google akses gadget tampil mudah pasang aplikasi kelas notes
------
Original: Tidak ada yang melakukannya lebih baik dari google.
After replacing numbers: Tidak ada yang melakukannya lebih baik dari google.
After case transformation: tidak ada yang melakukannya lebih baik dari google.
After tokenization: ['tidak', 'ada', 'yang', 'melakukannya', 'lebih', 'baik', 'dari', 'google.']
After stopword removal: melakukannya google.
After stemming: laku google
------
Original: Sangat membantu. Keren, terus tingkatkan dan kembangkan.
After replacing numbers: Sangat membantu. Keren, terus tingkatkan dan kembangkan.
After case transformation: sangat membantu. keren, terus tingkatkan dan kembangkan.
After tokenization: ['sangat', 'membantu.', 'keren,', 'terus', 'tingkatkan', 'dan', 'kembangkan.']
After stopword removal: membantu. keren, tingkatkan kembangkan.
After stemming: bantu keren tingkat kembang
------
Original: Mudah untuk digu

After stemming: suka saran coba integrasi google chrome gak gmail
------
Original: tidak bisa menjalankan hari saya tanpanya!
After replacing numbers: tidak bisa menjalankan hari saya tanpanya!
After case transformation: tidak bisa menjalankan hari saya tanpanya!
After tokenization: ['tidak', 'bisa', 'menjalankan', 'hari', 'saya', 'tanpanya!']
After stopword removal: menjalankan tanpanya!
After stemming: jalan tanpa
------
Original: Jumlah fitur yang tepat
After replacing numbers: Jumlah fitur yang tepat
After case transformation: jumlah fitur yang tepat
After tokenization: ['jumlah', 'fitur', 'yang', 'tepat']
After stopword removal: fitur
After stemming: fitur
------
Original: Pekerjaan saya jadi lebih mudah dan menyenangkan
After replacing numbers: Pekerjaan saya jadi lebih mudah dan menyenangkan
After case transformation: pekerjaan saya jadi lebih mudah dan menyenangkan
After tokenization: ['pekerjaan', 'saya', 'jadi', 'lebih', 'mudah', 'dan', 'menyenangkan']
After stopword removal:

After stemming: aplikasi bagus clean google keep lengkap sederhana milik aplikasi note aplikasi butuh setting lambat sebab letak bintang aplikasi ini
------
Original: Aplikasi yang sangat andal dalam mencapai tujuan harian Anda, jika Anda memiliki disiplin.
After replacing numbers: Aplikasi yang sangat andal dalam mencapai tujuan harian Anda, jika Anda memiliki disiplin.
After case transformation: aplikasi yang sangat andal dalam mencapai tujuan harian anda, jika anda memiliki disiplin.
After tokenization: ['aplikasi', 'yang', 'sangat', 'andal', 'dalam', 'mencapai', 'tujuan', 'harian', 'anda,', 'jika', 'anda', 'memiliki', 'disiplin.']
After stopword removal: aplikasi andal mencapai tujuan harian anda, memiliki disiplin.
After stemming: aplikasi andal capai tuju hari anda milik disiplin
------
Original: Aplikasi ini mengirimi Anda pengingat serta memungkinkan Anda untuk menghapus tugas dan pengingat Anda dengan mudah menavigasi aplikasi tanpa banyak kesulitan teknis. Saya menikmati Goog

After stemming: aplikasi kayak gin gak tugas deadlinenya start date and end date
------
Original: susah gak ada fitur berbagi
After replacing numbers: susah gak ada fitur berbagi
After case transformation: susah gak ada fitur berbagi
After tokenization: ['susah', 'gak', 'ada', 'fitur', 'berbagi']
After stopword removal: susah gak fitur berbagi
After stemming: susah gak fitur bagi
------
Original: Tadi nya ada widget list nya untuk layar utama, tapi kenapa sekarang hilang ya ? Mohon info nya ? Saya menggunakan Pixel Launcher. Kendala yang sama juga saya rasakan pada aplikasi Keep.
After replacing numbers: Tadi nya ada widget list nya untuk layar utama, tapi kenapa sekarang hilang ya ? Mohon info nya ? Saya menggunakan Pixel Launcher. Kendala yang sama juga saya rasakan pada aplikasi Keep.
After case transformation: tadi nya ada widget list nya untuk layar utama, tapi kenapa sekarang hilang ya ? mohon info nya ? saya menggunakan pixel launcher. kendala yang sama juga saya rasakan pada ap

After stemming: banyak undo task hapus info undo task recycle bin hapus info undo recycle bin hapus ngga undo lagi mesti fitur hapus recycle bin
------
Original: notif tidak muncul, padahal semua notif sudah di aktifkan di pengaturan
After replacing numbers: notif tidak muncul, padahal semua notif sudah di aktifkan di pengaturan
After case transformation: notif tidak muncul, padahal semua notif sudah di aktifkan di pengaturan
After tokenization: ['notif', 'tidak', 'muncul,', 'padahal', 'semua', 'notif', 'sudah', 'di', 'aktifkan', 'di', 'pengaturan']
After stopword removal: notif muncul, notif aktifkan pengaturan
After stemming: notif muncul notif aktif atur
------
Original: Fungsi jamnya tidak berfungsi. Kirain bisa jadi seperti alarm, ternyata tidak.
After replacing numbers: Fungsi jamnya tidak berfungsi. Kirain bisa jadi seperti alarm, ternyata tidak.
After case transformation: fungsi jamnya tidak berfungsi. kirain bisa jadi seperti alarm, ternyata tidak.
After tokenization: ['fungsi

After stemming: harap baik mode gelap widget teks tugas baca rindu periksa tugas widget layar beranda
------
Original: kadang notif tidak muncul
After replacing numbers: kadang notif tidak muncul
After case transformation: kadang notif tidak muncul
After tokenization: ['kadang', 'notif', 'tidak', 'muncul']
After stopword removal: kadang notif muncul
After stemming: kadang notif muncul
------
Original: Belum bisa hapus photo videos
After replacing numbers: Belum bisa hapus photo videos
After case transformation: belum bisa hapus photo videos
After tokenization: ['belum', 'bisa', 'hapus', 'photo', 'videos']
After stopword removal: hapus photo videos
After stemming: hapus photo videos
------
Original: Ketika saya restart, semua daftar di widget menghilang. Saya harus menambahkan kembali widget lagi untuk menampilkan daftar.
After replacing numbers: Ketika saya restart, semua daftar di widget menghilang. Saya harus menambahkan kembali widget lagi untuk menampilkan daftar.
After case transf

After stemming: suara ingat nya jendela pop-up yg ada pakai ingat google kalender aja
------
Original: Produk yang tidak berguna dari google. Itu tidak mengingatkan saya. Tidak ada alarm, tidak ada getaran, tidak ada pemberitahuan sama sekali.
After replacing numbers: Produk yang tidak berguna dari google. Itu tidak mengingatkan saya. Tidak ada alarm, tidak ada getaran, tidak ada pemberitahuan sama sekali.
After case transformation: produk yang tidak berguna dari google. itu tidak mengingatkan saya. tidak ada alarm, tidak ada getaran, tidak ada pemberitahuan sama sekali.
After tokenization: ['produk', 'yang', 'tidak', 'berguna', 'dari', 'google.', 'itu', 'tidak', 'mengingatkan', 'saya.', 'tidak', 'ada', 'alarm,', 'tidak', 'ada', 'getaran,', 'tidak', 'ada', 'pemberitahuan', 'sama', 'sekali.']
After stopword removal: produk berguna google. saya. alarm, getaran, pemberitahuan sekali.
After stemming: produk guna google saya alarm getar pemberitahuan sekali
------
Original: Notifikasi Googl

After stemming: mohon ada fitur daftar list aktifitas belanja susu telur yoghurt item centang checklist coret item completely done belum fitur subtask alangkah baik susun dalam bawah task utama kait hubung tuju mudah check prepare proses tahap prosedur jadi tugas pisah
------
Original: Batal memakai
After replacing numbers: Batal memakai
After case transformation: batal memakai
After tokenization: ['batal', 'memakai']
After stopword removal: batal memakai
After stemming: batal pakai
------
Original: Tidak bisa sinkron dengan google calendar
After replacing numbers: Tidak bisa sinkron dengan google calendar
After case transformation: tidak bisa sinkron dengan google calendar
After tokenization: ['tidak', 'bisa', 'sinkron', 'dengan', 'google', 'calendar']
After stopword removal: sinkron google calendar
After stemming: sinkron google calendar
------
Original: Begitu banyak hal yang salah dengan ini: tugas berulang tidak dapat memiliki subtugas, tugas dengan subtugas tidak dapat diulang, t

After stemming: instal guna buka muncul pesan update baru tekan pilih update masuk playstore gak tuh pilih updatenya aja install udah versi baru dong muncul pesan mengupdate alhasil ya gitudua aja berulangdua masuk playstore
------
Original: Kurang ya..tidak bisa dicetak
After replacing numbers: Kurang ya..tidak bisa dicetak
After case transformation: kurang ya..tidak bisa dicetak
After tokenization: ['kurang', 'ya..tidak', 'bisa', 'dicetak']
After stopword removal: ya..tidak dicetak
After stemming: ya tidak cetak
------
Original: Notifikasi lambat keluar ngga tepat seperti waktu yang sudah di atur
After replacing numbers: Notifikasi lambat keluar ngga tepat seperti waktu yang sudah di atur
After case transformation: notifikasi lambat keluar ngga tepat seperti waktu yang sudah di atur
After tokenization: ['notifikasi', 'lambat', 'keluar', 'ngga', 'tepat', 'seperti', 'waktu', 'yang', 'sudah', 'di', 'atur']
After stopword removal: notifikasi lambat ngga atur
After stemming: notifikasi la

After stemming: suka aplikasi kali guna ini panel notifikasi saya tampil judul tugas tarik manual judul ganggu atur tolong please
------
Original: Terlihat bodoh dan agak tidak berguna. Selain itu, mudah sekali salah tekan tombol edit saat mencoba menandai tugas sebagai selesai, yang sangat mengganggu.
After replacing numbers: Terlihat bodoh dan agak tidak berguna. Selain itu, mudah sekali salah tekan tombol edit saat mencoba menandai tugas sebagai selesai, yang sangat mengganggu.
After case transformation: terlihat bodoh dan agak tidak berguna. selain itu, mudah sekali salah tekan tombol edit saat mencoba menandai tugas sebagai selesai, yang sangat mengganggu.
After tokenization: ['terlihat', 'bodoh', 'dan', 'agak', 'tidak', 'berguna.', 'selain', 'itu,', 'mudah', 'sekali', 'salah', 'tekan', 'tombol', 'edit', 'saat', 'mencoba', 'menandai', 'tugas', 'sebagai', 'selesai,', 'yang', 'sangat', 'mengganggu.']
After stopword removal: bodoh berguna. itu, mudah salah tekan tombol edit mencoba m

After stemming: aplikasi sayang batas fitu widget pilih opsi tugas tugas
------
Original: butuh tombol cepat untuk melihat Tugas selesai dengan tanggal selesai.
After replacing numbers: butuh tombol cepat untuk melihat Tugas selesai dengan tanggal selesai.
After case transformation: butuh tombol cepat untuk melihat tugas selesai dengan tanggal selesai.
After tokenization: ['butuh', 'tombol', 'cepat', 'untuk', 'melihat', 'tugas', 'selesai', 'dengan', 'tanggal', 'selesai.']
After stopword removal: butuh tombol cepat tugas selesai tanggal selesai.
After stemming: butuh tombol cepat tugas selesai tanggal selesai
------
Original: tidak mendapatkan pengingat sama sekali. 
After replacing numbers: tidak mendapatkan pengingat sama sekali. 
After case transformation: tidak mendapatkan pengingat sama sekali. 
After tokenization: ['tidak', 'mendapatkan', 'pengingat', 'sama', 'sekali.']
After stopword removal: pengingat sekali.
After stemming: ingat sekali
------
Original: tugas berulangnya gak mu

After stemming: google pindah tasks assistant aplikasi ini ingat notifikasi frustasi
------
Original: fungsi pencariannya gaada, padahal butuh
After replacing numbers: fungsi pencariannya gaada, padahal butuh
After case transformation: fungsi pencariannya gaada, padahal butuh
After tokenization: ['fungsi', 'pencariannya', 'gaada,', 'padahal', 'butuh']
After stopword removal: fungsi pencariannya gaada, butuh
After stemming: fungsi cari gaada butuh
------
Original: Melewatkan tugas terus udah gitu acak. 
After replacing numbers: Melewatkan tugas terus udah gitu acak. 
After case transformation: melewatkan tugas terus udah gitu acak. 
After tokenization: ['melewatkan', 'tugas', 'terus', 'udah', 'gitu', 'acak.']
After stopword removal: melewatkan tugas udah gitu acak.
After stemming: lewat tugas udah gitu acak
------
Original: gak banget
After replacing numbers: gak banget
After case transformation: gak banget
After tokenization: ['gak', 'banget']
After stopword removal: gak banget
After s

After stemming: susah banget ngatur tanggal mudah
------
Original: fiturnya kurang banget dibanding microsoft task
After replacing numbers: fiturnya kurang banget dibanding microsoft task
After case transformation: fiturnya kurang banget dibanding microsoft task
After tokenization: ['fiturnya', 'kurang', 'banget', 'dibanding', 'microsoft', 'task']
After stopword removal: fiturnya banget dibanding microsoft task
After stemming: fiturnya banget banding microsoft task
------
Original: masa remindernya telat 2 menit? Ngapain ada reminder kalau gitu
After replacing numbers: masa remindernya telat dua menit? Ngapain ada reminder kalau gitu
After case transformation: masa remindernya telat dua menit? ngapain ada reminder kalau gitu
After tokenization: ['masa', 'remindernya', 'telat', 'dua', 'menit?', 'ngapain', 'ada', 'reminder', 'kalau', 'gitu']
After stopword removal: remindernya telat menit? ngapain reminder gitu
After stemming: remindernya telat menit ngapain reminder gitu
------
Original

After stemming: bagus logo
------
Original: aku gak sengaja ngehapus semua daftar tugas di aplikasi ini tapi GAK ADA PERINGATAN gak bisa dipulihin juga
After replacing numbers: aku gak sengaja ngehapus semua daftar tugas di aplikasi ini tapi GAK ADA PERINGATAN gak bisa dipulihin juga
After case transformation: aku gak sengaja ngehapus semua daftar tugas di aplikasi ini tapi gak ada peringatan gak bisa dipulihin juga
After tokenization: ['aku', 'gak', 'sengaja', 'ngehapus', 'semua', 'daftar', 'tugas', 'di', 'aplikasi', 'ini', 'tapi', 'gak', 'ada', 'peringatan', 'gak', 'bisa', 'dipulihin', 'juga']
After stopword removal: gak sengaja ngehapus daftar tugas aplikasi gak peringatan gak dipulihin
After stemming: gak sengaja ngehapus daftar tugas aplikasi gak ingat gak dipulihin
------
Original: aku udah nyoba berkali- kali tapi masih ga berfungsi beberapa fiturnya
After replacing numbers: aku udah nyoba berkali- kali tapi masih ga berfungsi beberapa fiturnya
After case transformation: aku uda

After stemming: gak tanggal nandain tugas selesai
------
Original: pengingat sih tapi malah lupa ngingatin
After replacing numbers: pengingat sih tapi malah lupa ngingatin
After case transformation: pengingat sih tapi malah lupa ngingatin
After tokenization: ['pengingat', 'sih', 'tapi', 'malah', 'lupa', 'ngingatin']
After stopword removal: pengingat sih lupa ngingatin
After stemming: ingat sih lupa ngingatin
------
Original: gue uninstall soalnya gak ada fitur pencarian sama ukuran font
After replacing numbers: gue uninstall soalnya gak ada fitur pencarian sama ukuran font
After case transformation: gue uninstall soalnya gak ada fitur pencarian sama ukuran font
After tokenization: ['gue', 'uninstall', 'soalnya', 'gak', 'ada', 'fitur', 'pencarian', 'sama', 'ukuran', 'font']
After stopword removal: gue uninstall gak fitur pencarian ukuran font
After stemming: gue uninstall gak fitur cari ukur font
------
Original: aplikasinya gak konsisten buat ngirim pengingat
After replacing numbers: a

After stemming: bug ubah buruk aplikasi lama
------
Original: notifikasinya gak terlalu muncul. Beberapa kali gak ada notifikasi sama sekali, padahal sudah dicatat.
After replacing numbers: notifikasinya gak terlalu muncul. Beberapa kali gak ada notifikasi sama sekali, padahal sudah dicatat.
After case transformation: notifikasinya gak terlalu muncul. beberapa kali gak ada notifikasi sama sekali, padahal sudah dicatat.
After tokenization: ['notifikasinya', 'gak', 'terlalu', 'muncul.', 'beberapa', 'kali', 'gak', 'ada', 'notifikasi', 'sama', 'sekali,', 'padahal', 'sudah', 'dicatat.']
After stopword removal: notifikasinya gak muncul. kali gak notifikasi sekali, dicatat.
After stemming: notifikasi gak muncul kali gak notifikasi sekali catat
------
Original: gak menampilkan pemberitahuan dari pengingat padahal semua izin sudah diaktifkan
After replacing numbers: gak menampilkan pemberitahuan dari pengingat padahal semua izin sudah diaktifkan
After case transformation: gak menampilkan pember

After stemming: aplikasi milik salah ui buruk lihat task manager
------
Original: Tidak dapat berbagi daftar dengan orang lain
After replacing numbers: Tidak dapat berbagi daftar dengan orang lain
After case transformation: tidak dapat berbagi daftar dengan orang lain
After tokenization: ['tidak', 'dapat', 'berbagi', 'daftar', 'dengan', 'orang', 'lain']
After stopword removal: berbagi daftar orang
After stemming: bagi daftar orang
------
Original: Tidak bisa menambahkan pengingat, lebih baik menggunakan kalender saja.
After replacing numbers: Tidak bisa menambahkan pengingat, lebih baik menggunakan kalender saja.
After case transformation: tidak bisa menambahkan pengingat, lebih baik menggunakan kalender saja.
After tokenization: ['tidak', 'bisa', 'menambahkan', 'pengingat,', 'lebih', 'baik', 'menggunakan', 'kalender', 'saja.']
After stopword removal: pengingat, kalender saja.
After stemming: ingat kalender saja
------
Original: tidak berfungsi dengan baik dengan Google Assistant.
Afte

After stemming: layak aplikasi windows microsoft to-do milik aplikasi windows android
------
Original: bahkan tidak berfungsi untuk mengingatkan
After replacing numbers: bahkan tidak berfungsi untuk mengingatkan
After case transformation: bahkan tidak berfungsi untuk mengingatkan
After tokenization: ['bahkan', 'tidak', 'berfungsi', 'untuk', 'mengingatkan']
After stopword removal: berfungsi
After stemming: fungsi
------
Original: Tidak memberikan notifikasi.
After replacing numbers: Tidak memberikan notifikasi.
After case transformation: tidak memberikan notifikasi.
After tokenization: ['tidak', 'memberikan', 'notifikasi.']
After stopword removal: notifikasi.
After stemming: notifikasi
------
Original: Dulu bagus tetapi sejak pembaruan terbaru ini menampilkan alamat email akun Google saya alih-alih pengingat yang sebenarnya. Tidak ada gunanya sekarang dan mencari pengganti
After replacing numbers: Dulu bagus tetapi sejak pembaruan terbaru ini menampilkan alamat email akun Google saya al

After stemming: update baru bikin ngebug
------
Original: buang- buang waktu!!!
After replacing numbers: buang- buang waktu!!!
After case transformation: buang- buang waktu!!!
After tokenization: ['buang-', 'buang', 'waktu!!!']
After stopword removal: buang- buang waktu!!!
After stemming: buang- buang waktu
------
Original: notifikasi pengingatnya gak tampil dengan benar
After replacing numbers: notifikasi pengingatnya gak tampil dengan benar
After case transformation: notifikasi pengingatnya gak tampil dengan benar
After tokenization: ['notifikasi', 'pengingatnya', 'gak', 'tampil', 'dengan', 'benar']
After stopword removal: notifikasi pengingatnya gak tampil
After stemming: notifikasi ingat gak tampil
------
Original: Tidak berguna, banyak bugnya semenjak diupdate
After replacing numbers: Tidak berguna, banyak bugnya semenjak diupdate
After case transformation: tidak berguna, banyak bugnya semenjak diupdate
After tokenization: ['tidak', 'berguna,', 'banyak', 'bugnya', 'semenjak', 'diu

After stemming: ingat muncul uninstall instal ulang baik minggu
------
Original: jelek!
After replacing numbers: jelek!
After case transformation: jelek!
After tokenization: ['jelek!']
After stopword removal: jelek!
After stemming: jelek
------
Original: Tidak ada fungsi dasar seperti kolaborasi dengan anggota google / gmail lainnya menjadikan Google Task salah satu aplikasi terburuk.
After replacing numbers: Tidak ada fungsi dasar seperti kolaborasi dengan anggota google / gmail lainnya menjadikan Google Task salah satu aplikasi terburuk.
After case transformation: tidak ada fungsi dasar seperti kolaborasi dengan anggota google / gmail lainnya menjadikan google task salah satu aplikasi terburuk.
After tokenization: ['tidak', 'ada', 'fungsi', 'dasar', 'seperti', 'kolaborasi', 'dengan', 'anggota', 'google', '/', 'gmail', 'lainnya', 'menjadikan', 'google', 'task', 'salah', 'satu', 'aplikasi', 'terburuk.']
After stopword removal: fungsi dasar kolaborasi anggota google / gmail menjadikan g

After stemming: hah gak ingat lagi gitu aja perbaikin
------
Original: Tidak dapat mengirim Pemberitahuan. Dikatakan, aplikasi tidak ada di aplikasi yang diinstal.
After replacing numbers: Tidak dapat mengirim Pemberitahuan. Dikatakan, aplikasi tidak ada di aplikasi yang diinstal.
After case transformation: tidak dapat mengirim pemberitahuan. dikatakan, aplikasi tidak ada di aplikasi yang diinstal.
After tokenization: ['tidak', 'dapat', 'mengirim', 'pemberitahuan.', 'dikatakan,', 'aplikasi', 'tidak', 'ada', 'di', 'aplikasi', 'yang', 'diinstal.']
After stopword removal: mengirim pemberitahuan. dikatakan, aplikasi aplikasi diinstal.
After stemming: kirim pemberitahuan kata aplikasi aplikasi diinstal
------
Original: lambat banget responnya
After replacing numbers: lambat banget responnya
After case transformation: lambat banget responnya
After tokenization: ['lambat', 'banget', 'responnya']
After stopword removal: lambat banget responnya
After stemming: lambat banget responnya
------
Ori

After stemming: gak sengaja hapus daftar gak ngembalikan batal hapus
------
Original:  ini terkadang tidak berfungsi kecuali Anda membuka aplikasi. Saya menghadapi masalah yang sama sudah beberapa kali
After replacing numbers:  ini terkadang tidak berfungsi kecuali Anda membuka aplikasi. Saya menghadapi masalah yang sama sudah beberapa kali
After case transformation:  ini terkadang tidak berfungsi kecuali anda membuka aplikasi. saya menghadapi masalah yang sama sudah beberapa kali
After tokenization: ['ini', 'terkadang', 'tidak', 'berfungsi', 'kecuali', 'anda', 'membuka', 'aplikasi.', 'saya', 'menghadapi', 'masalah', 'yang', 'sama', 'sudah', 'beberapa', 'kali']
After stopword removal: terkadang berfungsi kecuali membuka aplikasi. menghadapi kali
After stemming: terkadang fungsi kecuali buka aplikasi hadap kali
------
Original: Kenapa nggak bisa nambahin pengingat cuma pake suara, ya ampun, ini bikin kesel. aku pengen cepetan nambahin pengingat soalnya hidup ku padat banget dan sering l

After stemming: aplikasi kirim pesan teks aja nggak kedengeran
------
Original: Saya mencoba semuanya tetapi tidak diberitahukan tepat waktu dan beberapa tugas bahkan terlewatkan tanpa pemberitahuan
After replacing numbers: Saya mencoba semuanya tetapi tidak diberitahukan tepat waktu dan beberapa tugas bahkan terlewatkan tanpa pemberitahuan
After case transformation: saya mencoba semuanya tetapi tidak diberitahukan tepat waktu dan beberapa tugas bahkan terlewatkan tanpa pemberitahuan
After tokenization: ['saya', 'mencoba', 'semuanya', 'tetapi', 'tidak', 'diberitahukan', 'tepat', 'waktu', 'dan', 'beberapa', 'tugas', 'bahkan', 'terlewatkan', 'tanpa', 'pemberitahuan']
After stopword removal: mencoba diberitahukan tugas terlewatkan pemberitahuan
After stemming: coba diberitahukan tugas lewat pemberitahuan
------
Original: pemberitahuannya berhenti berfungsi
After replacing numbers: pemberitahuannya berhenti berfungsi
After case transformation: pemberitahuannya berhenti berfungsi
After toke

After stemming: buruk iring jalan waktu
------
Original: "Tugas" baru, tidak ada pemberitahuan untuk pengingat.
After replacing numbers: "Tugas" baru, tidak ada pemberitahuan untuk pengingat.
After case transformation: "tugas" baru, tidak ada pemberitahuan untuk pengingat.
After tokenization: ['"tugas"', 'baru,', 'tidak', 'ada', 'pemberitahuan', 'untuk', 'pengingat.']
After stopword removal: "tugas" baru, pemberitahuan pengingat.
After stemming: tugas baru pemberitahuan ingat
------
Original: tidak ada pengingat yang berbunyi, sudah menauntukannya ke kalender dan pengingat kalender juga tidak lagi mati. Sampah
After replacing numbers: tidak ada pengingat yang berbunyi, sudah menauntukannya ke kalender dan pengingat kalender juga tidak lagi mati. Sampah
After case transformation: tidak ada pengingat yang berbunyi, sudah menauntukannya ke kalender dan pengingat kalender juga tidak lagi mati. sampah
After tokenization: ['tidak', 'ada', 'pengingat', 'yang', 'berbunyi,', 'sudah', 'menauntuk

In [13]:
import pandas as pd
import re

# Membuat mapping angka ke kata dalam bahasa Indonesia
angka_to_kata = {
    '0': 'nol', '1': 'satu', '2': 'dua', '3': 'tiga', '4': 'empat',
    '5': 'lima', '6': 'enam', '7': 'tujuh', '8': 'delapan', '9': 'sembilan'
}

# Fungsi untuk mengganti angka dengan kata
def ganti_angka_dengan_kata(teks):
    def replace(match):
        return angka_to_kata[match.group(0)]
    return re.sub(r'\d', replace, teks)

# Membaca file excel
df = pd.read_excel('dataset-GTask-after-preprocess.xlsx')

# Pastikan semua nilai di kolom 'content' adalah string dan tangani nilai NaN
df['content'] = df['content'].astype(str).fillna('')

# Mengganti angka dengan kata di kolom 'content'
df['content'] = df['content'].apply(ganti_angka_dengan_kata)

# Menyimpan kembali ke file excel atau menampilkan hasil
df.to_excel('fix-dataset-GTask-after-preprocess.xlsx', index=False)
print(df.head())


   score                                            content    label
0      5  aplikasi bagus centang tugas tambah fitur nama...  POSITIF
1      5                                       bagus google  POSITIF
2      5                            terimakasih akun simpan  POSITIF
3      5      coba produktif karya bantu aplikasi manajemen  POSITIF
4      5                                            manfaat  POSITIF
