# **Mata Kuliah : BigData & Data Mining**

## **Materi : Text data preprocessing**

**Kemampuan Akhir Tiap Tahapan Belajar(sub CPMK)**

SCPMK 1681902: Mahasiswa mampu menjelaskan dan menerapkan tahapan text data preprocessing dalam proses Knowledge Discovery in Database (KDD), meliputi pembersihan, transformasi, dan normalisasi data teks untuk analisis lebih lanjut.  [CPMK19]

**Indikator**
*   Mahasiswa dapat menjelaskan konsep dasar text preprocessing (seperti tokenisasi, stopword removal, stemming, dan lemmatization).
*   Mahasiswa dapat melakukan pembersihan teks menggunakan teknik text cleaning pada dataset mentah.
*   Mahasiswa dapat menerapkan tahapan text preprocessing menggunakan pustaka Python seperti nltk, re, atau sklearn.
*   Mahasiswa mampu menyiapkan data teks yang siap digunakan untuk analisis, klasifikasi, atau pemodelan machine learning.

<br>
<br>
Updated:  20 Oktober 2025

# **Text Data Preprocessing**

<p align="justify"> <b>Text Data Preprocessing</b> merupakan proses untuk <b>membersihkan</b>, <b>menormalkan</b>, dan <b>menyiapkan</b> data teks mentah agar dapat digunakan secara efektif oleh algoritma <i>machine learning</i> maupun <i>Natural Language Processing</i> (NLP). Proses ini sangat penting karena data teks mentah sering kali tidak terstruktur dan mengandung banyak elemen yang tidak relevan bagi analisis.</p>

<p align="justify"> Teks mentah umumnya memiliki berbagai permasalahan, seperti keberadaan tanda baca, karakter khusus, kata-kata tidak penting (<i>stopwords</i>), serta variasi dalam bentuk penulisan seperti huruf besar–kecil, singkatan, atau ejaan yang tidak konsisten. Tanpa dilakukan <i>preprocessing</i>, data teks tersebut sulit dipahami oleh mesin dan dapat menurunkan akurasi model.</p>

<p align="justify"> Oleh karena itu, tahapan <i>text preprocessing</i> biasanya meliputi beberapa langkah penting, seperti <b>tokenisasi</b> (memecah teks menjadi unit kata atau kalimat), <b>case folding</b> (mengubah seluruh huruf menjadi kecil), <b>stopword removal</b> (menghapus kata umum yang tidak bermakna penting), <b>stemming</b> atau <b>lemmatization</b> (mengembalikan kata ke bentuk dasarnya), serta <b>normalisasi teks</b> untuk menyamakan format penulisan. Hasil akhir dari proses ini adalah data teks yang bersih, konsisten, dan siap digunakan dalam tahap analisis atau pelatihan model NLP.</p>


# **Tahapan Umum Text Data Preprocessing**
Tahapan umum Text Data Preprocessing merupakan langkah-langkah yang dilakukan untuk menyiapkan teks mentah agar bisa dianalisis atau diproses oleh algoritma machine learning atau text mining.

Berikut Tahapan Umum **Text Data Preprocessing** dan penjelasan singkat:

1. **Menghapus Tanda Baca**: Menghilangkan tanda baca seperti titik, koma, tanda tanya, atau tanda seru yang tidak memberikan makna penting pada analisis teks.
2. **Menghapus Angka**: Menghapus angka yang tidak relevan agar data teks menjadi lebih bersih dan fokus pada kata.
3. **Menghapus Karakter Khusus**: Menghapus karakter seperti `@`, `#`, `&`, dan simbol lainnya yang tidak memiliki makna semantik.
4. **Menghapus URL**: Menghapus tautan atau alamat web untuk menghindari noise dalam analisis teks.
5. **Menghapus Spasi Berlebih**: Merapikan teks dengan menghapus spasi ganda atau karakter whitespace yang tidak diperlukan.
6. **Mengubah Teks Menjadi Huruf Kecil (Lowercase)**: Menyeragamkan semua huruf menjadi huruf kecil agar analisis tidak membedakan huruf besar dan kecil.
7. **Menghapus Stopwords (Kata Umum)**: Menghapus kata-kata umum seperti “dan”, “yang”, “di” yang tidak menambah makna penting pada analisis.
8. **Stemming (Mengubah Kata ke Bentuk Dasar)**: Mengubah kata ke bentuk dasarnya, misalnya “berlari” menjadi “lari”, untuk konsistensi.
9. **Lemmatization (Mengubah Kata ke Bentuk Lemma)**: Mengubah kata ke bentuk lemma atau bentuk baku berdasarkan konteks tata bahasa, misalnya “went” menjadi “go”.
10. **Tokenizing**: Merupakan proses memecah teks menjadi bagian-bagian kecil yang disebut token, seperti kata, frasa, atau kalimat. Tujuannya adalah agar teks lebih mudah diproses dan dianalisis oleh komputer dalam tahap selanjutnya, seperti analisis sentimen atau pemodelan teks.


# **Text Cleaning**

**1. Menghapus Tanda Baca**

* **Menggunakan Re (Regular Expression)** <br>
Menghapus semua karakter kecuali huruf, angka, dan spasi.

In [None]:
# Pustaka bawaan Python untuk pencarian dan manipulasi teks menggunakan pola tertentu.
import re

In [None]:
text = "Halo, apa kabar? Saya harap semua baik-baik saja!"
cleaned = re.sub(r'[^\w\s]', '', text)

In [None]:
print("Teks Asli:   ", text)
print("Teks Bersih: ", cleaned)

Teks Asli:    Halo, apa kabar? Saya harap semua baik-baik saja!
Teks Bersih:  Halo apa kabar Saya harap semua baikbaik saja


* **Menggunakan Comprehension + str.isalnum()** <br>
Menggunakan list comprehension dan fungsi bawaan Python

In [None]:
text = "Terima kasih!!! Kapan kita bertemu? (Besok?)"
cleaned = ''.join(ch for ch in text if ch.isalnum() or ch.isspace())

In [None]:
print("Teks Asli:   ", text)
print("Teks Bersih: ", cleaned)

Teks Asli:    Terima kasih!!! Kapan kita bertemu? (Besok?)
Teks Bersih:  Terima kasih Kapan kita bertemu Besok


**2. Menghapus Angka**

* **Teks dengan Harga dan Kuantitas** <br>
Menghapus semua angka dari sebuah teks menggunakan fungsi bawaan Python **str.translate()** dan **str.maketrans()**

In [None]:
text = "Saya membeli 2 buah Baterai AA seharga Rp 25.000 dengan kode produk 89927A."
cleaned_text = text.translate(str.maketrans('', '', '0123456789'))

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Saya membeli 2 buah Baterai AA seharga Rp 25.000 dengan kode produk 89927A.
Teks Bersih: Saya membeli  buah Baterai AA seharga Rp . dengan kode produk A.


* **Teks dengan Nomor Telepon dan Alamat** <br>

In [None]:
text = "Silakan hubungi customer service di 081234567890 jika paket belum sampai ke Jalan Merdeka No. 15."
cleaned_text = text.translate(str.maketrans('', '', '0123456789'))

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Silakan hubungi customer service di 081234567890 jika paket belum sampai ke Jalan Merdeka No. 15.
Teks Bersih: Silakan hubungi customer service di  jika paket belum sampai ke Jalan Merdeka No. .


* **Teks dengan Tanggal dan Persentase** <br>

In [None]:
text = "Event promo 10.10 pada 10 Oktober 2024 memberikan diskon hingga 90% untuk semua item."
cleaned_text = text.translate(str.maketrans('', '', '0123456789'))

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Event promo 10.10 pada 10 Oktober 2024 memberikan diskon hingga 90% untuk semua item.
Teks Bersih: Event promo . pada  Oktober  memberikan diskon hingga % untuk semua item.


**3. Menghapus Karakter Khusus**

* **Teks dari Ulasan Produk** <br>

In [None]:
import re

In [None]:
text = "Kualitasnya TOP!! ⭐⭐⭐⭐⭐ Bahannya bagus & harganyea murah mriah. Recomended!"
cleaned_text = re.sub(r'[^\w\s]', '', text)

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Kualitasnya TOP!! ⭐⭐⭐⭐⭐ Bahannya bagus & harganya murah meriah. Recomended!
Teks Bersih: Kualitasnya TOP  Bahannya bagus  harganya murah meriah Recomended


* **Teks dengan Simbol Mata Uang dan Matematika** <br>

In [None]:
text = "Harga barangnya $50.00, setelah diskon 25% menjadi $37.50. Totalnya <= $40."
cleaned_text = re.sub(r'[^\w\s]', '', text)

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Harga barangnya $50.00, setelah diskon 25% menjadi $37.50. Totalnya <= $40.
Teks Bersih: Harga barangnya 5000 setelah diskon 25 menjadi 3750 Totalnya  40


* **Teks dari Data yang Tidak Terstruktur** <br>

In [None]:
text = "Laporan (final_v2) ini berisi data penting [CONFIDENTIAL] - jangan disebar! © 2025."
cleaned_text = re.sub(r'[^\w\s]', '', text)

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Laporan (final_v2) ini berisi data penting [CONFIDENTIAL] - jangan disebar! © 2025.
Teks Bersih: Laporan final_v2 ini berisi data penting CONFIDENTIAL  jangan disebar  2025


**4. Menghapus URL**

In [None]:
import re

In [None]:
text = "Kunjungi situs kami di https://www.contoh.com atau cek juga http://toko-online.net untuk info lebih lanjut."
cleaned_text = re.sub(r'https?://\S+', '', text)

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Kunjungi situs kami di https://www.contoh.com atau cek juga http://toko-online.net untuk info lebih lanjut.
Teks Bersih: Kunjungi situs kami di  atau cek juga  untuk info lebih lanjut.


In [None]:
text = "Info lengkap ada di https://bit.ly/info123 dan juga di http://example.org/data."
cleaned_text = re.sub(r'https?://\S+', '', text)

In [None]:
print("Teks Asli:  ", text)
print("Teks Bersih:", cleaned_text)

Teks Asli:   Info lengkap ada di https://bit.ly/info123 dan juga di http://example.org/data.
Teks Bersih: Info lengkap ada di  dan juga di 


**5. Menghapus Spasi Berlebih**

* **Teks dengan Campuran Spasi dan Tab** <br>

In [None]:
text = "	Produk ini		sangat bagus dan	berkualitas. "

# memisahkan teks berdasarkan spasi, tab, atau newline
# Output: ['Produk', 'ini', 'sangat', 'bagus', 'dan', 'berkualitas.']
cleaned_text = " ".join(text.split())

In [None]:
print(f"Teks Asli: '{text}'")
print(f"Teks Bersih: '{cleaned_text}'")

Teks Asli: '	Produk ini		sangat bagus dan	berkualitas. '
Teks Bersih: 'Produk ini sangat bagus dan berkualitas.'


* **Teks dengan Baris Baru (Newlines) di Awal dan Akhir** <br>

In [None]:
text = "\n\n   Layanan pelanggan sangat responsif.  \n"
cleaned_text = " ".join(text.split())

In [None]:
print(f"Teks Asli: '{text}'")
print(f"Teks Bersih: '{cleaned_text}'")

Teks Asli: '

   Layanan pelanggan sangat responsif.  
'
Teks Bersih: 'Layanan pelanggan sangat responsif.'


* **Teks dari String Multi-baris (Multi-line String)** <br>

In [None]:
text = """
Data Science
adalah bidang studi
  yang sangat   menarik.
"""
cleaned_text = " ".join(text.split())

print(f"Teks Asli: '''{text}'''")
print(f"Teks Bersih: '{cleaned_text}'")

Teks Asli: '''
Data Science
adalah bidang studi
  yang sangat   menarik.
'''
Teks Bersih: 'Data Science adalah bidang studi yang sangat menarik.'


# **Case Folding**

**6. Mengubah Teks menjadi Huruf Kecil (Lowercase) dan besar (Uppercase)**

* **Teks dengan Judul atau Kapitalisasi yang Tidak Konsisten** <br>

In [None]:
text = "Machine Learning dan deep Learning adalah Cabang dari ArtificiaL intelligence."
# .lower() adalah method milik string(text) yang sudah disediakan Python secara default
cleaned_text = text.lower()

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Machine Learning dan deep Learning adalah Cabang dari ArtificiaL intelligence.
Teks Bersih: machine learning dan deep learning adalah cabang dari artificial intelligence.


* **Teks dari Media Sosial yang Menggunakan "Alay" atau Huruf Besar untuk Penekanan** <br>

In [None]:
text = "Barangnya SUDAH SAMPAI, TERIMA KASIH BANYAK! CEPAT SEKALI pengirimannya."
cleaned_text = text.lower()

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Barangnya SUDAH SAMPAI, TERIMA KASIH BANYAK! CEPAT SEKALI pengirimannya.
Teks Bersih: barangnya sudah sampai, terima kasih banyak! cepat sekali pengirimannya.


In [None]:
text = "Machine Learning dan deep Learning adalah Cabang dari ArtificiaL intelligence."
cleaned_text = text.upper()

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih: {cleaned_text}")

Teks Asli: Machine Learning dan deep Learning adalah Cabang dari ArtificiaL intelligence.
Teks Bersih: MACHINE LEARNING DAN DEEP LEARNING ADALAH CABANG DARI ARTIFICIAL INTELLIGENCE.


# **Stopword Removal (Penghapusan Kata Umum)**

**7. Menghapus Stopwords (Kata Umum)**

In [None]:
import nltk
import string
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

* **Teks dari Ulasan Produk** <br>

In [None]:
text = "Pengiriman produk ini sangat cepat dan kemasannya juga rapi sekali."
#Menentukan Stopwords Bahasa Indonesia
stop_words = set(stopwords.words('indonesian'))
word_tokens = word_tokenize(text)

In [None]:
filtered_words = [
    word for word in word_tokens
    if word.lower() not in stop_words and word not in string.punctuation
]
cleaned_text = " ".join(filtered_words)

In [None]:
print("="*40)
print(f"Teks Asli  : {text}")
print(f"Teks Bersih: {cleaned_text}")
print("="*40)

Teks Asli  : Pengiriman produk ini sangat cepat dan kemasannya juga rapi sekali.
Teks Bersih: Pengiriman produk cepat kemasannya rapi


* **Teks dari Judul Berita** <br>

In [None]:
text = "Pemerintah akan segera mengumumkan kebijakan baru bagi para pelaku usaha kecil."
stop_words = set(stopwords.words('indonesian'))
word_tokens = word_tokenize(text)

In [None]:
filtered_words = [
    word for word in word_tokens
    if word.lower() not in stop_words and word not in string.punctuation
]

cleaned_text = " ".join(filtered_words)

In [None]:
print("="*40)
print(f"Teks Asli  : {text}")
print(f"Teks Bersih: {cleaned_text}")
print("="*40)

Teks Asli  : Pemerintah akan segera mengumumkan kebijakan baru bagi para pelaku usaha kecil.
Teks Bersih: Pemerintah mengumumkan kebijakan pelaku usaha


* **Teks dari Kalimat Akademis** <br>

In [None]:
text = "Kajian ilmiah ini telah dilaksanakan dengan mengaplikasikan serangkaian pendekatan metodologis yang beragam, yang mana keseluruhannya telah melewati proses pengujian dan validasi yang ketat dalam berbagai penelitian terdahulu, sehingga menjamin keabsahan dan reliabilitas temuan yang akan diperoleh."
stop_words = set(stopwords.words('indonesian'))
word_tokens = word_tokenize(text)

In [None]:
filtered_words = [
    word for word in word_tokens
    if word.lower() not in stop_words and word not in string.punctuation
]

cleaned_text = " ".join(filtered_words)

In [None]:
print("="*40)
print(f"Teks Asli  : {text}")
print(f"Teks Bersih: {cleaned_text}")
print("="*40)

Teks Asli  : Kajian ilmiah ini telah dilaksanakan dengan mengaplikasikan serangkaian pendekatan metodologis yang beragam, yang mana keseluruhannya telah melewati proses pengujian dan validasi yang ketat dalam berbagai penelitian terdahulu, sehingga menjamin keabsahan dan reliabilitas temuan yang akan diperoleh.
Teks Bersih: Kajian ilmiah dilaksanakan mengaplikasikan serangkaian pendekatan metodologis beragam melewati proses pengujian validasi ketat penelitian menjamin keabsahan reliabilitas temuan diperoleh


# **Text Normalization**

**8. Stemming (Mengubah Kata ke Bentuk Dasar)**,<br>
mengubah kata berimbuhan menjadi bentuk dasarnya
<br> Contoh:



1.   memuaskan → puas
2.   pelayanannya → layan





In [None]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


* **Teks dari Ulasan atau Opini** <br>

In [None]:
#Mengimpor kelas pembuat stemmer dari library Sastrawi.
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

#membuat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

In [None]:
text = "Kualitas masakannya sangat memuaskan dan pelayanannya pun terbaik."
cleaned_text = stemmer.stem(text)

print(f"Teks Asli: {text}")
print(f"Teks Bersih (Stemmed): {cleaned_text}")

Teks Asli: Kualitas masakannya sangat memuaskan dan pelayanannya pun terbaik.
Teks Bersih (Stemmed): kualitas masakan sangat muas dan layan pun baik


* **Teks dari Berita atau Informasi Formal** <br>

In [None]:
factory = StemmerFactory()
stemmer = factory.create_stemmer()

In [None]:
text = "Pemerintah mengeluarkan peraturan baru mengenai pembatasan kendaraan bermotor."
cleaned_text = stemmer.stem(text)

print(f"Teks Asli: {text}")
print(f"Teks Bersih (Stemmed): {cleaned_text}")

Teks Asli: Pemerintah mengeluarkan peraturan baru mengenai pembatasan kendaraan bermotor.
Teks Bersih (Stemmed): perintah keluar atur baru kena batas kendara motor


* **Teks dari Percakapan Sehari-hari** <br>

In [None]:
factory = StemmerFactory()
stemmer = factory.create_stemmer()

In [None]:
text = "Anak-anak sedang bermain di halaman sambil menjalankan tugas mereka."
cleaned_text = stemmer.stem(text)

print(f"Teks Asli: {text}")
print(f"Teks Bersih (Stemmed): {cleaned_text}")

Teks Asli: Anak-anak sedang bermain di halaman sambil menjalankan tugas mereka.
Teks Bersih (Stemmed): anak sedang main di halaman sambil jalan tugas mereka


**9. Lemmatization (Mengubah Kata ke Bentuk Lemma)**

In [None]:
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


* **Lemmatization pada Kata Benda Jamak (Plural Nouns)** <br>

In [None]:
#Membuat Objek Lemmatizer
lemmatizer = WordNetLemmatizer()

In [None]:
text = "The geese and mice are friends with the octopuses and cacti."
#Tokenisasi
word_tokens = word_tokenize(text)
#Proses Lemmatization
lemmas = [lemmatizer.lemmatize(word, pos='n') for word in word_tokens]
cleaned_text = " ".join(lemmas)

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih (Lemmatized): {cleaned_text}")

Teks Asli: The geese and mice are friends with the octopuses and cacti.
Teks Bersih (Lemmatized): The goose and mouse are friend with the octopus and cactus .


* **Lemmatization pada Kata Kerja (Verbs) dengan Tenses Berbeda** <br>

In [None]:
lemmatizer = WordNetLemmatizer()
text = "He drove the car while she was driving another one, and he drives carefully."
word_tokens = word_tokenize(text)

lemmas = [lemmatizer.lemmatize(word, pos='v') for word in word_tokens]
cleaned_text = " ".join(lemmas)

In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih (Lemmatized): {cleaned_text}")

Teks Asli: He drove the car while she was driving another one, and he drives carefully.
Teks Bersih (Lemmatized): He drive the car while she be drive another one , and he drive carefully .


* **Lemmatization pada Kata Sifat (Adjectives)** <br>

In [None]:
lemmatizer = WordNetLemmatizer()
text = "The fastest runner has a better technique. Good is not the best."
word_tokens = word_tokenize(text)

lemmas = [lemmatizer.lemmatize(word, pos='a') for word in word_tokens]
cleaned_text = " ".join(lemmas)


In [None]:
print(f"Teks Asli: {text}")
print(f"Teks Bersih (Lemmatized): {cleaned_text}")

Teks Asli: The fastest runner has a better technique. Good is not the best.
Teks Bersih (Lemmatized): The fast runner has a good technique . Good is not the best .


# **Tokenizing**

**10. Tokenizing**<br>
memecah teks menjadi potongan-potongan kata (token)

In [None]:
from nltk.tokenize import RegexpTokenizer

In [None]:
kalimat = "Barangnya oke, penjualnya juga ramah dan respon cepat. Mantaplah pokoknya, very good!"
tokenizer = RegexpTokenizer(r'\w+')
hasil_token = tokenizer.tokenize(kalimat.lower())

In [None]:
print(f"Teks Asli: {kalimat}")
print(f"Teks Yang Sudah Tertoken: {hasil_token}")

Teks Asli: Barangnya oke, penjualnya juga ramah dan respon cepat. Mantaplah pokoknya, very good!
Teks Yang Sudah Tertoken: ['barangnya', 'oke', 'penjualnya', 'juga', 'ramah', 'dan', 'respon', 'cepat', 'mantaplah', 'pokoknya', 'very', 'good']


# **Text data preprocessing langsung pada dataset csv**

**DATASET** <br>
**Link Dataset:** https://drive.google.com/drive/folders/1LtnX1f-zjDdupZQbM6tT-HB8_vc-6ry1?usp=sharing <br>
**atau:** https://www.kaggle.com/datasets/mochamadabdulazis/deteksi-berita-hoaks-indo-dataset <br>
cari file csv bernama "cnnindonesia_news_RAW"

In [None]:
# Mengimpor modul files dari Google Colab
from google.colab import files
import io, re
import pandas as pd
from IPython.display import display

In [None]:
# Upload & baca file
print("Upload file Excel (.xlsx/.xls) atau CSV:")
up = files.upload()
fname = next(iter(up))
buf = io.BytesIO(up[fname])
try:
    df = pd.read_excel(buf) if fname.lower().endswith(('.xls', '.xlsx')) else pd.read_csv(buf, on_bad_lines='skip')
except Exception as e:
    buf.seek(0)
    df = pd.read_csv(buf, encoding='latin1', on_bad_lines='skip')

Upload file Excel (.xlsx/.xls) atau CSV:


Saving cnnindonesia_news_RAW.csv to cnnindonesia_news_RAW.csv


In [None]:
# Deteksi kolom teks
candidates = ['isi_berita','isi berita','isi','content','text','article','judul','title','body']
found = next((c for c in df.columns if c.lower() in candidates), None)
if not found:
    found = next((c for c in df.columns if any(k in c.lower() for k in ['isi','isi_berita','text','judul','title','content','article','body'])), None)
if not found:
    found = next((c for c in df.columns if df[c].dtype == object), None)
if not found:
    raise SystemExit("Tidak menemukan kolom teks. Pastikan ada setidaknya satu kolom teks.")

print("File:", fname)
text_col = found
df['orig_text_for_preproc'] = df[text_col].astype(str)
print("\nContoh teks asli")
display(df[['orig_text_for_preproc']].head(10))

File: cnnindonesia_news_RAW.csv

Contoh teks asli


Unnamed: 0,orig_text_for_preproc
0,Pesan Paskah Uskup Agung Jakarta Kardinal Igna...
1,"Mike Tyson: Muhammad Ali Ganas seperti T-Rex, ..."
2,Kulkas SBS Banting Harga Gila-gilaan di Transm...
3,Hakim Djuyamto Diduga Titip Rp704 Juta ke Satp...
4,Leicester vs Liverpool: Menanti Gol Kaki Kiri ...
5,Sepeda Diobral Rp1 Juta di Transmart Full Day ...
6,Mungkinkah Arsenal Simpan Tenaga di Liga Inggr...
7,Komisi IX DPR: Perusahaan Potong Gaji Karyawan...
8,VIDEO: Penampakan Ngeri Pelabuhan Yaman Usai D...
9,Perpres Kantor Komunikasi Presiden Digugat ke MA


In [None]:
# 1) Case Folding
df['casefold_sebelum'] = df['orig_text_for_preproc']
df['casefold_sesudah'] = df['casefold_sebelum'].str.lower()
print("CASE FOLDING")
display(df[['casefold_sebelum','casefold_sesudah']].head(10))

CASE FOLDING


Unnamed: 0,casefold_sebelum,casefold_sesudah
0,Pesan Paskah Uskup Agung Jakarta Kardinal Igna...,pesan paskah uskup agung jakarta kardinal igna...
1,"Mike Tyson: Muhammad Ali Ganas seperti T-Rex, ...","mike tyson: muhammad ali ganas seperti t-rex, ..."
2,Kulkas SBS Banting Harga Gila-gilaan di Transm...,kulkas sbs banting harga gila-gilaan di transm...
3,Hakim Djuyamto Diduga Titip Rp704 Juta ke Satp...,hakim djuyamto diduga titip rp704 juta ke satp...
4,Leicester vs Liverpool: Menanti Gol Kaki Kiri ...,leicester vs liverpool: menanti gol kaki kiri ...
5,Sepeda Diobral Rp1 Juta di Transmart Full Day ...,sepeda diobral rp1 juta di transmart full day ...
6,Mungkinkah Arsenal Simpan Tenaga di Liga Inggr...,mungkinkah arsenal simpan tenaga di liga inggr...
7,Komisi IX DPR: Perusahaan Potong Gaji Karyawan...,komisi ix dpr: perusahaan potong gaji karyawan...
8,VIDEO: Penampakan Ngeri Pelabuhan Yaman Usai D...,video: penampakan ngeri pelabuhan yaman usai d...
9,Perpres Kantor Komunikasi Presiden Digugat ke MA,perpres kantor komunikasi presiden digugat ke ma


In [None]:
# 2) Hapus karakter khusus (ganti non-word jadi spasi)
df['hapus_karakter_sebelum'] = df['casefold_sesudah']
# gunakan vectorized str.replace; pastikan tipe string
df['nospecials_sesudah'] = (df['hapus_karakter_sebelum']
                            .fillna('')
                            .astype(str)
                            .str.replace(r'[^\w\s]', ' ', regex=True)
                            .str.replace('_', ' '))
print("HAPUS KARAKTER KHUSUS")
display(df[['hapus_karakter_sebelum','nospecials_sesudah']].head(10))

HAPUS KARAKTER KHUSUS


Unnamed: 0,hapus_karakter_sebelum,nospecials_sesudah
0,pesan paskah uskup agung jakarta kardinal igna...,pesan paskah uskup agung jakarta kardinal igna...
1,"mike tyson: muhammad ali ganas seperti t-rex, ...",mike tyson muhammad ali ganas seperti t rex ...
2,kulkas sbs banting harga gila-gilaan di transm...,kulkas sbs banting harga gila gilaan di transm...
3,hakim djuyamto diduga titip rp704 juta ke satp...,hakim djuyamto diduga titip rp704 juta ke satp...
4,leicester vs liverpool: menanti gol kaki kiri ...,leicester vs liverpool menanti gol kaki kiri ...
5,sepeda diobral rp1 juta di transmart full day ...,sepeda diobral rp1 juta di transmart full day ...
6,mungkinkah arsenal simpan tenaga di liga inggr...,mungkinkah arsenal simpan tenaga di liga inggr...
7,komisi ix dpr: perusahaan potong gaji karyawan...,komisi ix dpr perusahaan potong gaji karyawan...
8,video: penampakan ngeri pelabuhan yaman usai d...,video penampakan ngeri pelabuhan yaman usai d...
9,perpres kantor komunikasi presiden digugat ke ma,perpres kantor komunikasi presiden digugat ke ma


In [None]:
# 3) Tokenizing (NLTK)
from nltk.tokenize import RegexpTokenizer

# Pilih kolom input (hasil preprocessing sebelumnya)
input_for_token = df['trim_sesudah'] if 'trim_sesudah' in df.columns else df['nospecials_sesudah']
df['tokenizing_sebelum'] = input_for_token.fillna('').astype(str).str.strip()
# Inisialisasi tokenizer: hanya ambil huruf/angka (hapus tanda baca)
tokenizer = RegexpTokenizer(r'\w+')
# Lakukan tokenizing ke setiap baris
df['tokens'] = df['tokenizing_sebelum'].apply(lambda t: tokenizer.tokenize(t.lower()) if t else [])

print("TOKENIZING (menggunakan RegexpTokenizer)")
display(df[['tokenizing_sebelum', 'tokens']].head(10))


TOKENIZING (menggunakan RegexpTokenizer)


Unnamed: 0,tokenizing_sebelum,tokens
0,pesan paskah uskup agung jakarta kardinal igna...,"[pesan, paskah, uskup, agung, jakarta, kardina..."
1,mike tyson muhammad ali ganas seperti t rex ...,"[mike, tyson, muhammad, ali, ganas, seperti, t..."
2,kulkas sbs banting harga gila gilaan di transm...,"[kulkas, sbs, banting, harga, gila, gilaan, di..."
3,hakim djuyamto diduga titip rp704 juta ke satp...,"[hakim, djuyamto, diduga, titip, rp704, juta, ..."
4,leicester vs liverpool menanti gol kaki kiri ...,"[leicester, vs, liverpool, menanti, gol, kaki,..."
5,sepeda diobral rp1 juta di transmart full day ...,"[sepeda, diobral, rp1, juta, di, transmart, fu..."
6,mungkinkah arsenal simpan tenaga di liga inggr...,"[mungkinkah, arsenal, simpan, tenaga, di, liga..."
7,komisi ix dpr perusahaan potong gaji karyawan...,"[komisi, ix, dpr, perusahaan, potong, gaji, ka..."
8,video penampakan ngeri pelabuhan yaman usai d...,"[video, penampakan, ngeri, pelabuhan, yaman, u..."
9,perpres kantor komunikasi presiden digugat ke ma,"[perpres, kantor, komunikasi, presiden, diguga..."


In [None]:
# Simpan dan download hasil preprocessing (Excel .xlsx)
try:
    import openpyxl  # hanya untuk mengecek
except Exception:
    !pip install --quiet openpyxl
    import openpyxl

from google.colab import files
import os

cols_to_save = [
    'orig_text_for_preproc',
    'casefold_sebelum', 'casefold_sesudah',
    'hapus_karakter_sebelum', 'nospecials_sesudah',
    'tokenizing_sebelum', 'tokens'
]

cols_to_save = [c for c in cols_to_save if c in df.columns]
out_xlsx = "/content/preprocessed_output.xlsx"
out_csv  = "/content/preprocessed_output.csv"
df.to_excel(out_xlsx, columns=cols_to_save, index=False)
df.to_csv(out_csv, columns=cols_to_save, index=False, encoding='utf-8')
print("Mempersiapkan download...")
files.download(out_xlsx)

Mempersiapkan download...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# **SOAL PENUGASAN** <BR>
**Dari dataset yang tersedia atau yang kamu cari sendiri, lakukanlah proses Text Data Preprocessing yang dapat kamu terapkan (minimal tiga jenis tahap), selain yang sudah dicontohkan di atas, yaitu Lowercase.**

# **Referensi :**

1. [https://docs.vultr.com/python/examples/remove-punctuations-from-a-string](https://docs.vultr.com/python/examples/remove-punctuations-from-a-string)
2. [https://www.jeremymorgan.com/python/how-to-remove-punctuation-from-a-string-python/](https://www.jeremymorgan.com/python/how-to-remove-punctuation-from-a-string-python/)
3. [https://www.geeksforgeeks.org/python/python-remove-punctuation-from-string/](https://www.geeksforgeeks.org/python/python-remove-punctuation-from-string/)
4. [https://favtutor.com/blogs/remove-punctuation-from-string-python](https://favtutor.com/blogs/remove-punctuation-from-string-python)
5. [https://stackoverflow.com/questions/265960/best-way-to-strip-punctuation-from-a-string](https://stackoverflow.com/questions/265960/best-way-to-strip-punctuation-from-a-string)
6. [https://www.programiz.com/python-programming/examples/remove-punctuation](https://www.programiz.com/python-programming/examples/remove-punctuation)
7. [https://www.tutorialspoint.com/How-to-strip-down-all-the-punctuation-from-a-string-in-Python](https://www.tutorialspoint.com/How-to-strip-down-all-the-punctuation-from-a-string-in-Python)
8. [https://www.i2text.com/id/remove-unwanted-characters](https://www.i2text.com/id/remove-unwanted-characters)
9. [https://www.youtube.com/watch?v=bibWRNi7CFs](https://www.youtube.com/watch?v=bibWRNi7CFs)
10. [https://id.scribd.com/document/504569443/Cara-Menghapus-spasi-Xtra](https://id.scribd.com/document/504569443/Cara-Menghapus-spasi-Xtra)
11. [https://docs.python.org/3/library/stdtypes.html#str.lower](https://docs.python.org/3/library/stdtypes.html#str.lower)
12. [https://www.nltk.org/book/ch02.html#stopwords-removal](https://www.nltk.org/book/ch02.html#stopwords-removal)
13. [https://spacy.io/usage/linguistic-features#stop-words](https://spacy.io/usage/linguistic-features#stop-words)
14. [https://www.nltk.org/howto/stem.html](https://www.nltk.org/howto/stem.html)
15. [https://spacy.io/api/lemmatizer](https://spacy.io/api/lemmatizer)
