<a href="https://colab.research.google.com/github/fdhliakbar/IR-Lab/blob/main/P03_Text_Processing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Praktikum Pertemuan 03 - Pemrosesan Text

<p align="center">
  <img src="https://miro.medium.com/v2/resize:fit:800/1*KljmJybQDj1mJAL-oS8VWQ.png">
</p>

## Apa itu Pemrosesan Teks?

**Pemrosesan Teks** (atau *Text Preprocessing*) adalah serangkaian langkah untuk "membersihkan" dan "mengubah" data teks mentah sebelum digunakan.

Komputer tidak memahami bahasa manusia seperti kita. Kalimat "Saya suka film action" hanyalah sekumpulan karakter bagi mesin. Tujuan kita adalah mengubah teks yang berantakan dan penuh variasi itu menjadi format yang terstruktur, konsisten, dan mudah dianalisis oleh komputer.

<p align="center">
  <img src="https://github.com/fdhliakbar/IR-Lab/blob/main/flowchart-text-processing.webp?raw=true" alt="Alur Pemrosesan Teks" width="120%">
</p>

Langkah-langkah umumnya meliputi:
1. **Text Mentah**: Text asli yang belum diproses, bisa mengandung huruf besar-kecil, tanda baca, dan kata-kata tidak penting.
2.  **Case Folding & Cleansing**: Ubah semua huruf menjadi lowercase & buang tanda baca,angka,dan simbol yg tidak relevan.
3. **Tokenisasi**: Pecah teks menjadi kata-kata(token) agar bisa diproses satu per satu.
4. **Stopword Removal**: Hapus kata-kata umum yang tidak menambah makna.
5. **Stemming**: Mengubah kata ke bentuk dasar agar makna menjadi konsisten.

---

## Contoh Simpel

Kalimat Mentah:  
**"Saya sangat suka menonton Film Action, apalagi jika film tersebut dibintangi oleh saya sendiri."**

### 1. Case Folding  
Semua huruf diubah menjadi huruf kecil:  
`"saya sangat suka menonton film action, apalagi jika film tersebut dibintangi oleh saya sendiri."`

### 2. Cleansing  
Hapus tanda baca dan karakter tidak relevan:  
`"saya sangat suka menonton film action apalagi jika film tersebut dibintangi oleh saya sendiri"`

### 3. Tokenisasi  
Pisahkan kalimat menjadi kata-kata:  
`['saya', 'sangat', 'suka', 'menonton', 'film', 'action', 'apalagi', 'jika', 'film', 'tersebut', 'dibintangi', 'oleh', 'saya', 'sendiri']`

### 4. Stopword Removal  
Hapus kata-kata umum yang tidak menambah makna:  
`['sangat', 'suka', 'menonton', 'film', 'action', 'film', 'dibintangi', 'saya', 'sendiri']`

### 5. Stemming  
Ubah kata ke bentuk dasar:  
`['suka', 'tonton', 'film', 'action', 'film', 'bintang', 'saya', 'sendiri']`

---

Nah hasil akhirnya itu adalah kumpulan kata bermakna bro. Sudah cocok untuk digunakan untuk klasifikasi, clustering dll.



## Lanjut Langkah Praktikum 😁

Install Library yang dibutuhkan, pada praktikum ini kita menggunakan NLTK sebagai ... dan Sastrawi sebagai

In [1]:
!pip install nltk
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


## Import Library

In [11]:
import string
import pandas as pd
import numpy as np
import re

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

## Masukkan kalimat Awal

In [18]:
kalimat = "Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan."

print("--- Kalimat Asli ---")
print(kalimat)

--- Kalimat Asli ---
Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan.


## Langkah Case Folding


In [19]:
# Buat Stemmer per kata
factory_stemmer = StemmerFactory()
stemmer = factory_stemmer.create_stemmer()

## Buat stopword removal
factory_stopword = StopWordRemoverFactory()
stopword_list = factory_stopword.get_stop_words()

print("\n--- Daftar Stopwords dari Sastrawi ---")
print(stopword_list)


--- Daftar Stopwords dari Sastrawi ---
['yang', 'untuk', 'pada', 'ke', 'para', 'namun', 'menurut', 'antara', 'dia', 'dua', 'ia', 'seperti', 'jika', 'jika', 'sehingga', 'kembali', 'dan', 'tidak', 'ini', 'karena', 'kepada', 'oleh', 'saat', 'harus', 'sementara', 'setelah', 'belum', 'kami', 'sekitar', 'bagi', 'serta', 'di', 'dari', 'telah', 'sebagai', 'masih', 'hal', 'ketika', 'adalah', 'itu', 'dalam', 'bisa', 'bahwa', 'atau', 'hanya', 'kita', 'dengan', 'akan', 'juga', 'ada', 'mereka', 'sudah', 'saya', 'terhadap', 'secara', 'agar', 'lain', 'anda', 'begitu', 'mengapa', 'kenapa', 'yaitu', 'yakni', 'daripada', 'itulah', 'lagi', 'maka', 'tentang', 'demi', 'dimana', 'kemana', 'pula', 'sambil', 'sebelum', 'sesudah', 'supaya', 'guna', 'kah', 'pun', 'sampai', 'sedangkan', 'selagi', 'sementara', 'tetapi', 'apakah', 'kecuali', 'sebab', 'selain', 'seolah', 'seraya', 'seterusnya', 'tanpa', 'agak', 'boleh', 'dapat', 'dsb', 'dst', 'dll', 'dahulu', 'dulunya', 'anu', 'demikian', 'tapi', 'ingin', 'juga', 

## Langkah Case Folding & Cleansing

In [20]:
text_lower = kalimat.lower()

text_clean = re.sub(r'[^a-z\s]', '', text_lower)

print("--- Hasil Cleansing & Case Folding ---")
print("Sebelum : ", kalimat)
print("---------------------------------")
print("Setelah : ", text_clean)

--- Hasil Cleansing & Case Folding ---
Sebelum :  Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan.
---------------------------------
Setelah :  saya sangat suka menonton film action apalagi jika film action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan


## Langkah Tokenisasi

In [21]:
tokens = text_clean.split(' ')

print("--- Hasil Tokenisasi ---")
print("Sebelum : ", text_clean)
print("---------------------------------")
print("Setelah : ", tokens)

--- Hasil Tokenisasi ---
Sebelum :  saya sangat suka menonton film action apalagi jika film action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan
---------------------------------
Setelah :  ['saya', 'sangat', 'suka', 'menonton', 'film', 'action', 'apalagi', 'jika', 'film', 'action', 'tersebut', 'dibintangi', 'oleh', 'saya', 'sendiri', 'yang', 'dapat', 'dipastikan', 'menjadi', 'terlihat', 'keren', 'dan', 'menampakkan', 'keseruan']


## Langkah Stopword Removal

In [22]:
tokens_clean = []
for word in tokens:
    if word not in stopword_list:
        tokens_clean.append(word)

print("--- Hasil Stopword Removal ---")
print("Sebelum (Jumlah: " + str(len(tokens)) + ") : ", tokens)
print("---------------------------------")
print("Setelah (Jumlah: " + str(len(tokens_clean)) + ") : ", tokens_clean)

--- Hasil Stopword Removal ---
Sebelum (Jumlah: 24) :  ['saya', 'sangat', 'suka', 'menonton', 'film', 'action', 'apalagi', 'jika', 'film', 'action', 'tersebut', 'dibintangi', 'oleh', 'saya', 'sendiri', 'yang', 'dapat', 'dipastikan', 'menjadi', 'terlihat', 'keren', 'dan', 'menampakkan', 'keseruan']
---------------------------------
Setelah (Jumlah: 16) :  ['sangat', 'suka', 'menonton', 'film', 'action', 'film', 'action', 'tersebut', 'dibintangi', 'sendiri', 'dipastikan', 'menjadi', 'terlihat', 'keren', 'menampakkan', 'keseruan']


## Stemming

In [23]:
tokens_stemmed = []
for word in tokens_clean:
    stemmed_word = stemmer.stem(word)
    tokens_stemmed.append(stemmed_word)

print("--- Hasil Stemming (Final) ---")
print("Sebelum : ", tokens_clean)
print("---------------------------------")
print("Setelah : ", tokens_stemmed)

--- Hasil Stemming (Final) ---
Sebelum :  ['sangat', 'suka', 'menonton', 'film', 'action', 'film', 'action', 'tersebut', 'dibintangi', 'sendiri', 'dipastikan', 'menjadi', 'terlihat', 'keren', 'menampakkan', 'keseruan']
---------------------------------
Setelah :  ['sangat', 'suka', 'tonton', 'film', 'action', 'film', 'action', 'sebut', 'bintang', 'sendiri', 'pasti', 'jadi', 'lihat', 'keren', 'tampak', 'seru']


## Postest

- Tampilkan hasil stemming, removing stopwords dan tokenisasi. Kemudian Analisis setiap perubahan yang terjadi.

- Kalian kerjakan soalnya dibawah ini, aku sudah sediakan kalimatnya tidak perlu mencari lagi.

## Kalimat Awal

In [7]:
kalimat_postest = "Jangan terbiasa apa-apa Vibe Coding itu seperti pedang bermata dua. jika kalian sudah paham alur, logika & syntax coding prosesnya akan sangat mempermudah pekerjaan. Namun sebaliknya, itu akan terasa sangat rumit dan membingungkan."

## Case Folding & Cleanshing

## Tokenisasi

## Stopword Removal

## Steamming

---

## Petunjuk pengumpulan:

1. Silahkan kerjakan POSTEST dengan ketentuan yang dikumpulkan adalah File PDF.
2. Codingan boleh ketik dan berikan penjelasan singkat
3. Dalam laporan jangan lupa berikan link kode program yang telah kalian buat di Google Colab
4. Penamaan file tugas: Postest (Post-ke_NIM_Kelas_Nama)

Batas Pengumpulan Sampai Jam `23.59` `20/10/2025`.

**Note:** Jika ada perlu ditanyakan terkait teknis praktikum, jangan ragu bertanya. Silahkan bertanya di group atau pc dengan asisten `Fadhli` & `Aufa`

## Selamat Mengerjakan 😄

<img src="https://i.pinimg.com/736x/19/50/a0/1950a062d888e886b2f945b1a8f9debb.jpg" width="120%" alt="Banner" />
