<a href="https://colab.research.google.com/github/fdhliakbar/IR-Lab/blob/main/P03_Text_Processing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Praktikum Pertemuan 03 - Pemrosesan Text

<p align="center">
  <img src="https://miro.medium.com/v2/resize:fit:800/1*KljmJybQDj1mJAL-oS8VWQ.png">
</p>

## Apa itu Pemrosesan Teks?

**Pemrosesan Teks** (atau *Text Preprocessing*) adalah serangkaian langkah untuk "membersihkan" dan "mengubah" data teks mentah sebelum digunakan.

Komputer tidak memahami bahasa manusia seperti kita. Kalimat "Saya suka film action" hanyalah sekumpulan karakter bagi mesin. Tujuan kita adalah mengubah teks yang berantakan dan penuh variasi itu menjadi format yang terstruktur, konsisten, dan mudah dianalisis oleh komputer.

<p align="center">
  <img src="https://github.com/fdhliakbar/IR-Lab/blob/main/flowchart-text-processing.webp?raw=true" alt="Alur Pemrosesan Teks" width="120%">
</p>

Langkah-langkah umumnya meliputi:
1. **Text Mentah**: Text asli yang belum diproses, bisa mengandung huruf besar-kecil, tanda baca, dan kata-kata tidak penting.
2.  **Case Folding & Cleansing**: Ubah semua huruf menjadi lowercase & buang tanda baca,angka,dan simbol yg tidak relevan.
3. **Tokenisasi**: Pecah teks menjadi kata-kata(token) agar bisa diproses satu per satu.
4. **Stopword Removal**: Hapus kata-kata umum yang tidak menambah makna.
5. **Stemming**: Mengubah kata ke bentuk dasar agar makna menjadi konsisten.

---

## Contoh Simpel

Kalimat Mentah:  
**"Saya sangat suka menonton Film Action, apalagi jika film tersebut dibintangi oleh saya sendiri."**

### 1. Case Folding  
Semua huruf diubah menjadi huruf kecil:  
`"saya sangat suka menonton film action, apalagi jika film tersebut dibintangi oleh saya sendiri."`

### 2. Cleansing  
Hapus tanda baca dan karakter tidak relevan:  
`"saya sangat suka menonton film action apalagi jika film tersebut dibintangi oleh saya sendiri"`

### 3. Tokenisasi  
Pisahkan kalimat menjadi kata-kata:  
`['saya', 'sangat', 'suka', 'menonton', 'film', 'action', 'apalagi', 'jika', 'film', 'tersebut', 'dibintangi', 'oleh', 'saya', 'sendiri']`

### 4. Stopword Removal  
Hapus kata-kata umum yang tidak menambah makna:  
`['sangat', 'suka', 'menonton', 'film', 'action', 'film', 'dibintangi', 'saya', 'sendiri']`

### 5. Stemming  
Ubah kata ke bentuk dasar:  
`['suka', 'tonton', 'film', 'action', 'film', 'bintang', 'saya', 'sendiri']`

---

Nah hasil akhirnya itu adalah kumpulan kata bermakna bro. Sudah cocok untuk digunakan untuk klasifikasi, clustering dll.



## Lanjut Langkah Praktikum 😁

Install Library yang dibutuhkan, pada praktikum ini kita menggunakan NLTK sebagai ... dan Sastrawi sebagai

In [1]:
!pip install nltk
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


## Import Library

In [2]:
import string
import pandas as pd
import numpy as np

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

## Masukkan kalimat Awal

In [3]:
kalimat = "Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan."

print("--- Kalimat Asli ---")
print(kalimat)

--- Kalimat Asli ---
Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan.


## Langkah Stemming


In [4]:
# Buat factory untuk stemmer
factory_stemmer = StemmerFactory()
stemmer = factory_stemmer.create_stemmer()

# Lakukan proses stemming pada kalimat
text_stemmed = stemmer.stem(kalimat)

print("--- Hasil Stemming ---")
print("Sebelum Stemming : ", kalimat)
print("---------------------------------")
print("Setelah Stemming : ", text_stemmed)

--- Hasil Stemming ---
Sebelum Stemming :  Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan.
---------------------------------
Setelah Stemming :  saya sangat suka tonton film action apalagi jika film action sebut bintang oleh saya sendiri yang dapat pasti jadi lihat keren dan tampak seru


## Langkah Removing

In [5]:
factory_stopword = StopWordRemoverFactory()
remover = factory_stopword.create_stop_word_remover()

# Lakukan proses removing stopwords pada teks hasil stemming
text_clean = remover.remove(text_stemmed)

print("--- Hasil Removing Stopwords ---")
print("Sebelum Removing Stopwords : ", text_stemmed)
print("---------------------------------")
print("Setelah Removing Stopwords : ", text_clean)

--- Hasil Removing Stopwords ---
Sebelum Removing Stopwords :  saya sangat suka tonton film action apalagi jika film action sebut bintang oleh saya sendiri yang dapat pasti jadi lihat keren dan tampak seru
---------------------------------
Setelah Removing Stopwords :  sangat suka tonton film action jika film action sebut bintang saya sendiri dapat jadi lihat keren tampak seru


## Langkah Tokenisasi

Memecah Kalimat

In [6]:
tokens = text_clean.split(' ')

# Tampilkan hasilnya
print("--- Hasil Tokenisasi ---")
print("Sebelum Tokenisasi : ", text_clean)
print("---------------------------------")
print("Setelah Tokenisasi : ", tokens)

--- Hasil Tokenisasi ---
Sebelum Tokenisasi :  sangat suka tonton film action jika film action sebut bintang saya sendiri dapat jadi lihat keren tampak seru
---------------------------------
Setelah Tokenisasi :  ['sangat', 'suka', 'tonton', 'film', 'action', 'jika', 'film', 'action', 'sebut', 'bintang', 'saya', 'sendiri', 'dapat', 'jadi', 'lihat', 'keren', 'tampak', 'seru']


## Postest

- Tampilkan hasil stemming, removing stopwords dan tokenisasi.

- Kalian kerjakan soalnya dibawah ini, aku sudah sediakan kalimatnya tidak perlu mencari lagi.

In [7]:
kalimat_postest = "Jangan terbiasa apa-apa Vibe Coding itu seperti pedang bermata dua. jika kalian sudah paham alur, logika & syntax coding prosesnya akan sangat mempermudah pekerjaan. Namun sebaliknya, itu akan terasa sangat rumit dan membingungkan."

## Case Folding & Cleanshing

## Tokenisasi

## Stopword Removal

## Steamming

---

## Petunjuk pengumpulan:

1. Silahkan kerjakan POSTEST dengan ketentuan yang dikumpulkan adalah File PDF.
2. Codingan boleh ketik dan berikan penjelasan singkat
3. Dalam laporan jangan lupa berikan link kode program yang telah kalian buat di Google Colab
4. Penamaan file tugas: Postest (Post-ke_NIM_Kelas_Nama)

Batas Pengumpulan Sampai Jam `23.59` `20/10/2025`.

**Note:** Jika ada perlu ditanyakan terkait teknis praktikum, jangan ragu bertanya. Silahkan bertanya di group atau pc dengan asisten `Fadhli` & `Aufa`

## Selamat Mengerjakan 😄

<img src="https://i.pinimg.com/736x/19/50/a0/1950a062d888e886b2f945b1a8f9debb.jpg" width="120%" alt="Banner" />
