<a href="https://colab.research.google.com/github/fdhliakbar/IR-Lab/blob/main/Pemrosesan_Text_STBI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Praktikum Pertemuan 03 - Pemrosesan Text

<p align="center">
  <img src="https://www.datarobot.com/wp-content/uploads/2022/03/image3-1-2.jpeg" width="450">
</p>

## Apa itu Pemrosesan Teks?

**Pemrosesan Teks** (atau *Text Preprocessing*) adalah serangkaian langkah untuk "membersihkan" dan "mengubah" data teks mentah sebelum digunakan.

Komputer tidak memahami bahasa manusia seperti kita. Kalimat "Saya suka film action" hanyalah sekumpulan karakter bagi mesin. Tujuan kita adalah mengubah teks yang berantakan dan penuh variasi itu menjadi format yang terstruktur, konsisten, dan mudah dianalisis oleh komputer.

<p align="center">
  <img src="https://miro.medium.com/v2/resize:fit:1400/1*yGvh-R0Wk-Vn3a-3--p34w.png" alt="Alur Pemrosesan Teks" width="600">
</p>

Langkah-langkah umumnya meliputi:
1.  **Case Folding**: Mengubah semua huruf menjadi huruf kecil.
2.  **Stopword Removal**: Menghapus kata-kata umum (seperti 'yang', 'di', 'dan').
3.  **Stemming**: Mengubah kata ke bentuk dasarnya (misal: 'menonton' -> 'tonton').
4.  **Tokenisasi**: Memecah kalimat menjadi potongan-potongan kata (token).

## Bingung kan?

Kenapa harus seribet itu? Kenapa teks tidak bisa langsung diolah saja?

Bayangkan Anda seorang koki yang mendapat sekantong bahan makanan acak. Anda tidak bisa langsung memasukkan semuanya ke panci, kan?
* Anda harus **membersihkan** sayuran (buang tanahnya).
* Anda harus **mengupas** kulitnya.
* Anda harus **membuang** bagian yang tidak perlu (seperti tulang atau biji).
* Anda harus **memotong** semuanya jadi ukuran yang seragam.

**Teks juga sama!**
* Kata 'yang', 'di', 'dari' itu seperti "kotoran" atau "tangkai" yang tidak menambah makna utama. Kita buang saja (**Stopword Removal**).
* Kata 'belajar', 'mempelajari', dan 'dipelajari' intinya sama: 'belajar'. Kita seragamkan bentuknya (**Stemming**).

Jadi, tujuan kita adalah menyederhanakan teks agar komputer bisa fokus pada **inti informasinya** saja.

## Contoh Sederhana

Lihat transformasi teks di bawah ini:

> **Kalimat Mentah:**
> "Saya sedang menonton film-film terbaru di bioskop kesayangan."

Setelah kita proses:

1.  **Case Folding**: "saya sedang menonton film-film terbaru di bioskop kesayangan."
2.  **Stopword Removal**: "saya menonton film-film terbaru bioskop kesayangan." (Kata 'sedang' dan 'di' hilang).
3.  **Stemming**: "saya tonton film baru bioskop sayang." (Kata 'menonton' -> 'tonton', 'film-film' -> 'film', 'terbaru' -> 'baru', 'kesayangan' -> 'sayang').
4.  **Tokenisasi**: `['saya', 'tonton', 'film', 'baru', 'bioskop', 'sayang']`

Hasil akhirnya (langkah 4) adalah data bersih yang siap diolah oleh mesin!

---

Di dalam repository ini, kita akan mempraktikkan semua langkah ini menggunakan *notebook* yang telah disediakan.

**Selamat belajar dan selamat mencoba!**

## Lanjut Langkah Praktikum 😁

Install Library yang dibutuhkan, pada praktikum ini kita menggunakan NLTK sebagai ... dan Sastrawi sebagai

In [1]:
!pip install nltk
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


## Import Library

In [2]:
import string
import pandas as pd
import numpy as np

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

## Masukkan kalimat Awal

In [7]:
kalimat = "Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan."

print("--- Kalimat Asli ---")
print(kalimat)

--- Kalimat Asli ---
Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan.


## Langkah Stemming


In [8]:
# Buat factory untuk stemmer
factory_stemmer = StemmerFactory()
stemmer = factory_stemmer.create_stemmer()

# Lakukan proses stemming pada kalimat
text_stemmed = stemmer.stem(kalimat)

print("--- Hasil Stemming ---")
print("Sebelum Stemming : ", kalimat)
print("---------------------------------")
print("Setelah Stemming : ", text_stemmed)

--- Hasil Stemming ---
Sebelum Stemming :  Saya sangat suka menonton Film Action, apalagi jika Film Action tersebut dibintangi oleh saya sendiri yang dapat dipastikan menjadi terlihat keren dan menampakkan keseruan.
---------------------------------
Setelah Stemming :  saya sangat suka tonton film action apalagi jika film action sebut bintang oleh saya sendiri yang dapat pasti jadi lihat keren dan tampak seru


## Langkah Removing

In [9]:
factory_stopword = StopWordRemoverFactory()
remover = factory_stopword.create_stop_word_remover()

# Lakukan proses removing stopwords pada teks hasil stemming
text_clean = remover.remove(text_stemmed)

print("--- Hasil Removing Stopwords ---")
print("Sebelum Removing Stopwords : ", text_stemmed)
print("---------------------------------")
print("Setelah Removing Stopwords : ", text_clean)

--- Hasil Removing Stopwords ---
Sebelum Removing Stopwords :  saya sangat suka tonton film action apalagi jika film action sebut bintang oleh saya sendiri yang dapat pasti jadi lihat keren dan tampak seru
---------------------------------
Setelah Removing Stopwords :  sangat suka tonton film action jika film action sebut bintang saya sendiri dapat jadi lihat keren tampak seru


## Langkah Tokenisasi

Memecah Kalimat

In [10]:
tokens = text_clean.split(' ')

# Tampilkan hasilnya
print("--- Hasil Tokenisasi ---")
print("Sebelum Tokenisasi : ", text_clean)
print("---------------------------------")
print("Setelah Tokenisasi : ", tokens)

--- Hasil Tokenisasi ---
Sebelum Tokenisasi :  sangat suka tonton film action jika film action sebut bintang saya sendiri dapat jadi lihat keren tampak seru
---------------------------------
Setelah Tokenisasi :  ['sangat', 'suka', 'tonton', 'film', 'action', 'jika', 'film', 'action', 'sebut', 'bintang', 'saya', 'sendiri', 'dapat', 'jadi', 'lihat', 'keren', 'tampak', 'seru']


## Postest

Tampilkan hasil stemming, removing stopwords dan
tokenisasi!

**Note:** Jika ada perlu ditanyakan terkait teknis praktikum, silahkan bertanya di group atau pc dengan asisten `Fadhli` & `Aufa`


<img src="https://i.pinimg.com/736x/19/50/a0/1950a062d888e886b2f945b1a8f9debb.jpg" width="120%" alt="Banner" />
