#**PENDAHULUAN**

Pra-pemrosesan teks adalah tahap penting dalam analisis teks dan Natural Language Processing (NLP). Tujuannya adalah untuk membersihkan dan mempersiapkan teks mentah agar dapat diolah lebih lanjut dengan algoritma pemrosesan teks atau analisis.

Berikut adalah beberapa langkah umum (tapi tidak terbatas pada hal di bawah) dalam pra-pemrosesan teks dalam NLP:

**1. Case Folding**

**2. Removal Special Characters**
- Menghapus Angka
- Menghapus Tanda Baca
- Menghapus White Space
  - Menggunakan strip() untuk Menghapus Whitespace di Awal dan Akhir
  - Menggunakan replace() untuk Menghapus Whitespace di Seluruh String

**3. Stopword Removal (Filtering)**
-  Stopwords NLTK (Natural Language Toolkit)
- Stopwords Sastrawi

**4. Tokenizing**
- Tokenisasi Kata (Word Tokenization)
- Tokenisasi Kalimat (Sentence Tokenization)
- Tokenisasi Frasa (Phrase Tokenization)
- Tokenisasi Berdasarkan Aturan (Rule-based Tokenization)
- Tokenisasi Berdasarkan Model (Model-based Tokenization)

**5. Stemming**

**6. Lemmatization**

#**Install Library**

In [1]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


#**Case Folding**

Case folding adalah proses standarisasi teks dengan mengubah semua huruf dalam teks menjadi huruf kecil. Tujuan utamanya adalah untuk menciptakan konsistensi dalam representasi teks, sehingga mempermudah dalam analisis teks selanjutnya.

Dengan melakukan case folding, perbedaan huruf besar dan kecil dalam teks diabaikan, sehingga memungkinkan perbandingan dan pencarian teks menjadi lebih mudah dan efisien.

In [2]:
# Contoh teks
teks_asli = "Ini Adalah Contoh Teks yang Akan Dikonversi Menjadi Lowercase."

# Mengubah teks menjadi lowercase
teks_lowercase = teks_asli.lower()

# Menampilkan hasil
print("Teks asli:", teks_asli)
print("Teks setelah diubah menjadi lowercase:", teks_lowercase)

Teks asli: Ini Adalah Contoh Teks yang Akan Dikonversi Menjadi Lowercase.
Teks setelah diubah menjadi lowercase: ini adalah contoh teks yang akan dikonversi menjadi lowercase.


In [3]:
# Contoh teks dengan campuran huruf besar dan kecil
teks_asli = """
Ini adalah contoh teks dengan campuran huruf besar dan kecil.
Contoh ini digunakan untuk demonstrasi case folding dalam pra-pemrosesan teks.
Dengan menggunakan case folding, semua huruf dalam teks akan diubah menjadi huruf kecil.
Ini membantu dalam memastikan konsistensi dalam analisis teks.
"""

# Mengubah teks menjadi lowercase menggunakan case folding
teks_case_folded = teks_asli.lower()

# Menampilkan hasil
print("Teks asli:")
print(teks_asli)
print("Teks setelah case folding:")
print(teks_case_folded)

Teks asli:

Ini adalah contoh teks dengan campuran huruf besar dan kecil.
Contoh ini digunakan untuk demonstrasi case folding dalam pra-pemrosesan teks.
Dengan menggunakan case folding, semua huruf dalam teks akan diubah menjadi huruf kecil.
Ini membantu dalam memastikan konsistensi dalam analisis teks.

Teks setelah case folding:

ini adalah contoh teks dengan campuran huruf besar dan kecil.
contoh ini digunakan untuk demonstrasi case folding dalam pra-pemrosesan teks.
dengan menggunakan case folding, semua huruf dalam teks akan diubah menjadi huruf kecil.
ini membantu dalam memastikan konsistensi dalam analisis teks.



# **Removal Special Characters**

## **Menghapus Angka**

In [4]:
# Fungsi untuk menghapus angka dari teks
def hapus_angka(teks):
    teks_tanpa_angka = ''.join([char for char in teks if not char.isdigit()])
    return teks_tanpa_angka

# Contoh teks dengan angka
teks_dengan_angka = "Ini adalah contoh teks dengan angka 12345 yang akan dihapus."

# Memanggil fungsi untuk menghapus angka
teks_tanpa_angka = hapus_angka(teks_dengan_angka)

# Menampilkan hasil
print("Teks dengan angka:", teks_dengan_angka)
print("Teks tanpa angka:", teks_tanpa_angka)

Teks dengan angka: Ini adalah contoh teks dengan angka 12345 yang akan dihapus.
Teks tanpa angka: Ini adalah contoh teks dengan angka  yang akan dihapus.


In [5]:
import re

def remove_numbers(text):
    # Menggunakan regular expression untuk menghapus angka
    text_without_numbers = re.sub(r'\d+', '', text)
    return text_without_numbers

# Contoh teks dengan angka
teks_asli = "Ini adalah contoh teks dengan angka 123 dan 456."

# Menghapus angka dari teks
teks_tanpa_angka = remove_numbers(teks_asli)

# Menampilkan hasil
print("Teks asli:", teks_asli)
print("Teks setelah menghapus angka:", teks_tanpa_angka)

Teks asli: Ini adalah contoh teks dengan angka 123 dan 456.
Teks setelah menghapus angka: Ini adalah contoh teks dengan angka  dan .


In [6]:
import re

def hapus_angka_tidak_relevan(teks):
    # Menggunakan regex untuk mengidentifikasi dan menghapus angka yang tidak relevan
    # Pola untuk mengenali angka yang harus dihapus, termasuk nomor rumah dan nomor telepon
    pola_angka_tidak_relevan = r"\b(?:\d{1,3}[-\.\s]?)?(?:\d{3}[-\.\s]?)?\d{4,}\b"
    hasil = re.sub(pola_angka_tidak_relevan, "", teks)
    return hasil.strip()

# Contoh kalimat dengan angka
kalimat = "Di sini ada beberapa nomor rumah yaitu  123, 456, dan 789. Silakan hubungi 081234567890 untuk informasi lebih lanjut."

# Memanggil fungsi untuk menghapus angka tidak relevan
hasil_tanpa_angka = hapus_angka_tidak_relevan(kalimat)

# Menampilkan hasil
print("Kalimat dengan angka:", kalimat)
print("Kalimat tanpa angka tidak relevan:", hasil_tanpa_angka)

Kalimat dengan angka: Di sini ada beberapa nomor rumah yaitu  123, 456, dan 789. Silakan hubungi 081234567890 untuk informasi lebih lanjut.
Kalimat tanpa angka tidak relevan: Di sini ada beberapa nomor rumah yaitu  123, 456, dan 789. Silakan hubungi  untuk informasi lebih lanjut.


## **Menghapus Tanda Baca**

In [7]:
import string

def remove_punctuation(text):
    # Membuat set yang berisi semua tanda baca
    punctuation_set = set(string.punctuation)

    # Menghapus tanda baca dari teks
    text_without_punctuation = ''.join(char for char in text if char not in punctuation_set)

    return text_without_punctuation

# Contoh teks dengan tanda baca
teks_asli = "Ini adalah contoh teks, dengan tanda baca! Contoh ini, digunakan? untuk demonstrasi."

# Menghapus tanda baca dari teks
teks_tanpa_tanda_baca = remove_punctuation(teks_asli)

# Menampilkan hasil
print("Teks asli:", teks_asli)
print("Teks setelah menghapus tanda baca:", teks_tanpa_tanda_baca)

Teks asli: Ini adalah contoh teks, dengan tanda baca! Contoh ini, digunakan? untuk demonstrasi.
Teks setelah menghapus tanda baca: Ini adalah contoh teks dengan tanda baca Contoh ini digunakan untuk demonstrasi


In [8]:
import string

def remove_punctuation(text):
    # Membuat set yang berisi semua tanda baca
    punctuation_set = set(string.punctuation)

    # Menghapus tanda baca dari teks
    text_without_punctuation = ''.join(char for char in text if char not in punctuation_set)

    return text_without_punctuation

# Contoh teks dengan banyak tanda baca
teks_asli = """
Dalam dunia ini, banyak hal terjadi, dari yang kecil hingga yang besar. Kita bisa melihat keindahan, tapi juga kekejaman. Ada harapan, namun juga keputusasaan. Bagaimanapun, hidup terus berjalan, tak peduli apa pun yang terjadi!
"""

# Menghapus tanda baca dari teks
teks_tanpa_tanda_baca = remove_punctuation(teks_asli)

# Menampilkan hasil
print("Teks asli:")
print(teks_asli)
print("\nTeks setelah menghapus tanda baca:")
print(teks_tanpa_tanda_baca)

Teks asli:

Dalam dunia ini, banyak hal terjadi, dari yang kecil hingga yang besar. Kita bisa melihat keindahan, tapi juga kekejaman. Ada harapan, namun juga keputusasaan. Bagaimanapun, hidup terus berjalan, tak peduli apa pun yang terjadi!


Teks setelah menghapus tanda baca:

Dalam dunia ini banyak hal terjadi dari yang kecil hingga yang besar Kita bisa melihat keindahan tapi juga kekejaman Ada harapan namun juga keputusasaan Bagaimanapun hidup terus berjalan tak peduli apa pun yang terjadi



In [9]:
import string

def hapus_tanda_baca(teks):
    teks_tanpa_tanda_baca = teks.translate(str.maketrans('', '', string.punctuation))
    return teks_tanpa_tanda_baca

# Contoh kalimat dengan banyak tanda baca
kalimat = "Hari ini cuaca sangat cerah! Angin bertiup kencang, dan ada beberapa awan di langit. Bagaimana dengan cuaca besok?"

# Memanggil fungsi untuk menghapus tanda baca
hasil_tanpa_tanda_baca = hapus_tanda_baca(kalimat)

# Menampilkan hasil
print("Kalimat dengan tanda baca:", kalimat)
print("Kalimat tanpa tanda baca:", hasil_tanpa_tanda_baca)

Kalimat dengan tanda baca: Hari ini cuaca sangat cerah! Angin bertiup kencang, dan ada beberapa awan di langit. Bagaimana dengan cuaca besok?
Kalimat tanpa tanda baca: Hari ini cuaca sangat cerah Angin bertiup kencang dan ada beberapa awan di langit Bagaimana dengan cuaca besok


## **Menghapus White Space**

### **Menggunakan strip() untuk Menghapus Whitespace di Awal dan Akhir**

In [10]:
teks = "   Ini adalah contoh kalimat dengan spasi di awal dan akhir.    "
teks_setelah_strip = teks.strip()
print(teks_setelah_strip)

Ini adalah contoh kalimat dengan spasi di awal dan akhir.


### **Menggunakan replace() untuk Menghapus Whitespace di Seluruh String**

In [11]:
teks_dengan_whitespace = "Ini adalah    contoh kalimat    dengan spasi    di dalamnya."
teks_tanpa_whitespace = teks_dengan_whitespace.replace(" ", "")
print(teks_tanpa_whitespace)

Iniadalahcontohkalimatdenganspasididalamnya.


# **Stopword Removal (Filtering)**


### **Stopwords NLTK (Natural Language Toolkit)**

In [12]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Download corpus stopwords bahasa Indonesia dari NLTK jika belum terunduh
nltk.download('stopwords')
nltk.download('punkt')  # Untuk tokenisasi kata

teks = "Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan."

# Tokenisasi teks menjadi kata-kata
tokens_kata = word_tokenize(teks)

# Ambil daftar stopwords bahasa Indonesia dari NLTK
stopwords_indonesia = set(stopwords.words('indonesian'))

# Filtering kata-kata dengan menghapus stopwords
kata_penting = [kata for kata in tokens_kata if kata.lower() not in stopwords_indonesia]

# Gabungkan kata-kata penting kembali menjadi teks
teks_tanpa_stopwords = ' '.join(kata_penting)

print("Teks asli:", teks)
print("Teks setelah filtering stopwords NLTK:", teks_tanpa_stopwords)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Teks asli: Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan.
Teks setelah filtering stopwords NLTK: Perekonomian Indonesia pertumbuhan membanggakan .


In [13]:
import nltk
nltk.download('punkt')

from nltk.tokenize import word_tokenize

teks = "Ini adalah contoh tokenisasi kata dalam pemrosesan teks."
tokens_kata = word_tokenize(teks)

print("Teks asli:", teks)
print("Tokenisasi kata:", tokens_kata)

Teks asli: Ini adalah contoh tokenisasi kata dalam pemrosesan teks.
Tokenisasi kata: ['Ini', 'adalah', 'contoh', 'tokenisasi', 'kata', 'dalam', 'pemrosesan', 'teks', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [14]:
from transformers import BertTokenizer

teks = "Halo! Apa kabar? Saya sedang belajar tokenisasi berbasis model."
tokenizer_model = BertTokenizer.from_pretrained('bert-base-uncased')

tokens_model = tokenizer_model.tokenize(teks)

print("Teks asli:", teks)
print("Tokenisasi berdasarkan model (BertTokenizer):", tokens_model)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

Teks asli: Halo! Apa kabar? Saya sedang belajar tokenisasi berbasis model.
Tokenisasi berdasarkan model (BertTokenizer): ['halo', '!', 'ap', '##a', 'ka', '##bar', '?', 'say', '##a', 'sedan', '##g', 'bela', '##jar', 'token', '##isa', '##si', 'be', '##rba', '##sis', 'model', '.']


In [15]:
# Mengimpor library NLTK untuk pengelolaan teks
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')

def remove_stopwords(text):
    # Mengambil daftar stopword bahasa Indonesia dari NLTK
    stop_words_indonesian = set(stopwords.words('indonesian'))

    # Memisahkan teks menjadi kata-kata
    words = text.split()

    # Menghapus stopword dari teks
    filtered_words = [word for word in words if word.lower() not in stop_words_indonesian]

    # Menggabungkan kata-kata yang sudah difilter kembali menjadi kalimat
    filtered_text = ' '.join(filtered_words)

    return filtered_text

# Kalimat panjang sebelum penghapusan stopword
kalimat_panjang = "Pengembangan kecerdasan buatan (artificial intelligence atau AI) telah menjadi fokus utama dalam dunia teknologi. Teknologi AI memungkinkan komputer untuk belajar dari data, menemukan pola-pola kompleks, dan membuat keputusan seperti manusia. Penggunaan AI yang luas terlihat dalam berbagai bidang seperti pengolahan bahasa alami (NLP), pengenalan wajah, mobil otonom, analisis data, dan banyak lagi."

# Memanggil fungsi untuk menghapus stopword pada kalimat panjang
kalimat_panjang_filtered = remove_stopwords(kalimat_panjang)

# Output teks setelah penghapusan stopword
print("Kalimat panjang setelah penghapusan stopword:", kalimat_panjang_filtered)


Kalimat panjang setelah penghapusan stopword: Pengembangan kecerdasan buatan (artificial intelligence AI) fokus utama dunia teknologi. Teknologi AI komputer belajar data, menemukan pola-pola kompleks, keputusan manusia. Penggunaan AI luas bidang pengolahan bahasa alami (NLP), pengenalan wajah, mobil otonom, analisis data, lagi.


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### **Stopwords Sastrawi**

In [16]:
# Install Sastrawi library if not already installed
!pip install Sastrawi

from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory
from nltk.tokenize import word_tokenize

# Inisialisasi objek StopWordRemover dari Sastrawi
factory = StopWordRemoverFactory()
stopwords_sastrawi = factory.get_stop_words()

teks = "Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan."

# Tokenisasi teks menjadi kata-kata
tokens_kata = word_tokenize(teks)

# Filtering kata-kata dengan menghapus stopwords Sastrawi
kata_penting = [kata for kata in tokens_kata if kata.lower() not in stopwords_sastrawi]

# Gabungkan kata-kata penting kembali menjadi teks
teks_tanpa_stopwords = ' '.join(kata_penting)

print("Teks asli:", teks)
print("Teks setelah filtering stopwords Sastrawi:", teks_tanpa_stopwords)

Teks asli: Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan.
Teks setelah filtering stopwords Sastrawi: Perekonomian Indonesia sedang pertumbuhan membanggakan .


# **Tokenizing**

## **Tokenisasi Kata (Word Tokenization)**

In [17]:
from nltk.tokenize import word_tokenize

text = "Ini adalah contoh kalimat untuk tokenisasi kata."
tokens = word_tokenize(text)
print(tokens)

['Ini', 'adalah', 'contoh', 'kalimat', 'untuk', 'tokenisasi', 'kata', '.']


## **Tokenisasi Kalimat (Sentence Tokenization)**

In [18]:
from nltk.tokenize import sent_tokenize

text = "Ini adalah contoh kalimat pertama. Dan ini adalah contoh kalimat kedua."
sentences = sent_tokenize(text)
print(sentences)

['Ini adalah contoh kalimat pertama.', 'Dan ini adalah contoh kalimat kedua.']


## **Tokenisasi Frasa (Phrase Tokenization**)

In [19]:
# Misalkan kita ingin memisahkan frasa berdasarkan tanda baca koma (,)
text = "Apel, jeruk, pisang, dan mangga."
phrases = text.split(',')
print(phrases)

['Apel', ' jeruk', ' pisang', ' dan mangga.']


## **Tokenisasi Berdasarkan Aturan (Rule-based Tokenization)**

In [20]:
# Contoh aturan tokenisasi khusus untuk tokenisasi kata dalam bahasa Indonesia
import re

text = "Pertama, kita perlu menyiapkan bahan-bahan yang diperlukan."
tokens = re.findall(r'\w+|\d+', text)
print(tokens)

['Pertama', 'kita', 'perlu', 'menyiapkan', 'bahan', 'bahan', 'yang', 'diperlukan']


## **Tokenisasi Berdasarkan Model (Model-based Tokenization)**

In [21]:
# Misalnya menggunakan spasi sebagai pemisah kata
text = "Ini adalah contoh tokenisasi berbasis model."
tokens = text.split()
print(tokens)

['Ini', 'adalah', 'contoh', 'tokenisasi', 'berbasis', 'model.']


# **Stemming**


## **Stemming menggunakan NLTK**

In [1]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
words = ["running", "easily", "bought", "crying", "leaves"]

stemmed_words = [stemmer.stem(word) for word in words]
print(stemmed_words)

['run', 'easili', 'bought', 'cri', 'leav']


# **Lemmatization**

## **Lemmatisasi menggunakan NLTK**

In [2]:
import nltk
nltk.download('wordnet')

from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

lemmatizer = WordNetLemmatizer()
words = ["running", "easily", "bought", "crying", "leaves"]

lemmatized_words = [lemmatizer.lemmatize(word, pos=wordnet.VERB) for word in words]
print(lemmatized_words)


[nltk_data] Downloading package wordnet to /root/nltk_data...


['run', 'easily', 'buy', 'cry', 'leave']


In [5]:
import nltk
nltk.download('punkt')

from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.tokenize import word_tokenize

# Kalimat contoh
sentence = "The cats are running and jumping over the fences."

# Inisialisasi stemmer dan lemmatizer
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# Tokenisasi kalimat
tokens = word_tokenize(sentence)

# Stemming
stemmed_words = [stemmer.stem(word) for word in tokens]

# Lemmatisasi
lemmatized_words = [lemmatizer.lemmatize(word) for word in tokens]

print("Original tokens:", tokens)
print("Stemmed tokens:", stemmed_words)
print("Lemmatized tokens:", lemmatized_words)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Original tokens: ['The', 'cats', 'are', 'running', 'and', 'jumping', 'over', 'the', 'fences', '.']
Stemmed tokens: ['the', 'cat', 'are', 'run', 'and', 'jump', 'over', 'the', 'fenc', '.']
Lemmatized tokens: ['The', 'cat', 'are', 'running', 'and', 'jumping', 'over', 'the', 'fence', '.']
