### EKSPERIMEN TEKS PROCESSING MENGGUNAKAN NLTK
Melakukan pra-pemrosesan teks (preprocessing) menggunakan library NLTK (Natural Language Toolkit) untuk membersihkan teks sebelum digunakan dalam analisis lanjutan (misalnya klasifikasi sentimen atau deteksi topik).

# Instalasi Pustaka

In [42]:
pip install nltk pandas



# Import Library di Python
Pada tahap awal, menyiapkan semua library yang di butuhkan agar proces pembersihan berjalan lancar.

In [43]:
import nltk #pustaka phyton untuk text mining dan language processing
import pandas as pd #untuk membaca dan mengelola data dalam bentuk tabel
import string #berisi kumpulan tanda baca yang bisa dihapus dari teks
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
nltk.download('punkt')      #mengunduh resource tambahan seperti tokenizer dan daftar stopwords
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

# Persiapan Dataset
Melihat kolom mana yang berisi teks untuk diproses selanjutnya (misalnya pada eksperimen ini adalah kolom "Tweet").

In [44]:
# Membaca dataset
df = pd.read_csv('Dataset_Sentimen_Emosi.csv') #dataset dibaca dari file .csv dan disimpan dlm variable df
print(df.head()) #df.head() menampilkan 5 baris pertama agar tahu struktur kolom dan teksnya

                                               Tweet  Sentimen  Emosi
0  Cegah mata rantai Covid-19,mari kita dirumah s...       1.0      1
1  aku mohon yaAllah semoga wabah covid-19 menghi...       1.0     -1
2  Pemprov Papua Naikkan Status Jadi Tanggap Daru...       1.0      1
3            Covid belum nyampe prigen mbak hmm hoax       0.0     -2
4  Nyuruh orang pintar, lu aja Togog. Itu kerumun...      -1.0     -2


# Pembersihan Text (Cleaning)
Menghapus elemen yang tidak relevan agar teks lebih sederhan dan seragam sebelum dianalisis misalnya simbol, angka, dan mengubah huruf menjadi kecil semua.

In [45]:
def clean_text(text):
    text = text.lower()  # ubah ke huruf kecil
    text = text.translate(str.maketrans('', '', string.punctuation))  # hapus tanda baca
    text = ''.join([i for i in text if not i.isdigit()])  # hapus angka
    return text

df['clean'] = df['Tweet'].apply(clean_text)
print(df[['Tweet', 'clean']].head())

                                               Tweet  \
0  Cegah mata rantai Covid-19,mari kita dirumah s...   
1  aku mohon yaAllah semoga wabah covid-19 menghi...   
2  Pemprov Papua Naikkan Status Jadi Tanggap Daru...   
3            Covid belum nyampe prigen mbak hmm hoax   
4  Nyuruh orang pintar, lu aja Togog. Itu kerumun...   

                                               clean  
0  cegah mata rantai covidmari kita dirumah saja ...  
1  aku mohon yaallah semoga wabah covid menghilan...  
2  pemprov papua naikkan status jadi tanggap daru...  
3            covid belum nyampe prigen mbak hmm hoax  
4  nyuruh orang pintar lu aja togog itu kerumunan...  


# Tokenisasi
Memisahkan kalimat/text menjadi unit-unit kata agar dapat di proses per kata.

In [46]:
import nltk
nltk.download('punkt_tab')

# Tokenisasi kalimat
df['tokens'] = df['clean'].apply(word_tokenize) #memecah kalimat jadi potongan" kata (tokens)
print(df['tokens'].head())

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


0    [cegah, mata, rantai, covidmari, kita, dirumah...
1    [aku, mohon, yaallah, semoga, wabah, covid, me...
2    [pemprov, papua, naikkan, status, jadi, tangga...
3      [covid, belum, nyampe, prigen, mbak, hmm, hoax]
4    [nyuruh, orang, pintar, lu, aja, togog, itu, k...
Name: tokens, dtype: object


# Stopword Removal
Menghapus kata-kata umum yang tidak mempunya makna penting seperti "yang", "dan", "di", dll

In [47]:
stop_words = set(stopwords.words('indonesian'))  # jika teks Bahasa Indonesia

def remove_stopwords(tokens):
    return [word for word in tokens if word not in stop_words]

df['filtered'] = df['tokens'].apply(remove_stopwords)
print(df[['tokens', 'filtered']].head())

                                              tokens  \
0  [cegah, mata, rantai, covidmari, kita, dirumah...   
1  [aku, mohon, yaallah, semoga, wabah, covid, me...   
2  [pemprov, papua, naikkan, status, jadi, tangga...   
3    [covid, belum, nyampe, prigen, mbak, hmm, hoax]   
4  [nyuruh, orang, pintar, lu, aja, togog, itu, k...   

                                            filtered  
0  [cegah, mata, rantai, covidmari, dirumah, minggu]  
1  [mohon, yaallah, semoga, wabah, covid, menghil...  
2  [pemprov, papua, naikkan, status, tanggap, dar...  
3           [covid, nyampe, prigen, mbak, hmm, hoax]  
4  [nyuruh, orang, pintar, lu, aja, togog, kerumu...  


# Stemming (Mengambil Kata Dasar)
Menyederhanakan bentuk kata agar model tidak menganggap "makan", "memakan", dan "pemakan" sebagai kata yang berbeda.

In [48]:
pip install Sastrawi #library Sastrawi digunakan khusus untuk b.indo



In [49]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stem_text(words):
    return [stemmer.stem(word) for word in words]

df['stemmed'] = df['filtered'].apply(stem_text)
print(df[['filtered', 'stemmed']].head())

                                            filtered  \
0  [cegah, mata, rantai, covidmari, dirumah, minggu]   
1  [mohon, yaallah, semoga, wabah, covid, menghil...   
2  [pemprov, papua, naikkan, status, tanggap, dar...   
3           [covid, nyampe, prigen, mbak, hmm, hoax]   
4  [nyuruh, orang, pintar, lu, aja, togog, kerumu...   

                                             stemmed  
0    [cegah, mata, rantai, covidmari, rumah, minggu]  
1  [mohon, yaallah, moga, wabah, covid, hilang, r...  
2  [pemprov, papua, naik, status, tanggap, darura...  
3           [covid, nyampe, prigen, mbak, hmm, hoax]  
4  [nyuruh, orang, pintar, lu, aja, togog, kerumu...  


# Menggabungkan Kembali Kata Hasil Proses
Setelah semua proses, kata-kata hasil steamming digabung kembali menjadi satu kalimat bersih.Menghasilkan teks akhir yang sudah bersih, konsisten, dan siap digunakan dalam TF-IDF atau analisis model.

In [37]:
df['final_text'] = df['stemmed'].apply(lambda x: ' '.join(x))
print(df[['Tweet', 'final_text']].head())

                                               Tweet  \
0  Cegah mata rantai Covid-19,mari kita dirumah s...   
1  aku mohon yaAllah semoga wabah covid-19 menghi...   
2  Pemprov Papua Naikkan Status Jadi Tanggap Daru...   
3            Covid belum nyampe prigen mbak hmm hoax   
4  Nyuruh orang pintar, lu aja Togog. Itu kerumun...   

                                          final_text  
0           cegah mata rantai covidmari rumah minggu  
1     mohon yaallah moga wabah covid hilang ramadhan  
2  pemprov papua naik status tanggap darurat covi...  
3                  covid nyampe prigen mbak hmm hoax  
4  nyuruh orang pintar lu aja togog kerumun orang...  


# Menyimpan Hasil
Simpan hasil preprocessing untuk digunakan pada eksperimen berikutnya (misalnya klasifikasi atau analisis sentimen).

In [39]:
df.to_csv('clean_dataset_nltk.csv', index=False)

# Evaluasi Hasil Preprocessing
Melakukan perbandingan teks sebelum dan sesudah preprocessing. Hal ini berfungsi untuk memastikan fungsi cleaning, tokenisasi, dan steamming sudah bekerja sesuai harapan.

In [41]:
for i in range(5):
    print(f"Teks Asli     : {df['Tweet'][i]}")
    print(f"Teks Bersih   : {df['final_text'][i]}")
    print('-'*50)

Teks Asli     : Cegah mata rantai Covid-19,mari kita dirumah saja hingga hari Minggu.....
Teks Bersih   : cegah mata rantai covidmari rumah minggu
--------------------------------------------------
Teks Asli     : aku mohon yaAllah semoga wabah covid-19 menghilang sebelum ramadhan datang 
Teks Bersih   : mohon yaallah moga wabah covid hilang ramadhan
--------------------------------------------------
Teks Asli     : Pemprov Papua Naikkan Status Jadi Tanggap Darurat Covid-19. OPM
Teks Bersih   : pemprov papua naik status tanggap darurat covid opm
--------------------------------------------------
Teks Asli     : Covid belum nyampe prigen mbak hmm hoax
Teks Bersih   : covid nyampe prigen mbak hmm hoax
--------------------------------------------------
Teks Asli     : Nyuruh orang pintar, lu aja Togog. Itu kerumunan orang bisa nularin covid 19 lol. Mikir !!!!
Teks Bersih   : nyuruh orang pintar lu aja togog kerumun orang nularin covid lol mikir
--------------------------------------------