Preprocesing Text menggunakan NLTK

Nicholaus Verdhy || A11.2020.12447

# Penjelasan Singkat mengenai NLTK

NLTK adalah kumpulan alat dan program yang digunakan untuk memproses dan menganalisis bahasa alami (NLP) dalam bahasa Inggris. Ini ditulis dalam bahasa pemrograman Python dan digunakan untuk tugas-tugas NLP yang melibatkan analisis teks dan statistik[1]

# Project 1 : Preprocessing dengan NLTK

## Import Library

In [1]:
import re
import string
import time
import pandas as pd
from copy import deepcopy


#Untuk Preprocessing Data nya
from ekphrasis.classes.preprocessor import TextPreProcessor
from ekphrasis.classes.tokenizer import SocialTokenizer
from ekphrasis.dicts.emoticons import emoticons

#import nltk
import nltk
from nltk.tokenize import word_tokenize

#ignore warning
import warnings
warnings.filterwarnings('ignore')

Penjelasan untuk setiap library
- `import re` digunakan untuk bekerja dengan ekspresi reguler (regular expressions), yang memungkinkan Anda untuk melakukan pencarian dan manipulasi teks berdasarkan pola-pola tertentu.digunakan untuk pencarian dan manipulasi teks berdasarkan pola pola tertentu
- `import string` digunakan dalam manipulasi teks, seperti menghapus tanda baca atau mengoperasikan karakter-karakter tertentu 
- `import time` digunakan untuk bekerja dengan waktu dan tanggal dalam Python.
- `import pandas` digunakan untuk memuat dataset yang ada
- `from copy import deepcopy`  ini gunanya, ketika kita melakukan duplikasi dari objek, maka hasil duplikasinya adalah objek baru dan tidak terpengaruhi oleh objek lama
- `from ekphrasis.classes.preprocessor import TextPreProcessor` untuk melakukan berbagai tugas pemrosesan teks, terutama pada teks yang berasal dari media sosial.
- `from ekphrasis.classes.tokenizer import SocialTokenizer`adalah tokenizer yang digunakan untuk membagi teks menjadi kata-kata
- `from ekphrasis.dicts.emoticons import emoticons` adalah kamus yang mungkin digunakan untuk mengganti emotikon dengan kata-kata yang sesuai.
- `import nltk` adalah pernyataan impor untuk mengimpor modul NLTK (Natural Language Toolkit), yang merupakan pustaka yang digunakan dalam pemrosesan bahasa alami (NLP)
- `from nltk.tokenize import word_tokenize` adalah salah satu alat dalam NLTK yang digunakan untuk membagi teks menjadi kata-kata atau token. 
- `import warning` mengabaikan warning

## Loading Dataset

In [2]:
df = pd.read_csv("Dataset_Sentimen_Emosi.csv")

In [3]:
df.head()

Unnamed: 0,Tweet,Sentimen,Emosi
0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0,1
1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0,-1
2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0,1
3,Covid belum nyampe prigen mbak hmm hoax,0.0,-2
4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0,-2


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 904 entries, 0 to 903
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Tweet     904 non-null    object 
 1   Sentimen  903 non-null    float64
 2   Emosi     904 non-null    int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 21.3+ KB


Deskripsi Kolom:

`Tweet` : Isi hasil tweet orang di twiter

`Sentimen`  : mengindikasikan sentimen atau perasaan yang terkait dengan setiap tweet. Sentimen dapat berupa positif, negatif, netral, atau mungkin memiliki label lebih rinci seperti senang, marah, sedih, dan lain-lain.

`Emosi`      : sama seperti sentimen

## Preprocessing Data

Sumber modul : https://github.com/cbaziotis/ekphrasis 

Modulnya ekphrasis

In [5]:
text_processor = TextPreProcessor(
    # terms that will be normalized
    normalize=['email', 'percent', 'money', 'phone', 'user',
        'time', 'date', 'number'],
    # terms that will be annotated
    #annotate={"hashtag", "allcaps", "elongated", "repeated",'emphasis', 'censored'},
    annotate={"hashtag"},
    fix_html=True,  # fix HTML tokens
    
    # corpus from which the word statistics are going to be used 
    # for word segmentation 
    segmenter="twitter", 
    
    # corpus from which the word statistics are going to be used 
    # for spell correction
    corrector="twitter", 
    
    unpack_hashtags=True,  # perform word segmentation on hashtags
    unpack_contractions=True,  # Unpack contractions (can't -> can not)
    spell_correct_elong=False,  # spell correction for elongated words
    
    # select a tokenizer. You can use SocialTokenizer, or pass your own
    # the tokenizer, should take as input a string and return a list of tokens
    tokenizer=SocialTokenizer(lowercase=True).tokenize,
    
    # list of dictionaries, for replacing tokens extracted from the text,
    # with other expressions. You can pass more than one dictionaries.
    dicts=[emoticons]
)


Reading twitter - 1grams ...
Reading twitter - 2grams ...
Reading twitter - 1grams ...


PENJELASAN SINGKAT  TEXT_PROCESOR DARI EKPHARASIS

Jadi **`TextPreProcessor`** adalah pustaka dari Ekpharasis. TextPreProcessing ini digunakan untuk memproses teks dalam berbagai cara sesuai dengan konfigurasi yang telah ditentukan. Teks yang diambil biasanya diambil dari media sosial.

1. `normalize` : ini adalah kata kata yang dinormalisasikan dalam teks. Yang nantinya mengubah kata kata/ frasa tertentu menjadi bentuk yang lebih umum. Misal di dalam kode kita ada email, percent, money, phoinoe dan linnya. jika kita memiliki kalimat " Nico mempuinyai email nicho@gmail.com dengan nomor hp 00000" maka akan dinormalisasikan menjadi : `<user>`Nicho`<user>` mempunyai email `<email>`nicho@gmail.com`<email>` dengan nomor hp `<phone>` 00000`<phone>` .

2. `annotate` : ini gunanya untuk mengubah bentuk yang diberi anotasi didalam kata/ kalimat. Anotasinya berupa  hastag (hastag), berupapengulaaaaaan (elonganted), KAPITALSMUA (allcaps), Woo woo woo (repeated), Amazing!!!!(Emphasis), F** and S**t (censored). hasil nya nanti seperti notmalize. Kata tersebut akan dinormalisasikan

3. `fix_html` : fix html ini digunakan perbaiakan token token html dalam teks.

4. `segmenter` dan `corrector` : segementer lebih untuk menyuruh ekpharasis untuk menggunakan korpus bahasa yang biasanya ada di twitter, lalu corrector melakukan koreksi ejaan yang bereferensikan dari twitter.

5. `unpack_hashtags=True` : Dengan pengaturan ini, Ekphrasis akan melakukan pemisahan kata pada hashtag. dari #contoh menjadi 'contoh'

6. `unpack_contractions=True` : Dengan pengaturan ini, Ekphrasis akan melakukan pemisahan pada kontraksi bahasa. Misalnya, kontraksi "can't" akan dipisahkan menjadi "can" dan "not."

7. `spell_correct_elong=False` : Jika diatur sebagai `True` , Ekphrasis akan melakukan koreksi ejaan pada kata-kata yang memiliki karakter pengulangan (seperti "sooo" menjadi "so"). Namun, dalam pengaturan ini (diatur sebagai False), koreksi ejaan untuk kata-kata yang diulang tidak akan dilakukan.

8. `tokenizer`: Ini adalah konfigurasi untuk pemilihan tokenizer yang digunakan dalam pemrosesan teks. Mmenggunakan SocialTokenizer dengan opsi `lowercase=True`. Tokenizer ini akan **memecah teks** menjadi sejumlah token berdasarkan **spasi**, dan semua token akan **dikonversi menjadi huruf kecil (lowercase)**.

9. `dicts=[emoticons]` : Ini adalah konfigurasi yang memungkinkan Anda untuk mengganti token dalam teks dengan ekspresi lain. Dalam pengaturan ini, emoticons digunakan sebagai kamus untuk mengganti emotikon dalam teks dengan ekspresi tertentu.

In [6]:
# panggil ekphrasis

def bersih_data(text):
    return " ".join(text_processor.pre_process_doc(text))

# fungsi dari AMS 01-03.

def non_ascii(text):
    return text.encode('ascii', 'replace').decode('ascii')

def remove_space_alzami(text):
    return " ".join(text.split())

def remove_emoji_alzami(text):
    return ' '.join(re.sub("([x#][A-Za-z0-9]+)"," ", text).split())

def remove_tab(text):
    return text.replace('\\t'," ").replace('\\n'," ").replace('\\u'," ").replace('\\',"")

def remove_tab2(text):
    return re.sub('\s+',' ',text)

def remove_rt(text):
    return text.replace('RT'," ")

def remove_mention(text):
    return ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)"," ", text).split())

def remove_incomplete_url(text):
    return text.replace("http://", " ").replace("https://", " ")

def remove_single_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

def remove_excessive_dot(text):
    return text.replace('..'," ")

def change_stripe(text):
    return text.replace('-'," ")

def lower(text):
    return text.lower()

def remove_single_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

def remove_excessive_dot(text):
    return text.replace('..'," ")

def lower(text):
    return text.lower()

def remove_whitespace_LT(text):
    return text.strip()

def remove_whitespace_multiple(text):
    return re.sub('\s+',' ',text)

def remove_punctuation(text):
    remove = string.punctuation
    remove = remove.replace("_", "") 
    pattern = r"[{}]".format(remove) 
    return re.sub(pattern, "", text) 

# hapus untuk <>
def remove_number_eks(text):
    return text.replace('<number>'," ")

def remove_angka(text):
    return re.sub(r"\d+", "", text) 

def remove_URL_eks(text):
    return text.replace('URL'," ").replace('url'," ")

def space_punctuation(text):
    return re.sub('(?<! )(?=[.,!?()])|(?<=[.,!?()])(?! )', r' ', text)

# Referensi

[1]	E. J. Rifano, A. C. Fauzan, A. Makhi, E. Nadya, Z. Nasikin, and F. N. Putra, “Text Summarization Menggunakan Library Natural Language Toolkit (NLTK) Berbasis Pemrograman Python,” Ilk. J. Comput. Sci. Appl. Inform., vol. 2, no. 1, Art. no. 1, Apr. 2020, doi: 10.28926/ilkomnika.v2i1.32.

