Perbandingan NLTK dan spaCy

1. **Pendekatan Pemrosesan Teks**:
   - NLTK adalah pustaka pemrosesan string. Ini menerima string sebagai input dan mengembalikan string atau daftar string sebagai output. 
   - Sementara itu, spaCy menggunakan pendekatan berorientasi objek. Ketika kita memproses teks, spaCy mengembalikan objek dokumen yang di dalamnya kata-kata dan kalimat adalah objek tersendiri.

2. **Dukungan untuk Vektor Kata**:
   - spaCy mendukung vektor kata (word vectors), sedangkan NLTK tidak memiliki dukungan untuk ini.

3. **Tokenisasi Kata dan POS-Tagging**:
   - Dalam tokenisasi kata dan penandaan POS (Part-of-Speech), spaCy lebih baik daripada NLTK.
   - Namun, dalam tokenisasi kalimat, NLTK lebih unggul daripada spaCy.

4. **Dukungan Bahasa**:
   - NLTK mendukung berbagai bahasa.
   - spaCy memiliki model statistik untuk 7 bahasa (Inggris, Jerman, Spanyol, Prancis, Portugis, Italia, dan Belanda). Selain itu, spaCy juga mendukung pengenalan entitas bernama (named entities) untuk beberapa bahasa.

In [1]:
# token
import nltk
from nltk.tokenize import word_tokenize 

In [2]:
def word_tokenize_wrapper(text):
  return word_tokenize(text)

In [3]:
teks_nltk = word_tokenize_wrapper('Yahya beserta teman-teman TK suka melihat lumba-lumba di Batang Dolphin Center')

In [4]:
teks_nltk

['Yahya',
 'beserta',
 'teman-teman',
 'TK',
 'suka',
 'melihat',
 'lumba-lumba',
 'di',
 'Batang',
 'Dolphin',
 'Center']

In [6]:
pip install spacy

Collecting spacyNote: you may need to restart the kernel to use updated packages.

  Downloading spacy-3.8.4-cp312-cp312-win_amd64.whl.metadata (27 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Downloading spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Downloading spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Downloading murmurhash-1.0.12-cp312-cp312-win_amd64.whl.metadata (2.2 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Downloading cymem-2.0.11-cp312-cp312-win_amd64.whl.metadata (8.8 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Downloading preshed-3.0.9-cp312-cp312-win_amd64.whl.metadata (2.2 kB)
Collecting thinc<8.4.0,>=8.3.4 (from spacy)
  Downloading thinc-8.3.4-cp312-cp312-win_amd64.whl.metadata (15 kB)
Collecting wasabi<1.2.0,>=0.9.1 (from spacy)
  Downloading wasabi-1.1.3-py3-none-any.whl.metadata (28 kB)
Collecting srsly<3.0.0,>=


[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [8]:
from spacy.lang.id import Indonesian
import spacy

nlp = Indonesian()
nlp = spacy.blank('id')
Teks = nlp('Yahya beserta teman-teman TK suka melihat lumba-lumba di Batang Dolphin Center')

In [9]:
Token_kata = [token.text for token in Teks]

In [10]:
Token_kata

['Yahya',
 'beserta',
 'teman-teman',
 'TK',
 'suka',
 'melihat',
 'lumba-lumba',
 'di',
 'Batang',
 'Dolphin',
 'Center']

In [11]:
import re
import string
import time
from copy import deepcopy
import pandas as pd

In [12]:
df = pd.read_csv('Dataset_Sentimen_Emosi.csv')

In [13]:
df.head()

Unnamed: 0,Tweet,Sentimen,Emosi
0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0,1
1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0,-1
2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0,1
3,Covid belum nyampe prigen mbak hmm hoax,0.0,-2
4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0,-2


In [14]:
df = df.drop(['Emosi'], axis=1)

In [15]:
df

Unnamed: 0,Tweet,Sentimen
0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0
1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0
2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0
3,Covid belum nyampe prigen mbak hmm hoax,0.0
4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0
...,...,...
899,Seluruh negara di dunia mengalami masa sulit k...,1.0
900,"Setelah covid dan skripsi disaster selesai, ma...",1.0
901,"Malam ini!! Projek ""BENDA BOLEH BINCANG"" 9 mal...",0.0
902,Pontang - panting di koyak covid 19,-1.0


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 904 entries, 0 to 903
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Tweet     904 non-null    object 
 1   Sentimen  903 non-null    float64
dtypes: float64(1), object(1)
memory usage: 14.3+ KB


In [18]:
from ekphrasis.classes.preprocessor import TextPreProcessor
from ekphrasis.classes.tokenizer import SocialTokenizer
from ekphrasis.dicts.emoticons import emoticons

text_processor = TextPreProcessor(
    # istilah-istilah yang akan dinormalisasi (disesuaikan)
    normalize=['email', 'percent', 'money', 'phone', 'user', 'time', 'date', 'number'],
    
    # istilah-istilah yang akan diberi anotasi (penanda khusus)
    annotate={"hashtag"},  # hanya hashtag yang akan dianotasi
    
    fix_html=True,  # memperbaiki token HTML yang rusak
    
    # pemisahan kata menggunakan data dari Twitter
    segmenter="twitter", 
    
    # koreksi ejaan menggunakan data dari Twitter
    corrector="twitter", 
    
    # memisahkan kata dalam hashtag
    unpack_hashtags=True,  # misalnya, #belajarkoding jadi 'belajar koding'
    
    # membongkar kontraksi (kata yang dipersingkat), misalnya 'can't' jadi 'can not'
    unpack_contractions=True,  
    
    # tidak melakukan koreksi untuk kata yang terlalu panjang
    spell_correct_elong=False,  # misalnya 'sooooo' tetap jadi 'so'
    
    # memilih pengurai kata (tokenizer), menggunakan SocialTokenizer yang disesuaikan untuk teks media sosial
    tokenizer=SocialTokenizer(lowercase=True).tokenize,
    
    # kamus untuk mengganti token dalam teks (misalnya emotikon)
    dicts=[emoticons]  # mengganti emotikon dengan bentuk yang lebih sesuai
)

  self.tok = re.compile(r"({})".format("|".join(pipeline)))


Reading twitter - 1grams ...
Reading twitter - 2grams ...


  regexes = {k.lower(): re.compile(self.expressions[k]) for k, v in


Reading twitter - 1grams ...


In [19]:
# panggil ekphrasis

def bersih_data(text):
    return " ".join(text_processor.pre_process_doc(text))

In [20]:
def non_ascii(text):
    # Fungsi ini menghapus karakter non-ASCII dalam teks dan menggantinya dengan karakter pengganti
    return text.encode('ascii', 'replace').decode('ascii')

def remove_space_alzami(text):
    # Fungsi ini menghapus spasi ekstra dan memastikan hanya ada satu spasi antar kata
    return " ".join(text.split())

def remove_emoji_alzami(text):
    # Fungsi ini menghapus emoji dan menggantinya dengan spasi
    return ' '.join(re.sub("([x#][A-Za-z0-9]+)", " ", text).split())

def remove_tab(text):
    # Fungsi ini mengganti karakter tab (\t), baris baru (\n), karakter Unicode (\u), dan backslash (\) dengan spasi atau menghapusnya
    return text.replace('\\t', " ").replace('\\n', " ").replace('\\u', " ").replace('\\', "")

def remove_tab2(text):
    # Fungsi ini mengganti lebih dari satu spasi dengan satu spasi
    return re.sub('\s+', ' ', text)

def remove_rt(text):
    # Fungsi ini menghapus kata 'rt' dari teks
    return text.replace('rt', " ")

def remove_mention(text):
    # Fungsi ini menghapus mention (@username) dan URL dalam teks
    return ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)", " ", text).split())

def remove_incomplete_url(text):
    # Fungsi ini menghapus URL yang diawali dengan 'http://' atau 'https://'
    return text.replace("http://", " ").replace("https://", " ")

def remove_single_char(text):
    # Fungsi ini menghapus karakter tunggal (huruf) dalam teks
    return re.sub(r"\b[a-zA-Z]\b", "", text)

def remove_excessive_dot(text):
    # Fungsi ini mengganti titik ganda (..) menjadi spasi
    return text.replace('..', " ")

def change_stripe(text):
    # Fungsi ini mengganti tanda minus (-) dengan spasi
    return text.replace('-', " ")

def lower(text):
    # Fungsi ini mengubah semua huruf dalam teks menjadi huruf kecil
    return text.lower()

def remove_whitespace_LT(text):
    # Fungsi ini menghapus spasi di awal dan akhir teks
    return text.strip()

def remove_whitespace_multiple(text):
    # Fungsi ini mengganti lebih dari satu spasi dengan satu spasi
    return re.sub('\s+', ' ', text)

def remove_punctuation(text):
    # Fungsi ini menghapus tanda baca dari teks, kecuali garis bawah (_)
    remove = string.punctuation
    remove = remove.replace("_", "")  # Jangan hapus garis bawah
    pattern = r"[{}]".format(remove)  # Membuat pola untuk tanda baca
    return re.sub(pattern, "", text)  # Menghapus tanda baca sesuai pola

  return re.sub('\s+', ' ', text)
  return ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)", " ", text).split())
  return re.sub('\s+', ' ', text)


In [21]:
# hapus untuk <>
def remove_number_eks(text):
    return text.replace('<number>'," ")

def remove_angka(text):
    return re.sub(r"\d+", "", text) 

def remove_URL_eks(text):
    return text.replace('URL'," ").replace('url'," ")

def space_punctuation(text):
    return re.sub('(?<! )(?=[.,!?()])|(?<=[.,!?()])(?! )', r' ', text)

In [22]:
i = 0
final_string = []
s = ""
for text in df['Tweet'].values:
    filteredSentence = []
    EachReviewText = ""
    proc = lower(text)
    proc = change_stripe(text)
    proc = remove_emoji_alzami(proc)
    proc = remove_tab(proc)
    proc = remove_tab2(proc)
    proc = non_ascii(proc)
    proc = remove_incomplete_url(proc)
    proc = remove_excessive_dot(proc)
    proc = remove_whitespace_LT(proc)
    proc = remove_whitespace_multiple(proc)
    proc = remove_single_char(proc)
    proc = space_punctuation(proc)
    proc = remove_punctuation(proc)
    proc = remove_space_alzami(proc)
    proc = bersih_data(proc)
    #proc = remove_rt(proc)
    proc = remove_number_eks(proc)
    proc = remove_angka(proc) 
    proc = remove_URL_eks(proc)
    EachReviewText = proc
    final_string.append(EachReviewText)

In [23]:
df["step01"] = final_string

In [24]:
df.head(10)

Unnamed: 0,Tweet,Sentimen,step01
0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0,cegah mata rantai covid mari kita dirumah sa...
1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0,aku mohon yaallah semoga wabah covid menghil...
2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0,pemprov papua naikkan status jadi tanggap daru...
3,Covid belum nyampe prigen mbak hmm hoax,0.0,covid belum nyampe prigen mbak hmm hoax
4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0,nyuruh orang pintar lu aja togog itu kerumunan...
5,Pikir2 balik byk mnde plk nk setelkn lepas covid.,0.0,pikir balik byk mnde plk nk setelkn lepas covid
6,"Selamat pagi, hari jum'at. Jum'at keempat di k...",1.0,selamat pagi hari jumat jumat keempat di kala ...
7,"Hikmah di balik musibah covid-19, smg para pej...",1.0,hikmah di balik musibah covid smg para pejab...
8,Cegah covid-19 beserta jajaran Polsek Kuranji ...,1.0,cegah covid beserta jajaran polsek kuranji m...
9,Ya Allah kami memohon pada mu perkenankanlah d...,1.0,ya allah kami memohon pada mu perkenankanlah d...


In [25]:
# Hapus data kosong
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 904 entries, 0 to 903
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Tweet     904 non-null    object 
 1   Sentimen  903 non-null    float64
 2   step01    904 non-null    object 
dtypes: float64(1), object(2)
memory usage: 21.3+ KB


In [26]:
df_hapus = df[~df['step01'].str.contains(" ")]

In [27]:
df_hapus.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1 entries, 78 to 78
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Tweet     1 non-null      object 
 1   Sentimen  1 non-null      float64
 2   step01    1 non-null      object 
dtypes: float64(1), object(2)
memory usage: 32.0+ bytes


In [28]:
df_hapus.head(10)

Unnamed: 0,Tweet,Sentimen,step01
78,covid,0.0,covid


In [29]:
df_new = df[~df.isin(df_hapus)].dropna()

In [30]:
df_new.info()

<class 'pandas.core.frame.DataFrame'>
Index: 902 entries, 0 to 903
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Tweet     902 non-null    object 
 1   Sentimen  902 non-null    float64
 2   step01    902 non-null    object 
dtypes: float64(1), object(2)
memory usage: 28.2+ KB


In [31]:
df_new

Unnamed: 0,Tweet,Sentimen,step01
0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0,cegah mata rantai covid mari kita dirumah sa...
1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0,aku mohon yaallah semoga wabah covid menghil...
2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0,pemprov papua naikkan status jadi tanggap daru...
3,Covid belum nyampe prigen mbak hmm hoax,0.0,covid belum nyampe prigen mbak hmm hoax
4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0,nyuruh orang pintar lu aja togog itu kerumunan...
...,...,...,...
899,Seluruh negara di dunia mengalami masa sulit k...,1.0,seluruh negara di dunia mengalami masa sulit k...
900,"Setelah covid dan skripsi disaster selesai, ma...",1.0,setelah covid dan skripsi disaster selesai mau...
901,"Malam ini!! Projek ""BENDA BOLEH BINCANG"" 9 mal...",0.0,malam ini projek benda boleh bincang malam d...
902,Pontang - panting di koyak covid 19,-1.0,pontang panting di koyak covid


In [32]:
# Normalisasi kata slang menjadi kata baku
import nltk
from nltk.tokenize import word_tokenize 

In [33]:
def word_tokenize_wrapper(text):
  return word_tokenize(text)

In [34]:
df_new['tokens'] = df['step01'].apply(word_tokenize_wrapper)

In [35]:
df_new.head(10)

Unnamed: 0,Tweet,Sentimen,step01,tokens
0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0,cegah mata rantai covid mari kita dirumah sa...,"[cegah, mata, rantai, covid, mari, kita, dirum..."
1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0,aku mohon yaallah semoga wabah covid menghil...,"[aku, mohon, yaallah, semoga, wabah, covid, me..."
2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0,pemprov papua naikkan status jadi tanggap daru...,"[pemprov, papua, naikkan, status, jadi, tangga..."
3,Covid belum nyampe prigen mbak hmm hoax,0.0,covid belum nyampe prigen mbak hmm hoax,"[covid, belum, nyampe, prigen, mbak, hmm, hoax]"
4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0,nyuruh orang pintar lu aja togog itu kerumunan...,"[nyuruh, orang, pintar, lu, aja, togog, itu, k..."
5,Pikir2 balik byk mnde plk nk setelkn lepas covid.,0.0,pikir balik byk mnde plk nk setelkn lepas covid,"[pikir, balik, byk, mnde, plk, nk, setelkn, le..."
6,"Selamat pagi, hari jum'at. Jum'at keempat di k...",1.0,selamat pagi hari jumat jumat keempat di kala ...,"[selamat, pagi, hari, jumat, jumat, keempat, d..."
7,"Hikmah di balik musibah covid-19, smg para pej...",1.0,hikmah di balik musibah covid smg para pejab...,"[hikmah, di, balik, musibah, covid, smg, para,..."
8,Cegah covid-19 beserta jajaran Polsek Kuranji ...,1.0,cegah covid beserta jajaran polsek kuranji m...,"[cegah, covid, beserta, jajaran, polsek, kuran..."
9,Ya Allah kami memohon pada mu perkenankanlah d...,1.0,ya allah kami memohon pada mu perkenankanlah d...,"[ya, allah, kami, memohon, pada, mu, perkenank..."


In [36]:
normalized_word = pd.read_csv('kamus_clean.csv')

In [37]:
normalized_word_dict = {}

for index, row in normalized_word.iterrows():
    if row[0] not in normalized_word_dict:
        normalized_word_dict[row[0]] = row[1] 

def normalized_term(document):
    return [normalized_word_dict[term] if term in normalized_word_dict else term for term in document]

  if row[0] not in normalized_word_dict:
  normalized_word_dict[row[0]] = row[1]


In [38]:
df_new['final_tokens'] = df_new['tokens'].apply(normalized_term)

In [39]:
i=0
final_string_tokens = []
for text in df_new['final_tokens'].values:
    EachReviewText = ""
    EachReviewText = ' '.join(text)
    final_string_tokens.append(EachReviewText)

In [40]:
df_new["step02"] = final_string_tokens

In [41]:
df_new.head(10)

Unnamed: 0,Tweet,Sentimen,step01,tokens,final_tokens,step02
0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0,cegah mata rantai covid mari kita dirumah sa...,"[cegah, mata, rantai, covid, mari, kita, dirum...","[cegah, mata, rantai, covid, mari, kita, dirum...",cegah mata rantai covid mari kita dirumah saja...
1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0,aku mohon yaallah semoga wabah covid menghil...,"[aku, mohon, yaallah, semoga, wabah, covid, me...","[aku, mohon, yaallah, semoga, wabah, covid, me...",aku mohon yaallah semoga wabah covid menghilan...
2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0,pemprov papua naikkan status jadi tanggap daru...,"[pemprov, papua, naikkan, status, jadi, tangga...","[pemprov, papua, naikkan, status, jadi, tangga...",pemprov papua naikkan status jadi tanggap daru...
3,Covid belum nyampe prigen mbak hmm hoax,0.0,covid belum nyampe prigen mbak hmm hoax,"[covid, belum, nyampe, prigen, mbak, hmm, hoax]","[covid, belum, nyampe, prigen, mbak, hmm, hoax]",covid belum nyampe prigen mbak hmm hoax
4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0,nyuruh orang pintar lu aja togog itu kerumunan...,"[nyuruh, orang, pintar, lu, aja, togog, itu, k...","[nyuruh, orang, pintar, lu, aja, togog, itu, k...",nyuruh orang pintar lu aja togog itu kerumunan...
5,Pikir2 balik byk mnde plk nk setelkn lepas covid.,0.0,pikir balik byk mnde plk nk setelkn lepas covid,"[pikir, balik, byk, mnde, plk, nk, setelkn, le...","[pikir, balik, byk, mnde, plk, nk, setelkn, le...",pikir balik byk mnde plk nk setelkn lepas covid
6,"Selamat pagi, hari jum'at. Jum'at keempat di k...",1.0,selamat pagi hari jumat jumat keempat di kala ...,"[selamat, pagi, hari, jumat, jumat, keempat, d...","[selamat, pagi, hari, jumat, jumat, keempat, d...",selamat pagi hari jumat jumat keempat di kala ...
7,"Hikmah di balik musibah covid-19, smg para pej...",1.0,hikmah di balik musibah covid smg para pejab...,"[hikmah, di, balik, musibah, covid, smg, para,...","[hikmah, di, balik, musibah, covid, smg, para,...",hikmah di balik musibah covid smg para pejabat...
8,Cegah covid-19 beserta jajaran Polsek Kuranji ...,1.0,cegah covid beserta jajaran polsek kuranji m...,"[cegah, covid, beserta, jajaran, polsek, kuran...","[cegah, covid, beserta, jajaran, polsek, kuran...",cegah covid beserta jajaran polsek kuranji mel...
9,Ya Allah kami memohon pada mu perkenankanlah d...,1.0,ya allah kami memohon pada mu perkenankanlah d...,"[ya, allah, kami, memohon, pada, mu, perkenank...","[ya, allah, kami, memohon, pada, mu, perkenank...",ya allah kami memohon pada mu perkenankanlah d...


In [42]:
# Simpan
df.to_csv('clean_dataset2.csv',sep=";")