In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import nltk
import re
from collections import Counter
from nltk.tokenize import word_tokenize
from spellchecker import SpellChecker

nltk.download('punkt')

ModuleNotFoundError: No module named 'pandas'

In [9]:
file_path = '../data/train_preprocess.tsv'
train_data = pd.read_csv(file_path, sep='\t', header=None)

# Data Understanding
print('Data Size:', train_data.shape)
print('Sample Data:', train_data.head())
print('\nSentiment Distribution:', train_data[1].value_counts())

Data Size: (11000, 2)
Sample Data:                                                    0         1
0  warung ini dimiliki oleh pengusaha pabrik tahu...  positive
1  mohon ulama lurus dan k212 mmbri hujjah partai...   neutral
2  lokasi strategis di jalan sumatera bandung . t...  positive
3  betapa bahagia nya diri ini saat unboxing pake...  positive
4  duh . jadi mahasiswa jangan sombong dong . kas...  negative

Sentiment Distribution: 1
positive    6416
negative    3436
neutral     1148
Name: count, dtype: int64


In [10]:
# Label Splitting
x_train = train_data[0]
y_train = train_data[1]

print('x_train:\n', x_train)
print()
print('y_train:\n', y_train)

x_train:
 0        warung ini dimiliki oleh pengusaha pabrik tahu...
1        mohon ulama lurus dan k212 mmbri hujjah partai...
2        lokasi strategis di jalan sumatera bandung . t...
3        betapa bahagia nya diri ini saat unboxing pake...
4        duh . jadi mahasiswa jangan sombong dong . kas...
                               ...                        
10995                                         tidak kecewa
10996    enak rasa masakan nya apalagi kepiting yang me...
10997          hormati partai-partai yang telah berkoalisi
10998    pagi pagi di tol pasteur sudah macet parah , b...
10999    meskipun sering belanja ke yogya di riau junct...
Name: 0, Length: 11000, dtype: object

y_train:
 0        positive
1         neutral
2        positive
3        positive
4        negative
           ...   
10995    positive
10996    positive
10997     neutral
10998    negative
10999    positive
Name: 1, Length: 11000, dtype: object


In [11]:
# Data Preprocessing
# Lowercase
x_train = x_train.str.lower()

print('Lowercase:')
print(x_train)

Lowercase:
0        warung ini dimiliki oleh pengusaha pabrik tahu...
1        mohon ulama lurus dan k212 mmbri hujjah partai...
2        lokasi strategis di jalan sumatera bandung . t...
3        betapa bahagia nya diri ini saat unboxing pake...
4        duh . jadi mahasiswa jangan sombong dong . kas...
                               ...                        
10995                                         tidak kecewa
10996    enak rasa masakan nya apalagi kepiting yang me...
10997          hormati partai-partai yang telah berkoalisi
10998    pagi pagi di tol pasteur sudah macet parah , b...
10999    meskipun sering belanja ke yogya di riau junct...
Name: 0, Length: 11000, dtype: object


In [12]:
# Entity Masking
# Email Masking
email = re.compile('\w+@\w+\.[a-z]{3}')
emails_found = x_train.apply(lambda x: email.findall(x))
print('Emails Found:')
print(emails_found)

print()
x_train_mask = x_train.apply(lambda x: email.sub('_email_', x))
print('Email Masked:')
print(x_train_mask)

Emails Found:
0        []
1        []
2        []
3        []
4        []
         ..
10995    []
10996    []
10997    []
10998    []
10999    []
Name: 0, Length: 11000, dtype: object

Email Masked:
0        warung ini dimiliki oleh pengusaha pabrik tahu...
1        mohon ulama lurus dan k212 mmbri hujjah partai...
2        lokasi strategis di jalan sumatera bandung . t...
3        betapa bahagia nya diri ini saat unboxing pake...
4        duh . jadi mahasiswa jangan sombong dong . kas...
                               ...                        
10995                                         tidak kecewa
10996    enak rasa masakan nya apalagi kepiting yang me...
10997          hormati partai-partai yang telah berkoalisi
10998    pagi pagi di tol pasteur sudah macet parah , b...
10999    meskipun sering belanja ke yogya di riau junct...
Name: 0, Length: 11000, dtype: object


In [13]:
# Phone Number Masking
phone = re.compile(r'(\+?\d{1,2}[-.\s]?)?(\(?\d{3}\)?[-.\s]?)?\d{3}[-.\s]?\d{4}')
phones_found = x_train_mask.apply(lambda x: phone.findall(x))
print('Phones Found:')
print(phones_found)

print()
x_train_mask = x_train_mask.apply(lambda x: phone.sub('_phone_', x))
print('Phone Masked:')
print(x_train_mask)

Phones Found:
0        []
1        []
2        []
3        []
4        []
         ..
10995    []
10996    []
10997    []
10998    []
10999    []
Name: 0, Length: 11000, dtype: object

Phone Masked:
0        warung ini dimiliki oleh pengusaha pabrik tahu...
1        mohon ulama lurus dan k212 mmbri hujjah partai...
2        lokasi strategis di jalan sumatera bandung . t...
3        betapa bahagia nya diri ini saat unboxing pake...
4        duh . jadi mahasiswa jangan sombong dong . kas...
                               ...                        
10995                                         tidak kecewa
10996    enak rasa masakan nya apalagi kepiting yang me...
10997          hormati partai-partai yang telah berkoalisi
10998    pagi pagi di tol pasteur sudah macet parah , b...
10999    meskipun sering belanja ke yogya di riau junct...
Name: 0, Length: 11000, dtype: object


In [14]:
# Tokenization
x_train_tokenized = x_train.apply(word_tokenize)

print('Tokenization:')
print(x_train_tokenized)

Tokenization:
0        [warung, ini, dimiliki, oleh, pengusaha, pabri...
1        [mohon, ulama, lurus, dan, k212, mmbri, hujjah...
2        [lokasi, strategis, di, jalan, sumatera, bandu...
3        [betapa, bahagia, nya, diri, ini, saat, unboxi...
4        [duh, ., jadi, mahasiswa, jangan, sombong, don...
                               ...                        
10995                                      [tidak, kecewa]
10996    [enak, rasa, masakan, nya, apalagi, kepiting, ...
10997    [hormati, partai-partai, yang, telah, berkoalisi]
10998    [pagi, pagi, di, tol, pasteur, sudah, macet, p...
10999    [meskipun, sering, belanja, ke, yogya, di, ria...
Name: 0, Length: 11000, dtype: object


In [3]:
# Spelling Correction

# Load the spell checker with Indonesian words
spell = SpellChecker(language=None)  # No predefined language
spell.word_frequency.load_text_file('indonesian_words.txt')  # Load a custom word list

# Example text with spelling mistakes
text = "Jhon dan Allice sedang berkerja di Gogle."

# Tokenize text
tokens = text.split()

# Correct spelling for each token
corrected_tokens = [spell.correction(token) for token in tokens]

# Join the corrected tokens back into a single string
corrected_text = " ".join(corrected_tokens)

print("Original Text:", text)
print("Corrected Text:", corrected_text)


ModuleNotFoundError: No module named 'spellchecker'