In [None]:
# Nama     : Reza Aditya Prabowo
# NIM      : A11.2022.14201
# Kelompok : A11.4419

# Praktek Processing
# =============================
# ***Universitas Dian Nuswantoro***

In [None]:
# Load Library
import re
import string
import time
from copy import deepcopy

In [None]:
# Load dataset 
# Dataset ini menggunakan settimen dan emosi 
import pandas as pd

In [None]:
df = pd.read_csv('Dataset_Sentimen_Emosi.csv')

In [None]:
df.head()

In [None]:
df = df.drop(['Emosi'], axis=1)  # Menghapus kolom 'Emosi' dari dataframe

In [None]:
df

In [None]:
df.info()

In [None]:
# Preprocessing dataset
# Menggunakan modul AMS 01-03
from ekphrasis.classes.preprocessor import TextPreProcessor
from ekphrasis.classes.tokenizer import SocialTokenizer
from ekphrasis.dicts.emoticons import emoticons

# Inisialisasi TextPreProcessor dari ekphrasis untuk prapemrosesan teks
text_processor = TextPreProcessor(
    # terms that will be normalized
    normalize=['email', 'percent', 'money', 'phone', 'user',
        'time', 'date', 'number'],
    # terms that will be annotated
    # annotate={"hashtag", "allcaps", "elongated", "repeated",'emphasis', 'censored'},
    annotate={"hashtag"},
    fix_html=True,  # Memperbaiki token HTML
    
    # corpus from which the word statistics are going to be used 
    # for word segmentation 
    segmenter="twitter", 
    
    # corpus from which the word statistics are going to be used 
    # for spell correction
    corrector="twitter", 
    
    unpack_hashtags=True,  # Melakukan segmentasi kata pada hashtag
    unpack_contractions=True,  # Membuka kontraksi (contoh: can't -> can not)
    spell_correct_elong=False,  # Koreksi ejaan untuk kata yang diperpanjang
    
    # Pilih tokenizer. Bisa menggunakan SocialTokenizer, atau menggunakan tokenizer sendiri
    tokenizer=SocialTokenizer(lowercase=True).tokenize,
    
    # Daftar kamus, untuk mengganti token yang diekstraksi dari teks
    dicts=[emoticons]
)

In [None]:
# Fungsi untuk membersihkan data menggunakan ekphrasis
def bersih_data(text):
    return " ".join(text_processor.pre_process_doc(text))

In [None]:
# Fungsi untuk menghilangkan karakter non-ASCII
def non_ascii(text):
    return text.encode('ascii', 'replace').decode('ascii')

# Fungsi untuk menghilangkan spasi berlebih
def remove_space_alzami(text):
    return " ".join(text.split())

# Fungsi untuk menghilangkan emoji
def remove_emoji_alzami(text):
    return ' '.join(re.sub("([x#][A-Za-z0-9]+)", " ", text).split())

# Fungsi untuk menghilangkan karakter tab
def remove_tab(text):
    return text.replace('\\t', " ").replace('\\n', " ").replace('\\u', " ").replace('\\', "")

# Fungsi untuk menghilangkan spasi berlebih
def remove_tab2(text):
    return re.sub('\s+', ' ', text)

# Fungsi untuk menghilangkan 'RT' dari teks
def remove_rt(text):
    return text.replace('RT', " ")

# Fungsi untuk menghilangkan mention (@)
def remove_mention(text):
    return ' '.join(re.sub("([@#][A-Za-z0-9]+)|(\w+:\/\/\S+)", " ", text).split())

# Fungsi untuk menghilangkan URL yang tidak lengkap
def remove_incomplete_url(text):
    return text.replace("http://", " ").replace("https://", " ")

# Fungsi untuk menghilangkan karakter tunggal
def remove_single_char(text):
    return re.sub(r"\b[a-zA-Z]\b", "", text)

# Fungsi untuk menghilangkan titik berlebih
def remove_excessive_dot(text):
    return text.replace('..', " ")

# Fungsi untuk mengganti karakter strip dengan spasi
def change_stripe(text):
    return text.replace('-', " ")

# Fungsi untuk mengubah teks menjadi huruf kecil
def lower(text):
    return text.lower()

# Fungsi untuk menghilangkan whitespace di awal dan akhir teks
def remove_whitespace_LT(text):
    return text.strip()

# Fungsi untuk menghilangkan spasi berlebih di antara kata
def remove_whitespace_multiple(text):
    return re.sub('\s+', ' ', text)

# Fungsi untuk menghilangkan tanda baca kecuali underscore (_)
def remove_punctuation(text):
    remove = string.punctuation
    remove = remove.replace("_", "")  # Jangan menghapus underscore
    pattern = r"[{}]".format(remove)  # Buat pola
    return re.sub(pattern, "", text) 

In [None]:
# Fungsi untuk menghapus teks "<number>"
def remove_number_eks(text):
    return text.replace('<number>', " ")

# Fungsi untuk menghilangkan angka
def remove_angka(text):
    return re.sub(r"\d+", "", text) 

# Fungsi untuk menghapus teks "URL"
def remove_URL_eks(text):
    return text.replace('URL', " ").replace('url', " ")

# Fungsi untuk menambahkan spasi sebelum dan setelah tanda baca
def space_punctuation(text):
    return re.sub('(?<! )(?=[.,!?()])|(?<=[.,!?()])(?! )', r' ', text)

In [None]:
# Melakukan pembersihan dengan memanggil fungsi yang didefinisikan di atas
i = 0
final_string = []
s = ""
for text in df['Tweet'].values:
    filteredSentence = []
    EachReviewText = ""
    proc = remove_rt(text)
    proc = lower(proc)
    proc = change_stripe(proc)
    proc = remove_emoji_alzami(proc)
    proc = remove_tab(proc)
    proc = remove_tab2(proc)
    proc = non_ascii(proc)
    proc = remove_incomplete_url(proc)
    proc = remove_excessive_dot(proc)
    proc = remove_whitespace_LT(proc)
    proc = remove_whitespace_multiple(proc)
    proc = remove_single_char(proc)
    proc = space_punctuation(proc)
    proc = remove_punctuation(proc)
    proc = remove_space_alzami(proc)
    proc = bersih_data(proc)
    proc = remove_number_eks(proc)
    proc = remove_angka(proc) 
    proc = remove_URL_eks(proc)
    EachReviewText = proc
    final_string.append(EachReviewText)

In [None]:
df["step01"] = final_string

In [None]:
df.head(10)

In [None]:
df.info()

In [None]:
# Hapus Data Kosong
df_hapus = df[~df['step01'].str.contains(" ")]  # Memilih data yang tidak kosong

In [None]:
df_hapus.info()

In [None]:
df_hapus.head(10)

In [None]:
df_new = df[~df.isin(df_hapus)].dropna()  # Menghapus data kosong dari dataframe

In [None]:
df_new.info()

In [None]:
df_new

In [None]:
# Nomalisasi kata slang menjadi kata baku menggunakan token
import nltk
from nltk.tokenize import word_tokenize 

In [None]:
# Fungsi untuk tokenisasi teks
def word_tokenize_wrapper(text):
  return word_tokenize(text)

In [None]:
df_new['tokens'] = df['step01'].apply(word_tokenize_wrapper)  # Tokenisasi teks pada kolom 'step01'

In [None]:
df_new.head(10)

In [None]:
# Membaca kamus kata slang dan kata baku
normalized_word = pd.read_csv('kamus_clean.csv')

In [None]:
# Membuat dictionary untuk normalisasi kata
normalized_word_dict = {}
for index, row in normalized_word.iterrows():
    if row[0] not in normalized_word_dict:
        normalized_word_dict[row[0]] = row[1] 

# Fungsi untuk normalisasi istilah
def normalized_term(document):
    return [normalized_word_dict[term] if term in normalized_word_dict else term for term in document]

In [None]:
df_new['final_tokens'] = df_new['tokens'].apply(normalized_term)  # Menerapkan normalisasi istilah

In [None]:
i=0
final_string_tokens = []
for text in df_new['final_tokens'].values:
    EachReviewText = ""
    EachReviewText = ' '.join(text)
    final_string_tokens.append(EachReviewText)

In [None]:
df_new["step02"] = final_string_tokens

In [None]:
df_new.head(10)

In [None]:
# Menyimpan dataset yang sudah dibersihkan ke file CSV
df_new.to_csv('clean_dataset.csv', sep=";")