# Case Folding
Case folding untuk menjadikan string data ke lowercase, menghilangkan angka, menghilangkan tanda baca, menghilangkan karakter kosong, dan
memisahkan string menjadi kata


In [12]:
import pandas as pd
import string

df = pd.read_csv('Dataset_Sentimen_Emosi.csv')

#Fungsi untuk Case Folding & Split

def text_preprocessing(text):

    #Case Folding untuk menjadikan kalimat menjadi huruf kecil
    text = text.lower()

    #Case Folding untuk remove angka
    text = text.translate(str.maketrans('', '', string.punctuation + '0123456789'))

    #Case Folding untuk menghilangkan karakter kosong
    text = ' '.join(text.split())

    #split kalimat menjadi kata
    split_text = text.split()

    return ' '.join(split_text)

#Preprocessing Dataset Sentimen
df['Processed_Tweet'] = df['Tweet'].apply(text_preprocessing)

#Save Data baru ke CSV
df.to_csv('Case Folding dan Split/case_folding_split_data.csv', index=False)

print(df[['Tweet', 'Processed_Tweet']].head())

                                               Tweet  \
0  Cegah mata rantai Covid-19,mari kita dirumah s...   
1  aku mohon yaAllah semoga wabah covid-19 menghi...   
2  Pemprov Papua Naikkan Status Jadi Tanggap Daru...   
3            Covid belum nyampe prigen mbak hmm hoax   
4  Nyuruh orang pintar, lu aja Togog. Itu kerumun...   

                                     Processed_Tweet  
0  cegah mata rantai covidmari kita dirumah saja ...  
1  aku mohon yaallah semoga wabah covid menghilan...  
2  pemprov papua naikkan status jadi tanggap daru...  
3            covid belum nyampe prigen mbak hmm hoax  
4  nyuruh orang pintar lu aja togog itu kerumunan...  


# Tokenization

Code untuk mengubah kalimat kalimat yang telah diproses sebelumnya menjadi token token

In [13]:
#Split data yang sudah diproses tadi menjadi token token
df['Tokenized_Tweet'] = df['Processed_Tweet'].apply(lambda x: x.split())

#Save perbandingan data ke file CSV Baru
df[['Processed_Tweet', 'Tokenized_Tweet']].to_csv('Tokenized Data/clean_tokenized_tweet_data.csv', index=False)

#Tampilan beberapa baris untuk evaluasi proses tokenization
df[['Processed_Tweet', 'Tokenized_Tweet']].head()


Unnamed: 0,Processed_Tweet,Tokenized_Tweet
0,cegah mata rantai covidmari kita dirumah saja ...,"[cegah, mata, rantai, covidmari, kita, dirumah..."
1,aku mohon yaallah semoga wabah covid menghilan...,"[aku, mohon, yaallah, semoga, wabah, covid, me..."
2,pemprov papua naikkan status jadi tanggap daru...,"[pemprov, papua, naikkan, status, jadi, tangga..."
3,covid belum nyampe prigen mbak hmm hoax,"[covid, belum, nyampe, prigen, mbak, hmm, hoax]"
4,nyuruh orang pintar lu aja togog itu kerumunan...,"[nyuruh, orang, pintar, lu, aja, togog, itu, k..."


# Token Misspell Correction
Code untuk mengubah Typo pada token menggunakan kamus kata yang diperbaiki

In [14]:
import pandas as pd

#Read data kamus untuk membenahi token
dictionary_df = pd.read_csv('kamus_clean.csv')

dictionary = dict(zip(dictionary_df['TIDAK BAKU'], dictionary_df['BAKU']))

#Fungsi untuk membenahi token
def check_token(tokens, dictionary):
    corrected_token = [dictionary.get(token, token) for token in tokens]
    return corrected_token

#Block Kode untuk Membenahi Token
df['Corrected_Token'] = df['Tokenized_Tweet'].apply(lambda tokens: check_token(tokens, dictionary))
df['Corrected_Token'] = df['Corrected_Token'].apply(lambda tokens: ' '.join(tokens))
df['Corrected_Token'] = df['Corrected_Token'].apply(lambda x: x.split())

#Save Token ke CSV untuk Token yang sudah dipreprocess
df[['Tokenized_Tweet', 'Corrected_Token']].to_csv('Clean Token/clean_token.csv', index=False)

#Print beberapa sample
df[['Tokenized_Tweet', 'Corrected_Token']].head()

Unnamed: 0,Tokenized_Tweet,Corrected_Token
0,"[cegah, mata, rantai, covidmari, kita, dirumah...","[cegah, mata, rantai, covidmari, kita, di, rum..."
1,"[aku, mohon, yaallah, semoga, wabah, covid, me...","[aku, mohon, ya, allah, semoga, wabah, covid, ..."
2,"[pemprov, papua, naikkan, status, jadi, tangga...","[pemerintah, provinsi, papua, naikan, status, ..."
3,"[covid, belum, nyampe, prigen, mbak, hmm, hoax]","[covid, belum, sampai, prigen, mbak, hem, hoaks]"
4,"[nyuruh, orang, pintar, lu, aja, togog, itu, k...","[menyuruh, orang, pintar, lu, aja, togog, itu,..."
