In [1]:
import pandas as pd
import re

df = pd.read_csv(
    "train_preprocess.txt",
    sep="\t",
    names=["kalimat", "sentiment"]
)
df

Unnamed: 0,kalimat,sentiment
0,warung ini dimiliki oleh pengusaha pabrik tahu...,positive
1,mohon ulama lurus dan k212 mmbri hujjah partai...,neutral
2,lokasi strategis di jalan sumatera bandung . t...,positive
3,betapa bahagia nya diri ini saat unboxing pake...,positive
4,duh . jadi mahasiswa jangan sombong dong . kas...,negative
...,...,...
10995,tidak kecewa,positive
10996,enak rasa masakan nya apalagi kepiting yang me...,positive
10997,hormati partai-partai yang telah berkoalisi,neutral
10998,"pagi pagi di tol pasteur sudah macet parah , b...",negative


In [5]:
# import csv files
# kamus abusive
abusive_data = pd.read_csv("csv_data/abusive.csv")
# kamus alay
kamus_alay_data = pd.read_csv("csv_data/alay.csv", encoding="latin-1")
kamus_alay_data.columns = ['alay', 'baku']
kamus_alay_dict = dict(zip(kamus_alay_data['alay'], kamus_alay_data['baku']))

In [6]:
def cleansing_text(text):
    # lowercase
    clean_text = str(text).lower()
    # clean URL
    clean_text = re.sub(r'(http\S+|www\S+)', '', clean_text)
    # clean punctuations
    clean_text = re.sub(r'[^a-zA-Z0-9\s]', ' ', clean_text)
    # clean multiple whitespace
    clean_text = ' '.join(clean_text.split())
    return clean_text

In [27]:
x = "H4hah4ha apa?? anjing 123 https://medium.com/@jorlugaqui/how-to-strip-html-tags-from-a-string-in-python-7cb81a2bbf44 #wkwkwk ada#apa"

y = cleansing_text(x)
y

'h4hah4ha apa anjing 123 wkwkwk ada apa'

In [28]:
def abusive_censor(text):
    for word in abusive_data['ABUSIVE']:
        if word == text:
            text = text.replace(word, '*' * 3)
    return text
def abusive_cleansing(text):
    clean_text = ' '.join([abusive_censor(i) for i in text.split()])
    return clean_text

In [29]:
y = abusive_cleansing(y)
y

'h4hah4ha apa *** 123 wkwkwk ada apa'

In [32]:
def alay_replace(text):
    for key, value in kamus_alay_dict.items():
        if key == text:
            text = text.replace(key, value)
    return text
def alay_cleansing(text):
    clean_text = ' '.join([alay_replace(j) for j in text.split()])
    return clean_text

In [33]:
z = "anak jakarta asik asik"
z = alay_cleansing(z)
z

'anak jakarta asyik asyik'

In [35]:
df['clean text'] = df['kalimat'].apply(cleansing_text)
df

Unnamed: 0,kalimat,sentiment,clean text,clean abusive
0,warung ini dimiliki oleh pengusaha pabrik tahu...,positive,warung ini dimiliki oleh pengusaha pabrik tahu...,warung ini dimiliki oleh pengusaha pabrik tahu...
1,mohon ulama lurus dan k212 mmbri hujjah partai...,neutral,mohon ulama lurus dan k212 mmbri hujjah partai...,mohon ulama lurus dan k212 mmbri hujjah partai...
2,lokasi strategis di jalan sumatera bandung . t...,positive,lokasi strategis di jalan sumatera bandung tem...,lokasi strategis di jalan sumatera bandung tem...
3,betapa bahagia nya diri ini saat unboxing pake...,positive,betapa bahagia nya diri ini saat unboxing pake...,betapa bahagia nya diri ini saat unboxing pake...
4,duh . jadi mahasiswa jangan sombong dong . kas...,negative,duh jadi mahasiswa jangan sombong dong kasih k...,duh jadi mahasiswa jangan sombong dong kasih k...
...,...,...,...,...
10995,tidak kecewa,positive,tidak kecewa,tidak kecewa
10996,enak rasa masakan nya apalagi kepiting yang me...,positive,enak rasa masakan nya apalagi kepiting yang me...,enak rasa masakan nya apalagi kepiting yang me...
10997,hormati partai-partai yang telah berkoalisi,neutral,hormati partai partai yang telah berkoalisi,hormati partai partai yang telah berkoalisi
10998,"pagi pagi di tol pasteur sudah macet parah , b...",negative,pagi pagi di tol pasteur sudah macet parah bik...,pagi pagi di tol pasteur sudah macet parah bik...


In [36]:
df['clean abusive'] = df['clean text'].apply(abusive_cleansing)
df

Unnamed: 0,kalimat,sentiment,clean text,clean abusive
0,warung ini dimiliki oleh pengusaha pabrik tahu...,positive,warung ini dimiliki oleh pengusaha pabrik tahu...,warung ini dimiliki oleh pengusaha pabrik tahu...
1,mohon ulama lurus dan k212 mmbri hujjah partai...,neutral,mohon ulama lurus dan k212 mmbri hujjah partai...,mohon ulama lurus dan k212 mmbri hujjah partai...
2,lokasi strategis di jalan sumatera bandung . t...,positive,lokasi strategis di jalan sumatera bandung tem...,lokasi strategis di jalan sumatera bandung tem...
3,betapa bahagia nya diri ini saat unboxing pake...,positive,betapa bahagia nya diri ini saat unboxing pake...,betapa bahagia nya diri ini saat unboxing pake...
4,duh . jadi mahasiswa jangan sombong dong . kas...,negative,duh jadi mahasiswa jangan sombong dong kasih k...,duh jadi mahasiswa jangan sombong dong kasih k...
...,...,...,...,...
10995,tidak kecewa,positive,tidak kecewa,tidak kecewa
10996,enak rasa masakan nya apalagi kepiting yang me...,positive,enak rasa masakan nya apalagi kepiting yang me...,enak rasa masakan nya apalagi kepiting yang me...
10997,hormati partai-partai yang telah berkoalisi,neutral,hormati partai partai yang telah berkoalisi,hormati partai partai yang telah berkoalisi
10998,"pagi pagi di tol pasteur sudah macet parah , b...",negative,pagi pagi di tol pasteur sudah macet parah bik...,pagi pagi di tol pasteur sudah macet parah bik...


In [7]:
df = pd.read_csv(
    "clean_data.csv",
    sep="\t",
)
df

Unnamed: 0.1,Unnamed: 0,kalimat,sentiment,clean text,clean abusive,clean alay,clean abusive alay
0,0,warung ini dimiliki oleh pengusaha pabrik tahu...,positive,warung ini dimiliki oleh pengusaha pabrik tahu...,warung ini dimiliki oleh pengusaha pabrik tahu...,warung ini dimiliki oleh pengusaha pabrik tahu...,warung ini dimiliki oleh pengusaha pabrik tahu...
1,1,mohon ulama lurus dan k212 mmbri hujjah partai...,neutral,mohon ulama lurus dan k212 mmbri hujjah partai...,mohon ulama lurus dan k212 mmbri hujjah partai...,mohon ulama lurus dan k212 mmbri hujjah partai...,mohon ulama lurus dan k212 mmbri hujjah partai...
2,2,lokasi strategis di jalan sumatera bandung . t...,positive,lokasi strategis di jalan sumatera bandung tem...,lokasi strategis di jalan sumatera bandung tem...,lokasi strategis di jalan sumatra bandung temp...,lokasi strategis di jalan sumatra bandung temp...
3,3,betapa bahagia nya diri ini saat unboxing pake...,positive,betapa bahagia nya diri ini saat unboxing pake...,betapa bahagia nya diri ini saat unboxing pake...,betapa bahagia nya diri ini saat unboxing pake...,betapa bahagia nya diri ini saat unboxing pake...
4,4,duh . jadi mahasiswa jangan sombong dong . kas...,negative,duh jadi mahasiswa jangan sombong dong kasih k...,duh jadi mahasiswa jangan sombong dong kasih k...,aduh jadi mahasiswa jangan sombong dong kasih ...,aduh jadi mahasiswa jangan sombong dong kasih ...
...,...,...,...,...,...,...,...
10995,10995,tidak kecewa,positive,tidak kecewa,tidak kecewa,tidak kecewa,tidak kecewa
10996,10996,enak rasa masakan nya apalagi kepiting yang me...,positive,enak rasa masakan nya apalagi kepiting yang me...,enak rasa masakan nya apalagi kepiting yang me...,enak rasa masakan nya apalagi kepiting yang me...,enak rasa masakan nya apalagi kepiting yang me...
10997,10997,hormati partai-partai yang telah berkoalisi,neutral,hormati partai partai yang telah berkoalisi,hormati partai partai yang telah berkoalisi,hormati partai partai yang telah berkoalisi,hormati partai partai yang telah berkoalisi
10998,10998,"pagi pagi di tol pasteur sudah macet parah , b...",negative,pagi pagi di tol pasteur sudah macet parah bik...,pagi pagi di tol pasteur sudah macet parah bik...,pagi pagi di tol pasteur sudah macet parah bik...,pagi pagi di tol pasteur sudah macet parah bik...


In [14]:
df_two = df[['clean text', 'sentiment']]
df_two

Unnamed: 0,clean text,sentiment
0,warung ini dimiliki oleh pengusaha pabrik tahu...,positive
1,mohon ulama lurus dan k212 mmbri hujjah partai...,neutral
2,lokasi strategis di jalan sumatera bandung tem...,positive
3,betapa bahagia nya diri ini saat unboxing pake...,positive
4,duh jadi mahasiswa jangan sombong dong kasih k...,negative
...,...,...
10995,tidak kecewa,positive
10996,enak rasa masakan nya apalagi kepiting yang me...,positive
10997,hormati partai partai yang telah berkoalisi,neutral
10998,pagi pagi di tol pasteur sudah macet parah bik...,negative
