# Dataset Merging

In [1]:
import pandas as pd

In [3]:
# Load Dataset A and Dataset B
df_a = pd.read_csv('autolabelled_dataset_v.csv')
df_b = pd.read_csv('train.csv')

# Merge the datasets based on 'text' column
merged_data = pd.merge(df_a, df_b[['text', 'label']], on='text', how='outer', suffixes=('_A', '_B'))
merged_data

Unnamed: 0,text,label_A,label_B
0,Bener2 ini jumat berkah dari malem ketemu male...,0.0,
1,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0,
2,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0,
3,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0,
4,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0,
...,...,...,...
28025,Volume kubah lava di sektor barat daya sebesar...,,1.0
28026,kelar wfh udah minta ganti tuh laptop,,0.0
28027,waktu gempa di bali baru baru ini sebelumnya a...,,0.0
28028,Angin Puting Beliung Rusak Puluhan Rumah di Ma...,,1.0


In [4]:
# Update the 'label' column in Dataset A with values from Dataset B
merged_data['label_A'] = merged_data['label_B'].fillna(merged_data['label_A'])
merged_data

Unnamed: 0,text,label_A,label_B
0,Bener2 ini jumat berkah dari malem ketemu male...,0.0,
1,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0,
2,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0,
3,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0,
4,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0,
...,...,...,...
28025,Volume kubah lava di sektor barat daya sebesar...,1.0,1.0
28026,kelar wfh udah minta ganti tuh laptop,0.0,0.0
28027,waktu gempa di bali baru baru ini sebelumnya a...,0.0,0.0
28028,Angin Puting Beliung Rusak Puluhan Rumah di Ma...,1.0,1.0


In [5]:
# Remove the 'label_B' column
merged_data = merged_data.drop('label_B', axis=1)
merged_data

Unnamed: 0,text,label_A
0,Bener2 ini jumat berkah dari malem ketemu male...,0.0
1,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0
2,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0
3,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0
4,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0
...,...,...
28025,Volume kubah lava di sektor barat daya sebesar...,1.0
28026,kelar wfh udah minta ganti tuh laptop,0.0
28027,waktu gempa di bali baru baru ini sebelumnya a...,0.0
28028,Angin Puting Beliung Rusak Puluhan Rumah di Ma...,1.0


In [6]:
merged_data = merged_data.rename(columns={'label_A': 'label'})
merged_data

Unnamed: 0,text,label
0,Bener2 ini jumat berkah dari malem ketemu male...,0.0
1,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0
2,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0
3,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0
4,"Bencana geologi : gempabumi, tsunami, letusan ...",0.0
...,...,...
28025,Volume kubah lava di sektor barat daya sebesar...,1.0
28026,kelar wfh udah minta ganti tuh laptop,0.0
28027,waktu gempa di bali baru baru ini sebelumnya a...,0.0
28028,Angin Puting Beliung Rusak Puluhan Rumah di Ma...,1.0


In [8]:
merged_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 28030 entries, 0 to 28029
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   text    28030 non-null  object 
 1   label   28030 non-null  float64
dtypes: float64(1), object(1)
memory usage: 657.0+ KB


In [9]:
merged_data['label'] = merged_data['label'].astype(int)
merged_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 28030 entries, 0 to 28029
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    28030 non-null  object
 1   label   28030 non-null  int32 
dtypes: int32(1), object(1)
memory usage: 547.5+ KB


In [11]:
# Check for duplicates
duplicates = merged_data['text'].duplicated()
merged_data[duplicates]

Unnamed: 0,text,label
2,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0
3,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0
4,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0
5,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0
6,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0
...,...,...
26358,"Potensi bahaya saat ini berupa awanpanas dari runtuhnya kubah lava dan lontaran material vulkanik dari letusan eksplosif. Rekomendasi jarak bahaya 3 km dari puncak. Di luar radius tsb, masyarakat dapat beraktivitas seperti biasa. statuswaspada sejak 21 Mei 2018 BPPTKG",1
26359,"Potensi bahaya saat ini berupa awanpanas dari runtuhnya kubah lava dan lontaran material vulkanik dari letusan eksplosif. Rekomendasi jarak bahaya 3 km dari puncak. Di luar radius tsb, masyarakat dapat beraktivitas seperti biasa. statuswaspada sejak 21 Mei 2018 BPPTKG",1
26815,"Gempa Mag:3.4, 13-Jan-21 02:54:45 WIB, Lok:5.53 LS, 105.15 BT (Pusat gempa berada di darat 15 km Baratdaya Bandarlampung), Kedlmn:1 Km Dirasakan (MMI) I-II Natar BMKG",1
27065,"Gempa Mag:5.1, 12-Mei-21 03:44:42 WIB, Lok:1.60 LS, 99.29 BT (Pusat gempa berada di darat 55 km Barat Laut Kepulauan Mentawai), Kedlmn:17 Km Dirasakan (MMI) II-III Siberut, I - II Padang BMKG",1


In [12]:
merged_data = merged_data.drop_duplicates()
merged_data

Unnamed: 0,text,label
0,"Bener2 ini jumat berkah dari malem ketemu malem ujan,semoga ga banjir ya Allah 😭",0
1,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0
456,Liverpool Tsunami cidera ini namanya,0
457,"Kemaren pas nerjang banjir kira kira 3/4 ban motor, di liatin sama orang orang. Mungkin dlm hati mereka “gila juga ni cewe”",0
458,Gempa...?,1
...,...,...
28025,"Volume kubah lava di sektor barat daya sebesar 618.700 m3 dengan laju pertumbuhan 13.600 m3/hari. Secara umum kegempaan internal pada minggu ini lebih rendah dibandingkan minggu lalu, sedangkan gempa di permukaan seperti gempa guguran meningkat dan munculnya awanpanas guguran.",1
28026,kelar wfh udah minta ganti tuh laptop,0
28027,waktu gempa di bali baru baru ini sebelumnya aku jg ngerasa di kepala tuh tiba tiba muncul kata gempa terus dlm hati tbtb ngmg gni kok udah gaada gempa lg ya ga lama ada kabar kl di bali gempa,0
28028,Angin Puting Beliung Rusak Puluhan Rumah di Makassar,1


In [13]:
merged_data.to_csv('combined_dataset.csv', index=False)

# Preprocessing

In [14]:
import re
import nltk
import pandas as pd
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Load the Indonesian stopwords
stopwords = nltk.corpus.stopwords.words('indonesian')

# Load the Porter stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Define a function to preprocess the text
def preprocess_text(text):
    # Convert the text to lowercase
    text = text.lower()
    
     # Remove URLs
    text = re.sub(r'http\S+', '', str(text))
    
    # Remove usernames
    text = re.sub(r'@\w+', '', str(text))
    
    # Remove hashtags
    text = re.sub(r'#\w+', '', str(text))
    
    # Remove punctuation and special characters
    text = re.sub(r'[^\w\s]', '', str(text))
    
    # Remove emoticons
    text = re.sub(r':\)|;\)|:-\)|\(-:|:\'\(|:\(|:-\(|:O|8\)|:\*|>:O|:\-\/|\^\^|:D|:P|:S|:\|', '', str(text))
    
    #Remove number
    text = re.sub(r'\d+', '', str(text))
    
    # Remove extra whitespace
    text = re.sub(r'\s+', ' ', str(text)).strip()
    
    # Remove stopwords
    text = [word for word in text.split() if word not in stopwords]

    # Stem the words
    text = [stemmer.stem(word) for word in text]
    
    # Detokenize the tokens to form text
    text = ' '.join(text)
    
    return text

In [15]:
# Load the CSV dataset
df = pd.read_csv('combined_dataset.csv')

# Create a new column for the preprocessed text
df['preprocessed_text'] = ''

# Loop through the rows of the dataset
for i in range(len(df)):
  # Preprocess the text in the current row
  df['preprocessed_text'][i] = preprocess_text(df['text'][i])

df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['preprocessed_text'][i] = preprocess_text(df['text'][i])


Unnamed: 0,text,label,preprocessed_text
0,"Bener2 ini jumat berkah dari malem ketemu malem ujan,semoga ga banjir ya Allah 😭",0,bener jumat berkah malem ketemu malem ujansemoga ga banjir ya allah
1,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0,bencana geologi gempabumi tsunami letus gunung rap tanah longsor
2,Liverpool Tsunami cidera ini namanya,0,liverpool tsunami cidera nama
3,"Kemaren pas nerjang banjir kira kira 3/4 ban motor, di liatin sama orang orang. Mungkin dlm hati mereka “gila juga ni cewe”",0,kemaren pas nerjang banjir ban motor liatin orang orang dlm hati gila ni cewe
4,Gempa...?,1,gempa
...,...,...,...
25506,"Volume kubah lava di sektor barat daya sebesar 618.700 m3 dengan laju pertumbuhan 13.600 m3/hari. Secara umum kegempaan internal pada minggu ini lebih rendah dibandingkan minggu lalu, sedangkan gempa di permukaan seperti gempa guguran meningkat dan munculnya awanpanas guguran.",1,volume kubah lava sektor barat daya m laju tumbuh mhari gempa internal minggu rendah banding minggu gempa muka gempa gugur tingkat muncul awanpanas gugur
25507,kelar wfh udah minta ganti tuh laptop,0,kelar wfh udah ganti tuh laptop
25508,waktu gempa di bali baru baru ini sebelumnya aku jg ngerasa di kepala tuh tiba tiba muncul kata gempa terus dlm hati tbtb ngmg gni kok udah gaada gempa lg ya ga lama ada kabar kl di bali gempa,0,gempa bal jg ngerasa kepala tuh muncul gempa dlm hati tbtb ngmg gni udah gaada gempa lg ya ga kabar kl bal gempa
25509,Angin Puting Beliung Rusak Puluhan Rumah di Makassar,1,angin puting beliung rusak puluh rumah makassar


In [16]:
df = df.drop_duplicates()
df

Unnamed: 0,text,label,preprocessed_text
0,"Bener2 ini jumat berkah dari malem ketemu malem ujan,semoga ga banjir ya Allah 😭",0,bener jumat berkah malem ketemu malem ujansemoga ga banjir ya allah
1,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0,bencana geologi gempabumi tsunami letus gunung rap tanah longsor
2,Liverpool Tsunami cidera ini namanya,0,liverpool tsunami cidera nama
3,"Kemaren pas nerjang banjir kira kira 3/4 ban motor, di liatin sama orang orang. Mungkin dlm hati mereka “gila juga ni cewe”",0,kemaren pas nerjang banjir ban motor liatin orang orang dlm hati gila ni cewe
4,Gempa...?,1,gempa
...,...,...,...
25506,"Volume kubah lava di sektor barat daya sebesar 618.700 m3 dengan laju pertumbuhan 13.600 m3/hari. Secara umum kegempaan internal pada minggu ini lebih rendah dibandingkan minggu lalu, sedangkan gempa di permukaan seperti gempa guguran meningkat dan munculnya awanpanas guguran.",1,volume kubah lava sektor barat daya m laju tumbuh mhari gempa internal minggu rendah banding minggu gempa muka gempa gugur tingkat muncul awanpanas gugur
25507,kelar wfh udah minta ganti tuh laptop,0,kelar wfh udah ganti tuh laptop
25508,waktu gempa di bali baru baru ini sebelumnya aku jg ngerasa di kepala tuh tiba tiba muncul kata gempa terus dlm hati tbtb ngmg gni kok udah gaada gempa lg ya ga lama ada kabar kl di bali gempa,0,gempa bal jg ngerasa kepala tuh muncul gempa dlm hati tbtb ngmg gni udah gaada gempa lg ya ga kabar kl bal gempa
25509,Angin Puting Beliung Rusak Puluhan Rumah di Makassar,1,angin puting beliung rusak puluh rumah makassar


In [17]:
# Save the updated dataset
df.to_csv('preprocessed_combined_dataset.csv', index=False)

## Check and re-cleaning dataset

In [26]:
import pandas as pd

In [27]:
df = pd.read_csv('preprocessed_combined_dataset.csv')
df

Unnamed: 0,text,label,preprocessed_text
0,"Bener2 ini jumat berkah dari malem ketemu malem ujan,semoga ga banjir ya Allah 😭",0,bener jumat berkah malem ketemu malem ujansemoga ga banjir ya allah
1,"Bencana geologi : gempabumi, tsunami, letusan gunung berapi, dan tanah longsor.",0,bencana geologi gempabumi tsunami letus gunung rap tanah longsor
2,Liverpool Tsunami cidera ini namanya,0,liverpool tsunami cidera nama
3,"Kemaren pas nerjang banjir kira kira 3/4 ban motor, di liatin sama orang orang. Mungkin dlm hati mereka “gila juga ni cewe”",0,kemaren pas nerjang banjir ban motor liatin orang orang dlm hati gila ni cewe
4,Gempa...?,1,gempa
...,...,...,...
25506,"Volume kubah lava di sektor barat daya sebesar 618.700 m3 dengan laju pertumbuhan 13.600 m3/hari. Secara umum kegempaan internal pada minggu ini lebih rendah dibandingkan minggu lalu, sedangkan gempa di permukaan seperti gempa guguran meningkat dan munculnya awanpanas guguran.",1,volume kubah lava sektor barat daya m laju tumbuh mhari gempa internal minggu rendah banding minggu gempa muka gempa gugur tingkat muncul awanpanas gugur
25507,kelar wfh udah minta ganti tuh laptop,0,kelar wfh udah ganti tuh laptop
25508,waktu gempa di bali baru baru ini sebelumnya aku jg ngerasa di kepala tuh tiba tiba muncul kata gempa terus dlm hati tbtb ngmg gni kok udah gaada gempa lg ya ga lama ada kabar kl di bali gempa,0,gempa bal jg ngerasa kepala tuh muncul gempa dlm hati tbtb ngmg gni udah gaada gempa lg ya ga kabar kl bal gempa
25509,Angin Puting Beliung Rusak Puluhan Rumah di Makassar,1,angin puting beliung rusak puluh rumah makassar


In [28]:
df.isnull().sum()

text                 0
label                0
preprocessed_text    7
dtype: int64

In [29]:
df = df.dropna()
df = df.drop('text', axis=1)
df = df.rename(columns={'preprocessed_text': 'text'})
df

Unnamed: 0,label,text
0,0,bener jumat berkah malem ketemu malem ujansemoga ga banjir ya allah
1,0,bencana geologi gempabumi tsunami letus gunung rap tanah longsor
2,0,liverpool tsunami cidera nama
3,0,kemaren pas nerjang banjir ban motor liatin orang orang dlm hati gila ni cewe
4,1,gempa
...,...,...
25506,1,volume kubah lava sektor barat daya m laju tumbuh mhari gempa internal minggu rendah banding minggu gempa muka gempa gugur tingkat muncul awanpanas gugur
25507,0,kelar wfh udah ganti tuh laptop
25508,0,gempa bal jg ngerasa kepala tuh muncul gempa dlm hati tbtb ngmg gni udah gaada gempa lg ya ga kabar kl bal gempa
25509,1,angin puting beliung rusak puluh rumah makassar


In [30]:
df.isnull().sum()

label    0
text     0
dtype: int64

In [31]:
df.to_csv('preprocessed_combined_dataset.csv', index=False)