# Generate synthetis data for text classification natural disaster

In [3]:
import random
import numpy as np
import pandas as pd

In [4]:
lokasi = ["Aceh", "Sumatera Utara", "Sumatera Barat", "Riau", "Jambi", "Sumatera Selatan", "Bengkulu", "Lampung", "Bangka Belitung", "Kepulauan Riau", "Jakarta", "Jawa Barat", "Jawa Tengah", "Yogyakarta", "Jawa Timur", "Banten", "Bali", "Nusa Tenggara Barat", "Nusa Tenggara Timur", "Kalimantan Barat", "Kalimantan Tengah", "Kalimantan Selatan", "Kalimantan Timur", "Kalimantan Utara", "Sulawesi Utara", "Sulawesi Tengah", "Sulawesi Selatan", "Sulawesi Tenggara", "Gorontalo", "Sulawesi Barat", "Maluku", "Maluku Utara", "Papua Barat", "Papua"]

bulan = ["Januari", "Februari", "Maret", "April", "Mei", "Juni", "Juli", "Agustus", "September", "Oktober", "November", "Desember"]

kata_guncangan = ["guncangan hebat", "getaran kuat", "hentakan dahsyat", "goyangan keras"]
kata_kerusakan = ["kerusakan parah", "kehancuran bangunan", "retakan dinding", "runtuhnya rumah"]
kata_melanda = ["menerjang", "menghantam", "menyapu", "merusak"]
kata_hujan = ["hujan deras", "hujan lebat", "curah hujan ekstrem", "badai hujan"]
kata_evak = ["mengungsi", "dievakuasi", "menyelamatkan diri", "berlindung"]

variasi_gempa = [
    "Gempa bumi berkekuatan {magnitudo} melanda {lokasi} dengan {guncangan} pada {tanggal}.",
    "Terjadi gempa tektonik di {lokasi} dengan magnitudo {magnitudo}, menyebabkan {kerusakan} pada {tanggal}.",
    "Warga {lokasi} panik akibat {guncangan} gempa berkekuatan {magnitudo} pada {tanggal}.",
    "{lokasi} diguncang gempa magnitudo {magnitudo} yang memicu {kerusakan} pada {tanggal}."
]

variasi_tsunami = [
    "Tsunami setinggi {tinggi} meter {melanda} pesisir {lokasi} pada {tanggal}.",
    "Gelombang tsunami {melanda} {lokasi} setelah gempa, menyebabkan {kerusakan} pada {tanggal}.",
    "Warga {lokasi} {evak} akibat tsunami setinggi {tinggi} meter pada {tanggal}.",
    "{lokasi} porak-poranda karena tsunami {melanda} wilayah pesisir pada {tanggal}."
]

variasi_banjir = [
    "Banjir besar {melanda} {lokasi} akibat {hujan} sepanjang {tanggal}.",
    "{hujan} di {lokasi} memicu banjir yang {melanda} ratusan rumah pada {tanggal}.",
    "Warga {lokasi} {evak} karena banjir bandang yang {melanda} pada {tanggal}.",
    "{lokasi} lumpuh total akibat banjir setelah {hujan} pada {tanggal}."
]

variasi_longsor = [
    "Tanah longsor di {lokasi} {melanda} akses jalan utama pada {tanggal}.",
    "Longsor dahsyat di {lokasi} akibat {hujan} menyebabkan {kerusakan} pada {tanggal}.",
    "{hujan} memicu longsor di {lokasi}, warga terpaksa {evak} pada {tanggal}.",
    "Wilayah {lokasi} terganggu akibat longsor yang {melanda} lereng bukit pada {tanggal}."
]

variasi_unidentified = [
    "Ada kejadian misterius di {lokasi}, warga bingung pada {tanggal}.",
    "Laporan dari {lokasi} menyebut situasi kacau, tapi penyebabnya masih kabur pada {tanggal}.",
    "Sesuatu yang janggal dilaporkan warga {lokasi}, detailnya belum jelas pada {tanggal}.",
    "Informasi dari {lokasi} masih samar dan membingungkan pada {tanggal}."
]

def generate_tanggal():
    hari = random.randint(1, 28)
    bln = random.choice(bulan)
    tahun = random.randint(2000, 2023)
    return f"{hari} {bln} {tahun}"

def generate_teks(kelas):
    lok = random.choice(lokasi)
    tanggal = generate_tanggal()
    if kelas == "Gempa Bumi":
        magnitudo = round(random.uniform(4.0, 9.0), 1)
        template = random.choice(variasi_gempa)
        return template.format(
            magnitudo=magnitudo,
            lokasi=lok,
            tanggal=tanggal,
            guncangan=random.choice(kata_guncangan),
            kerusakan=random.choice(kata_kerusakan)
        )
    elif kelas == "Tsunami":
        tinggi = random.randint(1, 10)
        template = random.choice(variasi_tsunami)
        return template.format(
            tinggi=tinggi,
            lokasi=lok,
            tanggal=tanggal,
            melanda=random.choice(kata_melanda),
            kerusakan=random.choice(kata_kerusakan),
            evak=random.choice(kata_evak)
        )
    elif kelas == "Banjir":
        template = random.choice(variasi_banjir)
        return template.format(
            lokasi=lok,
            tanggal=tanggal,
            melanda=random.choice(kata_melanda),
            hujan=random.choice(kata_hujan),
            evak=random.choice(kata_evak)
        )
    elif kelas == "Tanah Longsor":
        template = random.choice(variasi_longsor)
        return template.format(
            lokasi=lok,
            tanggal=tanggal,
            melanda=random.choice(kata_melanda),
            hujan=random.choice(kata_hujan),
            kerusakan=random.choice(kata_kerusakan),
            evak=random.choice(kata_evak)
        )
    elif kelas == "UNIDENTIFIED":
        template = random.choice(variasi_unidentified)
        return template.format(lokasi=lok, tanggal=tanggal)

kelas_list = ["Gempa Bumi", "Tsunami", "Banjir", "Tanah Longsor", "UNIDENTIFIED"]

data = []
for kelas in kelas_list:
    for _ in range(1000):
        teks = generate_teks(kelas)
        data.append([teks, kelas])

df = pd.DataFrame(data, columns=["Teks", "Label"])
df.to_csv("ND.csv", index=False)

print("Contoh 5 baris pertama dari data sintetis dengan variasi kata yang lebih kaya:")
print(df.head())

Contoh 5 baris pertama dari data sintetis dengan variasi kata yang lebih kaya:
                                                Teks       Label
0  Warga Sumatera Barat panik akibat getaran kuat...  Gempa Bumi
1  Terjadi gempa tektonik di Lampung dengan magni...  Gempa Bumi
2  Terjadi gempa tektonik di Sulawesi Barat denga...  Gempa Bumi
3  Gempa bumi berkekuatan 8.4 melanda Nusa Tengga...  Gempa Bumi
4  Warga Sulawesi Tenggara panik akibat guncangan...  Gempa Bumi


In [5]:
data = pd.read_csv('ND.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Teks    5000 non-null   object
 1   Label   5000 non-null   object
dtypes: object(2)
memory usage: 78.3+ KB


In [7]:
cleaned_data = data.dropna()
cleaned_data = cleaned_data.drop_duplicates()

jumlah_ulasan_setelah_hapus_duplikat, jumlah_kolom_setelah_hapus_duplikat = cleaned_data.shape

In [9]:
print("Jumlah ulasan setelah dihapus duplikat: ", jumlah_ulasan_setelah_hapus_duplikat)
print("Jumlah kolom setelah dihapus duplikat: ", jumlah_kolom_setelah_hapus_duplikat)

Jumlah ulasan setelah dihapus duplikat:  5000
Jumlah kolom setelah dihapus duplikat:  2
