In [22]:
import pandas as pd
import re

In [None]:
PATH_1 = "datasets/ai_generated_indonesia1.csv"
PATH_2 = "datasets/ai_generated_indonesia2.csv"

In [24]:
df_1 = pd.read_csv(PATH_1)
df_2 = pd.read_csv(PATH_2)

In [25]:
def extract_topic(text):
    if isinstance(text, str) and ":" in text:
        return text.split(":")[0].replace("Tentang", "").strip().lower()
    return "unknown"

In [26]:
def clean_text(text):
    if not isinstance(text, str):
        return ""
    # Remove leading "Tentang ...:" 
    text = re.sub(r"^Tentang.*?:", "", text, flags=re.DOTALL)
    # Normalize whitespace
    text = re.sub(r"\s+", " ", text).strip()
    return text

In [27]:
df_1 = pd.read_csv(PATH_1)

In [28]:
df_1.head()

Unnamed: 0,message
0,Tentang perjalanan: \nJadwal perjalanan untuk ...
1,Tentang perjalanan: \nKesimpulannya: \nKehidup...
2,Tentang perjalanan: \nPerjalanan ke Bandung.\n...
3,Tentang perjalanan: \nPerjalanan ini.\nAwalnya...
4,"Tentang perjalanan: \nTanyalah, perjalanan itu..."


In [29]:
df_1 = pd.DataFrame({
    "topic": df_1["message"].apply(extract_topic),
    "text": df_1["message"].apply(clean_text),
    "label": 1  
})

In [30]:
df_1.head()

Unnamed: 0,topic,text,label
0,perjalanan,Jadwal perjalanan untuk menuju ke Australia. J...,1
1,perjalanan,Kesimpulannya: Kehidupan masa kecil. Kesimpula...,1
2,perjalanan,Perjalanan ke Bandung. Setelah beberapa lama p...,1
3,perjalanan,"Perjalanan ini. Awalnya, hanya ada sebuah kere...",1
4,perjalanan,"Tanyalah, perjalanan itu berjalan dengan seira...",1


In [31]:
df_1.tail()

Unnamed: 0,topic,text,label
49995,lingkungan,"Menurut Robert Owen, suatu tempat dalam sebuah...",1
49996,lingkungan,Pengembangan lingkungan dan pencegahan. Pengem...,1
49997,lingkungan,Pemerintahan Militer Jepang yang berlangsung d...,1
49998,lingkungan,Dikarenakan masalah dengan teknologi adalah il...,1
49999,lingkungan,Sistem transportasi umum kota. Sistem transpor...,1


In [32]:
df_2.head()

Unnamed: 0,message
0,Tentang lingkungan: \nCara kerja.\nProses pert...
1,"Tentang lingkungan: \nPada dasarnya, hubungan ..."
2,Tentang lingkungan: \nBeberapa proyek dan prog...
3,Tentang lingkungan: \nBeberapa karakteristik-k...
4,Tentang lingkungan: \nKeanekaragaman hayati.\n...


In [33]:
df_2 = pd.DataFrame({
    "topic": df_2["message"].apply(extract_topic),
    "text": df_2["message"].apply(clean_text),
    "label": 1  
})

In [34]:
df_2.head()

Unnamed: 0,topic,text,label
0,lingkungan,Cara kerja. Proses pertama yaitu dengan melaku...,1
1,lingkungan,"Pada dasarnya, hubungan tersebut hanya terjadi...",1
2,lingkungan,Beberapa proyek dan program yang dibuat oleh s...,1
3,lingkungan,Beberapa karakteristik-karakter awal dari ling...,1
4,lingkungan,Keanekaragaman hayati. Keanekaragaman hayati s...,1


In [35]:
df_2.tail()

Unnamed: 0,topic,text,label
49995,kesehatan,Lampung dan penyakit: Mengunjungi: Mengunjungi...,1
49996,kesehatan,"1: Biarkan, penolak hati, dan harapan hidup ya...",1
49997,kesehatan,Perawatan kesehatan. Meningkatkan asupan dan m...,1
49998,kesehatan,Sakti dengan makanan manis adalah kebiasaan me...,1
49999,kesehatan,Suburghi. Beberapa daerah di Indonesia memilik...,1


In [36]:
df_combined = pd.concat([df_1, df_2], ignore_index=True)

In [37]:
df_combined = df_combined.sample(frac=1, random_state=42).reset_index(drop=True)

In [None]:
df_combined.to_csv("datasets/ai_generated_indonesia_combined.csv", index=False)

In [39]:
df_combined.head()

Unnamed: 0,topic,text,label
0,kesehatan,"2 Samuel 4:14:23-14, 17. Dibuat dalam pasal 1 ...",1
1,sains,"Pada bidang fisika, ""stoner"" adalah istilah ya...",1
2,pendidikan,"Pendidikan: Di bidang ekonomi, ada proses bela...",1
3,musik,Ada sejumlah penyanyi dalam band ini selama be...,1
4,kesehatan,"Menurut hukum Indonesia, terapi pencegahan pen...",1


In [40]:
df_combined.tail()

Unnamed: 0,topic,text,label
99995,sains,Membangun laboratorium dan laboratorium sains....,1
99996,musik,Album ini menjadi hit yang membuat musik Brasi...,1
99997,teknologi,Pengembangan. Pengembangan Internet (bahasa In...,1
99998,olahraga,Imansipasi Imansipasi adalah seni bela diri ya...,1
99999,olahraga,</doc> Sardinia Sardinia adalah genus kumbang ...,1


In [41]:
df_combined.shape

(100000, 3)

In [43]:
df_combined["topic"].value_counts()

topic
kesehatan           10400
lingkungan          10280
sains               10095
olahraga            10070
perjalanan           9960
musik                9940
budaya indonesia     9925
makanan              9900
teknologi            9890
pendidikan           9540
Name: count, dtype: int64