## Data Preprocessing

In [2]:
import pandas as pd

#### Read Data

In [3]:
# Read the Excel sheets into a dictionary of DataFrames
raw_df = pd.read_excel('Dataset.xlsx', sheet_name=['SALSABILA', 'WILDAN'], header=1)

# Convert all column names to lowercase for each DataFrame
for sheet in raw_df:
    raw_df[sheet].columns = raw_df[sheet].columns.str.lower()

# Concatenate the two DataFrames along rows (axis=0)
combined_df = pd.concat([raw_df['SALSABILA'], raw_df['WILDAN']], ignore_index=True)
combined_df

Unnamed: 0,question,answer,passage,type,topik
0,"""Apa yang menarik perhatian wisatawan asing te...","""Atribut Ornamen Arsitektur, Peradaban Jawa Ku...","""Atribut Ornamen Arsitektur: Relief naratif di...",single,budaya
1,"""Apa kesamaan konstruksi kayu pada relief Cand...","""Bentuk Atap Serupa, Teknik Konstruksi, Signif...","""Bentuk Atap Serupa: Konstruksi kayu yang diga...",single,arsitektur
2,"""Apa keindahan arsitektur Candi Borobudur?""","""Kuil ini menampilkan ukiran relief yang rumit...","""Candi Borobudur terkenal dengan keindahan ars...",single,arsitektur
3,"""Mengapa Candi Borobudur menjadi Situs Warisan...","""Candi Borobudur ditetapkan sebagai Situs Wari...","""Candi Borobudur ditetapkan sebagai Situs Wari...",single,budaya
4,"""Siapa yang membangun Candi Borobudur?""","""Candi Borobudur dibangun oleh Dinasti Shailen...","""Candi Borobudur dibangun oleh Dinasti Shailen...",single,sejarah
...,...,...,...,...,...
1006,"""Apa yang dapat kita pelajari dari teknik kons...","""Dari teknik konstruksi atap kayu pada Candi B...","""Dari teknik konstruksi atap kayu pada Candi B...",single,Arsitektur
1007,"""Bagaimana atap kayu pada Candi Borobudur meng...","""Atap kayu pada Candi Borobudur mengakomodasi ...","""Atap kayu pada Candi Borobudur mengakomodasi ...",single,Arsitektur
1008,"""Bagaimana atap kayu pada Candi Borobudur diin...","""Atap kayu pada Candi Borobudur diintegrasikan...","""Atap kayu pada Candi Borobudur diintegrasikan...",single,Arsitektur
1009,"""Apakah terdapat inovasi atau elemen desain un...","""Ya, atap kayu Candi Borobudur memiliki varias...","""Terdapat inovasi dan elemen desain unik dalam...",single,Arsitektur


In [4]:
# Capitalize all values in the 'topik' column
combined_df['topik'] = combined_df['topik'].str.capitalize()
combined_df['topik'] = combined_df['topik'].replace({'Stupa': 'Arsitektur', 'Relief': 'Arsitektur'})


# Filter the DataFrame to keep only the rows where 'topik' is in the valid_topics list
combined_df = combined_df[combined_df['topik'].isin(['Arsitektur', 'Pemugaran', 'Sejarah', 'Budaya'])]

# Then, check the value counts
combined_df['topik'].value_counts()

topik
Arsitektur    208
Pemugaran     203
Sejarah       201
Budaya        173
Name: count, dtype: int64

In [5]:
# Randomly sample n_samples rows from each 'topik' category
combined_df = combined_df.groupby('topik').apply(lambda x: x.sample(n=50))

# Remove the extra index added by groupby
combined_df = combined_df.reset_index(drop=True)

# Verify the sample balance
combined_df['topik'].value_counts()

topik
Arsitektur    50
Budaya        50
Pemugaran     50
Sejarah       50
Name: count, dtype: int64

In [6]:
combined_df.sample(5)

Unnamed: 0,question,answer,passage,type,topik
82,"""Apa yang bisa kita pelajari dari Candi Borobu...","""Dari Candi Borobudur, kita dapat belajar bany...","""Dari Candi Borobudur, kita dapat belajar bany...",list,Budaya
118,"""Bagaimana kondisi Candi Borobudur saat ini da...","""Candi Borobudur saat ini dalam kondisi yang m...","""Candi Borobudur saat ini dalam kondisi yang m...",single,Pemugaran
184,"""Bagaimana peran pemerintah dalam meningkatkan...","""Peran pemerintah dalam meningkatkan kualitas ...","""Peran pemerintah dalam meningkatkan kualitas ...",list,Sejarah
12,"""Apa yang membuat Candi Borobudur unik dibandi...","""Candi Borobudur unik karena memiliki konstruk...","""Candi Borobudur unik karena memiliki konstruk...",single,Arsitektur
25,"""Apa itu Candi Borobudur?""","""Candi Borobudur adalah salah satu Candi Budha...","""Candi Borobudur adalah salah satu Candi Budha...",single,Arsitektur


In [7]:
combined_df.to_csv('filteredData.csv')

In [47]:
# Combine all the passages into a single text block
all_passages = "\n\n".join(combined_df['passage'].astype(str).tolist())

# Save the text block to a .txt file
with open("passages.txt", "w", encoding="utf8") as file:
    file.write(all_passages)

print("Text file 'passages.txt' created successfully.")

Text file 'passages.txt' created successfully.
