### Import Libraries

In [1]:
import pandas as pd
import itertools 
from tqdm import tqdm

### Load Dataset

In [2]:
df = pd.read_csv('/kaggle/input/undang-undang-v2/keybert-tr-topic-final.csv')

In [3]:
df.head()

Unnamed: 0,NAMA_DOKUMEN,NO_PASAL,NO_AYAT,BUNYI_AYAT,Topic
0,KEPMEN_DAGRI_29_2002,1,1,Dalam Keputusan ini yang dimaksud dengan: a. K...,947
1,KEPMEN_DAGRI_29_2002,2,1,Struktur APBD merupakan satu kesatuan yang ter...,21
2,KEPMEN_DAGRI_29_2002,2,2,Pendapatan Daerah sebagaimana dimaksud pada Ayat,426
3,KEPMEN_DAGRI_29_2002,2,3,meliputi semua penerimaan yang merupakan hak D...,-1
4,KEPMEN_DAGRI_29_2002,2,4,Belanja Daerah sebagaimana dimaksud pada Ayat,518


### Make Grouping Dataset

In [4]:
NUMBER_OF_TOPICS = df['Topic'].max()

In [5]:
list_of_dataframe = []
for i in range(0,NUMBER_OF_TOPICS+1):
    df_topic = df[df['Topic']==i]
    list_of_dataframe.append(df_topic)

### Make Compared Dataset

In [6]:
def make_combination(df):
    # Generate all possible combinations of rows
    combinations = list(itertools.combinations(df.index, 2))
    
    # Create an empty list to store the comparison results
    comparison_data = []
    
    # Iterate through each combination and perform the comparison
    for index1, index2 in combinations:
        row1 = df.loc[index1]
        row2 = df.loc[index2]

        # Append the comparison data to the list
        comparison_data.append([
            row1['NAMA_DOKUMEN'],
            row1['NO_PASAL'],
            row1['NO_AYAT'],
            row1['BUNYI_AYAT'],
            row2['NAMA_DOKUMEN'],
            row2['NO_PASAL'],
            row2['NO_AYAT'],
            row2['BUNYI_AYAT'],
            row1['Topic']
        ])
    
    # Create the new DataFrame with nine columns
    columns = [
        'NAMA_DOKUMEN',
        'NO_PASAL',
        'NO_AYAT',
        'BUNYI_AYAT',
        'NAMA_DOKUMEN_LAIN',
        'NO_PASAL_LAIN',
        'NO_AYAT_LAIN',
        'BUNYI_AYAT_LAIN',
        'TOPIC'
    ]
    
    comparison_df = pd.DataFrame(comparison_data, columns=columns)
    return comparison_df


In [7]:
list_of_compare_dataset = []
for df in tqdm(list_of_dataframe):
    comparison_df = make_combination(df)
    list_of_compare_dataset.append(comparison_df)

100%|██████████| 948/948 [00:42<00:00, 22.10it/s] 


In [8]:
list_of_compare_dataset[4].head()

Unnamed: 0,NAMA_DOKUMEN,NO_PASAL,NO_AYAT,BUNYI_AYAT,NAMA_DOKUMEN_LAIN,NO_PASAL_LAIN,NO_AYAT_LAIN,BUNYI_AYAT_LAIN,TOPIC
0,UU Nomor 4 Tahun 2009,1,1,Dalam Undang-Undang ini yang dimaksud dengan: ...,UU Nomor 4 Tahun 2009,3,1,Dalam rangka mendukung pembangunan nasional ya...,4
1,UU Nomor 4 Tahun 2009,1,1,Dalam Undang-Undang ini yang dimaksud dengan: ...,UU Nomor 4 Tahun 2009,4,1,Mineral dan batubara sebagai sumber daya alam ...,4
2,UU Nomor 4 Tahun 2009,1,1,Dalam Undang-Undang ini yang dimaksud dengan: ...,UU Nomor 4 Tahun 2009,4,2,Penguasaan mineral dan batubara oleh negara se...,4
3,UU Nomor 4 Tahun 2009,1,1,Dalam Undang-Undang ini yang dimaksud dengan: ...,UU Nomor 4 Tahun 2009,5,5,Ketentuan lebih lanjut mengenai pengutamaan mi...,4
4,UU Nomor 4 Tahun 2009,1,1,Dalam Undang-Undang ini yang dimaksud dengan: ...,UU Nomor 4 Tahun 2009,6,1,Kewenangan Pemerintah dalam pengelolaan pertam...,4


### Merge Dataset

In [9]:
merged_dataset = pd.concat(list_of_compare_dataset)
merged_dataset.reset_index(drop=True, inplace=True)

In [10]:
print('BANYAK BARIS DATA : ',merged_dataset.shape[0])
merged_dataset.head()

BANYAK BARIS DATA :  178845


Unnamed: 0,NAMA_DOKUMEN,NO_PASAL,NO_AYAT,BUNYI_AYAT,NAMA_DOKUMEN_LAIN,NO_PASAL_LAIN,NO_AYAT_LAIN,BUNYI_AYAT_LAIN,TOPIC
0,Undang-Undang_No.21_Tahun_2008,60,1,Setiap orang yang dengan sengaja tanpa membawa...,Undang-Undang_No.21_Tahun_2008,60,2,"Anggota direksi, komisaris, pegawai Bank Syari...",0
1,Undang-Undang_No.21_Tahun_2008,60,1,Setiap orang yang dengan sengaja tanpa membawa...,Undang-Undang_No.21_Tahun_2008,61,1,"Anggota dewan komisaris, direksi, atau pegawai...",0
2,Undang-Undang_No.21_Tahun_2008,60,1,Setiap orang yang dengan sengaja tanpa membawa...,Undang-Undang_No.21_Tahun_2008,64,1,Pihak Terafiliasi yang dengan sengaja tidak me...,0
3,Undang-Undang_No.21_Tahun_2008,60,1,Setiap orang yang dengan sengaja tanpa membawa...,Undang-Undang_No.21_Tahun_2008,65,1,Pemegang saham yang dengan sengaja menyuruh an...,0
4,Undang-Undang_No.21_Tahun_2008,60,1,Setiap orang yang dengan sengaja tanpa membawa...,Undang-Undang_No.21_Tahun_2008,66,2,Anggota direksi dan pegawai Bank Syariah atau ...,0


### Shuffle Dataset

In [11]:
shuffle_compared_dataset = merged_dataset.sample(frac = 1).reset_index(drop=True)

In [12]:
print('BANYAK BARIS DATA :',shuffle_compared_dataset.shape[0])
shuffle_compared_dataset.head()

BANYAK BARIS DATA : 178845


Unnamed: 0,NAMA_DOKUMEN,NO_PASAL,NO_AYAT,BUNYI_AYAT,NAMA_DOKUMEN_LAIN,NO_PASAL_LAIN,NO_AYAT_LAIN,BUNYI_AYAT_LAIN,TOPIC
0,2022perpu002,51,15,Rencana fungsi dan pemanfaatan sebagaimana dim...,2022perpu002,51,26,Pemerintah Daerah menerbitkan sertifikat laik ...,15
1,Undang-Undang_No.8_Tahun_1995,105,1,Manajer Investasi dan atau Pihak terafiliasiny...,Undang-Undang_No.40_Tahun_2014,75,1,Setiap Orang yang dengan sengaja tidak memberi...,0
2,2022perpu002,175,17,"Ketentuan mengenai jenis, bentuk, dan mekanism...",Perpu Nomor 1 Tahun 2020,5,3,Ketentuan lebih lanjut mengenai persyaratan te...,5
3,2022perpu002,17,105,Jika tindak pidana sebagaimana dimaksud pada a...,2022perpu002,46,97,Setiap Pelaku Usaha yang tidak menggunakan ata...,0
4,Undang-Undang_No.24_Tahun_2004,74,2,"Dewan Komisioner membentuk komite audit, komit...",Keputusan_Presiden_No.32_Tahun_2016,1,1,Membentuk Gugus Tugas (Task Force) Dalam Rangk...,12


### Save Dataset

In [13]:
shuffle_compared_dataset.to_csv('final-dataset.csv', index=False)