# Data Preparation

In [1]:
import pandas as pd

In [2]:
docs_df = pd.read_csv('../data/docs/law_analyzer_new99_generated_topics_all_2.csv')
docs_df

FileNotFoundError: [Errno 2] No such file or directory: '../data/docs/law_analyzer_new99_generated_topics_all_2.csv'

In [None]:
# Select only nomor_peraturan and generated_topics columns
docs_df_2 = docs_df[['nomor_peraturan', 'generated_topics']]

# Transform each value in the generated_topics column to a list,
# remove dot (.) from the end of each topic, and convert to lower case
docs_df_2['generated_topics'] = docs_df_2['generated_topics'].apply(
    lambda x: [topic[:-1].lower() if topic.endswith('.') else topic.lower() for topic in x.split("; ")]
)

docs_df_2

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  docs_df_2['generated_topics'] = docs_df_2['generated_topics'].apply(


Unnamed: 0,nomor_peraturan,generated_topics
0,PMK 01/PMK.010/2011,"[format laporan, tarif premi, pendapatan, prof..."
1,PMK 02/PMK.05/2011,"[pedoman akuntansi, pelaporan aset, barang mil..."
2,PMK 02/PMK.07/2012,"[peraturan, alokasi dana, bagi hasil, sumber d..."
3,PMK 03/PMK.011/2012,"[pemanfaatan panas bumi, risiko usaha panas bu..."
4,PMK 04/PMK.02/2014,"[perimbangan kekayaan dan kewajiban, badan pen..."
...,...,...
1631,UU 9 TAHUN 1992,"[pengaturan keimigrasian, lalu lintas orang, k..."
1632,UU 9 TAHUN 1995,"[pembangunan nasional, masyarakat adil dan mak..."
1633,UU 9 TAHUN 2009,"[otonomi pendidikan, pengelolaan pendidikan fo..."
1634,UU 9 TAHUN 2015,"[peralihan kepemimpinan, mekanisme demokratis,..."


In [None]:
# 1N normlization using pandas explode
docs_df_2 = docs_df_2.explode('generated_topics').reset_index(drop=True)
docs_df_2

Unnamed: 0,nomor_peraturan,generated_topics
0,PMK 01/PMK.010/2011,format laporan
1,PMK 01/PMK.010/2011,tarif premi
2,PMK 01/PMK.010/2011,pendapatan
3,PMK 01/PMK.010/2011,profil risiko
4,PMK 01/PMK.010/2011,kerugian
...,...,...
13558,UU 9 TAHUN 2005,perubahan perkiraan apbn
13559,UU 9 TAHUN 2005,peluncuran sisa anggaran
13560,UU 9 TAHUN 2005,transisi pelaksanaan undang-undang
13561,UU 9 TAHUN 2005,tugas-tugas pemerintahan


In [None]:
# count the generated_topics
docs_df_2['generated_topics'].value_counts()

generated_topics
peraturan menteri keuangan                                       644
peraturan pemerintah                                             200
tarif layanan                                                    124
undang-undang                                                    122
perubahan                                                        105
                                                                ... 
sistem pembayaran                                                  1
pemberitahuan impor                                                1
pabean                                                             1
tentara                                                            1
undang-undang tentang perubahan kedua atas undang-undang apbn      1
Name: count, Length: 5580, dtype: int64

In [None]:
# eliminate the generated_topics with value == 'peraturan menteri keuangan' and 'peraturan pemerintah'
docs_df_2 = docs_df_2[~docs_df_2['generated_topics'].isin(['peraturan menteri keuangan', 'peraturan pemerintah'])]
docs_df_2.head(20)

Unnamed: 0,nomor_peraturan,generated_topics
0,PMK 01/PMK.010/2011,format laporan
1,PMK 01/PMK.010/2011,tarif premi
2,PMK 01/PMK.010/2011,pendapatan
3,PMK 01/PMK.010/2011,profil risiko
4,PMK 01/PMK.010/2011,kerugian
5,PMK 01/PMK.010/2011,data biaya
6,PMK 01/PMK.010/2011,administrasi
7,PMK 01/PMK.010/2011,biaya umum
8,PMK 01/PMK.010/2011,pemasaran
9,PMK 01/PMK.010/2011,asuransi kendaraan bermotor


In [None]:
# save the result to csv
#docs_df_2.to_csv('../data/docs/law_analyzer_new99_topics-all_normalized.csv', index=False)

In [None]:
# drop the generated_topics column in docs_df
docs_df.drop(columns=['generated_topics'], inplace=True)
docs_df

Unnamed: 0,nama_file,nomor_peraturan,judul,tahun,nomor,konsideran,heading,definition_term,token_count,bentuk,status
0,01~pmk.010~2011.json,PMK 01/PMK.010/2011,Perubahan atas Peraturan Menteri Keuangan Nomo...,2011,1,a. bahwa dalam rangka memperoleh perhitungan ...,[],,258,Peraturan Menteri Keuangan,Belum diketahui
1,02~pmk.05~2011.json,PMK 02/PMK.05/2011,Pedoman Akuntansi Dan Pelaporan Aset Berupa Ba...,2011,2,a. bahwa berdasarkan Peraturan Menteri Keuang...,"['Pengertian', 'Ruang Lingkup', 'Sistem Akunta...","['Kontraktor Kontrak Kerja Sama,', 'Barang yan...",397,Peraturan Menteri Keuangan,Belum diketahui
2,02~pmk.07~2012.json,PMK 02/PMK.07/2012,Perkiraan Alokasi Dana Bagi Hasil Sumber Daya ...,2012,2,bahwa untuk melaksanakan ketentuan Pasal 27 a...,[],['Alokasi Dana Bagi Hasil Sumber Daya Alam Keh...,89,Peraturan Menteri Keuangan,Belum diketahui
3,03~pmk.011~2012.json,PMK 03/PMK.011/2012,Tata Cara Pengelolaan Dan Pertanggungjawaban F...,2012,3,a. bahwa dalam rangka mendukung usaha pemanfa...,"['Tujuan', 'Prinsip', 'Bentuk', 'Ruang Lingkup...",['Badan Usaha Penyedia Jasa Penyiapan Proyek K...,500,Peraturan Menteri Keuangan,Belum diketahui
4,04~pmk.02~2014.json,PMK 04/PMK.02/2014,Perubahan Kedua atas Peraturan Menteri Keuanga...,2014,4,a. bahwa dalam rangka mendukung agar kondisi ...,[],,341,Peraturan Menteri Keuangan,Belum diketahui
...,...,...,...,...,...,...,...,...,...,...,...
1631,uu-9-tahun-1992.json,UU 9 TAHUN 1992,Keimigrasian,1992,9,a. bahwa pengaturan keimigrasian yang meliput...,[],"['Keimigrasian', 'Wilayah Negara Republik Indo...",219,Undang,Belum diketahui
1632,uu-9-tahun-1995.json,UU 9 TAHUN 1995,Usaha Kecil,1995,9,a. bahwa negara Republik Indonesia yang berda...,[],"['Usaha Kecil', 'Usaha Menengah dan Usaha Besa...",289,Undang,Belum diketahui
1633,uu-9-tahun-2009.json,UU 9 TAHUN 2009,Badan Hukum Pendidikan,2009,9,a. bahwa untuk mewujudkan fungsi dan tujuan p...,[],"['Badan hukum pendidikan', 'Badan Hukum Pendid...",368,Undang,Belum diketahui
1634,uu-9-tahun-2015.json,UU 9 TAHUN 2015,Perubahan Kedua atas Undang-Undang Nomor 23 Ta...,2015,9,a. bahwa untuk kesinambungan kepemimpinan di ...,[],,283,Undang,Belum diketahui


In [None]:
# drop nama_file, nomor, konsideran, heading, definition_term, token_count columns in docs_df
docs_df.drop(columns=['nama_file', 'nomor', 'konsideran', 'heading', 'definition_term', 'token_count'], inplace=True)
docs_df

Unnamed: 0,nomor_peraturan,judul,tahun,bentuk,status
0,PMK 01/PMK.010/2011,Perubahan atas Peraturan Menteri Keuangan Nomo...,2011,Peraturan Menteri Keuangan,Belum diketahui
1,PMK 02/PMK.05/2011,Pedoman Akuntansi Dan Pelaporan Aset Berupa Ba...,2011,Peraturan Menteri Keuangan,Belum diketahui
2,PMK 02/PMK.07/2012,Perkiraan Alokasi Dana Bagi Hasil Sumber Daya ...,2012,Peraturan Menteri Keuangan,Belum diketahui
3,PMK 03/PMK.011/2012,Tata Cara Pengelolaan Dan Pertanggungjawaban F...,2012,Peraturan Menteri Keuangan,Belum diketahui
4,PMK 04/PMK.02/2014,Perubahan Kedua atas Peraturan Menteri Keuanga...,2014,Peraturan Menteri Keuangan,Belum diketahui
...,...,...,...,...,...
1631,UU 9 TAHUN 1992,Keimigrasian,1992,Undang,Belum diketahui
1632,UU 9 TAHUN 1995,Usaha Kecil,1995,Undang,Belum diketahui
1633,UU 9 TAHUN 2009,Badan Hukum Pendidikan,2009,Undang,Belum diketahui
1634,UU 9 TAHUN 2015,Perubahan Kedua atas Undang-Undang Nomor 23 Ta...,2015,Undang,Belum diketahui


In [None]:
# save the result to csv
docs_df.to_csv('../data/docs/law_analyzer_new99_laws-all.csv', index=False)