<h1 style='text-align: center'> SEAL Data Scientist Technical Test </h1>
<h3 style='text-align: center; font-style: italic'> Oleh: Garudapaksi Yusuf </h3>

---

## 1 | *Table Creation*

### Data ETL

[Extract, transform, load](https://en.wikipedia.org/wiki/Extract,_transform,_load) (ETL) adalah tiga fase pemrosesan data yang terdiri dari:
1. **Ekstraksi dari sumber data**: dalam *project* ini, secara langsung data diekstraksi dari *source* yang disediakan,
2. **Transformasi dalam format yang sesuai**: karena data tersedia dalam format `.csv` dan `xlsx` —dan untuk memudahkan proses analisa—, proses transformasi data akan menggunakan library Pandas untuk mengubah format data dalam bentuk DataFrame, dan
3. ***Load* ke data *container***: berupa *variable instance* dalam bahasa pemrograman Python.

*Catatan:*
* *Source data dan instruksi: [Google Drive](https://drive.google.com/drive/folders/16e052sYcXIIhrOVQJ86G_S12SGqrlp96?usp=sharing).*
* *Dikutip dari `Data Scientist Techncial Test.xlsx` yang tersedia pada folder `docs` dari repository ini dengan sedikit modifikasi untuk memudahkan pemahaman.*

> Buatlah *table* seperti berikut dari data dinas sosial dan data *master* desa:

In [1]:
# Import library yang dibutuhkan untuk mengakses contoh table
import pandas as pd

# Mengakses contoh table yang tersedia dalam format .xlsx
bentuk_table = pd.read_excel(
    io='../docs/Data Scientist Techncial Test.xlsx', # Letak dan nama file dari contoh table
    sheet_name='bentuk table', # Nama sheet dari contoh table
)

In [2]:
# Pengaturan untuk library Pandas 
pd.set_option(
    'display.max_columns', # Batasan untuk jumlah kolom yang ditampilkan
    None # Dihilangkan karena beberapa kolom disembunyikan dengan tampilan '...' 
) 
                                           
# Menampilkan 'n' baris pertama dari bentuk_table untuk memudahkan analisis                                                     
bentuk_table.head( 
    n=5
)

Unnamed: 0,id,kode_provinsi_y,nama_provinsi,kode_kabupaten_kota,kabupaten,nama_kabupaten_kota,bps_kode_kecamatan,kecamatan,bps_nama_kecamatan,bps_kode_desa_kelurahan,kelurahan,bps_nama_desa_kelurahan,kemendagri_kode_kecamatan,kemendagri_nama_kecamatan,kemendagri_kode_desa_kelurahan,kemendagri_nama_desa_kelurahan,periode_update,nik,nama,alamat,kategori,kategori.1,jumlah,satuan,tahun
0,1,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526140,GEGER,GEGER,3526140002,LERPAK,LERPAK,35.26.06,GEGER,35.26.06.2005,LERPAK,TRIWULAN I 2024,3526060000000000,ABD HALIM,DSN GLIMBUR,,-,-,-,2024
1,2,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526070,GALIS,GALIS,3526070004,GALIS,GALIS,35.26.18,GALIS,35.26.18.2007,GALIS,TRIWULAN I 2024,3526180000000000,ABD. ROHMAN,DSN. REMBAH GALIS,,-,-,-,2024
2,3,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526070,GALIS,GALIS,3526070009,LONGKEK,LONGKEK,35.26.18,GALIS,35.26.18.2006,LONGKEK,TRIWULAN I 2024,3526190000000000,ABDUS SYUKUR,DSN. BARAT SUMBER,,-,-,-,2024
3,4,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526140,GEGER,GEGER,3526140006,CAMPOR,CAMPOR,35.26.06,GEGER,35.26.06.2010,CAMPOR,TRIWULAN I 2024,3526060000000000,ACHMAD,DSN POCONG,,-,-,-,2024
4,5,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526090,TRAGAH,TRAGAH,3526090013,TRAGAH,TRAGAH,35.26.14,TRAGAH,35.26.14.2006,TRAGAH,TRIWULAN I 2024,3526140000000000,ACHMAD RIDOI,DSN. BANGGUMOK,,-,-,-,2024


*Catatan*:
* *Indeks tabel yang ditampilkan mulai dari `0-4` pada contoh tabel di atas adalah indeks yang ditampilkan dari Pandas (menggunakan sistem [0-indexing](https://pandas.pydata.org/docs/user_guide/indexing.html) yang dimulai dari angka 0), sedangkan*
* *Kolom `id` dengan nilai yang hampir serupa —mulai dari `1-5`— merupakan indeks yang disediakan dari `bentuk_table`.*

Berikutnya, `bentuk_table` di atas akan dibandingkan dengan data dinas sosial dan data *master* desa yang tersedia pada folder `data`:

In [3]:
# Mengakses data dinas sosial dalam format .csv
data_dinsos_csv = pd.read_csv(
    filepath_or_buffer='../data/Data Dinas Sosial.csv',
    sep=';', # Character yang digunakan sebagai delimiter/separator
)

# Dan dalam format .xlsx
data_dinsos_xlsx = pd.read_excel(
    io='../data/Data Dinas Sosial.xlsx',
)

# Mengakses data master desa
data_master_desa = pd.read_csv(
    filepath_or_buffer='../data/masterdesa.csv',
    sep=';'
)

In [4]:
# Menampilkan 5 baris pertama dari 'Data Dinas Sosial.csv'
data_dinsos_csv.head(
    n=5
)

Unnamed: 0,id,kode_provinsi,nama_provinsi,periode_update,nik,nama,alamat,provinsi,kabupaten,kecamatan,kelurahan,tahun,kategori,jumlah,satuan
0,1,35,Jawa Timur,Triwulan I 2024,"3,52606E+15",ABD HALIM,DSN GLIMBUR,JAWA TIMUR,KAB. BANGKALAN,GEGER,LERPAK,2024,-,-,-
1,2,35,Jawa Timur,Triwulan I 2024,"3,52618E+15",ABD. ROHMAN,DSN. REMBAH GALIS,JAWA TIMUR,KAB. BANGKALAN,GALIS,GALIS,2024,-,-,-
2,3,35,Jawa Timur,Triwulan I 2024,"3,52619E+15",ABDUS SYUKUR,DSN. BARAT SUMBER,JAWA TIMUR,KAB. BANGKALAN,GALIS,LONGKEK,2024,-,-,-
3,4,35,Jawa Timur,Triwulan I 2024,"3,52606E+15",ACHMAD,DSN POCONG,JAWA TIMUR,KAB. BANGKALAN,GEGER,CAMPOR,2024,-,-,-
4,5,35,Jawa Timur,Triwulan I 2024,"3,52614E+15",ACHMAD RIDOI,DSN. BANGGUMOK,JAWA TIMUR,KAB. BANGKALAN,TRAGAH,TRAGAH,2024,-,-,-


In [5]:
# Menampilkan 5 baris pertama dari 'Data Dinas Sosial.xlsx'
data_dinsos_xlsx.head(
    n=5
)

Unnamed: 0,id,kode_provinsi,nama_provinsi,periode_update,nik,nama,alamat,provinsi,kabupaten,kecamatan,kelurahan,tahun,kategori,jumlah,satuan
0,1,35,Jawa Timur,Triwulan I 2024,352606000000000000000,ABD HALIM,DSN GLIMBUR,JAWA TIMUR,KAB. BANGKALAN,GEGER,LERPAK,2024,-,-,-
1,2,35,Jawa Timur,Triwulan I 2024,352618000000000000000,ABD. ROHMAN,DSN. REMBAH GALIS,JAWA TIMUR,KAB. BANGKALAN,GALIS,GALIS,2024,-,-,-
2,3,35,Jawa Timur,Triwulan I 2024,352619000000000032768,ABDUS SYUKUR,DSN. BARAT SUMBER,JAWA TIMUR,KAB. BANGKALAN,GALIS,LONGKEK,2024,-,-,-
3,4,35,Jawa Timur,Triwulan I 2024,352606000000000000000,ACHMAD,DSN POCONG,JAWA TIMUR,KAB. BANGKALAN,GEGER,CAMPOR,2024,-,-,-
4,5,35,Jawa Timur,Triwulan I 2024,352614000000000000000,ACHMAD RIDOI,DSN. BANGGUMOK,JAWA TIMUR,KAB. BANGKALAN,TRAGAH,TRAGAH,2024,-,-,-


**Observasi:**

Sekilas tampak bahwa isi dari kedua format dari data dinas sosial `dinsos` pada tiap kolom hampir serupa.
* Kecuali pada kolom `nik` yang ditampilkan dalam format *scientific* (menggunakan notasi `E` untuk menampilkan bilangan numerik) pada `dinsos_csv`, dan menggunakan format numerik pada `dinsos_xlsx`.
* Untuk memudahkan perbandingan, tahapan berikutnya akan mengubah nilai `nik` pada `dinsos_csv` ke dalam format numerik.

Sebelum proses transformasi tersebut dimulai, pertama-tama perlu dilihat terlebih dahulu nilai-nilai yang ada pada kolom tersebut:

In [6]:
# Menunjukkan nilai unik pada kolom 'nik' dalam `dinsos_csv`
data_dinsos_csv['nik'].unique()

array(['3,52606E+15', '3,52618E+15', '3,52619E+15', '3,52614E+15',
       '3,52604E+15', '3,52613E+15', '3,52603E+15', '3,52608E+15',
       '3,52607E+15', '3,5261E+15', '3,52601E+15', '3,52605E+15',
       '3,57805E+15', '3,52616E+15', '3,57804E+15', '3,52612E+15',
       '3,52617E+15', '3,52666E+15', '3,51324E+15', '3,52602E+15',
       '3,51019E+15', '3,51005E+15', '3,51016E+15', '3,51007E+15',
       '3,52211E+15', '3,51006E+15', '3,51021E+15', '3,51012E+15',
       '3,51003E+15', '3,51017E+15', '3,51009E+15', '3,51022E+15',
       '3,51014E+15', '3,51011E+15', '3,5102E+15', '3,51013E+15',
       '3,51001E+15', '3,51024E+15', '3,51015E+15', '3,51008E+15',
       '3,51002E+15', '3,51004E+15', '3,5101E+15', '3,51518E+15',
       '3,50502E+15', '3,50507E+15', '3,50505E+15', '3,50503E+15',
       '3,50509E+15', '3,50516E+15', '3,50508E+15', '3,50504E+15',
       '3,50518E+15', '3,50506E+15', '3,5051E+15', '3,50519E+15',
       '3,50306E+15', '3,50601E+15', '3,5222E+15', '3,52204E+15',


**Observasi:**

Nilai pada kolom tersebut memiliki `dtype` atau tipe data `object`.
* Contoh format nilai yang sering ditemui pada kolom ini adalah `3,52606E+15`.
* Ditemukan juga beberapa format lain seperti `` `3527035109120002 `` dan `'3503125502060001`.

Untuk menyesuaikan nilai-nilai tersebut dengan format *scientific* yang umumnya berlaku, maka karakter-karakter berikut perlu dimodifikasi:

In [7]:
# Mengganti karakter tertentu pada kolom 'nik' dalam 'data_dinsos_csv' 
data_dinsos_csv['nik'] = data_dinsos_csv['nik'].replace(
    to_replace={
        ',': '.',
        '`': '',
        "'": ''
    },
    regex=True # Mengimplementasikan regular expression pada parameter 'to_replace'
)

Setelah menggunakan format yang sesuai, nilai-nilai yang masih menggunakan tipe data *object* dapat dikonversi ke dalam tipe data *numeric*:

In [8]:
# Mengonversi tipe data pada kolom 'nik' dalam 'data_dinsos_csv'
data_dinsos_csv['nik'] = pd.to_numeric( # Ke tipe data numeric
    arg=data_dinsos_csv['nik']
)

data_dinsos_csv['nik'].dtype

dtype('float64')

Terakhir, nilai yang masih menggunakan tipe data `float` diubah menjadi tipe data `int`:

In [None]:
# Mengubah tipe data pada kolom 'nik' dalam 'data_dinsos_csv'
data_dinsos_csv['nik'] = data_dinsos_csv['nik'].astype( 
    dtype=int # Menjadi tipe data 'int'
)

Analisis berikutnya menggunakan fungsi bawaan pandas yakni `equals()` untuk mengetahui lebih jauh kemiripan dari kedua format data tersebut:
* Fungsi tersebut membandingkan kemiripan bentuk (jumlah baris dan kolom) serta isi (baik dari segi lokasi *missing value* maupun tipe data) dari dua DataFrame.
* *Output* yang dihasilkan adalah *boolean* yang mengindikasikan apakah semua elemen dalam kedua DataFrame sama atau tidak.

In [10]:
pd.DataFrame( # Membuat DataFrame instance
    data={ # Dengan isi sesuai yang diatur dalam parameter 'data'
        'dinsos_csv': data_dinsos_csv.columns, # Daftar nama kolom pada variabel 'dinsos_csv'
        'equal': [data_dinsos_csv[column_csv].equals(
            other=data_dinsos_xlsx[column_xlsx]
        ) for column_csv, column_xlsx in zip(data_dinsos_csv.columns, data_dinsos_xlsx.columns)],
        'dinsos_xlsx': data_dinsos_xlsx.columns # Daftar nama kolom pada variabel 'dinsos_xlsx'
    }
)

Unnamed: 0,dinsos_csv,equal,dinsos_xlsx
0,id,True,id
1,kode_provinsi,True,kode_provinsi
2,nama_provinsi,True,nama_provinsi
3,periode_update,True,periode_update
4,nik,False,nik
5,nama,True,nama
6,alamat,True,alamat
7,provinsi,True,provinsi
8,kabupaten,True,kabupaten
9,kecamatan,True,kecamatan


**Observasi:**
* Hasil analisis menunjukkan kemiripan dimensi dan elemen dari kedua format data dinas sosial:
    * Jumlah dan nama kolom dari kedua format tersebut adalah serupa, serta
    * Isi dari tiap-tiap kolom tersebut adalah sama —yang ditunjukkan dari nilai kolom `equal` pada DataFrame di atas yang bernilai `True` untuk masing-masing pasangan kolom—, kecuali pada pasangan kolom `nik`.
    * Telah ditunjukkan secara sekilas dalam 5 baris pertama pada tiap format data tersebut, bahwa kolom `nik` dari `dinsos.csv` ditampilkan dalam format *scientific* (menggunakan notasi `E` untuk menampilkan bilangan numerik). Sedangkan `dinsos_xlsx` secara *domain knowledge* yang umum diketahui menggunakan format yang seharusnya (berupa 16 digit angka NIK).
* Berdasarkan temuan-temuan ini, diputuskan untuk menggunakan `dinsos.xlsx` sebagai format yang representatif untuk data dinas sosial. Juga ditampilkan sumber data lainnya yakni data master desa.

In [11]:
# Membuat variable instance baru 
data_dinas_sosial = data_dinsos_xlsx # Dari format data dinas sosial yang akan digunakan

data_dinas_sosial.head(
    n=5
)

Unnamed: 0,id,kode_provinsi,nama_provinsi,periode_update,nik,nama,alamat,provinsi,kabupaten,kecamatan,kelurahan,tahun,kategori,jumlah,satuan
0,1,35,Jawa Timur,Triwulan I 2024,352606000000000000000,ABD HALIM,DSN GLIMBUR,JAWA TIMUR,KAB. BANGKALAN,GEGER,LERPAK,2024,-,-,-
1,2,35,Jawa Timur,Triwulan I 2024,352618000000000000000,ABD. ROHMAN,DSN. REMBAH GALIS,JAWA TIMUR,KAB. BANGKALAN,GALIS,GALIS,2024,-,-,-
2,3,35,Jawa Timur,Triwulan I 2024,352619000000000032768,ABDUS SYUKUR,DSN. BARAT SUMBER,JAWA TIMUR,KAB. BANGKALAN,GALIS,LONGKEK,2024,-,-,-
3,4,35,Jawa Timur,Triwulan I 2024,352606000000000000000,ACHMAD,DSN POCONG,JAWA TIMUR,KAB. BANGKALAN,GEGER,CAMPOR,2024,-,-,-
4,5,35,Jawa Timur,Triwulan I 2024,352614000000000000000,ACHMAD RIDOI,DSN. BANGGUMOK,JAWA TIMUR,KAB. BANGKALAN,TRAGAH,TRAGAH,2024,-,-,-


In [12]:
# Menampilkan 5 baris pertama dari data master desa
data_master_desa.head(
    n=5
)

Unnamed: 0,kode_provinsi,nama_provinsi,kode_kabupaten_kota,nama_kabupaten_kota,bps_kode_kecamatan,bps_nama_kecamatan,bps_kode_desa_kelurahan,bps_desa_kelurahan,kemendagri_kode_kecamatan,kemendagri_nama_kecamatan,kemendagri_kode_desa_kelurahan,kemendagri_desa_kelurahan
0,35,JAWA TIMUR,3501,KABUPATEN PACITAN,3501010,DONOROJO,3501010001,WIDORO,35.01.01,DONOROJO,35.01.01.2001,WIDORO
1,35,JAWA TIMUR,3501,KABUPATEN PACITAN,3501010,DONOROJO,3501010002,SAWAHAN,35.01.01,DONOROJO,35.01.01.2002,SAWAHAN
2,35,JAWA TIMUR,3501,KABUPATEN PACITAN,3501010,DONOROJO,3501010003,KALAK,35.01.01,DONOROJO,35.01.01.2003,KALAK
3,35,JAWA TIMUR,3501,KABUPATEN PACITAN,3501010,DONOROJO,3501010004,SENDANG,35.01.01,DONOROJO,35.01.01.2004,SENDANG
4,35,JAWA TIMUR,3501,KABUPATEN PACITAN,3501010,DONOROJO,3501010005,KLEPU,35.01.01,DONOROJO,35.01.01.2005,KLEPU


Setelah proses ETL berhasil dilakukan, data tersebut dibandingkan dengan `bentuk_table` yang disediakan untuk membuat *table* dengan format yang sesuai.

### Data Comparison

Berikut disertakan DataFrame yang berisikan daftar nama kolom pada `bentuk_table` dengan `data_dinas_sosial` dan `data_master_desa`:

In [13]:
pd.DataFrame(
    # Label/nama kolom pada tiap data
    data=[
        bentuk_table.columns, 
        data_dinas_sosial.columns,
        data_master_desa.columns
    ],
    # Indeks untuk tiap daftar nama kolom
    index=[
        'bentuk_table',
        'data_dinas_sosial',
        'data_master_desa'
    ]
).T # Transpose DataFrame untuk memudahkan analisis

Unnamed: 0,bentuk_table,data_dinas_sosial,data_master_desa
0,id,id,kode_provinsi
1,kode_provinsi_y,kode_provinsi,nama_provinsi
2,nama_provinsi,nama_provinsi,kode_kabupaten_kota
3,kode_kabupaten_kota,periode_update,nama_kabupaten_kota
4,kabupaten,nik,bps_kode_kecamatan
5,nama_kabupaten_kota,nama,bps_nama_kecamatan
6,bps_kode_kecamatan,alamat,bps_kode_desa_kelurahan
7,kecamatan,provinsi,bps_desa_kelurahan
8,bps_nama_kecamatan,kabupaten,kemendagri_kode_kecamatan
9,bps_kode_desa_kelurahan,kecamatan,kemendagri_nama_kecamatan


**Observasi:**
* Beberapa kolom yang dibutuhkan untuk membuat *table* sesuai acuan dari `bentuk_table` hanya ditemukan persis satu di `data_dinas_sosial` maupun `data_master_desa`.
    * Seperti kolom `id`, `kode_kabupaten_kota`, dan `bps_kode_kecamatan`.
    * Sehingga terdapat kemungkinan untuk melakukan penggabungan atau *merge* dari dua sumber data ini.
* Namun proses penggabungan DataFrame membutuhkan *key*: data beserta kolomnya yang identik pada DataFrame yang hendak digabungkan.
    * Meskipun kedua kolom `kode_provinsi` pada masing-masing sumber data identik, tetapi `bentuk_table` menunjukkan bahwa `kode_provinsi` yang digunakan memiliki imbuhan `_y` —menandakan bahwa kolom ini berasal dari DataFrame kedua yang hendak digabungkan—, sehingga kolom ini tidak dijadikan *key* untuk membuat tabel baru.
    * *Merge umumnya menambahkan imbuhan di akhir nama kolom untuk dua kolom dengan nama yang sama dan akan digabungkan, sehingga imbuhan tersebut menandakan dari DataFrame mana asalnya.*
    * Dengan demikian, kolom yang akan ditentukan sebagai `key` adalah:
        1. Kolom `nama_provinsi`,
        2. Pasangan kolom `kabupaten` dan `nama_kabupaten_kota`,
        3. Antara `kecamatan` dengan `bps_nama_kecamatan` atau `kemendagri_nama_kecamatan`, dan 
        4. Antara `kelurahan` dengan `bps_desa_kelurahan` atau `kemendagri_nama_desa_kelurahan`.
    * Khusus untuk nomor 3 dan 4, analisis berikut akan menentukan pasangan kolom mana yang akan digunakan sebagai `key` berikutnya:

In [14]:
# Jumlah dari elemen dalam kolom 'kecamatan' dan 'kelurahan'
kecamatan_len = len(data_dinas_sosial['kecamatan'])
kelurahan_len = len(data_dinas_sosial['kelurahan'])

# Jumlah dari elemen tiap kolom yang berada pada kolom 'bps_' dan 'kemendagri'
kecamatan_bps_len = len(data_dinas_sosial[data_dinas_sosial['kecamatan'].isin(values=data_master_desa['bps_nama_kecamatan'])])
kelurahan_bps_len = len(data_dinas_sosial[data_dinas_sosial['kelurahan'].isin(values=data_master_desa['bps_desa_kelurahan'])])
kecamatan_kemendagri_len = len(data_dinas_sosial[data_dinas_sosial['kecamatan'].isin(values=data_master_desa['kemendagri_nama_kecamatan'])])
kelurahan_kemendagri_len = len(data_dinas_sosial[data_dinas_sosial['kelurahan'].isin(values=data_master_desa['kemendagri_desa_kelurahan'])])

pd.DataFrame(
    data=[
        (kecamatan_len, kelurahan_len),
        (kecamatan_bps_len, kelurahan_bps_len),
        (kecamatan_kemendagri_len, kelurahan_kemendagri_len)
    ],
    index=[
        'len()',
        'isin(bps_)',
        'isin(kemendagri_)'
    ],
    # Nama untuk tiap kolom pada DataFrame instance berikut
    columns=[
        'kecamatan',
        'kelurahan'
    ]
)

Unnamed: 0,kecamatan,kelurahan
len(),11583,11583
isin(bps_),10853,10713
isin(kemendagri_),11387,11545


**Observasi:**

Jumlah elemen dari tiap kolom `kecamatan` dan `kelurahan` yang persis sama dengan elemen pada kolom `bps_` lebih sedikit daripada kolom `kemendagri_`.
* Hal tersebut nantinya berdampak pada jumlah *missing value* yang lebih banyak jika menggabungkan masing-masing kolom dengan `bps_`.
* Dengan mempertimbangkan prinsip [kualitas data](https://en.wikipedia.org/wiki/Data_quality) yang membandingkan antara kondisi data saat ini dengan kondisi yang dikehendaki —salah satunya adalah *free of defect*—, maka kolom `kemendagri_` yang akan digunakan sebagai key pada tahapan berikutnya untuk mengurangi *defect* berupa *missing value* sebanyak mungkin.

Sebelum melakukan *merging*, perlu diperhatikan juga instruksi berikutnya:
> Untuk *header* kolom menggunakan bentuk kecil semua dan isi data menggunakan huruf besar semua.
* *Header* dari kolom yang akan digabungkan sudah dalam bentuk kecil atau *lowercase*, tetapi
* Beberapa kolom seperti `nama_provinsi` dan `periode_update` dari `data_dinas_sosial` masih berisikan nilai dalam format *lowercase*, sehingga tahapan berikut akan mengubah formatnya menjadi *uppercase*:

In [15]:
# Mengubah isi dari tiap kolom menjadi uppercase
data_dinas_sosial['nama_provinsi'] = data_dinas_sosial['nama_provinsi'].str.upper()
data_dinas_sosial['periode_update'] = data_dinas_sosial['periode_update'].str.upper()

Juga ditemukan nilai pada *key* `kabupaten` yang tidak persis sama dengan `nama_kabupaten_kota`. 
* Hal ini dikarenakan isi dari `kabupaten` menggunakan format `KAB.` lalu diikuti dengan nama dari kabupaten tersebut.
* Format ini pun perlu disesuaikan dengan mengikuti acuan dari `bentuk_table`: 

In [16]:
# Mengganti tiap data pada kolom 'kabupaten'
data_dinas_sosial['kabupaten'] = data_dinas_sosial['kabupaten'].str.replace(
    pat='KAB.', # Data dengan pola yang ditentukan
    repl='KABUPATEN' # Diganti dengan pola berikut
)

### Data Merging
Setelah perbandingan dan penyesuaian pada tahapan sebelumnya dinilai memadai, berikutnya proses penggabungan kedua data dapat dilakukan:

In [17]:
# Menggabungkan data dengan 'database-style join'
table = pd.merge(
    left=data_dinas_sosial, # Data pertama/left yang akan digabungkan
    right=data_master_desa, # Dengan data kedua/right
    how='left', # Menggunakan key dari left dan mempertahankan urutan dari key tersebut
    left_on=['nama_provinsi', 'kabupaten', 'kecamatan', 'kelurahan'], # Kolom dari left yang hendak digabungkan sebagai key
    right_on=['nama_provinsi', 'nama_kabupaten_kota', 'kemendagri_nama_kecamatan', 'kemendagri_desa_kelurahan'] # Dengan key dari right
)

table.head(
    n=5
)

Unnamed: 0,id,kode_provinsi_x,nama_provinsi,periode_update,nik,nama,alamat,provinsi,kabupaten,kecamatan,kelurahan,tahun,kategori,jumlah,satuan,kode_provinsi_y,kode_kabupaten_kota,nama_kabupaten_kota,bps_kode_kecamatan,bps_nama_kecamatan,bps_kode_desa_kelurahan,bps_desa_kelurahan,kemendagri_kode_kecamatan,kemendagri_nama_kecamatan,kemendagri_kode_desa_kelurahan,kemendagri_desa_kelurahan
0,1,35,JAWA TIMUR,TRIWULAN I 2024,352606000000000000000,ABD HALIM,DSN GLIMBUR,JAWA TIMUR,KABUPATEN BANGKALAN,GEGER,LERPAK,2024,-,-,-,35.0,3526.0,KABUPATEN BANGKALAN,3526140.0,GEGER,3526140000.0,LERPAK,35.26.06,GEGER,35.26.06.2005,LERPAK
1,2,35,JAWA TIMUR,TRIWULAN I 2024,352618000000000000000,ABD. ROHMAN,DSN. REMBAH GALIS,JAWA TIMUR,KABUPATEN BANGKALAN,GALIS,GALIS,2024,-,-,-,35.0,3526.0,KABUPATEN BANGKALAN,3526070.0,GALIS,3526070000.0,GALIS,35.26.18,GALIS,35.26.18.2007,GALIS
2,3,35,JAWA TIMUR,TRIWULAN I 2024,352619000000000032768,ABDUS SYUKUR,DSN. BARAT SUMBER,JAWA TIMUR,KABUPATEN BANGKALAN,GALIS,LONGKEK,2024,-,-,-,35.0,3526.0,KABUPATEN BANGKALAN,3526070.0,GALIS,3526070000.0,LONGKEK,35.26.18,GALIS,35.26.18.2006,LONGKEK
3,4,35,JAWA TIMUR,TRIWULAN I 2024,352606000000000000000,ACHMAD,DSN POCONG,JAWA TIMUR,KABUPATEN BANGKALAN,GEGER,CAMPOR,2024,-,-,-,35.0,3526.0,KABUPATEN BANGKALAN,3526140.0,GEGER,3526140000.0,CAMPOR,35.26.06,GEGER,35.26.06.2010,CAMPOR
4,5,35,JAWA TIMUR,TRIWULAN I 2024,352614000000000000000,ACHMAD RIDOI,DSN. BANGGUMOK,JAWA TIMUR,KABUPATEN BANGKALAN,TRAGAH,TRAGAH,2024,-,-,-,35.0,3526.0,KABUPATEN BANGKALAN,3526090.0,TRAGAH,3526090000.0,TRAGAH,35.26.14,TRAGAH,35.26.14.2006,TRAGAH


**Observasi:**
* Sesuai dengan hasil analisis pada bagian `Data Comparison` sebelumnya, `kode_provinsi` yang digunakan adalah `kode_provinsi_y` dan `kode_provinsi_x` tidak digunakan dalam tabel yang baru.
* Nama dari beberapa kolom seperti `bps_desa_kelurahan`, `kemendagri_desa_kelurahan`, dan `kategori` perlu disesuaikan dengan format nama kolom yang digunakan pada `contoh_tabel`.
* Pun demikian dengan urutan nama kolom pada `tabel` mengikuti urutan nama kolom `bentuk_table`

In [18]:
# Menghapus kolom dari table
table = table.drop(
    columns=[
        'kode_provinsi_x'
    ]
# Mengganti nama kolom sesuai format pada `bentuk_table`
).rename(
    columns={
        'bps_desa_kelurahan': 'bps_nama_desa_kelurahan',
        'kemendagri_desa_kelurahan': 'kemendagri_nama_desa_kelurahan',
        'kategori': 'kategori.1'
    }
# Mengatur urutan dari table 
).reindex(
    labels=bentuk_table.columns, # Menggunakan daftar kolom dari 'bentuk_table'
    axis=1 # 'Axis' kedua atau kolom yang diurutkan sesuai parameter 'labels' sebelumnya
)

Hasil dari proses penggabungan ini berupa *variabel instance* `tabel` yang dapat dibandingkan dengan `bentuk_table`:

In [19]:
display(
    table.head(
        n=5
    )
)

display(
    bentuk_table.head(
        n=5
    )
)

Unnamed: 0,id,kode_provinsi_y,nama_provinsi,kode_kabupaten_kota,kabupaten,nama_kabupaten_kota,bps_kode_kecamatan,kecamatan,bps_nama_kecamatan,bps_kode_desa_kelurahan,kelurahan,bps_nama_desa_kelurahan,kemendagri_kode_kecamatan,kemendagri_nama_kecamatan,kemendagri_kode_desa_kelurahan,kemendagri_nama_desa_kelurahan,periode_update,nik,nama,alamat,kategori,kategori.1,jumlah,satuan,tahun
0,1,35.0,JAWA TIMUR,3526.0,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526140.0,GEGER,GEGER,3526140000.0,LERPAK,LERPAK,35.26.06,GEGER,35.26.06.2005,LERPAK,TRIWULAN I 2024,352606000000000000000,ABD HALIM,DSN GLIMBUR,,-,-,-,2024
1,2,35.0,JAWA TIMUR,3526.0,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526070.0,GALIS,GALIS,3526070000.0,GALIS,GALIS,35.26.18,GALIS,35.26.18.2007,GALIS,TRIWULAN I 2024,352618000000000000000,ABD. ROHMAN,DSN. REMBAH GALIS,,-,-,-,2024
2,3,35.0,JAWA TIMUR,3526.0,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526070.0,GALIS,GALIS,3526070000.0,LONGKEK,LONGKEK,35.26.18,GALIS,35.26.18.2006,LONGKEK,TRIWULAN I 2024,352619000000000032768,ABDUS SYUKUR,DSN. BARAT SUMBER,,-,-,-,2024
3,4,35.0,JAWA TIMUR,3526.0,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526140.0,GEGER,GEGER,3526140000.0,CAMPOR,CAMPOR,35.26.06,GEGER,35.26.06.2010,CAMPOR,TRIWULAN I 2024,352606000000000000000,ACHMAD,DSN POCONG,,-,-,-,2024
4,5,35.0,JAWA TIMUR,3526.0,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526090.0,TRAGAH,TRAGAH,3526090000.0,TRAGAH,TRAGAH,35.26.14,TRAGAH,35.26.14.2006,TRAGAH,TRIWULAN I 2024,352614000000000000000,ACHMAD RIDOI,DSN. BANGGUMOK,,-,-,-,2024


Unnamed: 0,id,kode_provinsi_y,nama_provinsi,kode_kabupaten_kota,kabupaten,nama_kabupaten_kota,bps_kode_kecamatan,kecamatan,bps_nama_kecamatan,bps_kode_desa_kelurahan,kelurahan,bps_nama_desa_kelurahan,kemendagri_kode_kecamatan,kemendagri_nama_kecamatan,kemendagri_kode_desa_kelurahan,kemendagri_nama_desa_kelurahan,periode_update,nik,nama,alamat,kategori,kategori.1,jumlah,satuan,tahun
0,1,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526140,GEGER,GEGER,3526140002,LERPAK,LERPAK,35.26.06,GEGER,35.26.06.2005,LERPAK,TRIWULAN I 2024,3526060000000000,ABD HALIM,DSN GLIMBUR,,-,-,-,2024
1,2,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526070,GALIS,GALIS,3526070004,GALIS,GALIS,35.26.18,GALIS,35.26.18.2007,GALIS,TRIWULAN I 2024,3526180000000000,ABD. ROHMAN,DSN. REMBAH GALIS,,-,-,-,2024
2,3,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526070,GALIS,GALIS,3526070009,LONGKEK,LONGKEK,35.26.18,GALIS,35.26.18.2006,LONGKEK,TRIWULAN I 2024,3526190000000000,ABDUS SYUKUR,DSN. BARAT SUMBER,,-,-,-,2024
3,4,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526140,GEGER,GEGER,3526140006,CAMPOR,CAMPOR,35.26.06,GEGER,35.26.06.2010,CAMPOR,TRIWULAN I 2024,3526060000000000,ACHMAD,DSN POCONG,,-,-,-,2024
4,5,35,JAWA TIMUR,3526,KABUPATEN BANGKALAN,KABUPATEN BANGKALAN,3526090,TRAGAH,TRAGAH,3526090013,TRAGAH,TRAGAH,35.26.14,TRAGAH,35.26.14.2006,TRAGAH,TRIWULAN I 2024,3526140000000000,ACHMAD RIDOI,DSN. BANGGUMOK,,-,-,-,2024


---
## 2 | *Check Null*

> Lakukan *check* pada data tersebut apakah ada kolom nilai *null* atau tidak.

---
## 3 | *Data Cleansing*

> Jika ada nilai null lakukan cleansing data pada table yang sudah dilakukan join sehingga meminimalisir nilai null.

---
## 4 | *Addendum*

> Buatlah coding cleansing dengan bahasa python. Asumsikan akan melakukan cleansing data pada data yang jumlahnya besar dan beragam sehingga buatlah algoritma coding yang bisa digunakan untuk banyak case data.

> Buatlah penjelasan cleansing data yang Anda lakukan dari problem dan solusi yang diberikan.

> Untuk coding python mohon kumpulkan file dalam bentuk file python (.ipynb) dan untuk analysisnya boleh dalam bentuk word atau di file python tersebut. 

> "Syarat dan ketentuan tugas: Buatlah dalam format PPT (canva/google slide) maksimal 15 slides. Kirimkan link PPT/drive ke gform Pendaftaran Magang Mandiri SEAL Batch 2 2025 Batas maksimal pengumpulan 3 hari
