<a href="https://colab.research.google.com/github/badzlan/techfest-elims/blob/main/EDA_tipiel_IPB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Efektivitas Penyaluran Dana Transfer ke Daerah (TKDD): Studi Perbandingan Pagu dan Realisasi TKDD di Provinsi-Provinsi Indonesia Tahun 2023

### Info

#### Rumusan Masalah

1. Bagaimana tingkat perbandingan antara pagu dan realisas TKDD di setiap provinsi di Indonesia tahun 2023?

2. Provinsi mana yang memiliki tingkat realisasi tertinggi dan terendah?

3. Apa kemungkinan faktor-faktor yang mempengaruhi tinggi/rendahnya realisasi TKDD?

4. Apakah terdapat hubungan antara realisasi TKDD dan IPM suatu provinsi?

5. Apa saja faktor-faktor yang memengaruhi IPM di tiap provinsi Indonesia pada tahun 2023

#### Permintaan untuk peserta

1. Melakukan analisis perbandingan pagu TKDD dan realisasi TKDD

2. Menghitung persentase realisasi TKDD dari tiap provinsi dan mengklasifikasikannya menjadi 3 kategori:
  - Di bawah 90%
  - Berada di antara 90-100%
  - Di atas 100%

3. Menganalissi faktor-faktor yang dapat mempengaruhi realisasi TKDD

4. Analisis hubungan realisasi TKDD dengan IPM

5. Memberikan insight dan rekomendasi kebjijakan yang berdasarkan data

6. Tim wajib mencantumkan penjelasan terkait EDA yang dilakukan

#### Catatan

1. Tim peserta wajib mencantumkan penjelasan naratif (deskriptif) terhadap setiap langkah EDA yang dilakukan, baik berupa temuan statistik, pola, tren, maupun anomali, untuk mendukung pemahaman terhadap data dan relevansi dengan studi kasus.

2. Dataset yang disediakan belum sepenuhnya bersih. Setiap peserta diwajibkan melakukan tahap data preparation terlebih dahulu sesuai kebutuhan masing-masing.

3. Peserta diperbolehkan melakukan eksplorasi dan visualisasi data tambahan di luar instruksi yang diberikan. Visualisasi dapat dibuat dengan format dan jenis apapun, selama:
    * Relevan dengan studi kasus
    * Mendukung jawaban terhadap rumusan masalah
    * Menghasilkan insight yang bermakna dan dapat ditindaklanjuti

#### Penjelasan Kolom

1. Provinsi: Nama wilayah administratif di Indonesia

2. IPM: Indeks Pembangunan Manusia
    - Angka untuk ngukur kualitas hidup penduduk.
    - Gabungan dari pendidikan, kesehatan, dan pendapatan.
    - Makin tinggi, makin bagus kualitas hidup di daerah itu.

3. Pagu TKDD
    - TKDD = Transfer ke Daerah dan Dana Desa, bagian dari APBN (Anggaran Pendapatan dan Belanja Negara)
    - Total dana transfer dari pusat ke daerah (sebelum dipakai)
    - Ini adalah anggaran yang dikasih dari pusat ke provinsi

4. Realisasi TKDD
    - Seberapa banyak dana TKDD ini yang bener-bener udah dipakai
    - Kalau angkanya lebih kecil dibandingkan dengan pagu, maka artinya belum dimanfaatkan secara maksimal

5. Jumlah Penduduk

6. Anggaran APBN per Kapita
    - Total dana dari pemerintah pusat dibagi per orang
    - Buat tau berapa jatah rata-rata tiap orang dari anggaran nasional

7. Persentase Penduduk Miskin
    - Persentase orang yang hidup di bawah garis kemiskinan
    - Miskin di sini dihitung berdasarkan pengeluaran orang tersebut
    - Ketika pengeluaran < batas bawah garis kemiskinan provinsi tersebut = dikategorikan miskin

8. PRDB Atas Dasar Harga Berlaku
    - PRDB = Produk Domestik Regional Bruto
    - ADHB = Atas Dasar Harga Berlaku
    - Total nilai barang & jasa yang dihasilkan provinsi, dihitung pakai harga saat itu (tanpa koreksi inflasi).
    - Ibaratnya: seberapa “kaya” aktivitas ekonomi daerah itu saat ini.

9. PRDB per Kapita HB
    - PDRB dibagi jumlah penduduk → buat lihat rata-rata kontribusi ekonomi per orang.
    - Makin tinggi, artinya rata-rata orang di daerah itu punya “aktivitas ekonomi” yang tinggi.

10. Laju Pertumbuhan PDRB atas dasar konstan 2010
    - Seberapa cepat ekonomi daerah tumbuh dibanding tahun sebelumnya.
    - Pakai harga konstan 2010 (jadi gak dipengaruhi inflasi).
    - Makin tinggi persen pertumbuhannya, berarti ekonomi makin cepat berkembang.

## 1. Data Preparation

### 1.1 Import library and Data

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

In [2]:
# Baca data dari GitHub
url = "https://raw.githubusercontent.com/badzlan/techfest-elims/refs/heads/main/dataset.csv"
df = pd.read_csv(url)

# Tampilkan 5 data pertama
df.head()

Unnamed: 0,Provinsi,IPM,Pagu TKDD,Realisasi TKDD,Jumlah Penduduk,Anggaran APBN per kapita,Persentase Penduduk Miskin,Produk Domestik Regional Bruto (PDRB) Atas Dasar Harga Berlaku,Produk Domestik Regional Bruto per Kapita HB,Laju Pertumbuhan PDRB atas dasar konstan 2010
0,ACEH,747,"Rp 30.821.480.000.000,00","Rp 31.074.560.000.000,00",5.409.200,"5.744.760,78",1445,2270182,41.408.000,423
1,BALI,7801,"Rp 11.152.110.000.000,00","Rp 11.064.980.000.000,00",4.374.300,"2.529.543,01",425,27435818,62.294.000,571
2,BANTEN,7577,"Rp 17.453.380.000.000,00","Rp 17.467.380.000.000,00",12.167.000,"1.435.635,74",617,81412203,66.147.000,481
3,BENGKULU,743,"Rp 10.570.080.000.000,00","Rp 10.559.790.000.000,00",2.059.400,"5.127.605,13",1404,9658309,46.300.000,428
4,DI YOGYAKARTA,8109,"Rp 10.355.870.000.000,00","Rp 10.241.290.000.000,00",3.712.600,"2.758.522,33",1104,18069604,48.360.000,507


### 1.2 Cek Missing Values & Duplikasi

In [3]:
# Cek missing values
print("Jumlah missing value per kolom:")
print(df.isnull().sum())

# Cek duplikasi
print("\nJumlah baris duplikat:", df.duplicated().sum())

Jumlah missing value per kolom:
Provinsi                                                          0
IPM                                                               4
Pagu TKDD                                                         0
Realisasi TKDD                                                    0
Jumlah Penduduk                                                   2
Anggaran APBN per kapita                                          0
Persentase Penduduk Miskin                                        4
Produk Domestik Regional Bruto (PDRB) Atas Dasar Harga Berlaku    0
Produk Domestik Regional Bruto per Kapita HB                      0
Laju Pertumbuhan PDRB atas dasar konstan 2010                     0
dtype: int64

Jumlah baris duplikat: 0


### 1.3 Renaming Columns

In [4]:
# Rename kolom-kolom
df.rename(columns={
    'Provinsi': 'provinsi',
    'IPM': 'ipm',
    'Pagu TKDD': 'pagu_tkdd',
    'Realisasi TKDD': 'realisasi_tkdd',
    'Jumlah Penduduk': 'jumlah_penduduk',
    'Anggaran APBN per kapita': 'apbn_per_kapita',
    'Persentase Penduduk Miskin': 'persentase_penduduk_miskin',
    'Produk Domestik Regional Bruto (PDRB) Atas Dasar Harga Berlaku': 'pdrb_adhb',
    'Produk Domestik Regional Bruto per Kapita HB': 'pdrb_per_kapita_hb',
    'Laju Pertumbuhan PDRB atas dasar konstan 2010': 'laju_pdrb_konstan_2010'
}, inplace=True)

df.columns

Index(['provinsi', 'ipm', 'pagu_tkdd', 'realisasi_tkdd', 'jumlah_penduduk',
       'apbn_per_kapita', 'persentase_penduduk_miskin', 'pdrb_adhb',
       'pdrb_per_kapita_hb', 'laju_pdrb_konstan_2010'],
      dtype='object')

### 1.4 Cek & Pastikan Tipe Data Numerik

In [5]:
# Cek tipe data
print("\nTipe data setiap kolom:")
print(df.dtypes)

replacement_rules = {
    r'Rp ': '',
    r'\.': '',
    r',': '.'
}

clear_cols = ['ipm',
              'pagu_tkdd',
              'realisasi_tkdd',
              'jumlah_penduduk',
              'apbn_per_kapita',
              'persentase_penduduk_miskin',
              'pdrb_adhb',
              'pdrb_per_kapita_hb',
              'laju_pdrb_konstan_2010'
]

def apply_replacements(text, rules):
    # Convert non-string values to string, handling NaN
    if not isinstance(text, str):
        return str(text)
    for pattern, replacement in rules.items():
        text = re.sub(pattern, replacement, text)
    return text

for col in clear_cols:
  df[col] = df[col].apply(lambda x: apply_replacements(x, replacement_rules))
  df[col] = pd.to_numeric(df[col], errors='coerce')

print("\nTipe data setelah konversi:")
print(df.dtypes)


Tipe data setiap kolom:
provinsi                      object
ipm                           object
pagu_tkdd                     object
realisasi_tkdd                object
jumlah_penduduk               object
apbn_per_kapita               object
persentase_penduduk_miskin    object
pdrb_adhb                     object
pdrb_per_kapita_hb            object
laju_pdrb_konstan_2010        object
dtype: object

Tipe data setelah konversi:
provinsi                       object
ipm                           float64
pagu_tkdd                     float64
realisasi_tkdd                float64
jumlah_penduduk               float64
apbn_per_kapita               float64
persentase_penduduk_miskin    float64
pdrb_adhb                     float64
pdrb_per_kapita_hb              int64
laju_pdrb_konstan_2010        float64
dtype: object


### 1.5 Tambahkan Kolom Rasio Realisasi TKDD

In [31]:
df['rasio_realisasi'] = (df['realisasi_tkdd'] / df['pagu_tkdd']) * 100

### 1.6 Klasifikasikan Rasio ke dalam 3 Kategori

In [32]:
def klasifikasi_realisasi(rasio):
    if rasio < 90:
        return '< 90'
    elif 90 <= rasio <= 100:
        return '90-100'
    elif rasio > 100:
        return '>100'
    else :
        return 'Unknown'

df['kategori_realisasi_%'] = df['rasio_realisasi'].apply(klasifikasi_realisasi)

### 1.7 Handle Missing Values

In [11]:
# --- 2. List provinsi di Sulawesi ---
sulawesi_provinces = [
    "SULAWESI UTARA", "SULAWESI TENGAH", "SULAWESI SELATAN",
    "SULAWESI TENGGARA", "SULAWESI BARAT", "GORONTALO"
]

# --- 3. Kolom yang akan diimputasi ---
target_columns = [
    'pagu_tkdd', 'realisasi_tkdd', 'apbn_per_kapita',
]

# --- 4. Imputasi hanya untuk provinsi Sulawesi ---
for col in target_columns:
    mean_val = df[df['provinsi'].isin(sulawesi_provinces)][col].mean()
    df.loc[df['provinsi'] == 'SULAWESI UTARA', col] = mean_val

In [28]:
# ipm papua = median nasional
# jumlah penduduk dan apbn = mean regional
# persentase penduduk miskin = mean regional

papua_regional = ['PAPUA BARAT DAYA', 'PAPUA PEGUNUNGAN', 'PAPUA SELATAN', 'PAPUA TENGAH', 'PAPUA', 'PAPUA BARAT']

# handle ipm
papua_ipm = ['PAPUA BARAT DAYA', 'PAPUA PEGUNUNGAN', 'PAPUA SELATAN', 'PAPUA TENGAH']

for prov in papua_ipm :
  df.loc[df['provinsi'] == prov, 'ipm'] = df['ipm'].median()

# handle apbn, jumlah penduduk, persen penduduk miskin
papua_penduduk_apbn = ['PAPUA PEGUNUNGAN', 'PAPUA SELATAN']
col_papua_penduduk_apbn = ['jumlah_penduduk', 'apbn_per_kapita']

for prov in papua_penduduk_apbn :
  for col in col_papua_penduduk_apbn :
    df.loc[df['provinsi'] == prov, col] = df[df['provinsi'].isin(papua_regional)][col].mean()

# handle persentase penduduk miskin
papua_persentase_miskin = ['PAPUA BARAT DAYA', 'PAPUA PEGUNUNGAN', 'PAPUA SELATAN', 'PAPUA TENGAH']

for prov in papua_persentase_miskin :
  df.loc[df['provinsi'] == prov, 'persentase_penduduk_miskin'] = df[df['provinsi'].isin(papua_regional)]['persentase_penduduk_miskin'].mean()

In [36]:
df

Unnamed: 0,provinsi,ipm,pagu_tkdd,realisasi_tkdd,jumlah_penduduk,apbn_per_kapita,persentase_penduduk_miskin,pdrb_adhb,pdrb_per_kapita_hb,laju_pdrb_konstan_2010,pagu_tkdd_per_kapita,realisasi_tkdd_per_kapita,rasio_realisasi,kategori_realisasi_%
0,ACEH,74.7,30821480000000.0,31074560000000.0,5409200.0,5744761.0,14.45,227018.2,41408000,4.23,5697974.0,5744761.0,100.821116,>100
1,BALI,78.01,11152110000000.0,11064980000000.0,4374300.0,2529543.0,4.25,274358.18,62294000,5.71,2549462.0,2529543.0,99.218713,90-100
2,BANTEN,75.77,17453380000000.0,17467380000000.0,12167000.0,1435636.0,6.17,814122.03,66147000,4.81,1434485.0,1435636.0,100.080214,>100
3,BENGKULU,74.3,10570080000000.0,10559790000000.0,2059400.0,5127605.0,14.04,96583.09,46300000,4.28,5132602.0,5127605.0,99.90265,90-100
4,DI YOGYAKARTA,81.09,10355870000000.0,10241290000000.0,3712600.0,2758522.0,11.04,180696.04,48360000,5.07,2789385.0,2758522.0,98.893574,90-100
5,DKI JAKARTA,83.55,24694990000000.0,25080180000000.0,10640000.0,2357160.0,4.44,3443026.23,322619000,4.96,2320958.0,2357160.0,101.55979,>100
6,GORONTALO,71.25,6172420000000.0,6155410000000.0,1198400.0,5136357.0,15.15,51366.74,42341000,4.5,5150551.0,5136357.0,99.724419,90-100
7,JAMBI,73.73,15232070000000.0,15352670000000.0,3633200.0,4225661.0,7.58,293780.01,79850000,4.67,4192467.0,4225661.0,100.791751,>100
8,JAWA BARAT,74.24,71321760000000.0,71031690000000.0,49306800.0,1440606.0,7.62,2625225.72,52652000,5.0,1446489.0,1440606.0,99.593294,90-100
9,JAWA TENGAH,73.39,67129690000000.0,66772060000000.0,371804000.0,179589.4,10.77,1695621.57,45167000,4.97,180551.3,179589.4,99.467255,90-100
