# üìä Session 1: Pandas Fundamental

**Durasi:** 90 menit  
**Dataset:** RUP Paket Penyedia 2025

## üéØ Tujuan Pembelajaran
Setelah sesi ini, Anda dapat:
1. Memuat dan melihat data dengan Pandas
2. Memilih dan memfilter data
3. Melakukan agregasi sederhana
4. Menangani missing values
5. Membuat summary statistics

## 1Ô∏è‚É£ Setup & Load Data

In [1]:
import pandas as pd
import numpy as np
from pathlib import Path

# Konfigurasi display
pd.set_option('display.max_columns', 20)
pd.set_option('display.float_format', '{:.2f}'.format)

print(f"Pandas version: {pd.__version__}")

Pandas version: 2.3.3


In [2]:
# Load dataset
data_path = Path('../../../../datasets/rup/RUP-PaketPenyedia-Terumumkan-2025.parquet')
df = pd.read_parquet(data_path)

print(f"‚úÖ Data loaded: {len(df):,} rows, {len(df.columns)} columns")

‚úÖ Data loaded: 16,430 rows, 48 columns


## 2Ô∏è‚É£ Eksplorasi Awal

In [3]:
# Lihat 5 baris pertama
df.head()

Unnamed: 0,tahun_anggaran,kd_klpd,nama_klpd,jenis_klpd,kd_satker,kd_satker_str,nama_satker,kd_rup,nama_paket,pagu,...,status_umumkan_rup,status_dikecualikan,alasan_dikecualikan,tahun_pertama,kode_rup_tahun_pertama,nomor_kontrak,spp_aspek_ekonomi,spp_aspek_sosial,spp_aspek_lingkungan,_event_date
0,2025,D197,Provinsi Kalimantan Barat,PROVINSI,264455,1.02.0.00.0.00.03.0000,RUMAH SAKIT JIWA PROVINSI KALIMANTAN BARAT,53540979,Belanja Bahan Makanan dan Minuman Pasien,7700000000,...,Terumumkan,False,,,,,False,False,False,2025-11-05
1,2025,D197,Provinsi Kalimantan Barat,PROVINSI,264456,1.03.0.00.0.00.01.0000,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...,53688068,Perencanaan Rehabilitasi Gedung UPT Pengujian ...,300000000,...,Terumumkan,False,,,,,False,False,False,2025-11-05
2,2025,D197,Provinsi Kalimantan Barat,PROVINSI,264456,1.03.0.00.0.00.01.0000,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...,53699505,PENGAWASAN TEKNIS PENGGANTIAN/PEMBANGUNAN JEMB...,1200000000,...,Terumumkan,False,,,,,True,True,True,2025-11-05
3,2025,D197,Provinsi Kalimantan Barat,PROVINSI,264456,1.03.0.00.0.00.01.0000,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...,53700150,PENGAWASAN TEKNIS PENINGKATAN JALAN TANJUNG M...,1200000000,...,Terumumkan,False,,,,,True,True,True,2025-11-05
4,2025,D197,Provinsi Kalimantan Barat,PROVINSI,264456,1.03.0.00.0.00.01.0000,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...,53700183,PENGAWASAN TEKNIS PENINGKATAN JALAN MARAU AIR...,1500000000,...,Terumumkan,False,,,,,True,True,True,2025-11-05


In [4]:
# Info struktur data
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16430 entries, 0 to 16429
Data columns (total 48 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   tahun_anggaran          16430 non-null  int64         
 1   kd_klpd                 16430 non-null  object        
 2   nama_klpd               16430 non-null  object        
 3   jenis_klpd              16430 non-null  object        
 4   kd_satker               16430 non-null  int64         
 5   kd_satker_str           16430 non-null  object        
 6   nama_satker             16430 non-null  object        
 7   kd_rup                  16430 non-null  int64         
 8   nama_paket              16430 non-null  object        
 9   pagu                    16430 non-null  int64         
 10  kd_metode_pengadaan     16430 non-null  int64         
 11  metode_pengadaan        16430 non-null  object        
 12  kd_jenis_pengadaan      16429 non-null  object

In [5]:
# Summary statistics untuk kolom numerik
df[['pagu']].describe()

Unnamed: 0,pagu
count,16430.0
mean,128525019.61
std,1217381191.99
min,1.0
25%,1360000.0
50%,8354500.0
75%,91734075.0
max,74802424962.0


## 3Ô∏è‚É£ Seleksi Data

In [6]:
# Pilih kolom penting
key_cols = ['nama_paket', 'pagu', 'metode_pengadaan', 'jenis_pengadaan', 'nama_satker']
df_simple = df[key_cols].copy()
df_simple.head()

Unnamed: 0,nama_paket,pagu,metode_pengadaan,jenis_pengadaan,nama_satker
0,Belanja Bahan Makanan dan Minuman Pasien,7700000000,Tender,Barang,RUMAH SAKIT JIWA PROVINSI KALIMANTAN BARAT
1,Perencanaan Rehabilitasi Gedung UPT Pengujian ...,300000000,Seleksi,Jasa Konsultansi,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...
2,PENGAWASAN TEKNIS PENGGANTIAN/PEMBANGUNAN JEMB...,1200000000,Seleksi,Jasa Konsultansi,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...
3,PENGAWASAN TEKNIS PENINGKATAN JALAN TANJUNG M...,1200000000,Seleksi,Jasa Konsultansi,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...
4,PENGAWASAN TEKNIS PENINGKATAN JALAN MARAU AIR...,1500000000,Seleksi,Jasa Konsultansi,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...


In [7]:
# Filter: paket dengan pagu > 1 Miliar
high_value = df_simple[df_simple['pagu'] > 1_000_000_000]
print(f"Paket dengan pagu > 1M: {len(high_value):,}")
high_value.head()

Paket dengan pagu > 1M: 181


Unnamed: 0,nama_paket,pagu,metode_pengadaan,jenis_pengadaan,nama_satker
0,Belanja Bahan Makanan dan Minuman Pasien,7700000000,Tender,Barang,RUMAH SAKIT JIWA PROVINSI KALIMANTAN BARAT
2,PENGAWASAN TEKNIS PENGGANTIAN/PEMBANGUNAN JEMB...,1200000000,Seleksi,Jasa Konsultansi,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...
3,PENGAWASAN TEKNIS PENINGKATAN JALAN TANJUNG M...,1200000000,Seleksi,Jasa Konsultansi,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...
4,PENGAWASAN TEKNIS PENINGKATAN JALAN MARAU AIR...,1500000000,Seleksi,Jasa Konsultansi,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...
603,PENGAWASAN TEKNIS PENINGKATAN JALAN SUKADANA -...,1100000000,Seleksi,Jasa Konsultansi,DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVIN...


In [8]:
# Filter kombinasi: Tender dan pagu > 1M
tender_high = df_simple[
    (df_simple['pagu'] > 1_000_000_000) & 
    (df_simple['metode_pengadaan'] == 'Tender')
]
print(f"Paket Tender dengan pagu > 1M: {len(tender_high):,}")

Paket Tender dengan pagu > 1M: 67


## 4Ô∏è‚É£ Agregasi & GroupBy

In [9]:
# Hitung total pagu per metode pengadaan
pagu_per_metode = df.groupby('metode_pengadaan')['pagu'].agg([
    ('jumlah_paket', 'count'),
    ('total_pagu_miliar', lambda x: x.sum() / 1e9),
    ('rata_rata_miliar', lambda x: x.mean() / 1e9)
]).round(2)

pagu_per_metode.sort_values('total_pagu_miliar', ascending=False)

Unnamed: 0_level_0,jumlah_paket,total_pagu_miliar,rata_rata_miliar
metode_pengadaan,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Pengadaan Langsung,4515,706.99,0.16
E-Purchasing,11245,644.44,0.06
Tender,77,569.15,7.39
Dikecualikan,497,148.14,0.3
Seleksi,44,32.41,0.74
Penunjukan Langsung,48,7.2,0.15
Tender Cepat,3,3.33,1.11
Kontes,1,0.0,0.0


In [10]:
# Top 10 Satker berdasarkan total pagu
top_satker = df.groupby('nama_satker')['pagu'].agg([
    ('jumlah_paket', 'count'),
    ('total_pagu_miliar', lambda x: x.sum() / 1e9)
]).sort_values('total_pagu_miliar', ascending=False).head(10)

top_satker

Unnamed: 0_level_0,jumlah_paket,total_pagu_miliar
nama_satker,Unnamed: 1_level_1,Unnamed: 2_level_1
DINAS PEKERJAAN UMUM DAN PENATAAN RUANG PROVINSI KALIMANTAN BARAT,2428,841.49
RUMAH SAKIT UMUM DAERAH DOKTER SOEDARSO,231,331.06
DINAS PERUMAHAN RAKYAT DAN KAWASAN PERMUKIMAN,1711,282.71
DINAS PENDIDIKAN DAN KEBUDAYAAN PROVINSI KALIMANTAN BARAT,688,203.88
SEKRETARIAT DEWAN PERWAKILAN RAKYAT DAERAH PROVINSI KALIMANTAN BARAT,367,71.45
SEKRETARIAT DAERAH PROVINSI KALBAR,283,48.24
RUMAH SAKIT JIWA PROVINSI KALIMANTAN BARAT,104,43.55
DINAS TANAMAN PANGAN DAN HORTIKULTURA PROVINSI KALIMANTAN BARAT,288,23.94
DINAS KESEHATAN PROVINSI KALIMANTAN BARAT,251,17.93
BADAN KEUANGAN DAN ASET DAERAH PROVINSI KALIMANTAN BARAT,567,15.67


## 5Ô∏è‚É£ Missing Values

In [11]:
# Cek missing values
missing = df.isnull().sum()
missing_pct = (missing / len(df) * 100).round(2)

missing_summary = pd.DataFrame({
    'missing_count': missing,
    'missing_pct': missing_pct
}).query('missing_count > 0').sort_values('missing_count', ascending=False)

missing_summary.head(10)

Unnamed: 0,missing_count,missing_pct
kd_rup_lokal,16430,100.0
tahun_pertama,16430,100.0
kode_rup_tahun_pertama,16430,100.0
nomor_kontrak,16430,100.0
kd_rup_swakelola,16416,99.91
alasan_non_ukm,16362,99.59
alasan_dikecualikan,16112,98.06
nip_ppk,39,0.24
nama_ppk,39,0.24
username_ppk,39,0.24


## 6Ô∏è‚É£ Sorting & Ranking

In [12]:
# 10 Paket dengan pagu terbesar
top_pagu = df.nlargest(10, 'pagu')[['nama_paket', 'pagu', 'metode_pengadaan', 'nama_satker']]
top_pagu['pagu_miliar'] = (top_pagu['pagu'] / 1e9).round(2)
top_pagu[['nama_paket', 'pagu_miliar', 'metode_pengadaan']]

Unnamed: 0,nama_paket,pagu_miliar,metode_pengadaan
8245,Belanja Barang dan Jasa BOSP-BOS Reguler,74.8,Dikecualikan
15918,Belanja Obat-Obatan-Obat - Obat-obatan,55.57,E-Purchasing
9232,PENINGKATAN JALAN SAYAN - KOTA BARU,37.0,Tender
15919,Belanja Obat-Obatan-Obat-Obatan Lainnya - Baha...,34.24,E-Purchasing
3688,Belanja Modal Bangunan Kesehatan - Pembangunan...,32.45,Tender
10519,PENINGKATAN JALAN SIMPANG MEDANG - NANGA MAU,30.0,Tender
9221,PENINGKATAN JALAN SUKADANA - TELUK BATANG,26.0,Tender
9237,PENINGKATAN JALAN MARAU AIR UPAS,26.0,Tender
10515,PENINGKATAN JALAN BATAS KOTA SAMBAS SUBAH,26.0,Tender
10526,PENINGKATAN JALAN PESAGUAN KENDAWANGAN,26.0,Tender


## üìä Summary Statistics

In [None]:
# Statistik pagu
print("=" * 50)
print("STATISTIK PAGU PENGADAAN")
print("=" * 50)
print(f"Total Paket     : {len(df):,}")
print(f"Total Pagu      : Rp {df['pagu'].sum() / 1e12:.2f} Triliun")
print(f"Rata-rata Pagu  : Rp {df['pagu'].mean() / 1e6:.2f} Juta")
print(f"Median Pagu     : Rp {df['pagu'].median() / 1e6:.2f} Juta")
print(f"Pagu Terkecil   : Rp {df['pagu'].min():,.0f}")
print(f"Pagu Terbesar   : Rp {df['pagu'].max() / 1e9:.2f} Miliar")
print("=" * 50)

## üéØ Latihan Mandiri

1. Hitung jumlah paket per jenis pengadaan
2. Temukan satker dengan jumlah paket terbanyak (bukan total pagu)
3. Filter paket dengan metode "E-Purchasing" dan pagu < 10 juta
4. Hitung persentase paket per metode pengadaan

In [None]:
# Ruang untuk latihan