# Exploratory Data Analysis (EDA) - Data RUP 2025

## Tentang Dataset
Dataset ini berisi informasi **Rencana Umum Pengadaan (RUP) Paket Penyedia yang Terumumkan untuk tahun 2025**.

RUP adalah daftar rencana pengadaan barang/jasa yang akan dilaksanakan oleh K/L/PD selama 1 (satu) tahun anggaran yang berpedoman pada Rencana Kerja dan Anggaran.

## Tujuan Analisis
1. Memahami struktur dan karakteristik data RUP
2. Mengidentifikasi pola dan distribusi pengadaan
3. Analisis nilai pagu pengadaan
4. Analisis metode dan jenis pengadaan
5. Identifikasi K/L/PD dengan pengadaan terbanyak

## 1. Import Libraries

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')

# Konfigurasi display pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

# Konfigurasi visualisasi
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úÖ Libraries imported successfully!")

## 2. Load Data

In [None]:
# Load data RUP
df = pd.read_parquet('../../../datasets/rup/RUP-PaketPenyedia-Terumumkan-2025.parquet')

print(f"‚úÖ Data loaded successfully!")
print(f"üìä Total records: {len(df):,}")
print(f"üìã Total columns: {len(df.columns)}")

## 3. Data Inspection

In [None]:
# Tampilkan 5 baris pertama
print("üìã First 5 rows:")
df.head()

In [None]:
# Info dataset
print("‚ÑπÔ∏è Dataset Info:")
df.info()

In [None]:
# Deskripsi statistik untuk kolom numerik
print("üìä Statistical Description:")
df.describe()

In [None]:
# Cek missing values
print("üîç Missing Values Analysis:")
missing = df.isnull().sum()
missing_pct = (missing / len(df)) * 100
missing_df = pd.DataFrame({
    'Missing Count': missing,
    'Percentage': missing_pct
}).sort_values('Missing Count', ascending=False)

print(missing_df[missing_df['Missing Count'] > 0])

## 4. Data Understanding

In [None]:
# Kolom-kolom penting
print("üìå Key Columns:")
key_columns = [
    'nama_paket', 'pagu', 'nama_klpd', 'nama_satker',
    'metode_pengadaan', 'jenis_pengadaan', 
    'status_pdn', 'status_ukm', 'status_pradipa'
]

for col in key_columns:
    print(f"  ‚Ä¢ {col}")

## 5. Analisis Pagu (Nilai Pengadaan)

In [None]:
# Statistik pagu
print("üí∞ Analisis Pagu Pengadaan:")
print(f"Total Pagu: Rp {df['pagu'].sum():,.0f}")
print(f"Rata-rata Pagu: Rp {df['pagu'].mean():,.0f}")
print(f"Median Pagu: Rp {df['pagu'].median():,.0f}")
print(f"Pagu Minimum: Rp {df['pagu'].min():,.0f}")
print(f"Pagu Maximum: Rp {df['pagu'].max():,.0f}")
print(f"Standard Deviasi: Rp {df['pagu'].std():,.0f}")

In [None]:
# Distribusi pagu
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Histogram
axes[0].hist(df['pagu'] / 1e9, bins=50, edgecolor='black')
axes[0].set_xlabel('Pagu (Miliar Rupiah)')
axes[0].set_ylabel('Frequency')
axes[0].set_title('Distribusi Pagu Pengadaan')
axes[0].grid(True, alpha=0.3)

# Box plot
axes[1].boxplot(df['pagu'] / 1e9)
axes[1].set_ylabel('Pagu (Miliar Rupiah)')
axes[1].set_title('Box Plot Pagu Pengadaan')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 6. Analisis Metode Pengadaan

In [None]:
# Distribusi metode pengadaan
print("üìã Distribusi Metode Pengadaan:")
metode_dist = df['metode_pengadaan'].value_counts()
print(metode_dist)
print(f"\nTotal metode pengadaan: {len(metode_dist)}")

In [None]:
# Visualisasi metode pengadaan
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Bar chart
metode_dist.plot(kind='barh', ax=axes[0])
axes[0].set_xlabel('Jumlah Paket')
axes[0].set_title('Jumlah Paket per Metode Pengadaan')
axes[0].grid(True, alpha=0.3)

# Pie chart (top 5)
metode_dist.head(10).plot(kind='pie', ax=axes[1], autopct='%1.1f%%')
axes[1].set_ylabel('')
axes[1].set_title('Proporsi Metode Pengadaan (Top 10)')

plt.tight_layout()
plt.show()

In [None]:
# Total pagu per metode pengadaan
print("üí∞ Total Pagu per Metode Pengadaan:")
pagu_per_metode = df.groupby('metode_pengadaan')['pagu'].sum().sort_values(ascending=False)
pagu_per_metode_billion = pagu_per_metode / 1e9

for metode, pagu in pagu_per_metode_billion.items():
    print(f"{metode}: Rp {pagu:,.2f} Miliar")

## 7. Analisis Jenis Pengadaan

In [None]:
# Distribusi jenis pengadaan
print("üì¶ Distribusi Jenis Pengadaan:")
jenis_dist = df['jenis_pengadaan'].value_counts()
print(jenis_dist)

In [None]:
# Visualisasi jenis pengadaan
plt.figure(figsize=(12, 6))
jenis_dist.plot(kind='bar')
plt.xlabel('Jenis Pengadaan')
plt.ylabel('Jumlah Paket')
plt.title('Distribusi Jenis Pengadaan')
plt.xticks(rotation=45, ha='right')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 8. Analisis K/L/PD (Kementerian/Lembaga/Pemerintah Daerah)

In [None]:
# Top 10 KLPD berdasarkan jumlah paket
print("üèõÔ∏è Top 10 K/L/PD berdasarkan Jumlah Paket:")
top_klpd_count = df['nama_klpd'].value_counts().head(10)
print(top_klpd_count)

In [None]:
# Visualisasi top 10 KLPD
plt.figure(figsize=(12, 6))
top_klpd_count.plot(kind='barh')
plt.xlabel('Jumlah Paket')
plt.title('Top 10 K/L/PD berdasarkan Jumlah Paket')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Top 10 KLPD berdasarkan total pagu
print("üí∞ Top 10 K/L/PD berdasarkan Total Pagu:")
top_klpd_pagu = df.groupby('nama_klpd')['pagu'].sum().sort_values(ascending=False).head(10)
top_klpd_pagu_billion = top_klpd_pagu / 1e9

for klpd, pagu in top_klpd_pagu_billion.items():
    print(f"{klpd}: Rp {pagu:,.2f} Miliar")

In [None]:
# Visualisasi top 10 KLPD by pagu
plt.figure(figsize=(12, 6))
(top_klpd_pagu / 1e9).plot(kind='barh')
plt.xlabel('Total Pagu (Miliar Rupiah)')
plt.title('Top 10 K/L/PD berdasarkan Total Pagu')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 9. Analisis Status PDN, UKM, dan PRADIPA

In [None]:
# Analisis status PDN (Produk Dalam Negeri)
print("üáÆüá© Status PDN (Produk Dalam Negeri):")
pdn_dist = df['status_pdn'].value_counts()
print(pdn_dist)
print(f"\nPersentase PDN: {(pdn_dist.get('Ya', 0) / len(df)) * 100:.2f}%")

In [None]:
# Analisis status UKM (Usaha Kecil Menengah)
print("üè™ Status UKM (Usaha Kecil Menengah):")
ukm_dist = df['status_ukm'].value_counts()
print(ukm_dist)
print(f"\nPersentase UKM: {(ukm_dist.get('Ya', 0) / len(df)) * 100:.2f}%")

In [None]:
# Analisis status PRADIPA
print("üì± Status PRADIPA:")
pradipa_dist = df['status_pradipa'].value_counts()
print(pradipa_dist)
print(f"\nPersentase PRADIPA: {(pradipa_dist.get('Ya', 0) / len(df)) * 100:.2f}%")

In [None]:
# Visualisasi status
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# PDN
pdn_dist.plot(kind='pie', ax=axes[0], autopct='%1.1f%%')
axes[0].set_ylabel('')
axes[0].set_title('Status PDN')

# UKM
ukm_dist.plot(kind='pie', ax=axes[1], autopct='%1.1f%%')
axes[1].set_ylabel('')
axes[1].set_title('Status UKM')

# PRADIPA
pradipa_dist.plot(kind='pie', ax=axes[2], autopct='%1.1f%%')
axes[2].set_ylabel('')
axes[2].set_title('Status PRADIPA')

plt.tight_layout()
plt.show()

## 10. Analisis Timeline Pengadaan

In [None]:
# Convert date columns
date_columns = ['tgl_awal_pemilihan', 'tgl_akhir_pemilihan', 
                'tgl_awal_kontrak', 'tgl_akhir_kontrak', 
                'tgl_buat_paket', 'tgl_pengumuman_paket']

for col in date_columns:
    df[col] = pd.to_datetime(df[col], errors='coerce')

print("‚úÖ Date columns converted")

In [None]:
# Analisis bulan pengumuman paket
df['bulan_pengumuman'] = df['tgl_pengumuman_paket'].dt.month_name()
bulan_pengumuman_dist = df['bulan_pengumuman'].value_counts()

print("üìÖ Distribusi Bulan Pengumuman Paket:")
print(bulan_pengumuman_dist)

In [None]:
# Visualisasi timeline
plt.figure(figsize=(12, 6))
bulan_pengumuman_dist.plot(kind='bar')
plt.xlabel('Bulan')
plt.ylabel('Jumlah Paket')
plt.title('Distribusi Pengumuman Paket per Bulan')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 11. Summary & Key Insights

In [None]:
print("="*80)
print("üìä KEY INSIGHTS - DATA RUP 2025")
print("="*80)

print(f"\n1Ô∏è‚É£ OVERVIEW:")
print(f"   ‚Ä¢ Total Paket Pengadaan: {len(df):,}")
print(f"   ‚Ä¢ Total Pagu: Rp {df['pagu'].sum() / 1e12:,.2f} Triliun")
print(f"   ‚Ä¢ Rata-rata Pagu per Paket: Rp {df['pagu'].mean() / 1e6:,.2f} Juta")

print(f"\n2Ô∏è‚É£ METODE PENGADAAN:")
top_metode = df['metode_pengadaan'].value_counts().head(1)
print(f"   ‚Ä¢ Metode Terbanyak: {top_metode.index[0]} ({top_metode.values[0]:,} paket)")

print(f"\n3Ô∏è‚É£ JENIS PENGADAAN:")
top_jenis = df['jenis_pengadaan'].value_counts().head(1)
print(f"   ‚Ä¢ Jenis Terbanyak: {top_jenis.index[0]} ({top_jenis.values[0]:,} paket)")

print(f"\n4Ô∏è‚É£ K/L/PD TERBESAR:")
top_klpd = df['nama_klpd'].value_counts().head(1)
print(f"   ‚Ä¢ {top_klpd.index[0]}: {top_klpd.values[0]:,} paket")

print(f"\n5Ô∏è‚É£ STATUS KHUSUS:")
print(f"   ‚Ä¢ PDN: {(df['status_pdn'] == 'Ya').sum():,} paket ({(df['status_pdn'] == 'Ya').sum() / len(df) * 100:.1f}%)")
print(f"   ‚Ä¢ UKM: {(df['status_ukm'] == 'Ya').sum():,} paket ({(df['status_ukm'] == 'Ya').sum() / len(df) * 100:.1f}%)")
print(f"   ‚Ä¢ PRADIPA: {(df['status_pradipa'] == 'Ya').sum():,} paket ({(df['status_pradipa'] == 'Ya').sum() / len(df) * 100:.1f}%)")

print("\n" + "="*80)

## 12. Export Data Summary

In [None]:
# Create summary DataFrame
summary_data = {
    'Metric': [
        'Total Paket',
        'Total Pagu (Triliun Rp)',
        'Rata-rata Pagu (Juta Rp)',
        'Median Pagu (Juta Rp)',
        'Jumlah K/L/PD',
        'Paket PDN (%)',
        'Paket UKM (%)',
        'Paket PRADIPA (%)'
    ],
    'Value': [
        f"{len(df):,}",
        f"{df['pagu'].sum() / 1e12:.2f}",
        f"{df['pagu'].mean() / 1e6:.2f}",
        f"{df['pagu'].median() / 1e6:.2f}",
        f"{df['nama_klpd'].nunique():,}",
        f"{(df['status_pdn'] == 'Ya').sum() / len(df) * 100:.1f}",
        f"{(df['status_ukm'] == 'Ya').sum() / len(df) * 100:.1f}",
        f"{(df['status_pradipa'] == 'Ya').sum() / len(df) * 100:.1f}"
    ]
}

summary_df = pd.DataFrame(summary_data)
print("üìã Summary Report:")
print(summary_df.to_string(index=False))

## üéØ Kesimpulan

Dari analisis eksploratori data RUP 2025 ini, kita dapat menyimpulkan:

1. **Volume & Nilai**: Dataset mencakup ribuan paket pengadaan dengan total nilai triliunan rupiah
2. **Distribusi**: Terdapat variasi yang signifikan dalam nilai pagu pengadaan
3. **Metode**: Beberapa metode pengadaan mendominasi, menunjukkan preferensi sistem
4. **Partisipasi**: Ada fokus pada penggunaan produk dalam negeri (PDN) dan UKM
5. **Digitalisasi**: Status PRADIPA menunjukkan tingkat adopsi platform digital

### Next Steps:
- Analisis lebih mendalam dengan DuckDB untuk query kompleks
- Time series analysis untuk tren temporal
- Korelasi antara variabel-variabel kunci
- Pembuatan dashboard interaktif dengan Streamlit