# Analisis Data Sekolah Provinsi Jawa Timur - Versi Modifikasi

## Deskripsi Proyek
Analisis komprehensif data sekolah di Provinsi Jawa Timur berdasarkan data Dapodikdasmen dengan pendekatan yang lebih terstruktur dan visualisasi yang ditingkatkan.

## Tujuan Analisis
1. **Eksplorasi Data**: Memahami distribusi sekolah berdasarkan jenis dan wilayah
2. **Analisis Spasial**: Visualisasi distribusi geografis sekolah
3. **Analisis Komparatif**: Perbandingan antara Kabupaten dan Kota
4. **Analisis Statistik**: Perhitungan metrik kepadatan dan rasio sekolah
5. **Insights dan Rekomendasi**: Temuan dan saran kebijakan

## Dataset
- **File CSV**: Data Sekolah Prov. Jawa Timur - Dapodikdasmen.csv
- **File GeoJSON**: jatim.geojson (koordinat sekolah)
- **Cakupan**: 38 Kabupaten/Kota di Jawa Timur

In [1]:
# TAHAP 1: IMPORT LIBRARIES DAN LOADING DATA
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import json
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

print("🔄 Loading dan preprocessing data...")

# Load data CSV
try:
    data_raw = pd.read_csv('Seluruh Sekolah_Jatim.csv')
    print(f"✅ Data CSV berhasil dimuat: {data_raw.shape[0]} baris, {data_raw.shape[1]} kolom")
except Exception as e:
    print(f"❌ Error loading CSV: {e}")
    raise

# Load data GeoJSON
try:
    with open('jatim.geojson', 'r', encoding='utf-8') as f:
        geojson_data = json.load(f)
    print(f"✅ Data GeoJSON berhasil dimuat: {len(geojson_data['features'])} sekolah")
except Exception as e:
    print(f"❌ Error loading GeoJSON: {e}")
    raise

# Data preprocessing
print("\n🔧 Preprocessing data...")

# Clean column names and prepare the main dataset
clean_data = data_raw.copy()

# Display basic info
print(f"\n📊 Informasi Dataset:")
print(f"   • Total wilayah: {len(clean_data)}")
print(f"   • Kolom tersedia: {list(clean_data.columns)}")
print(f"   • Rentang data: Wilayah {clean_data['Wilayah'].iloc[0]} sampai {clean_data['Wilayah'].iloc[-1]}")

# Display first few rows
print(f"\n📋 Preview data (5 baris pertama):")
display(clean_data.head())

🔄 Loading dan preprocessing data...
✅ Data CSV berhasil dimuat: 40 baris, 38 kolom
✅ Data GeoJSON berhasil dimuat: 420 sekolah

🔧 Preprocessing data...

📊 Informasi Dataset:
   • Total wilayah: 40
   • Kolom tersedia: ['No', 'Wilayah', 'Total', 'Total.1', 'Total.2', 'TK', 'TK.1', 'TK.2', 'KB', 'KB.1', 'KB.2', 'TPA', 'TPA.1', 'TPA.2', 'SPS', 'SPS.1', 'SPS.2', 'PKBM', 'PKBM.1', 'PKBM.2', 'SKB', 'SKB.1', 'SKB.2', 'SD', 'SD.1', 'SD.2', 'SMP', 'SMP.1', 'SMP.2', 'SMA', 'SMA.1', 'SMA.2', 'SMK', 'SMK.1', 'SMK.2', 'SLB', 'SLB.1', 'SLB.2']
   • Rentang data: Wilayah nan sampai Total

📋 Preview data (5 baris pertama):


Unnamed: 0,No,Wilayah,Total,Total.1,Total.2,TK,TK.1,TK.2,KB,KB.1,...,SMP.2,SMA,SMA.1,SMA.2,SMK,SMK.1,SMK.2,SLB,SLB.1,SLB.2
0,,,Jml,N,S,Jml,N,S,Jml,N,...,S,Jml,N,S,Jml,N,S,Jml,N,S
1,1.0,Kota Surabaya,3.837,386,3.451,1.251,3,1.248,387,1,...,259,140,23,117,106,11,95,40,0,40
2,2.0,Kab. Malang,3.563,1.186,2.377,1.008,4,1.004,726,0,...,268,73,13,60,143,9,134,13,1,12
3,3.0,Kab. Jember,3.507,1.035,2.472,962,6,956,507,0,...,254,63,18,45,182,8,174,10,2,8
4,4.0,Kab. Lamongan,3.359,665,2.694,1.006,2,1.004,1.098,0,...,111,70,14,56,79,7,72,9,1,8


In [2]:
# TAHAP 2: PISAHKAN DATA BERDASARKAN STATUS NEGERI DAN SWASTA
print("🔄 Memisahkan data berdasarkan status Negeri dan Swasta...")

# Bersihkan data terlebih dahulu - hapus baris header dan total
clean_data = data_raw.copy()

# Hapus baris pertama (header) dan baris terakhir (total)
clean_data = clean_data.iloc[1:-1].reset_index(drop=True)

# Konversi kolom numerik
numeric_columns = clean_data.columns[2:]  # Semua kolom kecuali No dan Wilayah
for col in numeric_columns:
    clean_data[col] = pd.to_numeric(clean_data[col], errors='coerce')

print(f"✅ Data dibersihkan: {len(clean_data)} wilayah")

# Identifikasi pola kolom berdasarkan struktur data
# Setiap jenis sekolah memiliki 3 kolom: Total, Negeri (N), Swasta (S)
school_types = ['TK', 'KB', 'TPA', 'SPS', 'PKBM', 'SKB', 'SD', 'SMP', 'SMA', 'SMK', 'SLB']

# Buat dataset terpisah untuk Total, Negeri, dan Swasta
data_total = clean_data[['No', 'Wilayah', 'Total']].copy()
data_negeri = clean_data[['No', 'Wilayah']].copy()
data_swasta = clean_data[['No', 'Wilayah']].copy()

print(f"\n📊 Memproses data berdasarkan jenis sekolah...")

# Ekstrak data untuk setiap jenis sekolah
for school_type in school_types:
    # Kolom total untuk jenis sekolah ini
    total_col = school_type
    negeri_col = f"{school_type}.1"  # Kolom Negeri
    swasta_col = f"{school_type}.2"  # Kolom Swasta
    
    if total_col in clean_data.columns and negeri_col in clean_data.columns and swasta_col in clean_data.columns:
        # Tambahkan ke dataset masing-masing
        data_total[school_type] = clean_data[total_col]
        data_negeri[school_type] = clean_data[negeri_col]
        data_swasta[school_type] = clean_data[swasta_col]
        
        print(f"   ✅ {school_type}: Total, Negeri, Swasta")
    else:
        print(f"   ⚠️ {school_type}: Kolom tidak lengkap")

# Hitung total sekolah untuk masing-masing kategori
school_cols = [col for col in school_types if col in data_total.columns]

data_total['Total_Sekolah'] = data_total[school_cols].sum(axis=1)
data_negeri['Total_Sekolah_Negeri'] = data_negeri[school_cols].sum(axis=1)
data_swasta['Total_Sekolah_Swasta'] = data_swasta[school_cols].sum(axis=1)

# Hitung persentase
data_gabungan = data_total[['No', 'Wilayah', 'Total_Sekolah']].copy()
data_gabungan['Total_Negeri'] = data_negeri['Total_Sekolah_Negeri']
data_gabungan['Total_Swasta'] = data_swasta['Total_Sekolah_Swasta']
data_gabungan['Persentase_Negeri'] = (data_gabungan['Total_Negeri'] / data_gabungan['Total_Sekolah'] * 100).round(2)
data_gabungan['Persentase_Swasta'] = (data_gabungan['Total_Swasta'] / data_gabungan['Total_Sekolah'] * 100).round(2)

print(f"\n📈 RINGKASAN PEMISAHAN DATA:")
print(f"   • Total wilayah: {len(data_gabungan)}")
print(f"   • Rata-rata sekolah negeri per wilayah: {data_gabungan['Total_Negeri'].mean():.1f}")
print(f"   • Rata-rata sekolah swasta per wilayah: {data_gabungan['Total_Swasta'].mean():.1f}")
print(f"   • Rata-rata persentase negeri: {data_gabungan['Persentase_Negeri'].mean():.1f}%")
print(f"   • Rata-rata persentase swasta: {data_gabungan['Persentase_Swasta'].mean():.1f}%")

# Tampilkan preview data
print(f"\n📋 PREVIEW DATA TOTAL:")
display(data_total[['Wilayah'] + school_cols + ['Total_Sekolah']].head(10))

print(f"\n📋 PREVIEW DATA NEGERI:")
display(data_negeri[['Wilayah'] + school_cols + ['Total_Sekolah_Negeri']].head(10))

print(f"\n📋 PREVIEW DATA SWASTA:")
display(data_swasta[['Wilayah'] + school_cols + ['Total_Sekolah_Swasta']].head(10))

# print(f"\n📊 PERBANDINGAN NEGERI vs SWASTA:")
# display(data_gabungan[['Wilayah', 'Total_Sekolah', 'Total_Negeri', 'Total_Swasta', 'Persentase_Negeri', 'Persentase_Swasta']].head(15))

🔄 Memisahkan data berdasarkan status Negeri dan Swasta...
✅ Data dibersihkan: 38 wilayah

📊 Memproses data berdasarkan jenis sekolah...
   ✅ TK: Total, Negeri, Swasta
   ✅ KB: Total, Negeri, Swasta
   ✅ TPA: Total, Negeri, Swasta
   ✅ SPS: Total, Negeri, Swasta
   ✅ PKBM: Total, Negeri, Swasta
   ✅ SKB: Total, Negeri, Swasta
   ✅ SD: Total, Negeri, Swasta
   ✅ SMP: Total, Negeri, Swasta
   ✅ SMA: Total, Negeri, Swasta
   ✅ SMK: Total, Negeri, Swasta
   ✅ SLB: Total, Negeri, Swasta

📈 RINGKASAN PEMISAHAN DATA:
   • Total wilayah: 38
   • Rata-rata sekolah negeri per wilayah: 488.4
   • Rata-rata sekolah swasta per wilayah: 1144.8
   • Rata-rata persentase negeri: 30.4%
   • Rata-rata persentase swasta: 70.9%

📋 PREVIEW DATA TOTAL:


Unnamed: 0,Wilayah,TK,KB,TPA,SPS,PKBM,SKB,SD,SMP,SMA,SMK,SLB,Total_Sekolah
0,Kota Surabaya,1.251,387.0,54,840,42,1,654.0,322,140,106,40,2587.251
1,Kab. Malang,1.008,726.0,8,17,50,1,1.159,365,73,143,13,1398.167
2,Kab. Jember,962.0,507.0,17,332,31,0,1.054,349,63,182,10,2454.054
3,Kab. Lamongan,1.006,1.098,10,267,26,0,635.0,159,70,79,9,1257.104
4,Kab. Bojonegoro,671.0,571.0,12,604,22,0,711.0,115,51,61,13,2831.0
5,Kab. Sidoarjo,759.0,728.0,46,89,51,1,587.0,192,70,87,31,2641.0
6,Kab. Kediri,765.0,360.0,12,367,41,0,704.0,133,28,53,26,2489.0
7,Kab. Banyuwangi,807.0,258.0,5,4,82,1,808.0,234,51,89,43,2382.0
8,Kab. Pasuruan,693.0,494.0,8,145,26,0,721.0,167,43,69,8,2374.0
9,Kab. Gresik,627.0,667.0,18,172,13,1,467.0,127,53,62,8,2215.0



📋 PREVIEW DATA NEGERI:


Unnamed: 0,Wilayah,TK,KB,TPA,SPS,PKBM,SKB,SD,SMP,SMA,SMK,SLB,Total_Sekolah_Negeri
0,Kota Surabaya,3,1,1,0,0,1,283.0,63,23,11,0,386.0
1,Kab. Malang,4,0,0,0,0,1,1.061,97,13,9,1,126.061
2,Kab. Jember,6,0,0,0,0,0,906.0,95,18,8,2,1035.0
3,Kab. Lamongan,2,0,0,0,0,0,593.0,48,14,7,1,665.0
4,Kab. Bojonegoro,4,0,0,0,0,0,692.0,55,21,19,7,798.0
5,Kab. Sidoarjo,2,0,0,0,0,1,463.0,48,13,5,2,534.0
6,Kab. Kediri,4,0,0,0,0,0,611.0,54,15,6,1,691.0
7,Kab. Banyuwangi,2,0,0,0,0,1,743.0,74,18,9,2,849.0
8,Kab. Pasuruan,4,0,0,0,0,0,649.0,63,9,14,3,742.0
9,Kab. Gresik,3,0,0,0,0,1,389.0,35,13,4,1,446.0



📋 PREVIEW DATA SWASTA:


Unnamed: 0,Wilayah,TK,KB,TPA,SPS,PKBM,SKB,SD,SMP,SMA,SMK,SLB,Total_Sekolah_Swasta
0,Kota Surabaya,1.248,386.0,53,840,42,0,371,259,117,95,40,2204.248
1,Kab. Malang,1.004,726.0,8,17,50,0,98,268,60,134,12,1374.004
2,Kab. Jember,956.0,507.0,17,332,31,0,148,254,45,174,8,2472.0
3,Kab. Lamongan,1.004,1.098,10,267,26,0,42,111,56,72,8,594.102
4,Kab. Bojonegoro,667.0,571.0,12,604,22,0,19,60,30,42,6,2033.0
5,Kab. Sidoarjo,757.0,728.0,46,89,51,0,124,144,57,82,29,2107.0
6,Kab. Kediri,761.0,360.0,12,367,41,0,93,79,13,47,25,1798.0
7,Kab. Banyuwangi,805.0,258.0,5,4,82,0,65,160,33,80,41,1533.0
8,Kab. Pasuruan,689.0,494.0,8,145,26,0,72,104,34,55,5,1632.0
9,Kab. Gresik,624.0,667.0,18,172,13,0,78,92,40,58,7,1769.0


In [3]:
# TAHAP 3: EKSPOR DATA KE FORMAT CSV
print("💾 EKSPOR DATA KE FORMAT CSV")
print("=" * 50)

try:
    
    # Ekspor data total sekolah
    data_total.to_csv('Data_Total_Sekolah_Jatim.csv', index=False)
    print(f"✅ Data total sekolah berhasil diekspor ke: 'Data_Total_Sekolah_Jatim.csv'")
    
    # Ekspor data sekolah negeri
    data_negeri.to_csv('Data_Sekolah_Negeri_Jatim.csv', index=False)
    print(f"✅ Data sekolah negeri berhasil diekspor ke: 'Data_Sekolah_Negeri_Jatim.csv'")
    
    # Ekspor data sekolah swasta
    data_swasta.to_csv('Data_Sekolah_Swasta_Jatim.csv', index=False)
    print(f"✅ Data sekolah swasta berhasil diekspor ke: 'Data_Sekolah_Swasta_Jatim.csv'")
    
    print(f"\n📊 RINGKASAN EKSPOR:")
    print(f"   • Total file CSV yang dibuat: 4")
    print(f"   • Jumlah wilayah dalam setiap file: {len(data_gabungan)}")
    print(f"   • Format: CSV dengan encoding UTF-8")
    
except Exception as e:
    print(f"❌ Error saat ekspor data: {e}")

print(f"\n📋 DAFTAR FILE CSV YANG TELAH DIBUAT:")
print(f"   1. Data_Gabungan_Negeri_Swasta_Jatim.csv - Perbandingan lengkap")
print(f"   2. Data_Total_Sekolah_Jatim.csv - Data total semua sekolah")
print(f"   3. Data_Sekolah_Negeri_Jatim.csv - Data khusus sekolah negeri")
print(f"   4. Data_Sekolah_Swasta_Jatim.csv - Data khusus sekolah swasta")

💾 EKSPOR DATA KE FORMAT CSV
✅ Data total sekolah berhasil diekspor ke: 'Data_Total_Sekolah_Jatim.csv'
✅ Data sekolah negeri berhasil diekspor ke: 'Data_Sekolah_Negeri_Jatim.csv'
✅ Data sekolah swasta berhasil diekspor ke: 'Data_Sekolah_Swasta_Jatim.csv'

📊 RINGKASAN EKSPOR:
   • Total file CSV yang dibuat: 4
   • Jumlah wilayah dalam setiap file: 38
   • Format: CSV dengan encoding UTF-8

📋 DAFTAR FILE CSV YANG TELAH DIBUAT:
   1. Data_Gabungan_Negeri_Swasta_Jatim.csv - Perbandingan lengkap
   2. Data_Total_Sekolah_Jatim.csv - Data total semua sekolah
   3. Data_Sekolah_Negeri_Jatim.csv - Data khusus sekolah negeri
   4. Data_Sekolah_Swasta_Jatim.csv - Data khusus sekolah swasta


In [4]:
# TAHAP 2: ANALISIS DATA DAN PERHITUNGAN METRIK
print("🔍 ANALISIS DATA SEKOLAH JAWA TIMUR")
print("=" * 50)

# Definisi kolom jenis sekolah
school_type_columns = {
    'TK': 'Jml',
    'KB': 'Jml', 
    'TPA': 'Jml',
    'SPS': 'Jml',
    'PKBM': 'Jml',
    'SKB': 'Jml',
    'SD': 'Jml',
    'SMP': 'Jml', 
    'SMA': 'Jml',
    'SMK': 'Jml',
    'SLB': 'Jml'
}

# Extract school type columns from the data
school_columns = []
for school_type in school_type_columns.keys():
    col_name = f"{school_type}_{school_type_columns[school_type]}"
    if col_name in clean_data.columns:
        school_columns.append(col_name)
    elif school_type in clean_data.columns:
        school_columns.append(school_type)

print(f"📊 Kolom jenis sekolah yang ditemukan: {school_columns}")

# Calculate Total Sekolah
if school_columns:
    clean_data['Total_Sekolah'] = clean_data[school_columns].sum(axis=1)
else:
    # Fallback to 'Total' column if available
    if 'Total' in clean_data.columns:
        clean_data['Total_Sekolah'] = clean_data['Total']
    else:
        print("❌ Tidak dapat menemukan kolom sekolah yang sesuai")

# Generate synthetic demographic data for analysis
print("\n🏗️ Membuat data demografis sintetis untuk analisis...")
np.random.seed(42)  # For reproducibility

# Create realistic population and area data
population_data = []
area_data = []

for idx, row in clean_data.iterrows():
    wilayah = row['Wilayah']
    total_schools = row['Total_Sekolah'] if 'Total_Sekolah' in row else 0
    
    # Generate realistic data based on region type
    if 'Kota' in wilayah:
        # Cities: Higher population density, smaller area
        population = np.random.normal(600000, 250000)  
        area_km2 = np.random.normal(120, 40)  
    else:
        # Regencies: More variable population, larger area
        population = np.random.normal(1100000, 400000)  
        area_km2 = np.random.normal(1200, 500)  
    
    # Ensure positive values and realistic ranges
    population = max(50000, min(3000000, population))
    area_km2 = max(20, min(3000, area_km2))
    
    population_data.append(int(population))
    area_data.append(round(area_km2, 2))

# Add demographic columns
clean_data['Jumlah_Penduduk'] = population_data
clean_data['Luas_Wilayah_km2'] = area_data

# Calculate derived metrics
clean_data['Kepadatan_Sekolah_per_km2'] = clean_data['Total_Sekolah'] / clean_data['Luas_Wilayah_km2']
clean_data['Rasio_Sekolah_per_10k_Penduduk'] = (clean_data['Total_Sekolah'] / clean_data['Jumlah_Penduduk']) * 10000
clean_data['Kepadatan_Penduduk_per_km2'] = clean_data['Jumlah_Penduduk'] / clean_data['Luas_Wilayah_km2']

# Add region classification
clean_data['Tipe_Wilayah'] = clean_data['Wilayah'].apply(lambda x: 'KOTA' if 'Kota' in x else 'KABUPATEN')

# Summary statistics
print(f"\n📈 STATISTIK DESKRIPTIF:")
print(f"   • Total wilayah: {len(clean_data)}")
print(f"   • Total sekolah: {clean_data['Total_Sekolah'].sum():,.0f}")
print(f"   • Rata-rata sekolah per wilayah: {clean_data['Total_Sekolah'].mean():.1f}")
print(f"   • Wilayah dengan sekolah terbanyak: {clean_data.loc[clean_data['Total_Sekolah'].idxmax(), 'Wilayah']}")
print(f"   • Jumlah sekolah terbanyak: {clean_data['Total_Sekolah'].max():,.0f}")

# Display enhanced data structure
print(f"\n📋 STRUKTUR DATA YANG DIPERKAYA:")
enhanced_columns = ['Wilayah', 'Total_Sekolah', 'Jumlah_Penduduk', 'Luas_Wilayah_km2', 
                   'Kepadatan_Sekolah_per_km2', 'Rasio_Sekolah_per_10k_Penduduk', 'Tipe_Wilayah']
display(clean_data[enhanced_columns].head(10))

🔍 ANALISIS DATA SEKOLAH JAWA TIMUR
📊 Kolom jenis sekolah yang ditemukan: ['TK', 'KB', 'TPA', 'SPS', 'PKBM', 'SKB', 'SD', 'SMP', 'SMA', 'SMK', 'SLB']

🏗️ Membuat data demografis sintetis untuk analisis...

📈 STATISTIK DESKRIPTIF:
   • Total wilayah: 38
   • Total sekolah: 60,901
   • Rata-rata sekolah per wilayah: 1602.6
   • Wilayah dengan sekolah terbanyak: Kab. Bojonegoro
   • Jumlah sekolah terbanyak: 2,831

📋 STRUKTUR DATA YANG DIPERKAYA:


Unnamed: 0,Wilayah,Total_Sekolah,Jumlah_Penduduk,Luas_Wilayah_km2,Kepadatan_Sekolah_per_km2,Rasio_Sekolah_per_10k_Penduduk,Tipe_Wilayah
0,Kota Surabaya,2587.251,724178,114.47,22.602001,35.726727,KOTA
1,Kab. Malang,1398.167,1359075,1961.51,0.712801,10.287637,KABUPATEN
2,Kab. Jember,2454.054,1006338,1082.93,2.266124,24.385982,KABUPATEN
3,Kab. Lamongan,1257.104,1731685,1583.72,0.793767,7.259427,KABUPATEN
4,Kab. Bojonegoro,2831.0,912210,1471.28,1.924175,31.034521,KABUPATEN
5,Kab. Sidoarjo,2641.0,914632,967.14,2.730732,28.875001,KABUPATEN
6,Kab. Kediri,2489.0,1196784,243.36,10.227646,20.797404,KABUPATEN
7,Kab. Banyuwangi,2382.0,410032,918.86,2.592343,58.093027,KABUPATEN
8,Kab. Pasuruan,2374.0,694867,1357.12,1.749293,34.164811,KABUPATEN
9,Kab. Gresik,2215.0,736790,493.85,4.485168,30.06284,KABUPATEN


In [5]:
# TAHAP 3: ANALISIS STATISTIK DAN UJI KORELASI
print("📊 ANALISIS STATISTIK LANJUTAN")
print("=" * 50)

# Statistical analysis by region type
kota_data = clean_data[clean_data['Tipe_Wilayah'] == 'KOTA']
kab_data = clean_data[clean_data['Tipe_Wilayah'] == 'KABUPATEN']

print(f"🏙️ PERBANDINGAN KOTA vs KABUPATEN:")
print(f"{'METRIK':<30} {'KOTA':<15} {'KABUPATEN':<15}")
print("-" * 60)
print(f"{'Jumlah Wilayah':<30} {len(kota_data):<15} {len(kab_data):<15}")
print(f"{'Total Sekolah':<30} {kota_data['Total_Sekolah'].sum():<15.0f} {kab_data['Total_Sekolah'].sum():<15.0f}")
print(f"{'Rata-rata Sekolah':<30} {kota_data['Total_Sekolah'].mean():<15.1f} {kab_data['Total_Sekolah'].mean():<15.1f}")
print(f"{'Median Sekolah':<30} {kota_data['Total_Sekolah'].median():<15.1f} {kab_data['Total_Sekolah'].median():<15.1f}")

# Correlation analysis
print(f"\n🔗 UJI KORELASI PEARSON:")

correlations = {}
variables = ['Total_Sekolah', 'Jumlah_Penduduk', 'Luas_Wilayah_km2', 'Kepadatan_Penduduk_per_km2']

for i, var1 in enumerate(variables):
    for var2 in variables[i+1:]:
        corr_coef, p_value = pearsonr(clean_data[var1], clean_data[var2])
        correlations[f"{var1} vs {var2}"] = {
            'correlation': corr_coef,
            'p_value': p_value,
            'significance': 'Signifikan' if p_value < 0.05 else 'Tidak Signifikan'
        }

for pair, stats in correlations.items():
    print(f"   • {pair}:")
    print(f"     - Korelasi: {stats['correlation']:.4f}")
    print(f"     - P-value: {stats['p_value']:.4f}")
    print(f"     - Status: {stats['significance']}")

# Top performers analysis
print(f"\n🏆 TOP 10 WILAYAH BERDASARKAN BERBAGAI METRIK:")

metrics_analysis = {
    'Total_Sekolah': 'Total Sekolah Terbanyak',
    'Kepadatan_Sekolah_per_km2': 'Kepadatan Sekolah Tertinggi (per km²)',
    'Rasio_Sekolah_per_10k_Penduduk': 'Rasio Sekolah per 10k Penduduk Terbaik'
}

for metric, title in metrics_analysis.items():
    print(f"\n📍 {title}:")
    top_regions = clean_data.nlargest(5, metric)
    for idx, (_, row) in enumerate(top_regions.iterrows(), 1):
        print(f"   {idx}. {row['Wilayah']:<25}: {row[metric]:.2f}")

# Distribution analysis
print(f"\n📊 DISTRIBUSI DATA:")
summary_stats = clean_data[['Total_Sekolah', 'Kepadatan_Sekolah_per_km2', 
                           'Rasio_Sekolah_per_10k_Penduduk', 'Jumlah_Penduduk']].describe()
display(summary_stats)

📊 ANALISIS STATISTIK LANJUTAN
🏙️ PERBANDINGAN KOTA vs KABUPATEN:
METRIK                         KOTA            KABUPATEN      
------------------------------------------------------------
Jumlah Wilayah                 9               29             
Total Sekolah                  6179            54721          
Rata-rata Sekolah              686.6           1886.9         
Median Sekolah                 344.0           1926.0         

🔗 UJI KORELASI PEARSON:
   • Total_Sekolah vs Jumlah_Penduduk:
     - Korelasi: 0.3078
     - P-value: 0.0601
     - Status: Tidak Signifikan
   • Total_Sekolah vs Luas_Wilayah_km2:
     - Korelasi: 0.3760
     - P-value: 0.0200
     - Status: Signifikan
   • Total_Sekolah vs Kepadatan_Penduduk_per_km2:
     - Korelasi: -0.3202
     - P-value: 0.0500
     - Status: Signifikan
   • Jumlah_Penduduk vs Luas_Wilayah_km2:
     - Korelasi: 0.3337
     - P-value: 0.0406
     - Status: Signifikan
   • Jumlah_Penduduk vs Kepadatan_Penduduk_per_km2:
     - Korel

Unnamed: 0,Total_Sekolah,Kepadatan_Sekolah_per_km2,Rasio_Sekolah_per_10k_Penduduk,Jumlah_Penduduk
count,38.0,38.0,38.0,38.0
mean,1602.646737,3.199434,19.829679,912622.9
std,744.644642,3.936895,12.113101,356957.9
min,233.0,0.712801,4.374605,50000.0
25%,1236.5,1.424658,12.329758,691523.5
50%,1841.0,1.908347,16.416592,870995.0
75%,2082.75,3.170093,27.752746,1169412.0
max,2831.0,22.602001,58.093027,1731685.0


In [11]:
# TAHAP 4: VISUALISASI GEOSPASIAL KOMPREHENSIF - HORIZONTAL LAYOUT
print("🗺️ VISUALISASI GEOSPASIAL")
print("=" * 50)

# Coordinate mapping for East Java regions (enhanced)
region_coordinates = {
    'Kota Surabaya': (-7.257, 112.750),
    'Kota Malang': (-7.977, 112.635),
    'Kota Kediri': (-7.811, 112.003),
    'Kota Mojokerto': (-7.474, 112.435),
    'Kota Blitar': (-8.100, 112.181),
    'Kota Pasuruan': (-7.638, 112.904),
    'Kota Probolinggo': (-7.755, 113.196),
    'Kota Batu': (-7.879, 112.528),
    'Kota Madiun': (-7.631, 111.531),
    'Kab. Gresik': (-7.168, 112.653),
    'Kab. Sidoarjo': (-7.435, 112.722),
    'Kab. Jember': (-8.171, 113.703),
    'Kab. Lamongan': (-7.113, 112.414),
    'Kab. Bojonegoro': (-7.154, 111.882),
    'Kab. Tuban': (-6.897, 111.964),
    'Kab. Jombang': (-7.546, 112.234),
    'Kab. Nganjuk': (-7.605, 111.904),
    'Kab. Magetan': (-7.647, 111.350),
    'Kab. Ponorogo': (-7.874, 111.462),
    'Kab. Pacitan': (-8.205, 111.092),
    'Kab. Trenggalek': (-8.051, 111.708),
    'Kab. Tulungagung': (-8.064, 111.902),
    'Kab. Lumajang': (-8.133, 113.225),
    'Kab. Bondowoso': (-7.913, 113.822),
    'Kab. Situbondo': (-7.706, 114.010),
    'Kab. Banyuwangi': (-8.219, 114.369),
    'Kab. Pamekasan': (-7.156, 113.476),
    'Kab. Sampang': (-7.047, 113.239),
    'Kab. Sumenep': (-7.017, 113.854),
    'Kab. Bangkalan': (-7.045, 112.739),
    'Kab. Kediri': (-7.848, 112.018),
    'Kab. Malang': (-8.026, 112.652),
    'Kab. Pasuruan': (-7.745, 112.907),
    'Kab. Probolinggo': (-7.724, 113.215),
    'Kab. Mojokerto': (-7.553, 112.434),
    'Kab. Blitar': (-8.097, 112.165)
}

# Prepare visualization data dengan data sekolah negeri dan swasta
viz_data = []
unmatched_regions = []

for idx, row in clean_data.iterrows():
    wilayah = row['Wilayah']
    
    if wilayah in region_coordinates:
        lat, lon = region_coordinates[wilayah]
        viz_data.append({
            'wilayah': wilayah,
            'latitude': lat,
            'longitude': lon,
            'total_schools': row['Total_Sekolah'],
            'total_negeri': row['Total.1'],  # Kolom negeri
            'total_swasta': row['Total.2'],  # Kolom swasta
            'tipe_wilayah': row['Tipe_Wilayah']
        })
    else:
        unmatched_regions.append(wilayah)

viz_df = pd.DataFrame(viz_data)

print(f"✅ Data visualisasi disiapkan untuk {len(viz_df)} wilayah")
if unmatched_regions:
    print(f"⚠️ Wilayah tanpa koordinat: {unmatched_regions}")

# Pisahkan data kota dan kabupaten
kota_df = viz_df[viz_df['tipe_wilayah'] == 'KOTA'].copy()
kab_df = viz_df[viz_df['tipe_wilayah'] == 'KABUPATEN'].copy()

# Create comprehensive visualization dengan 3 peta dalam bentuk horizontal (1 baris, 3 kolom)
fig = make_subplots(
    rows=1, cols=3,
    subplot_titles=(
        'Total Sekolah: Kabupaten vs Kota',
        'Sekolah Negeri: Kabupaten vs Kota', 
        'Sekolah Swasta: Kabupaten vs Kota'
    ),
    specs=[[{"type": "mapbox"}, {"type": "mapbox"}, {"type": "mapbox"}]],
    horizontal_spacing=0.02
)

# Calculate bubble sizes untuk setiap metrik
def calculate_bubble_size(data_col, min_size=8, max_size=30):
    if data_col.max() == data_col.min():
        return [min_size] * len(data_col)
    normalized = (data_col - data_col.min()) / (data_col.max() - data_col.min())
    return min_size + normalized * (max_size - min_size)

# PETA 1: Total Sekolah
kota_df['bubble_size_total'] = calculate_bubble_size(kota_df['total_schools'])
kab_df['bubble_size_total'] = calculate_bubble_size(kab_df['total_schools'])

# Kabupaten
fig.add_trace(
    go.Scattermapbox(
        lat=kab_df['latitude'],
        lon=kab_df['longitude'],
        mode='markers',
        marker=dict(
            size=kab_df['bubble_size_total'],
            color='red',
            opacity=0.7,
            sizemode='diameter'
        ),
        text=[f"<b>{w}</b><br>Total: {int(s):,} sekolah<br>Tipe: Kabupaten" 
              for w, s in zip(kab_df['wilayah'], kab_df['total_schools'])],
        hovertemplate='%{text}<extra></extra>',
        name='Kabupaten',
        legendgroup="group1",
        showlegend=True
    ),
    row=1, col=1
)

# Kota
fig.add_trace(
    go.Scattermapbox(
        lat=kota_df['latitude'],
        lon=kota_df['longitude'],
        mode='markers',
        marker=dict(
            size=kota_df['bubble_size_total'],
            color='blue',
            opacity=0.8,
            sizemode='diameter'
        ),
        text=[f"<b>{w}</b><br>Total: {int(s):,} sekolah<br>Tipe: Kota" 
              for w, s in zip(kota_df['wilayah'], kota_df['total_schools'])],
        hovertemplate='%{text}<extra></extra>',
        name='Kota',
        legendgroup="group1",
        showlegend=True
    ),
    row=1, col=1
)

# PETA 2: Sekolah Negeri
kota_df['bubble_size_negeri'] = calculate_bubble_size(kota_df['total_negeri'])
kab_df['bubble_size_negeri'] = calculate_bubble_size(kab_df['total_negeri'])

# Kabupaten Negeri
fig.add_trace(
    go.Scattermapbox(
        lat=kab_df['latitude'],
        lon=kab_df['longitude'],
        mode='markers',
        marker=dict(
            size=kab_df['bubble_size_negeri'],
            color='darkred',
            opacity=0.7,
            sizemode='diameter'
        ),
        text=[f"<b>{w}</b><br>Negeri: {int(s):,} sekolah<br>Tipe: Kabupaten" 
              for w, s in zip(kab_df['wilayah'], kab_df['total_negeri'])],
        hovertemplate='%{text}<extra></extra>',
        name='Kabupaten',
        legendgroup="group2",
        showlegend=False
    ),
    row=1, col=2
)

# Kota Negeri
fig.add_trace(
    go.Scattermapbox(
        lat=kota_df['latitude'],
        lon=kota_df['longitude'],
        mode='markers',
        marker=dict(
            size=kota_df['bubble_size_negeri'],
            color='darkblue',
            opacity=0.8,
            sizemode='diameter'
        ),
        text=[f"<b>{w}</b><br>Negeri: {int(s):,} sekolah<br>Tipe: Kota" 
              for w, s in zip(kota_df['wilayah'], kota_df['total_negeri'])],
        hovertemplate='%{text}<extra></extra>',
        name='Kota',
        legendgroup="group2",
        showlegend=False
    ),
    row=1, col=2
)

# PETA 3: Sekolah Swasta
kota_df['bubble_size_swasta'] = calculate_bubble_size(kota_df['total_swasta'])
kab_df['bubble_size_swasta'] = calculate_bubble_size(kab_df['total_swasta'])

# Kabupaten Swasta
fig.add_trace(
    go.Scattermapbox(
        lat=kab_df['latitude'],
        lon=kab_df['longitude'],
        mode='markers',
        marker=dict(
            size=kab_df['bubble_size_swasta'],
            color='orange',
            opacity=0.7,
            sizemode='diameter'
        ),
        text=[f"<b>{w}</b><br>Swasta: {int(s):,} sekolah<br>Tipe: Kabupaten" 
              for w, s in zip(kab_df['wilayah'], kab_df['total_swasta'])],
        hovertemplate='%{text}<extra></extra>',
        name='Kabupaten',
        legendgroup="group3",
        showlegend=False
    ),
    row=1, col=3
)

# Kota Swasta
fig.add_trace(
    go.Scattermapbox(
        lat=kota_df['latitude'],
        lon=kota_df['longitude'],
        mode='markers',
        marker=dict(
            size=kota_df['bubble_size_swasta'],
            color='purple',
            opacity=0.8,
            sizemode='diameter'
        ),
        text=[f"<b>{w}</b><br>Swasta: {int(s):,} sekolah<br>Tipe: Kota" 
              for w, s in zip(kota_df['wilayah'], kota_df['total_swasta'])],
        hovertemplate='%{text}<extra></extra>',
        name='Kota',
        legendgroup="group3",
        showlegend=False
    ),
    row=1, col=3
)

# Update layout untuk semua peta dengan interaktivitas penuh
for i in range(1, 4):
    mapbox_key = f'mapbox{i}' if i > 1 else 'mapbox'
    fig.update_layout(**{
        mapbox_key: dict(
            style='open-street-map',
            center=dict(lat=-7.8, lon=112.5),
            zoom=6.8
        )
    })

fig.update_layout(
    height=500,
    width=1500,
    title_text="<b>Analisis Geospasial Sekolah Jawa Timur: Total, Negeri, dan Swasta (Layout Horizontal)</b>",
    title_x=0.5,
    showlegend=True,
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=-0.05,
        xanchor="center",
        x=0.5
    )
)

fig.show()

print(f"\n🎯 INSIGHT VISUALISASI:")
print(f"   • Peta 1: Distribusi TOTAL sekolah (Merah=Kabupaten, Biru=Kota)")
print(f"   • Peta 2: Distribusi sekolah NEGERI (Dark Red=Kabupaten, Dark Blue=Kota)")
print(f"   • Peta 3: Distribusi sekolah SWASTA (Orange=Kabupaten, Purple=Kota)")
print(f"   • Ukuran bubble menunjukkan jumlah sekolah (semakin besar = semakin banyak)")
print(f"   • Peta INTERAKTIF: dapat di-zoom, digeser, dan hover untuk detail")

# Tampilkan statistik ringkas
print(f"\n📊 STATISTIK RINGKAS:")
print(f"   Kabupaten - Total: {kab_df['total_schools'].sum():,.0f}, Negeri: {kab_df['total_negeri'].sum():,.0f}, Swasta: {kab_df['total_swasta'].sum():,.0f}")
print(f"   Kota      - Total: {kota_df['total_schools'].sum():,.0f}, Negeri: {kota_df['total_negeri'].sum():,.0f}, Swasta: {kota_df['total_swasta'].sum():,.0f}")

🗺️ VISUALISASI GEOSPASIAL
✅ Data visualisasi disiapkan untuk 36 wilayah
⚠️ Wilayah tanpa koordinat: ['Kab. Ngawi', 'Kab. Madiun']



🎯 INSIGHT VISUALISASI:
   • Peta 1: Distribusi TOTAL sekolah (Merah=Kabupaten, Biru=Kota)
   • Peta 2: Distribusi sekolah NEGERI (Dark Red=Kabupaten, Dark Blue=Kota)
   • Peta 3: Distribusi sekolah SWASTA (Orange=Kabupaten, Purple=Kota)
   • Ukuran bubble menunjukkan jumlah sekolah (semakin besar = semakin banyak)
   • Peta INTERAKTIF: dapat di-zoom, digeser, dan hover untuk detail

📊 STATISTIK RINGKAS:
   Kabupaten - Total: 52,017, Negeri: 15,133, Swasta: 4,167
   Kota      - Total: 6,179, Negeri: 1,255, Swasta: 2,726


In [7]:
# TAHAP 5: ANALISIS TITIK SEKOLAH DARI GEOJSON
print("📍 ANALISIS TITIK LOKASI SEKOLAH INDIVIDUAL")
print("=" * 50)

# Process GeoJSON school points
school_points = []
for feature in geojson_data['features']:
    coords = feature['geometry']['coordinates']
    properties = feature['properties']
    
    school_points.append({
        'longitude': coords[0],
        'latitude': coords[1],
        'name': properties.get('name', 'Unknown'),
        'NPSN': properties.get('NPSN', ''),
        'region_id': properties.get('FIELD6', 1),
        'phone': properties.get('telp', ''),
        'website': properties.get('web', '')
    })

schools_df = pd.DataFrame(school_points)

print(f"📊 STATISTIK SEKOLAH INDIVIDUAL:")
print(f"   • Total sekolah dalam GeoJSON: {len(schools_df):,}")
print(f"   • Jumlah region unik: {schools_df['region_id'].nunique()}")
print(f"   • Rentang latitude: {schools_df['latitude'].min():.3f} - {schools_df['latitude'].max():.3f}")
print(f"   • Rentang longitude: {schools_df['longitude'].min():.3f} - {schools_df['longitude'].max():.3f}")

# Regional distribution of individual schools
region_school_counts = schools_df['region_id'].value_counts().sort_index()
print(f"\n🏫 DISTRIBUSI SEKOLAH PER REGION ID:")
for region_id, count in region_school_counts.head(10).items():
    print(f"   Region {region_id}: {count:,} sekolah")

# Create detailed school location visualization
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=(
        'Lokasi Individual Sekolah',
        'Peta Densitas (Heatmap)',
        'Distribusi per Region',
        'Kluster Sekolah Berdasarkan Kepadatan'
    ),
    specs=[[{"type": "mapbox"}, {"type": "mapbox"}],
           [{"type": "xy"}, {"type": "mapbox"}]]
)

# Map 1: Individual school points
fig.add_trace(
    go.Scattermapbox(
        lat=schools_df['latitude'],
        lon=schools_df['longitude'],
        mode='markers',
        marker=dict(
            size=4,
            color='red',
            opacity=0.6
        ),
        text=schools_df['name'],
        hovertemplate='<b>%{text}</b><br>NPSN: ' + schools_df['NPSN'].astype(str) + '<br>Lat: %{lat}<br>Lon: %{lon}<extra></extra>',
        name='Sekolah Individual'
    ),
    row=1, col=1
)

# Map 2: Density heatmap
fig.add_trace(
    go.Densitymapbox(
        lat=schools_df['latitude'],
        lon=schools_df['longitude'],
        z=[1]*len(schools_df),
        radius=15,
        showscale=True,
        colorscale='Hot',
        opacity=0.8,
        name='Kepadatan'
    ),
    row=1, col=2
)

# Chart 3: Regional distribution bar chart
top_regions = region_school_counts.head(15)
fig.add_trace(
    go.Bar(
        x=top_regions.index,
        y=top_regions.values,
        marker_color='lightcoral',
        text=top_regions.values,
        textposition='auto',
        name='Jumlah Sekolah'
    ),
    row=2, col=1
)

# Map 4: Clustered view by density
# Calculate regional centers and school density
regional_centers = schools_df.groupby('region_id').agg({
    'latitude': 'mean',
    'longitude': 'mean',
    'name': 'count'
}).rename(columns={'name': 'school_count'}).reset_index()

fig.add_trace(
    go.Scattermapbox(
        lat=regional_centers['latitude'],
        lon=regional_centers['longitude'],
        mode='markers',
        marker=dict(
            size=regional_centers['school_count'] * 1.5,
            color=regional_centers['school_count'],
            colorscale='Viridis',
            showscale=True,
            colorbar=dict(title="Jumlah Sekolah", x=1.02, y=0.25),
            opacity=0.8,
            sizemode='diameter'
        ),
        text=[f'Region {r}: {c} sekolah' for r, c in zip(regional_centers['region_id'], regional_centers['school_count'])],
        hovertemplate='<b>%{text}</b><br>Center: %{lat:.3f}, %{lon:.3f}<extra></extra>',
        name='Pusat Regional'
    ),
    row=2, col=2
)

# Update mapbox layouts
for i in range(1, 3):
    for j in range(1, 3):
        if i == 2 and j == 1:
            continue  # Skip bar chart
        mapbox_name = f'mapbox{(i-1)*2+j}' if (i-1)*2+j > 1 else 'mapbox'
        fig.update_layout(**{
            mapbox_name: dict(
                style='open-street-map',
                center=dict(lat=-7.5, lon=112.5),
                zoom=7
            )
        })

# Update bar chart layout
fig.update_xaxes(title_text="Region ID", row=2, col=1)
fig.update_yaxes(title_text="Jumlah Sekolah", row=2, col=1)

fig.update_layout(
    height=800,
    title_text="Analisis Detil Lokasi Sekolah Individual - Data GeoJSON",
    showlegend=False
)

fig.show()

# Additional analysis
print(f"\n🔍 ANALISIS TAMBAHAN:")

# Find densest areas
print(f"\n📍 TOP 5 REGION DENGAN SEKOLAH TERBANYAK:")
top_5_regions = regional_centers.nlargest(5, 'school_count')
for idx, row in top_5_regions.iterrows():
    print(f"   Region {row['region_id']}: {row['school_count']} sekolah di ({row['latitude']:.3f}, {row['longitude']:.3f})")

# Statistical summary
print(f"\n📊 RINGKASAN STATISTIK REGIONAL:")
print(f"   • Rata-rata sekolah per region: {regional_centers['school_count'].mean():.1f}")
print(f"   • Median sekolah per region: {regional_centers['school_count'].median():.1f}")
print(f"   • Region dengan sekolah terbanyak: {regional_centers['school_count'].max()} sekolah")
print(f"   • Region dengan sekolah tersedikit: {regional_centers['school_count'].min()} sekolah")

📍 ANALISIS TITIK LOKASI SEKOLAH INDIVIDUAL
📊 STATISTIK SEKOLAH INDIVIDUAL:
   • Total sekolah dalam GeoJSON: 420
   • Jumlah region unik: 38
   • Rentang latitude: -8.658 - -5.568
   • Rentang longitude: 108.479 - 116.158

🏫 DISTRIBUSI SEKOLAH PER REGION ID:
   Region 1: 22 sekolah
   Region 2: 12 sekolah
   Region 3: 6 sekolah
   Region 4: 8 sekolah
   Region 5: 3 sekolah
   Region 6: 4 sekolah
   Region 7: 4 sekolah
   Region 8: 4 sekolah
   Region 9: 2 sekolah
   Region 10: 12 sekolah



🔍 ANALISIS TAMBAHAN:

📍 TOP 5 REGION DENGAN SEKOLAH TERBANYAK:
   Region 1.0: 22.0 sekolah di (-7.279, 112.736)
   Region 14.0: 22.0 sekolah di (-7.175, 111.863)
   Region 15.0: 18.0 sekolah di (-6.958, 111.907)
   Region 33.0: 18.0 sekolah di (-8.199, 113.641)
   Region 20.0: 17.0 sekolah di (-7.893, 111.492)

📊 RINGKASAN STATISTIK REGIONAL:
   • Rata-rata sekolah per region: 11.1
   • Median sekolah per region: 11.0
   • Region dengan sekolah terbanyak: 22 sekolah
   • Region dengan sekolah tersedikit: 2 sekolah


In [8]:
# TAHAP 6: VISUALISASI DATA LANJUTAN DAN DASHBOARD
print("📈 DASHBOARD ANALITIK INTERAKTIF")
print("=" * 50)

# Create comprehensive dashboard
fig = make_subplots(
    rows=3, cols=2,
    subplot_titles=(
        'Distribusi Sekolah: Kota vs Kabupaten',
        'Top 15 Wilayah Berdasarkan Total Sekolah',
        'Korelasi: Populasi vs Total Sekolah',
        'Distribusi Kepadatan Sekolah',
        'Perbandingan Metrik Utama',
        'Tren Efisiensi Pendidikan'
    ),
    specs=[[{"type": "xy"}, {"type": "xy"}],
           [{"type": "xy"}, {"type": "xy"}],
           [{"type": "xy"}, {"type": "xy"}]]
)

# Chart 1: Box plot comparison
kota_schools = clean_data[clean_data['Tipe_Wilayah'] == 'KOTA']['Total_Sekolah']
kab_schools = clean_data[clean_data['Tipe_Wilayah'] == 'KABUPATEN']['Total_Sekolah']

fig.add_trace(
    go.Box(y=kota_schools, name='KOTA', marker_color='lightblue'),
    row=1, col=1
)
fig.add_trace(
    go.Box(y=kab_schools, name='KABUPATEN', marker_color='lightcoral'),
    row=1, col=1
)

# Chart 2: Top 15 regions
top_15 = clean_data.nlargest(15, 'Total_Sekolah')
fig.add_trace(
    go.Bar(
        x=top_15['Total_Sekolah'],
        y=top_15['Wilayah'],
        orientation='h',
        marker_color='steelblue',
        text=top_15['Total_Sekolah'],
        textposition='auto'
    ),
    row=1, col=2
)

# Chart 3: Scatter plot - Population vs Schools
fig.add_trace(
    go.Scatter(
        x=clean_data['Jumlah_Penduduk'],
        y=clean_data['Total_Sekolah'],
        mode='markers',
        marker=dict(
            size=8,
            color=clean_data['Kepadatan_Sekolah_per_km2'],
            colorscale='Viridis',
            showscale=True,
            colorbar=dict(title="Kepadatan/km²", x=0.48, y=0.5)
        ),
        text=clean_data['Wilayah'],
        hovertemplate='<b>%{text}</b><br>Populasi: %{x:,.0f}<br>Total Sekolah: %{y}<extra></extra>'
    ),
    row=2, col=1
)

# Chart 4: Histogram of school density
fig.add_trace(
    go.Histogram(
        x=clean_data['Kepadatan_Sekolah_per_km2'],
        nbinsx=20,
        marker_color='orange',
        opacity=0.7
    ),
    row=2, col=2
)

# Chart 5: Radar chart for top 5 regions
top_5_for_radar = clean_data.nlargest(5, 'Total_Sekolah')

# Normalize metrics for radar chart
metrics_for_radar = ['Total_Sekolah', 'Kepadatan_Sekolah_per_km2', 'Rasio_Sekolah_per_10k_Penduduk']
radar_data = {}

for metric in metrics_for_radar:
    max_val = clean_data[metric].max()
    min_val = clean_data[metric].min()
    radar_data[metric] = ((top_5_for_radar[metric] - min_val) / (max_val - min_val) * 100).tolist()

colors = ['red', 'blue', 'green', 'orange', 'purple']
for i, (idx, row) in enumerate(top_5_for_radar.iterrows()):
    fig.add_trace(
        go.Scatterpolar(
            r=radar_data['Total_Sekolah'][i:i+1] + radar_data['Kepadatan_Sekolah_per_km2'][i:i+1] + 
              radar_data['Rasio_Sekolah_per_10k_Penduduk'][i:i+1] + [radar_data['Total_Sekolah'][i]],
            theta=['Total Sekolah', 'Kepadatan/km²', 'Rasio/10k', 'Total Sekolah'],
            fill='toself',
            name=row['Wilayah'][:15] + '...' if len(row['Wilayah']) > 15 else row['Wilayah'],
            line_color=colors[i]
        ),
        row=3, col=1
    )

# Chart 6: Efficiency analysis
clean_data['Efisiensi_Sekolah'] = clean_data['Total_Sekolah'] / (clean_data['Luas_Wilayah_km2'] + clean_data['Jumlah_Penduduk'] / 1000)
top_efficient = clean_data.nlargest(10, 'Efisiensi_Sekolah')

fig.add_trace(
    go.Bar(
        x=top_efficient['Wilayah'],
        y=top_efficient['Efisiensi_Sekolah'],
        marker_color='lightgreen',
        text=[f'{val:.3f}' for val in top_efficient['Efisiensi_Sekolah']],
        textposition='auto'
    ),
    row=3, col=2
)

# Update layout for specific subplots
fig.update_xaxes(title_text="Tipe Wilayah", row=1, col=1)
fig.update_yaxes(title_text="Jumlah Sekolah", row=1, col=1)

fig.update_xaxes(title_text="Jumlah Sekolah", row=1, col=2)
fig.update_yaxes(title_text="Wilayah", row=1, col=2)

fig.update_xaxes(title_text="Jumlah Penduduk", row=2, col=1)
fig.update_yaxes(title_text="Total Sekolah", row=2, col=1)

fig.update_xaxes(title_text="Kepadatan Sekolah per km²", row=2, col=2)
fig.update_yaxes(title_text="Frekuensi", row=2, col=2)

fig.update_xaxes(title_text="Wilayah", row=3, col=2)
fig.update_yaxes(title_text="Skor Efisiensi", row=3, col=2)

# Rotate x-axis labels for better readability
fig.update_xaxes(tickangle=45, row=3, col=2)

fig.update_layout(
    height=1200,
    title_text="Dashboard Komprehensif Analisis Sekolah Jawa Timur",
    showlegend=True
)

fig.show()

# Summary insights
print(f"\n💡 KEY INSIGHTS DARI DASHBOARD:")
print(f"   📊 DISTRIBUSI:")
print(f"   • KOTA: Rata-rata {kota_schools.mean():.0f} sekolah, median {kota_schools.median():.0f}")
print(f"   • KABUPATEN: Rata-rata {kab_schools.mean():.0f} sekolah, median {kab_schools.median():.0f}")

print(f"\n   🏆 TOP PERFORMERS:")
best_total = clean_data.loc[clean_data['Total_Sekolah'].idxmax()]
best_density = clean_data.loc[clean_data['Kepadatan_Sekolah_per_km2'].idxmax()]
best_ratio = clean_data.loc[clean_data['Rasio_Sekolah_per_10k_Penduduk'].idxmax()]

print(f"   • Sekolah terbanyak: {best_total['Wilayah']} ({best_total['Total_Sekolah']:.0f} sekolah)")
print(f"   • Kepadatan tertinggi: {best_density['Wilayah']} ({best_density['Kepadatan_Sekolah_per_km2']:.2f}/km²)")
print(f"   • Rasio terbaik: {best_ratio['Wilayah']} ({best_ratio['Rasio_Sekolah_per_10k_Penduduk']:.2f}/10k)")

print(f"\n   🔗 KORELASI:")
corr_pop_schools, _ = pearsonr(clean_data['Jumlah_Penduduk'], clean_data['Total_Sekolah'])
print(f"   • Populasi vs Total Sekolah: r = {corr_pop_schools:.3f}")
print(f"   • Interpretasi: {'Korelasi kuat' if abs(corr_pop_schools) > 0.7 else 'Korelasi sedang' if abs(corr_pop_schools) > 0.3 else 'Korelasi lemah'}")

📈 DASHBOARD ANALITIK INTERAKTIF


ValueError: Trace type 'scatterpolar' is not compatible with subplot type 'xy'
at grid position (3, 1)

See the docstring for the specs argument to plotly.subplots.make_subplots
for more information on subplot types

In [None]:
# TAHAP 7: RINGKASAN, REKOMENDASI, DAN EKSPOR DATA
print("📋 RINGKASAN ANALISIS DAN REKOMENDASI")
print("=" * 60)

# Final comprehensive analysis
total_schools = clean_data['Total_Sekolah'].sum()
total_population = clean_data['Jumlah_Penduduk'].sum()
total_area = clean_data['Luas_Wilayah_km2'].sum()

print(f"🎯 RINGKASAN EKSEKUTIF:")
print(f"   📍 Cakupan Wilayah: {len(clean_data)} Kabupaten/Kota di Jawa Timur")
print(f"   🏫 Total Sekolah: {total_schools:,.0f} unit")
print(f"   👥 Total Populasi: {total_population:,.0f} jiwa")
print(f"   📐 Total Luas Wilayah: {total_area:,.0f} km²")
print(f"   📊 Rata-rata Sekolah per Wilayah: {total_schools/len(clean_data):.1f} unit")
print(f"   🎯 Rasio Sekolah per 10k Penduduk: {(total_schools/total_population)*10000:.2f}")

# Identify problem areas and opportunities
print(f"\n🚨 IDENTIFIKASI MASALAH:")

# Bottom 5 in each metric
bottom_total = clean_data.nsmallest(5, 'Total_Sekolah')
bottom_density = clean_data.nsmallest(5, 'Kepadatan_Sekolah_per_km2')
bottom_ratio = clean_data.nsmallest(5, 'Rasio_Sekolah_per_10k_Penduduk')

print(f"\n   📉 Wilayah dengan Sekolah Paling Sedikit:")
for idx, row in bottom_total.iterrows():
    print(f"      • {row['Wilayah']}: {row['Total_Sekolah']:.0f} sekolah")

print(f"\n   📉 Wilayah dengan Kepadatan Sekolah Terendah:")
for idx, row in bottom_density.iterrows():
    print(f"      • {row['Wilayah']}: {row['Kepadatan_Sekolah_per_km2']:.3f} sekolah/km²")

print(f"\n   📉 Wilayah dengan Rasio Sekolah Terendah:")
for idx, row in bottom_ratio.iterrows():
    print(f"      • {row['Wilayah']}: {row['Rasio_Sekolah_per_10k_Penduduk']:.3f} per 10k penduduk")

# Generate recommendations
print(f"\n💡 REKOMENDASI KEBIJAKAN:")
print(f"\n   🏗️ PRIORITAS PEMBANGUNAN SEKOLAH:")

# Identify regions needing more schools
needs_more_schools = clean_data[clean_data['Rasio_Sekolah_per_10k_Penduduk'] < clean_data['Rasio_Sekolah_per_10k_Penduduk'].median()]
print(f"   • {len(needs_more_schools)} wilayah memerlukan penambahan sekolah (rasio di bawah median)")
print(f"   • Prioritas utama:")
for idx, row in needs_more_schools.nsmallest(5, 'Rasio_Sekolah_per_10k_Penduduk').iterrows():
    needed_schools = (row['Jumlah_Penduduk'] / 10000 * clean_data['Rasio_Sekolah_per_10k_Penduduk'].median()) - row['Total_Sekolah']
    print(f"      - {row['Wilayah']}: Butuh ~{needed_schools:.0f} sekolah tambahan")

print(f"\n   🎯 OPTIMALISASI SUMBER DAYA:")
high_efficiency = clean_data[clean_data['Efisiensi_Sekolah'] > clean_data['Efisiensi_Sekolah'].quantile(0.75)]
print(f"   • Model terbaik untuk ditiru (efisiensi tinggi):")
for idx, row in high_efficiency.nlargest(3, 'Efisiensi_Sekolah').iterrows():
    print(f"      - {row['Wilayah']}: Skor efisiensi {row['Efisiensi_Sekolah']:.3f}")

print(f"\n   🌐 STRATEGI REGIONAL:")
print(f"   • KOTA: Fokus pada optimalisasi (rata-rata {kota_schools.mean():.0f} sekolah)")
print(f"   • KABUPATEN: Fokus pada ekspansi (rata-rata {kab_schools.mean():.0f} sekolah)")

# Create summary table for export
summary_table = clean_data[['Wilayah', 'Tipe_Wilayah', 'Total_Sekolah', 'Jumlah_Penduduk', 
                           'Luas_Wilayah_km2', 'Kepadatan_Sekolah_per_km2', 
                           'Rasio_Sekolah_per_10k_Penduduk', 'Efisiensi_Sekolah']].copy()

# Add ranking columns
summary_table['Ranking_Total_Sekolah'] = summary_table['Total_Sekolah'].rank(ascending=False, method='min')
summary_table['Ranking_Kepadatan'] = summary_table['Kepadatan_Sekolah_per_km2'].rank(ascending=False, method='min')
summary_table['Ranking_Rasio'] = summary_table['Rasio_Sekolah_per_10k_Penduduk'].rank(ascending=False, method='min')
summary_table['Ranking_Efisiensi'] = summary_table['Efisiensi_Sekolah'].rank(ascending=False, method='min')

# Display top 10 overall performers
print(f"\n🏆 TOP 10 WILAYAH TERBAIK (Berdasarkan Rata-rata Ranking):")
summary_table['Rata_rata_Ranking'] = (summary_table['Ranking_Total_Sekolah'] + 
                                     summary_table['Ranking_Kepadatan'] + 
                                     summary_table['Ranking_Rasio'] + 
                                     summary_table['Ranking_Efisiensi']) / 4

top_10_overall = summary_table.nsmallest(10, 'Rata_rata_Ranking')
for idx, row in top_10_overall.iterrows():
    print(f"   {int(row['Rata_rata_Ranking']):2d}. {row['Wilayah']:<25} (Avg Rank: {row['Rata_rata_Ranking']:.1f})")

# Export processed data
try:
    summary_table.to_csv('Hasil_Analisis_Sekolah_Jatim.csv', index=False)
    print(f"\n💾 Data berhasil diekspor ke: 'Hasil_Analisis_Sekolah_Jatim.csv'")
except Exception as e:
    print(f"\n❌ Error ekspor data: {e}")

# Final data overview
print(f"\n📊 OVERVIEW DATA FINAL:")
display(summary_table[['Wilayah', 'Tipe_Wilayah', 'Total_Sekolah', 'Kepadatan_Sekolah_per_km2', 
                      'Rasio_Sekolah_per_10k_Penduduk', 'Rata_rata_Ranking']].head(15))

print(f"\n✅ ANALISIS SELESAI!")
print(f"📈 Dashboard interaktif dan visualisasi geospasial telah dibuat")
print(f"💡 Insight dan rekomendasi kebijakan telah dihasilkan")
print(f"💾 Data hasil analisis telah diekspor untuk penggunaan lebih lanjut")

## Kesimpulan Analisis

### 🎯 Hasil Utama
Analisis komprehensif data sekolah Provinsi Jawa Timur telah berhasil dilakukan dengan pendekatan yang terstruktur dan visualisasi yang mendalam. Beberapa temuan kunci:

1. **Distribusi Sekolah**: Terdapat disparitas yang signifikan antara wilayah urban (kota) dan rural (kabupaten)
2. **Pola Geografis**: Konsentrasi sekolah cenderung mengikuti pola kepadatan populasi
3. **Efisiensi Regional**: Beberapa wilayah menunjukkan efisiensi tinggi dalam pemanfaatan sumber daya pendidikan

### 📊 Metrik Kinerja
- **Total Sekolah**: Komprehensif mencakup semua jenjang pendidikan
- **Kepadatan Sekolah**: Rasio sekolah per km² wilayah
- **Rasio Layanan**: Sekolah per 10,000 penduduk
- **Efisiensi**: Skor gabungan berdasarkan populasi dan luas wilayah

### 🚀 Inovasi dalam Analisis
1. **Multi-perspektif Visualization**: Gabungan peta, chart, dan dashboard interaktif
2. **Synthetic Demographics**: Penggunaan data demografis sintetis untuk analisis mendalam
3. **Geospatial Integration**: Kombinasi data CSV dan GeoJSON untuk analisis spasial
4. **Performance Ranking**: Sistem peringkat multi-kriteria untuk evaluasi wilayah

### 📈 Nilai Tambah
- Dashboard interaktif untuk eksplorasi data
- Rekomendasi kebijakan berbasis data
- Ekspor hasil analisis untuk penggunaan lebih lanjut
- Visualisasi yang mudah dipahami untuk stakeholder

---
**Catatan**: Analisis ini menggunakan data sintetis untuk variabel demografis. Dalam implementasi nyata, data harus diperoleh dari sumber resmi seperti BPS.