Persiapan Data

In [1]:
import pandas as pd
import numpy as np
import geopandas as gpd
from shapely.geometry import Point, Polygon
import math 
import os 

# --- 0. Konfigurasi Path Data
PATH_DIR_DATA = r"C:\Users\dzikr\Documents\HP November 2024\SELF DEVELOPMENT\DQLab\Machiner Learning\FINAL PROJECT\EARTHQUAKE\Data" # Tanpa backslash di akhir

# Data Gempa 
EARTHQUAKE_FILES = [
    '2004-2008.csv',
    '2009-2013.csv',
    '2014-2018.csv',
    '2019-2024.csv'
]

# Data lainnya
PATH_DATA_POI = 'poi_indonesia.geojson'
PATH_DATA_DEMOGRAFI_JABAR = 'demografi_jawabarat.gpkg' 
PATH_BATAS_PROVINSI_JABAR = 'batas_jabar.geojson' 
PATH_BATAS_KABKOT_JABAR = 'batas_kabkot_jabar.geojson' 

# --- 1. Load & Gabungkan Data Gempa ---
print("Memuat dan menggabungkan data gempa...")
all_gempa_dfs = []
for file_name in EARTHQUAKE_FILES:
    file_path = os.path.join(PATH_DIR_DATA, file_name)
    try:
        df_temp = pd.read_csv(file_path)
        all_gempa_dfs.append(df_temp)
        print(f"  - {file_name} dimuat.")
    except FileNotFoundError:
        print(f"  - ERROR: File TIDAK DITEMUKAN di: {file_path}, dilewati.")
    except Exception as e:
        print(f"  - ERROR saat memuat {file_name} dari {file_path}: {e}")

if not all_gempa_dfs:
    print("Tidak ada data gempa yang berhasil dimuat. Skrip dihentikan.")
    exit()

df_gempa = pd.concat(all_gempa_dfs, ignore_index=True)
print(f"Total Data Gempa digabungkan: {df_gempa.shape[0]} baris")
print("Kolom data gempa:", df_gempa.columns.tolist())
print(df_gempa.head())
print("\n")


# --- 2. Load Data POI Se-Indonesia ---
print("Memuat data POI se-Indonesia...")
try:
    gdf_poi = gpd.read_file(os.path.join(PATH_DIR_DATA, PATH_DATA_POI))
    print(f"Data POI dimuat: {gdf_poi.shape[0]} baris")
    print("Kolom data POI:", gdf_poi.columns.tolist())
    print(gdf_poi.head())
    print("\n")
except FileNotFoundError as e:
    print(f"ERROR: File POI tidak ditemukan di: {os.path.join(PATH_DIR_DATA, PATH_DATA_POI)} \n{e}")
    exit()


# --- 3. Load Data Demografi Jawa Barat (Kelurahan GPKG) ---
print("Memuat data Demografi Jawa Barat (Kelurahan GPKG)...")
try:
    gdf_demografi_jabar = gpd.read_file(os.path.join(PATH_DIR_DATA, PATH_DATA_DEMOGRAFI_JABAR))
    print(f"Data Demografi Jabar dimuat: {gdf_demografi_jabar.shape[0]} poligon")
    print("Kolom data Demografi Jabar:", gdf_demografi_jabar.columns.tolist())
    print(gdf_demografi_jabar.head())
    print("\n")
except FileNotFoundError as e:
    print(f"ERROR: File Demografi Jabar (GPKG) tidak ditemukan di: {os.path.join(PATH_DIR_DATA, PATH_DATA_DEMOGRAFI_JABAR)} \n{e}")
    exit()


# --- 4. Load Data Batas Provinsi Jawa Barat (GeoJSON) ---
print("Memuat data Batas Provinsi Jawa Barat...")
try:
    gdf_batas_provinsi_jabar = gpd.read_file(os.path.join(PATH_DIR_DATA, PATH_BATAS_PROVINSI_JABAR))
    print(f"Data Batas Provinsi Jabar dimuat: {gdf_batas_provinsi_jabar.shape[0]} poligon")
    print("Kolom data Batas Provinsi Jabar:", gdf_batas_provinsi_jabar.columns.tolist())
    print(gdf_batas_provinsi_jabar.head())
    print("\n")
except FileNotFoundError as e:
    print(f"ERROR: File Batas Provinsi Jabar tidak ditemukan di: {os.path.join(PATH_DIR_DATA, PATH_BATAS_PROVINSI_JABAR)} \n{e}")
    exit()
except Exception as e:
    print(f"ERROR saat memuat Batas Provinsi Jabar: {e}")
    print("Pastikan file GeoJSON tidak korup dan geopandas sudah terinstal dengan benar.")
    exit()


# --- 5. Load Data Batas Kabupaten/Kota Jawa Barat (GeoJSON) ---
print("Memuat data Batas Kabupaten/Kota Jawa Barat...") 
try:
    gdf_batas_kabkot_jabar = gpd.read_file(os.path.join(PATH_DIR_DATA, PATH_BATAS_KABKOT_JABAR))
    print(f"Data Batas Kab/Kota Jabar dimuat: {gdf_batas_kabkot_jabar.shape[0]} poligon")
    print("Kolom data Batas Kab/Kota Jabar:", gdf_batas_kabkot_jabar.columns.tolist())
    print(gdf_batas_kabkot_jabar.head())
    print("\n")
except FileNotFoundError as e:
    print(f"ERROR: File Batas Kabupaten/Kota Jabar tidak ditemukan di: {os.path.join(PATH_DIR_DATA, PATH_BATAS_KABKOT_JABAR)} \n{e}")
    exit()
except Exception as e:
    print(f"ERROR saat memuat Batas Kabupaten/Kota Jabar: {e}")
    print("Pastikan file GeoJSON tidak korup dan geopandas sudah terinstal dengan benar.")
    exit()


print("Semua data berhasil dimuat.")
print("\n--- Lanjut ke Pembersihan dan Feature Engineering Awal ---")

Memuat dan menggabungkan data gempa...
  - 2004-2008.csv dimuat.
  - 2009-2013.csv dimuat.
  - 2014-2018.csv dimuat.
  - 2019-2024.csv dimuat.
Total Data Gempa digabungkan: 52588 baris
Kolom data gempa: ['time', 'latitude', 'longitude', 'depth', 'mag', 'magType', 'nst', 'gap', 'dmin', 'rms', 'net', 'id', 'updated', 'place', 'type', 'horizontalError', 'depthError', 'magError', 'magNst', 'status', 'locationSource', 'magSource']
                       time  latitude  longitude  depth  mag magType    nst  \
0  2008-12-31T14:49:10.830Z     3.034    127.560   35.0  4.0      mb    8.0   
1  2008-12-31T11:39:53.460Z     4.918    127.437   39.0  5.4     mwb  134.0   
2  2008-12-31T11:14:36.560Z    -4.441    128.897   35.0  3.9      mb    6.0   
3  2008-12-31T07:07:01.890Z    -8.210    109.966   35.0  4.1      mb   18.0   
4  2008-12-31T00:06:25.600Z    -4.363    101.242   10.0  4.1      mb   28.0   

     gap  dmin   rms  ...                   updated  \
0  157.9   NaN  1.01  ...  2014-11-07T01

Preprocessing Data dan Feature Engineering

In [2]:
import pandas as pd
import numpy as np
import geopandas as gpd
from shapely.geometry import Point, Polygon
import math 

print("Memulai Fase 1, Langkah 1.2: Data Preprocessing & Cleaning (FINAL & AKURAT)...")

# --- 1. Pastikan CRS Konsisten (EPSG:4326) ---
print("Memastikan CRS (Coordinate Reference System) konsisten (EPSG:4326)...")

if gdf_poi.crs != 'EPSG:4326':
    gdf_poi = gdf_poi.to_crs('EPSG:4326')
    print("  - gdf_poi CRS dikonversi ke EPSG:4326")

if gdf_demografi_jabar.crs != 'EPSG:4326':
    gdf_demografi_jabar = gdf_demografi_jabar.to_crs('EPSG:4326')
    print("  - gdf_demografi_jabar CRS dikonversi ke EPSG:4326")

if gdf_batas_provinsi_jabar.crs != 'EPSG:4326':
    gdf_batas_provinsi_jabar = gdf_batas_provinsi_jabar.to_crs('EPSG:4326')
    print("  - gdf_batas_provinsi_jabar CRS dikonversi ke EPSG:4326")

if gdf_batas_kabkot_jabar.crs != 'EPSG:4326':
    gdf_batas_kabkot_jabar = gdf_batas_kabkot_jabar.to_crs('EPSG:4326')
    print("  - gdf_batas_kabkot_jabar CRS dikonversi ke EPSG:4326")

print("CRS konsisten.")
print("\n")


# --- 2. Pembersihan & Filtering Data Gempa (Semua gempa di atau dekat Jabar) ---
print("Membersihkan dan memfilter Data Gempa (hanya di atau dekat Jawa Barat)...")

df_gempa.dropna(subset=['latitude', 'longitude', 'mag', 'depth', 'place'], inplace=True)
df_gempa['mag'] = pd.to_numeric(df_gempa['mag'], errors='coerce')
df_gempa['depth'] = pd.to_numeric(df_gempa['depth'], errors='coerce')
df_gempa.dropna(subset=['mag', 'depth'], inplace=True)
print(f"  - Data Gempa setelah drop NaN: {df_gempa.shape[0]} baris")

geometry_gempa = gpd.points_from_xy(df_gempa['longitude'], df_gempa['latitude'])
gdf_gempa_all_filtered_crs = gpd.GeoDataFrame(df_gempa, geometry=geometry_gempa, crs="EPSG:4326")
gdf_batas_provinsi_jabar_single_poly = gdf_batas_provinsi_jabar.copy() 

print("  - Memfilter gempa langsung di dalam batas Provinsi Jawa Barat (tanpa buffer)...")

# Melakukan spatial join untuk memfilter gempa di Jawa Barat
# Menggunakan gdf_batas_provinsi_jabar_single_poly (batas provinsi) secara langsung
gdf_gempa_jabar = gpd.sjoin(gdf_gempa_all_filtered_crs, gdf_batas_provinsi_jabar_single_poly[['geometry']], how="inner", predicate='intersects')
gdf_gempa_jabar.drop(columns=['index_right'], inplace=True)
print(f"  - Data Gempa (di dalam Jabar): {gdf_gempa_jabar.shape[0]} baris") # Pesan disesuaikan
print("Kolom gdf_gempa_jabar:", gdf_gempa_jabar.columns.tolist())
print(gdf_gempa_jabar.head())
print("\n")

# --- 3. Pembersihan & Kategorisasi Data POI ---
print("Membersihkan dan mengategorikan Data POI...")

gdf_poi.dropna(subset=['geometry', 'amenity'], inplace=True)
print(f"  - Data POI setelah drop NaN: {gdf_poi.shape[0]} baris")

def categorize_poi(poi_type):
    poi_type_lower = str(poi_type).lower()
    if 'hospital' in poi_type_lower or 'clinic' in poi_type_lower:
        return 'Fasilitas Kesehatan'
    elif 'school' in poi_type_lower:
        return 'Sekolah'
    elif 'police' in poi_type_lower or 'townhall' in poi_type_lower:
        return 'Pemerintahan/Publik'
    elif 'library' in poi_type_lower or 'place_of_worship' in poi_type_lower:
        return 'Fasilitas Sosial/Publik Lain'
    elif 'restaurant' in poi_type_lower:
        return 'Komersial'
    else:
        return 'Bangunan Biasa' 

gdf_poi['category'] = gdf_poi['amenity'].apply(categorize_poi)
print("  - Distribusi kategori POI (sebelum filter Jabar):")
print(gdf_poi['category'].value_counts())

gdf_poi_jabar = gpd.sjoin(gdf_poi, gdf_batas_provinsi_jabar_single_poly[['geometry']], how="inner", predicate='intersects') # Menggunakan single_poly
gdf_poi_jabar.drop(columns=['index_right'], inplace=True)
print(f"  - Data POI di Jawa Barat: {gdf_poi_jabar.shape[0]} baris")
print("Kolom gdf_poi_jabar:", gdf_poi_jabar.columns.tolist())
print(gdf_poi_jabar.head())
print("\n")


# --- 4. PEMROSESAN DATA KEMISKINAN JABAR
print("Memproses Data Kemiskinan Jabar (parsing format unik - DISIMPELKAN & AKURAT)...")


print("  - Memastikan kolom kemiskinan dan penduduk adalah numerik...")
gdf_demografi_jabar['jumlah_penduduk'] = pd.to_numeric(gdf_demografi_jabar['jumlah_penduduk'], errors='coerce')
gdf_demografi_jabar['jumlah_penduduk_miskin_kabkot'] = pd.to_numeric(gdf_demografi_jabar['jumlah_penduduk_miskin_kabkot'], errors='coerce')
gdf_demografi_jabar['jumlah_penduduk'] = gdf_demografi_jabar['jumlah_penduduk'].fillna(0)
gdf_demografi_jabar['jumlah_penduduk_miskin_kabkot'] = gdf_demografi_jabar['jumlah_penduduk_miskin_kabkot'].fillna(0)


print("  - Menambahkan kolom estimasi jumlah penduduk miskin per kelurahan (menggunakan kolom internal)...")

# Hitung total jumlah penduduk per kab/kota dari kelurahan
gdf_demografi_jabar['jumlah_penduduk_kabkot'] = gdf_demografi_jabar.groupby('nama_kab')['jumlah_penduduk'].transform('sum')
gdf_demografi_jabar['jumlah_penduduk_kabkot'] = pd.to_numeric(gdf_demografi_jabar['jumlah_penduduk_kabkot'], errors='coerce').fillna(0)

# Hitung estimasi jumlah penduduk miskin per kelurahan
denominator = gdf_demografi_jabar['jumlah_penduduk_kabkot'].replace(0, np.nan)

gdf_demografi_jabar['jumlah_penduduk_miskin_kelurahan_estimasi'] = (
    (gdf_demografi_jabar['jumlah_penduduk'].astype(float) / denominator) *
    gdf_demografi_jabar['jumlah_penduduk_miskin_kabkot'].astype(float)
).fillna(0).astype(int)

print("  - Kolom 'jumlah_penduduk_miskin_kelurahan_estimasi' berhasil ditambahkan.")

# --- 5. Pembersihan & Feature Engineering Data Demografi Jawa Barat (Kelurahan) ---
print("Membersihkan dan melakukan feature engineering Data Demografi Jabar (Kelurahan)...")

# 5.1 Identifikasi Kolom Kunci dan Pembersihan Awal
COL_KELURAHAN_ID = 'kode_desa_spatial' 
COL_jumlah_penduduk = 'jumlah_penduduk' 
COL_JUMLAH_LAKI = 'pria' 
COL_JUMLAH_PEREMPUAN = 'wanita' 
COL_NAMA_KAB_DEMOG = 'nama_kab' 

# Tentukan rentang kolom untuk usia produktif (berdasarkan daftar kolom yang kamu berikan)
productive_age_cols = [
    'u15', 'u20', 'u25', 'u30', 'u35', 'u40', 'u45', 'u50', 'u55', 'u60'
]
# Filter yang benar-benar ada di dataframe
productive_age_cols = [col for col in productive_age_cols if col in gdf_demografi_jabar.columns]

print(f"  - Kolom yang diidentifikasi untuk usia produktif: {productive_age_cols}")

required_demog_cols_base = [COL_KELURAHAN_ID, COL_jumlah_penduduk, COL_JUMLAH_LAKI, COL_JUMLAH_PEREMPUAN, COL_NAMA_KAB_DEMOG] + productive_age_cols
for col in required_demog_cols_base:
    if col not in gdf_demografi_jabar.columns:
        print(f"  - PERINGATAN: Kolom dasar '{col}' tidak ditemukan di data demografi kelurahan. Harap sesuaikan nama kolom di kode ini!")
        
gdf_demografi_jabar.dropna(subset=required_demog_cols_base, inplace=True)

for col in [COL_jumlah_penduduk, COL_JUMLAH_LAKI, COL_JUMLAH_PEREMPUAN] + productive_age_cols:
    gdf_demografi_jabar[col] = pd.to_numeric(gdf_demografi_jabar[col], errors='coerce')
# Pastikan ini benar (JUMLAH_PEREMPUAN)
gdf_demografi_jabar = gdf_demografi_jabar.dropna(subset=[COL_jumlah_penduduk, COL_JUMLAH_LAKI, COL_JUMLAH_PEREMPUAN] + productive_age_cols)
print(f"  - Data Demografi Jabar setelah drop NaN & konversi numerik: {gdf_demografi_jabar.shape[0]} baris")


# 5.2 Feature Engineering Demografi
gdf_demografi_jabar['jumlah_produktif'] = gdf_demografi_jabar[productive_age_cols].sum(axis=1) if productive_age_cols else 0.0

gdf_demografi_jabar['jumlah_non_produktif'] = gdf_demografi_jabar[COL_jumlah_penduduk] - gdf_demografi_jabar['jumlah_produktif']
gdf_demografi_jabar['jumlah_non_produktif'] = gdf_demografi_jabar['jumlah_non_produktif'].apply(lambda x: max(0, x))

gdf_demografi_jabar['rasio_lp'] = gdf_demografi_jabar[COL_JUMLAH_LAKI] / gdf_demografi_jabar[COL_JUMLAH_PEREMPUAN]
gdf_demografi_jabar['rasio_lp'] = gdf_demografi_jabar['rasio_lp'].replace([np.inf, -np.inf], np.nan) 
gdf_demografi_jabar['rasio_lp'] = gdf_demografi_jabar['rasio_lp'].fillna(1.0)

gdf_demografi_jabar['rasio_produktif_nonproduktif'] = gdf_demografi_jabar['jumlah_produktif'] / gdf_demografi_jabar['jumlah_non_produktif'].replace(0, np.nan)
gdf_demografi_jabar['rasio_produktif_nonproduktif'] = gdf_demografi_jabar['rasio_produktif_nonproduktif'].replace([np.inf, -np.inf], np.nan)
gdf_demografi_jabar['rasio_produktif_nonproduktif'] = gdf_demografi_jabar['rasio_produktif_nonproduktif'].fillna(1.0)

print("  - Menghitung luas area kelurahan dari geometri (membutuhkan konversi CRS sementara)...")
gdf_demografi_jabar_proj = gdf_demografi_jabar.to_crs(epsg=3857)
gdf_demografi_jabar['luas_area_sqkm'] = gdf_demografi_jabar_proj.geometry.area / 10**6
gdf_demografi_jabar['kepadatan_penduduk_kelurahan'] = gdf_demografi_jabar[COL_jumlah_penduduk] / gdf_demografi_jabar['luas_area_sqkm'].replace(0, np.nan)
gdf_demografi_jabar['kepadatan_penduduk_kelurahan'] = gdf_demografi_jabar['kepadatan_penduduk_kelurahan'].replace([np.inf, -np.inf], np.nan)
gdf_demografi_jabar['kepadatan_penduduk_kelurahan'] = gdf_demografi_jabar['kepadatan_penduduk_kelurahan'].fillna(0)

gdf_demografi_jabar = gdf_demografi_jabar.to_crs(epsg=4326)

# Finalisasi gdf_demografi_jabar_clean (masukkan kolom kemiskinan estimasi)
# Kita akan gunakan gdf_demografi_jabar yang sudah diperkaya sebagai sumber akhir
demog_features = [
    COL_KELURAHAN_ID, 'jumlah_penduduk', 'pria', 'wanita',
    'jumlah_produktif', 'jumlah_non_produktif',
    'rasio_lp', 'rasio_produktif_nonproduktif', 
    'kepadatan_penduduk_kelurahan',
    'jumlah_penduduk_miskin_kelurahan_estimasi', # <--- KOLOM KEMISKINAN BARU
    'geometry'
]
# Filter hanya kolom yang benar-benar ada di dataframe
demog_features = [col for col in demog_features if col in gdf_demografi_jabar.columns or col == 'geometry']

gdf_demografi_jabar_clean = gdf_demografi_jabar[demog_features].copy()
print(f"  - Data Demografi Jabar (clean features) setelah FE & Disagregasi Miskin: {gdf_demografi_jabar_clean.shape[0]} baris")
print("Kolom gdf_demografi_jabar_clean:", gdf_demografi_jabar_clean.columns.tolist())
print(gdf_demografi_jabar_clean.head())
print("\n")


print("Fase 1, Langkah 1.2 (Pembersihan dan Feature Engineering Awal) Selesai.")
print("Data sekarang siap untuk Pembentukan Grid & Agregasi Spasial.")
print("\n--- Lanjut ke Fase 1, Langkah 1.3 ---")

Memulai Fase 1, Langkah 1.2: Data Preprocessing & Cleaning (FINAL & AKURAT)...
Memastikan CRS (Coordinate Reference System) konsisten (EPSG:4326)...
CRS konsisten.


Membersihkan dan memfilter Data Gempa (hanya di atau dekat Jawa Barat)...
  - Data Gempa setelah drop NaN: 52588 baris
  - Memfilter gempa langsung di dalam batas Provinsi Jawa Barat (tanpa buffer)...
  - Data Gempa (di dalam Jabar): 189 baris
Kolom gdf_gempa_jabar: ['time', 'latitude', 'longitude', 'depth', 'mag', 'magType', 'nst', 'gap', 'dmin', 'rms', 'net', 'id', 'updated', 'place', 'type', 'horizontalError', 'depthError', 'magError', 'magNst', 'status', 'locationSource', 'magSource', 'geometry']
                         time  latitude  longitude  depth  mag magType   nst  \
14   2008-12-30T09:42:22.590Z    -6.320    108.268  329.6  4.2      mb  16.0   
383  2008-11-15T13:00:48.030Z    -7.193    106.641   59.9  4.5      mb  40.0   
642  2008-10-11T04:24:13.710Z    -6.775    106.716   10.0  4.1      mb   6.0   
681  200

In [3]:
import pandas as pd
import numpy as np
import geopandas as gpd
from shapely.geometry import Point, Polygon
import math # Untuk fungsi ceil, floor
import os # Pastikan os sudah diimport jika menjalankan seluruh skrip dari awal
import joblib # Untuk menyimpan model dan encoder

print("Memulai Fase 1, Langkah 1.3: Pembentukan Grid & Agregasi Spasial (FINAL & KONSISTEN)...")

# --- 1. Pembentukan Grid Geografis di Wilayah Jawa Barat ---
print("Membentuk grid geografis di wilayah Jawa Barat...")

# --- Ambil extent (batas min/max lat/lon) dari batas provinsi Jabar (tanpa buffer) ---
min_lon, min_lat, max_lon, max_lat = gdf_batas_provinsi_jabar_single_poly.total_bounds
print(f"    - Extent Jawa Barat (tanpa buffer): Lat {min_lat:.4f}-{max_lat:.4f}, Lon {min_lon:.4f}-{max_lon:.4f}")

# --- Ukuran Grid ---
GRID_SIZE_DEGREE = 0.045 # <--- UKURAN GRID DIUBAH MENJADI 0.05 DERAJAT (Sekitar 5.5 km)

print(f"    - Membuat grid dengan ukuran {GRID_SIZE_DEGREE} x {GRID_SIZE_DEGREE} derajat (sekitar {GRID_SIZE_DEGREE * 111.32:.2f} km x {GRID_SIZE_DEGREE * 111.32:.2f} km)...") # Pesan disesuaikan ke KM

grid_cells = []
# Loop dengan langkah sebesar GRID_SIZE_DEGREE
# Menggunakan math.floor dan math.ceil untuk memastikan cakupan penuh
for x in np.arange(math.floor(min_lon / GRID_SIZE_DEGREE) * GRID_SIZE_DEGREE, math.ceil(max_lon / GRID_SIZE_DEGREE) * GRID_SIZE_DEGREE, GRID_SIZE_DEGREE):
    for y in np.arange(math.floor(min_lat / GRID_SIZE_DEGREE) * GRID_SIZE_DEGREE, math.ceil(max_lat / GRID_SIZE_DEGREE) * GRID_SIZE_DEGREE, GRID_SIZE_DEGREE):
        polygon = Polygon([(x, y), (x + GRID_SIZE_DEGREE, y), (x + GRID_SIZE_DEGREE, y + GRID_SIZE_DEGREE), (x, y + GRID_SIZE_DEGREE), (x, y)])
        grid_cells.append({
            'geometry': polygon,
            'grid_id': f"{y:.5f}_{x:.5f}" # ID unik per grid
        })

gdf_grid = gpd.GeoDataFrame(grid_cells, crs="EPSG:4326")
print(f"    - Grid awal dibuat: {gdf_grid.shape[0]} kotak grid")

# Filter grid hanya yang berpotongan dengan batas Jabar (tanpa buffer)
print("    - Memfilter grid hanya yang berpotongan dengan batas Jawa Barat (tanpa buffer)...")
gdf_grid_jabar = gpd.sjoin(gdf_grid, gdf_batas_provinsi_jabar_single_poly[['geometry']], how="inner", predicate='intersects')
gdf_grid_jabar.drop(columns=['index_right'], inplace=True)
print(f"    - Grid di Jawa Barat: {gdf_grid_jabar.shape[0]} kotak grid") # Pesan disesuaikan
print(gdf_grid_jabar.head())
print("\n")


# --- 2. Agregasi Spasial: Demografi Kelurahan ke Grid (by centroid assignment) ---
print("Melakukan agregasi spasial: Demografi Kelurahan ke Grid...")

# Ambil centroid dari setiap grid
gdf_grid_jabar['grid_centroid'] = gdf_grid_jabar.geometry.centroid

# Lakukan spatial join antara centroid grid dan poligon kelurahan
# Setiap grid akan mewarisi atribut demografi dari kelurahan yang mencakup centroidnya
# Gunakan gdf_demografi_jabar_clean yang sudah memiliki semua fitur demografi dan kemiskinan
cols_to_inherit_from_demog = [col for col in gdf_demografi_jabar_clean.columns if col != 'geometry'] # Ambil semua kecuali geometry
# Tambahkan 'geometry' jika belum ada (untuk sjoin, tapi nanti akan di-drop)
if 'geometry' not in cols_to_inherit_from_demog:
    cols_to_inherit_from_demog.append('geometry')


gdf_grid_demog = gpd.sjoin(
    gdf_grid_jabar.set_geometry('grid_centroid', crs="EPSG:4326"), # Join dari centroid grid
    gdf_demografi_jabar_clean[cols_to_inherit_from_demog], # Ke poligon kelurahan
    how="left",
    predicate='intersects' # 'intersects' juga bisa digunakan untuk point-in-polygon
)
# Hapus kolom join yang tidak relevan
gdf_grid_demog.drop(columns=['index_right', 'grid_centroid'], inplace=True)
# Kembalikan geometry ke polygon grid asli
gdf_grid_demog = gdf_grid_demog.set_geometry('geometry', crs="EPSG:4326")

# Isi NaN untuk grid yang mungkin tidak berpotongan dengan kelurahan (misal: area non-penduduk)
# Ambil semua kolom numerik kecuali grid_id dan geometry
demog_fill_cols = [col for col in gdf_grid_demog.columns if gdf_grid_demog[col].dtype in ['float64', 'int64'] and col != 'grid_id']
for col in demog_fill_cols:
    gdf_grid_demog[col] = gdf_grid_demog[col].fillna(0) # Tanpa inplace

print(f"    - Grid setelah agregasi demografi: {gdf_grid_demog.shape[0]} baris")
print("Kolom gdf_grid_demog:", gdf_grid_demog.columns.tolist())
print(gdf_grid_demog.head())
print("\n")


# --- 3. Agregasi Spasial: Gempa ke Grid (dengan buffer di sekitar grid) ---
print("Melakukan agregasi spasial: Gempa ke Grid (dengan buffer 10 km di sekitar grid)...")

BUFFER_GEMPA_KM = 10 # Ukuran buffer dalam KM
print(f"    - Membuat buffer {BUFFER_GEMPA_KM} km di sekitar setiap grid untuk menghitung gempa di sekitarnya...")
gdf_grid_jabar_buffered_gempa_proj = gdf_grid_jabar.to_crs(epsg=3857)
gdf_grid_jabar_buffered_gempa = gdf_grid_jabar_buffered_gempa_proj.geometry.buffer(BUFFER_GEMPA_KM * 1000).to_crs(epsg=4326)
# Pastikan hasil buffer adalah GeoDataFrame dengan grid_id
gdf_grid_jabar_buffered_gempa = gpd.GeoDataFrame(gdf_grid_jabar['grid_id'], geometry=gdf_grid_jabar_buffered_gempa, crs="EPSG:4326")
print(f"    - Buffer {BUFFER_GEMPA_KM} km di sekitar grid dibuat.")

# spatial join gempa dengan buffered grid
gdf_grid_gempa_sjoin = gpd.sjoin(
    gdf_gempa_jabar, # Titik gempa (sudah difilter di Jabar)
    gdf_grid_jabar_buffered_gempa, # Poligon grid yang sudah di-buffer
    how="right", # Pertahankan semua grid, meskipun tidak ada gempa di dalamnya
    predicate='intersects'
)

# Hitung fitur agregat gempa per grid
gempa_agg = gdf_grid_gempa_sjoin.groupby('grid_id').agg(
    count_gempa=('id', 'count'), # Hitung jumlah gempa
    max_mag=('mag', 'max'),      # Magnitudo maksimum
    avg_depth=('depth', 'mean')  # Rata-rata kedalaman
).reset_index()

# Merge hasil agregasi gempa kembali ke gdf_grid_demog (yang sekarang menjadi gdf_grid_final sementara)
gdf_grid_final = gdf_grid_demog.merge(gempa_agg, on='grid_id', how='left')

# Isi NaN untuk grid yang tidak punya gempa
gempa_fill_cols = ['count_gempa', 'max_mag', 'avg_depth']
for col in gempa_fill_cols:
    if col in gdf_grid_final.columns: # Pastikan kolom ada sebelum fillna
        gdf_grid_final[col] = gdf_grid_final[col].fillna(0) # Tanpa inplace

print(f"    - Grid setelah agregasi gempa: {gdf_grid_final.shape[0]} baris")
print(gdf_grid_final.head())
print("\n")


# --- 4. Agregasi Spasial: POI ke Grid ---
print("Melakukan agregasi spasial: POI ke Grid...")

# spatial join POI dengan grid
gdf_grid_poi_sjoin = gpd.sjoin(
    gdf_poi_jabar, # Titik POI
    gdf_grid_jabar[['grid_id', 'geometry']], # Poligon grid (tanpa buffer, POI biasanya tidak pakai radius pengaruh)
    how="right", # Pertahankan semua grid
    predicate='intersects'
)

# Hitung jumlah POI per kategori per grid
poi_categories = gdf_poi_jabar['category'].unique()

# Buat kolom dummy untuk setiap kategori di gdf_grid_poi_sjoin
# PENTING: Gunakan nama kolom yang konsisten dengan yang diharapkan model (dengan '/')
# Kita akan membuat mapping manual untuk kategori yang mengandung slash
poi_col_mapping = {
    'Fasilitas Kesehatan': 'count_poi_fasilitas_kesehatan',
    'Sekolah': 'count_poi_sekolah',
    'Pemerintahan/Publik': 'count_poi_pemerintahan/publik',
    'Fasilitas Sosial/Publik Lain': 'count_poi_fasilitas_sosial/publik_lain',
    'Bangunan Biasa': 'count_poi_bangunan_biasa'
}

# Inisialisasi kolom count POI di gdf_grid_poi_sjoin
for cat_original, col_name in poi_col_mapping.items():
    gdf_grid_poi_sjoin[col_name] = (gdf_grid_poi_sjoin['category'] == cat_original).astype(int)

# Groupby grid_id untuk menghitung jumlah POI per kategori
poi_agg_cols = [col_name for col_name in poi_col_mapping.values()]
poi_agg = gdf_grid_poi_sjoin.groupby('grid_id')[poi_agg_cols].sum().reset_index()


# Merge hasil agregasi POI kembali ke gdf_grid_final
gdf_grid_final = gdf_grid_final.merge(poi_agg, on='grid_id', how='left')

# Isi NaN untuk grid yang tidak punya POI (untuk kategori tertentu)
for col_name in poi_agg_cols:
    if col_name in gdf_grid_final.columns: # Pastikan kolom ada sebelum fillna
        gdf_grid_final[col_name] = gdf_grid_final[col_name].fillna(0) # Tanpa inplace

print(f"    - Grid setelah agregasi POI: {gdf_grid_final.shape[0]} baris")
print("Kolom gdf_grid_final:", gdf_grid_final.columns.tolist())
print(gdf_grid_final.head())
print("\n")


# --- 5. Filter Grid yang Hanya Memiliki Nilai (Bukan Nol Semua) ---
print("Memfilter grid hanya yang memiliki nilai (bukan nol semua) di fitur-fitur numerik...")

# Identifikasi kolom numerik yang relevan untuk filter
# Kecualikan 'grid_id' dan kolom non-numerik seperti nama wilayah, dan geometry
# Tambahan: 'luas_area_sqkm' juga bisa 0 tapi itu nilai valid, jadi tidak difilter
# 'total_penduduk_kabkot_demog' bisa 0 jika tidak ada penduduk, tapi itu juga perlu sebagai informasi.
# Kita akan filter berdasarkan sum dari fitur-fitur utama saja.
numerical_feature_cols = [
    'jumlah_penduduk', 'pria', 'wanita',
    'jumlah_produktif', 'jumlah_non_produktif',
    'rasio_lp', 'rasio_produktif_nonproduktif', 
    'kepadatan_penduduk_kelurahan', 'jumlah_penduduk_miskin_kelurahan_estimasi',
    'count_gempa', 'max_mag', 'avg_depth',
    'count_poi_fasilitas_kesehatan', 'count_poi_sekolah', 'count_poi_pemerintahan/publik',
    'count_poi_fasilitas_sosial/publik_lain', 'count_poi_bangunan_biasa'
]
# Pastikan hanya kolom yang benar-benar ada di final_grid_data
numerical_feature_cols = [col for col in numerical_feature_cols if col in gdf_grid_final.columns]

# Pastikan setidaknya ada beberapa fitur numerik untuk dipertimbangkan
if not numerical_feature_cols:
    print("    - PERINGATAN: Tidak ada kolom fitur numerik yang teridentifikasi untuk filter grid nol. Melewatkan filter ini.")
    gdf_grid_filtered = gdf_grid_final.copy()
else:
    # Filter baris di mana jumlah semua fitur numerik relevan BUKAN nol
    # Jika sum() = 0, berarti semua fitur itu 0
    gdf_grid_filtered = gdf_grid_final[
        (gdf_grid_final[numerical_feature_cols].sum(axis=1) != 0)
    ].copy()
    print(f"    - Grid setelah filter nol: {gdf_grid_filtered.shape[0]} baris (from {gdf_grid_final.shape[0]})")
    
# --- Final Dataset untuk Pemodelan ---
final_grid_data = gdf_grid_filtered.copy() # Ini adalah dataset final kita

# --- Tambahan: Simpan GeoDataFrame yang sudah diolah untuk deployment Streamlit ---
print("\nMenyimpan GeoDataFrame yang sudah diolah untuk deployment Streamlit...")
try:
    # Simpan final_grid_data (dataset akhir)
    # Pastikan PATH_DIR_DATA sudah didefinisikan di awal skrip Anda
    final_grid_data.to_file(os.path.join(PATH_DIR_DATA, 'final_grid_data_processed.gpkg'), driver='GPKG')
    
    # Simpan GeoDataFrame lain yang akan dibutuhkan fungsi prediksi on-the-fly di Streamlit
    gdf_gempa_jabar.to_file(os.path.join(PATH_DIR_DATA, 'gdf_gempa_jabar_processed.gpkg'), driver='GPKG')
    gdf_poi_jabar.to_file(os.path.join(PATH_DIR_DATA, 'gdf_poi_jabar_processed.gpkg'), driver='GPKG')
    
    # --- PENTING: Bagian ini untuk memastikan kolom nama_kab, nama_kec, nama_kel ada ---
    # Ini adalah bagian KRITIS yang perlu Anda sesuaikan di skrip Anda.
    # Asumsikan Anda memiliki GeoDataFrame/DataFrame lain (misalnya, gdf_original_kelurahan_data)
    # yang memiliki 'kode_desa_spatial', 'nama_kab', 'nama_kec', 'nama_kel' dari data sumber awal.
    # Jika gdf_demografi_jabar_clean Anda tidak memiliki kolom-kolom ini, Anda harus menggabungkannya.
    
    # --- MULAI PERUBAHAN DI SINI ---
    # Anda perlu memuat data sumber asli kelurahan Anda di sini jika belum dimuat
    PATH_DATA_DEMOGRAFI_JABAR = 'demografi_jawabarat.gpkg' # Definisi path
    gdf_original_kelurahan_data = gpd.read_file(os.path.join(PATH_DIR_DATA, PATH_DATA_DEMOGRAFI_JABAR))

    # Pastikan gdf_demografi_jabar_clean memiliki 'kode_desa_spatial' untuk merge
    if 'kode_desa_spatial' in gdf_demografi_jabar_clean.columns:
        # Tentukan kolom-kolom yang ingin digabungkan dari data asli
        cols_to_merge = ['kode_desa_spatial', 'nama_kab', 'nama_kec', 'nama_kel']
        
        # Filter hanya kolom yang benar-benar ada di gdf_original_kelurahan_data
        available_cols_in_original = [col for col in cols_to_merge if col in gdf_original_kelurahan_data.columns]
        
        if len(available_cols_in_original) > 1: # Pastikan setidaknya ada kode_desa_spatial dan satu nama
            # Lakukan merge
            # Pastikan gdf_demografi_jabar_clean adalah GeoDataFrame (sudah seharusnya)
            # dan gdf_original_kelurahan_data juga GeoDataFrame atau DataFrame yang bisa di-merge
            
            # Jika gdf_demografi_jabar_clean sudah memiliki kolom nama_kab/kec/kel,
            # maka tidak perlu di-merge lagi, atau lakukan merge dengan suffix untuk melihat perbedaannya.
            # Untuk tujuan ini, kita akan merge hanya jika kolom-kolom tersebut belum ada.
            
            # Buat salinan gdf_demografi_jabar_clean untuk bekerja
            temp_gdf_demografi_jabar_clean = gdf_demografi_jabar_clean.copy()

            # Hapus kolom nama_kab, nama_kec, nama_kel yang mungkin sudah ada
            # untuk menghindari duplikasi atau konflik jika ada dari sumber lain
            cols_to_drop_if_exist = ['nama_kab', 'nama_kec', 'nama_kel']
            temp_gdf_demografi_jabar_clean = temp_gdf_demografi_jabar_clean.drop(
                columns=[col for col in cols_to_drop_if_exist if col in temp_gdf_demografi_jabar_clean.columns]
            )

            gdf_demografi_jabar_clean = temp_gdf_demografi_jabar_clean.merge(
                gdf_original_kelurahan_data[available_cols_in_original],
                on='kode_desa_spatial',
                how='left'
            )
            print("Penggabungan informasi wilayah selesai. Kolom gdf_demografi_jabar_clean sekarang:", gdf_demografi_jabar_clean.columns.tolist())
        else:
            print("Peringatan: Kolom nama_kab/kec/kel tidak lengkap di data sumber asli untuk digabungkan.")
    else:
        print("Peringatan: Kolom 'kode_desa_spatial' tidak ditemukan di gdf_demografi_jabar_clean. Tidak dapat menggabungkan informasi wilayah.")
    # --- AKHIR PERUBAHAN ---

    # --- DEBUGGING: Cek kolom gdf_demografi_jabar_clean sebelum disimpan ---
    print(f"DEBUG TRAINING SCRIPT: Kolom gdf_demografi_jabar_clean sebelum disimpan: {gdf_demografi_jabar_clean.columns.tolist()}")
    
    # Simpan gdf_demografi_jabar_clean (Ini sudah termasuk kemiskinan disagregasi)
    gdf_demografi_jabar_clean.to_file(os.path.join(PATH_DIR_DATA, 'gdf_demografi_jabar_clean_processed.gpkg'), driver='GPKG')
    print("File 'gdf_demografi_jabar_clean_processed.gpkg' telah disimpan.")
    
    # Simpan juga batas provinsi dan kab/kota yang sudah bersih
    # Pastikan gdf_batas_provinsi_jabar_single_poly ada atau gunakan gdf_batas_provinsi_jabar jika belum di-copy
    gdf_batas_provinsi_jabar_single_poly.to_file(os.path.join(PATH_DIR_DATA, 'gdf_batas_provinsi_jabar_single_poly_processed.gpkg'), driver='GPKG')
    gdf_batas_kabkot_jabar.to_file(os.path.join(PATH_DIR_DATA, 'gdf_batas_kabkot_jabar_processed.gpkg'), driver='GPKG')
    
    # --- PENTING: BAGIAN INI UNTUK feature_columns_model.pkl ---
    # Ini adalah daftar 24 fitur yang BENAR yang harus ada di feature_columns_model.pkl Anda
    # Ini termasuk fitur-fitur dari data geografis dan juga fitur input pengguna
    EXPECTED_MODEL_FEATURE_NAMES = [
        'jumlah_penduduk', 'pria', 'wanita', 'jumlah_produktif', 'jumlah_non_produktif',
        'rasio_lp', 'rasio_produktif_nonproduktif', 'kepadatan_penduduk_kelurahan',
        'jumlah_penduduk_miskin_kelurahan_estimasi', 'count_gempa', 'max_mag', 'avg_depth',
        'count_poi_sekolah', 'count_poi_fasilitas_sosial/publik_lain', # Perhatikan slash di sini
        'count_poi_fasilitas_kesehatan', 'count_poi_pemerintahan/publik', # Perhatikan slash di sini
        'count_poi_bangunan_biasa',
        'user_input_jumlah_kk', 'user_input_rasio_lp', # Fitur input pengguna
        'user_ada_rs', 'user_ada_sekolah', 'user_ada_pemerintahan', # Fitur input pengguna
        'user_ada_bangunan_biasa', 'user_ada_fasos_lain' # Fitur input pengguna
    ]

    # Simpan list nama kolom yang lengkap ini
    joblib.dump(EXPECTED_MODEL_FEATURE_NAMES, 'feature_columns_model.pkl') # Simpan list nama kolom
    print(f"    - File 'feature_columns_model.pkl' berhasil diperbarui dengan {len(EXPECTED_MODEL_FEATURE_NAMES)} fitur.")
    print(f"    - Fitur yang disimpan: {EXPECTED_MODEL_FEATURE_NAMES}")

except Exception as e:
    print(f"    - ERROR: Gagal menyimpan GeoDataFrame atau feature_columns: {e}")

print("Fase 1, Langkah 1.3 (Pembentukan Grid & Agregasi Spasial) Selesai.")
print("Dataset akhir untuk pemodelan (final_grid_data) telah dibuat.")
print(f"Jumlah baris di dataset final: {final_grid_data.shape[0]}")
print(f"Jumlah kolom di dataset final: {final_grid_data.shape[1]}")
print("\n--- Lanjut ke Fase 1, Langkah 1.4 ---")


Memulai Fase 1, Langkah 1.3: Pembentukan Grid & Agregasi Spasial (FINAL & KONSISTEN)...
Membentuk grid geografis di wilayah Jawa Barat...
    - Extent Jawa Barat (tanpa buffer): Lat -7.8210--5.8065, Lon 106.3703-108.8468
    - Membuat grid dengan ukuran 0.045 x 0.045 derajat (sekitar 5.01 km x 5.01 km)...
    - Grid awal dibuat: 2576 kotak grid
    - Memfilter grid hanya yang berpotongan dengan batas Jawa Barat (tanpa buffer)...
    - Grid di Jawa Barat: 1630 kotak grid
                                             geometry             grid_id
11  POLYGON ((106.335 -7.335, 106.38 -7.335, 106.3...  -7.33500_106.33500
12  POLYGON ((106.335 -7.29, 106.38 -7.29, 106.38 ...  -7.29000_106.33500
13  POLYGON ((106.335 -7.245, 106.38 -7.245, 106.3...  -7.24500_106.33500
55  POLYGON ((106.38 -7.425, 106.425 -7.425, 106.4...  -7.42500_106.38000
56  POLYGON ((106.38 -7.38, 106.425 -7.38, 106.425...  -7.38000_106.38000


Melakukan agregasi spasial: Demografi Kelurahan ke Grid...



  gdf_grid_jabar['grid_centroid'] = gdf_grid_jabar.geometry.centroid


    - Grid setelah agregasi demografi: 1630 baris
Kolom gdf_grid_demog: ['geometry', 'grid_id', 'kode_desa_spatial', 'jumlah_penduduk', 'pria', 'wanita', 'jumlah_produktif', 'jumlah_non_produktif', 'rasio_lp', 'rasio_produktif_nonproduktif', 'kepadatan_penduduk_kelurahan', 'jumlah_penduduk_miskin_kelurahan_estimasi']
                                             geometry             grid_id  \
11  POLYGON ((106.335 -7.335, 106.38 -7.335, 106.3...  -7.33500_106.33500   
12  POLYGON ((106.335 -7.29, 106.38 -7.29, 106.38 ...  -7.29000_106.33500   
13  POLYGON ((106.335 -7.245, 106.38 -7.245, 106.3...  -7.24500_106.33500   
55  POLYGON ((106.38 -7.425, 106.425 -7.425, 106.4...  -7.42500_106.38000   
56  POLYGON ((106.38 -7.38, 106.425 -7.38, 106.425...  -7.38000_106.38000   

    kode_desa_spatial  jumlah_penduduk  pria  wanita  jumlah_produktif  \
11                0.0              0.0   0.0     0.0               0.0   
12                0.0              0.0   0.0     0.0               0.0

In [4]:
final_grid_data.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
Index: 1593 entries, 2 to 1628
Data columns (total 20 columns):
 #   Column                                     Non-Null Count  Dtype   
---  ------                                     --------------  -----   
 0   geometry                                   1593 non-null   geometry
 1   grid_id                                    1593 non-null   object  
 2   kode_desa_spatial                          1593 non-null   float64 
 3   jumlah_penduduk                            1593 non-null   float64 
 4   pria                                       1593 non-null   float64 
 5   wanita                                     1593 non-null   float64 
 6   jumlah_produktif                           1593 non-null   float64 
 7   jumlah_non_produktif                       1593 non-null   float64 
 8   rasio_lp                                   1593 non-null   float64 
 9   rasio_produktif_nonproduktif               1593 non-null   float64 
 10  kepadatan

In [5]:
import pandas as pd
import numpy as np
import geopandas as gpd
from shapely.geometry import Point, Polygon
import math # Untuk fungsi ceil, floor
import os # Pastikan os sudah diimport jika menjalankan seluruh skrip dari awal

# --- Pastikan final_grid_data sudah ada dari Langkah 1.3 ---
# final_grid_data


print("Memulai Fase 1, Langkah 1.4: Final Feature Engineering & Definisi Target Variabel (Y) (Revisi Input Manual User)...")

# --- 1. Pemeriksaan Akhir final_grid_data ---
print("1. Melakukan pemeriksaan akhir final_grid_data...")
print(f"  - Jumlah baris awal: {final_grid_data.shape[0]}")
print(f"  - Kolom di final_grid_data: {final_grid_data.columns.tolist()}")

# Periksa nilai NaN yang mungkin masih ada di kolom numerik (selain yang diisi 0 sebelumnya)
print("  - Jumlah NaN per kolom (sebelum final processing):")
print(final_grid_data.isnull().sum()[final_grid_data.isnull().sum() > 0])

# Isi semua sisa NaN di kolom numerik dengan 0 (atau nilai rata-rata/median jika lebih tepat)
numerical_cols_for_final_fill = [col for col in final_grid_data.columns if final_grid_data[col].dtype in ['float64', 'int64']]
for col in numerical_cols_for_final_fill:
    final_grid_data[col] = final_grid_data[col].fillna(0)

# Pastikan tidak ada inf (infinity)
for col in numerical_cols_for_final_fill:
    if np.isinf(final_grid_data[col]).any():
        print(f"  - PERINGATAN: Kolom '{col}' mengandung nilai tak hingga (inf). Mengganti dengan NaN dan mengisi 0.")
        final_grid_data[col] = final_grid_data[col].replace([np.inf, -np.inf], np.nan).fillna(0)


print("  - Final grid data setelah penanganan NaN/Inf:")
print(final_grid_data.isnull().sum()[final_grid_data.isnull().sum() > 0]) # Harusnya tidak ada NaN numerik


# --- TAMBAHAN: Menambahkan Kolom Placeholder untuk Input Manual Pengguna ---
print("  - Menambahkan kolom placeholder untuk input manual pengguna...")
# Kolom-kolom ini akan diisi nilai default di sini, dan diganti oleh input user saat prediksi
# Nama-nama kolom ini HARUS KONSISTEN dengan yang akan ada di fungsi prediksi di app.py
final_grid_data['user_input_jumlah_kk'] = 0 # Default 0 KK jika tidak ada input
final_grid_data['user_input_rasio_lp'] = 1.0 # Default rasio 1.0 (seimbang)
final_grid_data['user_ada_rs'] = 0 # Default Tidak ada RS
final_grid_data['user_ada_sekolah'] = 0 # Default Tidak ada Sekolah
final_grid_data['user_ada_pemerintahan'] = 0 # Default Tidak ada Pemerintahan
final_grid_data['user_ada_bangunan_biasa'] = 0 # Default Tidak ada Bangunan Biasa
final_grid_data['user_ada_fasos_lain'] = 0 # Default Tidak ada Fasos Lain

print("  - Kolom placeholder input manual berhasil ditambahkan.")
print(f"  - Jumlah kolom di final_grid_data setelah penambahan: {final_grid_data.shape[1]}")


# --- 2. Pemilihan Fitur (X) ---
print("2. Memilih fitur-fitur (X) untuk model...")

# Daftar semua kolom yang akan menjadi fitur (X) untuk model ML
# Termasuk kolom placeholder baru
feature_columns = [col for col in final_grid_data.columns if 
                   col not in ['grid_id', 'geometry', 'nama_prop', 'nama_kab', 'nama_kec', 'nama_kel', 'kode_desa_spatial', 'kab_kota_name_clean']
                   and final_grid_data[col].dtype in ['float64', 'int64']] # Hanya ambil numerik


X = final_grid_data[feature_columns]
print(f"  - Jumlah fitur (X) yang dipilih: {len(feature_columns)}")
print("  - Contoh fitur (X) head:")
print(X.head())
print("\n")


# --- 3. Definisi Target Variabel (Y) - Tingkat Kerentanan/Dampak ---
# Kita akan menggunakan pendekatan berbasis aturan (rule-based)
# Y = 'Tinggi', 'Sedang', 'Rendah'
print("3. Mendefinisikan Target Variabel (Y) - Tingkat Kerentanan/Dampak...")

# Pertama, inspeksi statistik fitur-fitur kunci untuk menentukan threshold
print("  - Statistik fitur-fitur kunci untuk menentukan threshold:")
# Pastikan semua kolom yang akan dideskripsikan ada di X
cols_to_describe = ['max_mag', 'count_gempa', 'kepadatan_penduduk_kelurahan', 'jumlah_penduduk_miskin_kelurahan_estimasi', 
                    'count_poi_fasilitas_kesehatan', 'count_poi_sekolah', 'count_poi_pemerintahan/publik',
                    'count_poi_fasilitas_sosial/publik_lain', 'count_poi_bangunan_biasa']
cols_to_describe = [col for col in cols_to_describe if col in X.columns] # Filter yang ada di X
print(X[cols_to_describe].describe())


# --- Definisikan Threshold (Ini perlu disesuaikan berdasarkan data dan interpretasimu) ---
# Kamu bisa melihat nilai mean, median, 75th percentile, max dari .describe()
# Contoh threshold awal (SILAKAN UBAH INI SESUAI LOGIKA TERBAIKMU):
# Threshold Hazard (Gempa)
TH_MAX_MAG_HIGH = 5.0 # Magnitudo > 5.0 SR dianggap tinggi
TH_COUNT_GEMPA_HIGH = 10 # Ada lebih dari 10 gempa di 5km sekitar grid

# Threshold Kerentanan (Demografi & Kemiskinan)
TH_KEPADATAN_HIGH = X['kepadatan_penduduk_kelurahan'].quantile(0.75) # 75% teratas
TH_MISKIN_HIGH = X['jumlah_penduduk_miskin_kelurahan_estimasi'].quantile(0.75) # 75% teratas

# Threshold Paparan (POI - contoh sederhana: ada fasilitas penting)
TH_POI_PENTING_HIGH = 0 # Jika ada setidaknya 1 fasilitas penting

# Logika Klasifikasi (Aturan):
# Default semua adalah Rendah dulu
final_grid_data['vulnerability_level'] = 'Rendah'

# Kategori Tinggi:
# Jika ada Hazard TINGGI (gempa kuat/sering) DAN (Kerentanan TINGGI (padat/miskin) ATAU Paparan TINGGI (ada POI penting))
kondisi_hazard_tinggi = (final_grid_data['max_mag'] >= TH_MAX_MAG_HIGH) | (final_grid_data['count_gempa'] >= TH_COUNT_GEMPA_HIGH)
kondisi_vulnerability_tinggi = (final_grid_data['kepadatan_penduduk_kelurahan'] >= TH_KEPADATAN_HIGH) | (final_grid_data['jumlah_penduduk_miskin_kelurahan_estimasi'] >= TH_MISKIN_HIGH)
kondisi_exposure_tinggi_poi = (final_grid_data['count_poi_fasilitas_kesehatan'] > TH_POI_PENTING_HIGH) | \
                             (final_grid_data['count_poi_sekolah'] > TH_POI_PENTING_HIGH) | \
                             (final_grid_data['count_poi_pemerintahan/publik'] > TH_POI_PENTING_HIGH) | \
                             (final_grid_data['count_poi_fasilitas_sosial/publik_lain'] > TH_POI_PENTING_HIGH)


final_grid_data.loc[
    (kondisi_hazard_tinggi & (kondisi_vulnerability_tinggi | kondisi_exposure_tinggi_poi)),
    'vulnerability_level'
] = 'Tinggi'

# Kategori Sedang:
# Jika ada Hazard MODERAT (tidak tinggi tapi ada gempa) DAN (Kerentanan MODERAT ATAU Paparan MODERAT)
# Atau jika Hazard TINGGI tapi Kerentanan/Paparan RENDAH
kondisi_hazard_moderat = (final_grid_data['count_gempa'] > 0) # Ada gempa, tapi tidak di kategori tinggi gempa

final_grid_data.loc[
    (final_grid_data['vulnerability_level'] == 'Rendah') & # Hanya dari yang belum 'Tinggi'
    (
        (kondisi_hazard_moderat & (final_grid_data['kepadatan_penduduk_kelurahan'] > 0) & (final_grid_data['jumlah_penduduk'] > 0)) | # Ada penduduk, ada gempa
        (kondisi_hazard_tinggi & (final_grid_data['vulnerability_level'] != 'Tinggi')) # Hazard tinggi tapi belum masuk tinggi karena kurang kerentanan/paparan
    ),
    'vulnerability_level'
] = 'Sedang'


Y = final_grid_data['vulnerability_level']
print(f"  - Distribusi target variabel (Y):")
print(Y.value_counts())
print("\n")

print("Fase 1, Langkah 1.4 (Final Feature Engineering & Definisi Target Variabel Y) Selesai.")
print("Dataset sekarang siap untuk Pemodelan Machine Learning.")
print("\n--- Lanjut ke Fase 2: Pemodelan Machine Learning ---")

# --- PENTING: Jangan lupa menjalankan ulang Fase 2.1 dan 2.3 setelah ini! ---
# Agar model dilatih dengan fitur baru dan disimpan kembali

Memulai Fase 1, Langkah 1.4: Final Feature Engineering & Definisi Target Variabel (Y) (Revisi Input Manual User)...
1. Melakukan pemeriksaan akhir final_grid_data...
  - Jumlah baris awal: 1593
  - Kolom di final_grid_data: ['geometry', 'grid_id', 'kode_desa_spatial', 'jumlah_penduduk', 'pria', 'wanita', 'jumlah_produktif', 'jumlah_non_produktif', 'rasio_lp', 'rasio_produktif_nonproduktif', 'kepadatan_penduduk_kelurahan', 'jumlah_penduduk_miskin_kelurahan_estimasi', 'count_gempa', 'max_mag', 'avg_depth', 'count_poi_fasilitas_kesehatan', 'count_poi_sekolah', 'count_poi_pemerintahan/publik', 'count_poi_fasilitas_sosial/publik_lain', 'count_poi_bangunan_biasa']
  - Jumlah NaN per kolom (sebelum final processing):
Series([], dtype: int64)
  - Final grid data setelah penanganan NaN/Inf:
Series([], dtype: int64)
  - Menambahkan kolom placeholder untuk input manual pengguna...
  - Kolom placeholder input manual berhasil ditambahkan.
  - Jumlah kolom di final_grid_data setelah penambahan: 27
2

In [6]:
final_grid_data.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
Index: 1593 entries, 2 to 1628
Data columns (total 28 columns):
 #   Column                                     Non-Null Count  Dtype   
---  ------                                     --------------  -----   
 0   geometry                                   1593 non-null   geometry
 1   grid_id                                    1593 non-null   object  
 2   kode_desa_spatial                          1593 non-null   float64 
 3   jumlah_penduduk                            1593 non-null   float64 
 4   pria                                       1593 non-null   float64 
 5   wanita                                     1593 non-null   float64 
 6   jumlah_produktif                           1593 non-null   float64 
 7   jumlah_non_produktif                       1593 non-null   float64 
 8   rasio_lp                                   1593 non-null   float64 
 9   rasio_produktif_nonproduktif               1593 non-null   float64 
 10  kepadatan

In [None]:
import pandas as pd
import numpy as np
import geopandas as gpd
import folium
import os

# Diasumsikan 'final_grid_data' adalah GeoDataFrame yang sudah ada dari langkah sebelumnya.
# Jika Anda menjalankan ini secara terpisah, Anda harus memuatnya terlebih dahulu, contoh:
# final_grid_data = gpd.read_file('path/to/your/final_grid_data.geojson')

# ==============================================================================
# --- FASE 1, LANGKAH 1.4: SCRIPT YANG ANDA BERIKAN ---
# ==============================================================================

print("Memulai Fase 1, Langkah 1.4: Final Feature Engineering & Definisi Target Variabel (Y)...")

# --- 1. Pemeriksaan Akhir final_grid_data ---
print("1. Melakukan pemeriksaan akhir final_grid_data...")
print(f"   - Jumlah baris awal: {final_grid_data.shape[0]}")
numerical_cols_for_final_fill = [col for col in final_grid_data.columns if final_grid_data[col].dtype in ['float64', 'int64']]
for col in numerical_cols_for_final_fill:
    final_grid_data[col] = final_grid_data[col].fillna(0)
    if np.isinf(final_grid_data[col]).any():
        print(f"   - PERINGATAN: Kolom '{col}' mengandung nilai tak hingga (inf). Mengganti dengan 0.")
        final_grid_data[col] = final_grid_data[col].replace([np.inf, -np.inf], 0)
print("   - Pemeriksaan dan pembersihan NaN/Inf selesai.")

# --- TAMBAHAN: Menambahkan Kolom Placeholder untuk Input Manual Pengguna ---
print("   - Menambahkan kolom placeholder untuk input manual pengguna...")
final_grid_data['user_input_jumlah_kk'] = 0
final_grid_data['user_input_rasio_lp'] = 1.0
final_grid_data['user_ada_rs'] = 0
final_grid_data['user_ada_sekolah'] = 0
final_grid_data['user_ada_pemerintahan'] = 0
final_grid_data['user_ada_bangunan_biasa'] = 0
final_grid_data['user_ada_fasos_lain'] = 0
print("   - Kolom placeholder berhasil ditambahkan.")

# --- 2. Pemilihan Fitur (X) ---
print("2. Memilih fitur-fitur (X) untuk model...")
feature_columns = [col for col in final_grid_data.columns if
                   col not in ['grid_id', 'geometry', 'nama_prop', 'nama_kab', 'nama_kec', 'nama_kel', 'kode_desa_spatial', 'kab_kota_name_clean']
                   and final_grid_data[col].dtype in ['float64', 'int64']]
X = final_grid_data[feature_columns]
print(f"   - Jumlah fitur (X) yang dipilih: {len(feature_columns)}")

# --- 3. Definisi Target Variabel (Y) - Tingkat Kerentanan/Dampak ---
print("3. Mendefinisikan Target Variabel (Y) - Tingkat Kerentanan/Dampak...")
# Definisikan Threshold
TH_MAX_MAG_HIGH = 5.0
TH_COUNT_GEMPA_HIGH = 10
TH_KEPADATAN_HIGH = X['kepadatan_penduduk_kelurahan'].quantile(0.75)
TH_MISKIN_HIGH = X['jumlah_penduduk_miskin_kelurahan_estimasi'].quantile(0.75)
TH_POI_PENTING_HIGH = 0

# Logika Klasifikasi (Aturan):
final_grid_data['vulnerability_level'] = 'Rendah'
kondisi_hazard_tinggi = (final_grid_data['max_mag'] >= TH_MAX_MAG_HIGH) | (final_grid_data['count_gempa'] >= TH_COUNT_GEMPA_HIGH)
kondisi_vulnerability_tinggi = (final_grid_data['kepadatan_penduduk_kelurahan'] >= TH_KEPADATAN_HIGH) | (final_grid_data['jumlah_penduduk_miskin_kelurahan_estimasi'] >= TH_MISKIN_HIGH)
kondisi_exposure_tinggi_poi = (final_grid_data['count_poi_fasilitas_kesehatan'] > TH_POI_PENTING_HIGH) | \
                              (final_grid_data['count_poi_sekolah'] > TH_POI_PENTING_HIGH) | \
                              (final_grid_data['count_poi_pemerintahan/publik'] > TH_POI_PENTING_HIGH)
final_grid_data.loc[(kondisi_hazard_tinggi & (kondisi_vulnerability_tinggi | kondisi_exposure_tinggi_poi)), 'vulnerability_level'] = 'Tinggi'

kondisi_hazard_moderat = (final_grid_data['count_gempa'] > 0)
final_grid_data.loc[(final_grid_data['vulnerability_level'] == 'Rendah') &
                    (((kondisi_hazard_moderat & (final_grid_data['kepadatan_penduduk_kelurahan'] > 0) & (final_grid_data['jumlah_penduduk'] > 0))) |
                     (kondisi_hazard_tinggi & (final_grid_data['vulnerability_level'] != 'Tinggi'))),
                    'vulnerability_level'] = 'Sedang'

Y = final_grid_data['vulnerability_level']
print("   - Distribusi target variabel (Y) yang terbentuk:")
print(Y.value_counts())
print("\nFase 1, Langkah 1.4 Selesai.\n")


# ==============================================================================
# --- BAGIAN BARU: VISUALISASI PETA RISIKO DENGAN FOLIUM ---
# ==============================================================================

print("Membuat visualisasi peta risiko dengan Folium...")

# --- 1. Persiapan Data untuk Peta ---
# Pastikan CRS adalah WGS84 (EPSG:4326) yang kompatibel dengan Folium
if final_grid_data.crs.to_epsg() != 4326:
    print("   - Mengubah CRS ke EPSG:4326 untuk Folium...")
    final_grid_data_map = final_grid_data.to_crs(epsg=4326)
else:
    final_grid_data_map = final_grid_data.copy()

# Tentukan titik tengah peta (misalnya, di tengah Jawa Barat)
map_center = [-6.9175, 107.6191] # Koordinat Bandung

# Buat peta dasar Folium
m = folium.Map(location=map_center, zoom_start=9, tiles="CartoDB positron")

# Definisikan pemetaan warna untuk setiap level
color_map = {
    'Tinggi': 'red',
    'Sedang': 'orange',
    'Rendah': 'green'
}

# --- 2. Membuat Layer GeoJSON dengan Tooltip ---
print("   - Menambahkan layer grid kerentanan ke peta...")

# Buat layer GeoJSON dari data grid
geojson_layer = folium.GeoJson(
    final_grid_data_map,
    style_function=lambda feature: {
        'fillColor': color_map[feature['properties']['vulnerability_level']],
        'color': 'black',
        'weight': 0.5,
        'fillOpacity': 0.6,
    },
    tooltip=folium.GeoJsonTooltip(
        fields=['grid_id', 'vulnerability_level', 'max_mag', 'count_gempa', 'kepadatan_penduduk_kelurahan', 'jumlah_penduduk_miskin_kelurahan_estimasi'],
        aliases=['ID Grid:', 'Level Kerentanan:', 'Magnitudo Max:', 'Jumlah Gempa:', 'Kepadatan Penduduk:', 'jumlah Penduduk Miskin:'],
        style=("background-color: white; color: #333333; font-family: arial; font-size: 12px; padding: 10px;")
    )
).add_to(m)

# --- 3. Menambahkan Legenda Peta ---
# Legenda dibuat secara manual menggunakan HTML
legend_html = '''
     <div style="
     position: fixed;
     bottom: 50px; left: 50px; width: 150px; height: 120px;
     border:2px solid grey; z-index:9999; font-size:14px;
     background-color:white; padding: 10px;
     ">
     <b>Legenda</b><br>
     <i class="fa fa-square" style="color:red"></i>&nbsp; Tinggi<br>
     <i class="fa fa-square" style="color:orange"></i>&nbsp; Sedang<br>
     <i class="fa fa-square" style="color:green"></i>&nbsp; Rendah<br>
     </div>
'''
m.get_root().html.add_child(folium.Element(legend_html))

# Tambahkan kontrol layer untuk mengaktifkan/menonaktifkan grid
folium.LayerControl().add_to(m)

# --- 4. Simpan Peta ke File HTML ---
output_map_path = "peta_risiko_gempa_jabar.html"
m.save(output_map_path)

print(f"\nVisualisasi Peta Folium Selesai!")
print(f"Peta telah disimpan sebagai: '{output_map_path}'")
print("Silakan buka file tersebut di browser Anda untuk melihat peta interaktif.")

Memulai Fase 1, Langkah 1.4: Final Feature Engineering & Definisi Target Variabel (Y)...
1. Melakukan pemeriksaan akhir final_grid_data...
   - Jumlah baris awal: 1593
   - Pemeriksaan dan pembersihan NaN/Inf selesai.
   - Menambahkan kolom placeholder untuk input manual pengguna...
   - Kolom placeholder berhasil ditambahkan.
2. Memilih fitur-fitur (X) untuk model...
   - Jumlah fitur (X) yang dipilih: 24
3. Mendefinisikan Target Variabel (Y) - Tingkat Kerentanan/Dampak...
   - Distribusi target variabel (Y) yang terbentuk:
vulnerability_level
Sedang    1112
Rendah     368
Tinggi     113
Name: count, dtype: int64

Fase 1, Langkah 1.4 Selesai.

Membuat visualisasi peta kerentanan dengan Folium...
   - Menambahkan layer grid kerentanan ke peta...

Visualisasi Peta Folium Selesai!
Peta telah disimpan sebagai: 'peta_kerentanan_gempa_jabar.html'
Silakan buka file tersebut di browser Anda untuk melihat peta interaktif.


In [8]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import joblib # Untuk menyimpan model

# --- Pastikan X dan Y sudah ada dari Langkah 1.4 ---
# X (fitur) dan Y (target) dari final_grid_data


print("Memulai Fase 2, Langkah 2.1: Pemilihan Model & Pelatihan...")

# --- 1. Konversi Variabel Target (Y) ke Numerik ---
# Model ML membutuhkan label numerik (0, 1, 2, dst)
print("1. Mengkonversi variabel target (Y) ke numerik...")
label_encoder = LabelEncoder()
Y_encoded = label_encoder.fit_transform(Y) # Mengkonversi 'Rendah', 'Sedang', 'Tinggi' menjadi angka

# Cek mapping yang dihasilkan encoder
# LabelEncoder akan mengurutkan secara alfabetis: Rendah=0, Sedang=1, Tinggi=2
# Jika kamu ingin mapping spesifik (misal Rendah=0, Sedang=1, Tinggi=2), pastikan urutan kelasmu di Y_encoded sudah benar
# Y_original_classes = label_encoder.classes_
# print(f"  - Mapping kelas: {Y_original_classes}") 
# Jika kamu ingin custom order, bisa pakai:
# custom_mapping = {'Rendah': 0, 'Sedang': 1, 'Tinggi': 2}
# Y_encoded = Y.map(custom_mapping).values
# print(f"  - Mapping kelas custom: {custom_mapping}")


print(f"  - Contoh Y_encoded head: {Y_encoded[:5]}")
print(f"  - Distribusi Y_encoded: {pd.Series(Y_encoded).value_counts()}")
print("\n")


# --- 2. Pembagian Data (Training dan Testing Set) ---
print("2. Membagi data menjadi training dan testing set...")
# test_size=0.2 berarti 20% data untuk testing, 80% untuk training
# random_state untuk memastikan hasil pembagian konsisten setiap kali dijalankan
X_train, X_test, Y_train, Y_test = train_test_split(X, Y_encoded, test_size=0.2, random_state=42, stratify=Y_encoded)

print(f"  - Ukuran X_train: {X_train.shape}")
print(f"  - Ukuran X_test: {X_test.shape}")
print(f"  - Ukuran Y_train: {Y_train.shape}")
print(f"  - Ukuran Y_test: {Y_test.shape}")
print(f"  - Distribusi kelas di Y_train:\n{pd.Series(Y_train).value_counts(normalize=True)}")
print(f"  - Distribusi kelas di Y_test:\n{pd.Series(Y_test).value_counts(normalize=True)}")
print("\n")

# Penanganan Imbalance (Opsional, tapi penting jika ada imbalance signifikan)
# Jika ada satu kelas yang sangat sedikit (misal < 5-10%), model bisa bias.
# Metode umum: oversampling (SMOTE) atau undersampling.
# Untuk 5 hari, jika imbalance tidak ekstrem, bisa diabaikan dulu.
# SMOTE contoh:
# from imblearn.over_sampling import SMOTE
# smote = SMOTE(random_state=42)
# X_train_resampled, Y_train_resampled = smote.fit_resample(X_train, Y_train)
# print(f"  - Ukuran X_train setelah SMOTE: {X_train_resampled.shape}")
# print(f"  - Distribusi kelas di Y_train setelah SMOTE:\n{pd.Series(Y_train_resampled).value_counts(normalize=True)}")


# --- 3. Pemilihan dan Pelatihan Model ---
print("3. Memilih dan melatih model Random Forest Classifier...")

# Parameter awal Random Forest (bisa disetel/tuning nanti)
# n_estimators: jumlah tree dalam forest
# random_state: untuk hasil yang reproducible
# class_weight: 'balanced' bisa membantu jika ada sedikit imbalance (akan disesuaikan otomatis)
model = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced')

# Latih model
model.fit(X_train, Y_train) # Jika pakai SMOTE, pakai X_train_resampled, Y_train_resampled

print("  - Model Random Forest berhasil dilatih.")
print("\n")

# --- Tambahan: Simpan LabelEncoder untuk deployment Streamlit ---
print("\nMenyimpan LabelEncoder untuk deployment Streamlit...")
try:
    joblib.dump(label_encoder, 'label_encoder.pkl')
    print("  - LabelEncoder berhasil disimpan.")
except Exception as e:
    print(f"  - ERROR: Gagal menyimpan LabelEncoder: {e}")

print("Fase 2, Langkah 2.1 (Pemilihan Model & Pelatihan) Selesai.")
print("Model sekarang siap untuk dievaluasi.")
print("\n--- Lanjut ke Fase 2, Langkah 2.2 ---")

Memulai Fase 2, Langkah 2.1: Pemilihan Model & Pelatihan...
1. Mengkonversi variabel target (Y) ke numerik...
  - Contoh Y_encoded head: [1 0 1 1 1]
  - Distribusi Y_encoded: 1    1112
0     368
2     113
Name: count, dtype: int64


2. Membagi data menjadi training dan testing set...
  - Ukuran X_train: (1274, 24)
  - Ukuran X_test: (319, 24)
  - Ukuran Y_train: (1274,)
  - Ukuran Y_test: (319,)
  - Distribusi kelas di Y_train:
1    0.697802
0    0.230769
2    0.071429
Name: proportion, dtype: float64
  - Distribusi kelas di Y_test:
1    0.699060
0    0.231975
2    0.068966
Name: proportion, dtype: float64


3. Memilih dan melatih model Random Forest Classifier...
  - Model Random Forest berhasil dilatih.



Menyimpan LabelEncoder untuk deployment Streamlit...
  - LabelEncoder berhasil disimpan.
Fase 2, Langkah 2.1 (Pemilihan Model & Pelatihan) Selesai.
Model sekarang siap untuk dievaluasi.

--- Lanjut ke Fase 2, Langkah 2.2 ---


In [9]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import joblib # Untuk menyimpan model

# --- Pastikan X, Y_encoded, X_test, Y_test, dan model sudah ada dari Langkah 2.1 ---
# Asumsi semua variabel dari Langkah 2.1 sudah terdefinisi.
# Jika kamu menjalankan ini di sel baru, pastikan variabel-variabel tersebut sudah dimuat/dijalankan sebelumnya.

print("Memulai Fase 2, Langkah 2.2: Evaluasi Model...")

# --- 1. Membuat Prediksi pada Data Testing ---
print("1. Membuat prediksi pada data testing (X_test)...")
Y_pred = model.predict(X_test)

print("  - Prediksi berhasil dibuat.")
print("\n")


# --- 2. Evaluasi Kinerja Model ---
print("2. Mengevaluasi kinerja model...")

# 2.1 Akurasi (Accuracy Score)
accuracy = accuracy_score(Y_test, Y_pred)
print(f"  - Akurasi Model: {accuracy:.4f}") # Akurasi keseluruhan


# 2.2 Laporan Klasifikasi (Classification Report)
# Ini memberikan Precision, Recall, F1-score per kelas
# Penting: Pastikan label_encoder masih tersedia untuk mendapatkan nama kelas asli
# LabelEncoder mengurutkan secara alfabetis: 0='Rendah', 1='Sedang', 2='Tinggi'
target_names = label_encoder.classes_
report = classification_report(Y_test, Y_pred, target_names=target_names)
print("\n  - Laporan Klasifikasi:\n", report)


# 2.3 Matriks Konfusi (Confusion Matrix)
# Menunjukkan berapa banyak prediksi yang benar/salah per kelas
cm = confusion_matrix(Y_test, Y_pred)
print("\n  - Matriks Konfusi:\n", cm)


print("\n")
print("Fase 2, Langkah 2.2 (Evaluasi Model) Selesai.")
print("Model sudah dievaluasi. Sekarang kita tahu seberapa baik kinerjanya.")
print("\n--- Lanjut ke Fase 2, Langkah 2.3 ---")

Memulai Fase 2, Langkah 2.2: Evaluasi Model...
1. Membuat prediksi pada data testing (X_test)...
  - Prediksi berhasil dibuat.


2. Mengevaluasi kinerja model...
  - Akurasi Model: 0.9749

  - Laporan Klasifikasi:
               precision    recall  f1-score   support

      Rendah       1.00      1.00      1.00        74
      Sedang       0.97      1.00      0.98       223
      Tinggi       0.94      0.68      0.79        22

    accuracy                           0.97       319
   macro avg       0.97      0.89      0.92       319
weighted avg       0.97      0.97      0.97       319


  - Matriks Konfusi:
 [[ 74   0   0]
 [  0 222   1]
 [  0   7  15]]


Fase 2, Langkah 2.2 (Evaluasi Model) Selesai.
Model sudah dievaluasi. Sekarang kita tahu seberapa baik kinerjanya.

--- Lanjut ke Fase 2, Langkah 2.3 ---


In [10]:
import joblib # Pastikan joblib sudah diimport


# --- Pastikan model sudah ada dari Langkah 2.1 ---
# Asumsi variabel 'model' sudah terdefinisi dari langkah pelatihan.

print("Memulai Fase 2, Langkah 2.3: Penyimpanan Model...")

# --- 1. Definisikan Nama File untuk Model ---
MODEL_FILENAME = 'random_forest_model.pkl' # Nama file untuk model yang disimpan

# --- 2. Simpan Model Menggunakan Joblib ---
try:
    joblib.dump(model, MODEL_FILENAME)
    print(f"  - Model berhasil disimpan ke '{MODEL_FILENAME}'.")
except Exception as e:
    print(f"  - ERROR: Gagal menyimpan model: {e}")

print("\n")
print("Fase 2, Langkah 2.3 (Penyimpanan Model) Selesai.")
print("Model sudah siap untuk deployment.")
print("\n--- Lanjut ke Fase 3: Persiapan Deployment ke Streamlit ---")

Memulai Fase 2, Langkah 2.3: Penyimpanan Model...
  - Model berhasil disimpan ke 'random_forest_model.pkl'.


Fase 2, Langkah 2.3 (Penyimpanan Model) Selesai.
Model sudah siap untuk deployment.

--- Lanjut ke Fase 3: Persiapan Deployment ke Streamlit ---


In [11]:
import pandas as pd
import numpy as np
import geopandas as gpd
from shapely.geometry import Point, Polygon
import joblib # Untuk memuat model
from sklearn.preprocessing import LabelEncoder # Untuk mengkonversi label prediksi


# --- 0. Muat Data Yang Dibutuhkan Secara Global (Hanya Sekali Saat Aplikasi Dimulai) ---
# Variabel-variabel ini harus tersedia dari eksekusi Fase 1.2 dan 1.3
# Untuk Streamlit, ini biasanya dimuat di awal skrip app.py
# Pastikan PATH_DIR_DATA sudah benar seperti yang kamu gunakan di Fase 1
PATH_DIR_DATA = r"C:\Users\dzikr\Documents\HP November 2024\SELF DEVELOPMENT\DQLab\Machiner Learning\FINAL PROJECT\EARTHQUAKE\Data" # Pastikan ini konsisten

# Memuat model yang sudah disimpan
MODEL_FILENAME = 'random_forest_model.pkl'
try:
    model = joblib.load(MODEL_FILENAME)
    print(f"Model '{MODEL_FILENAME}' berhasil dimuat.")
except FileNotFoundError:
    print(f"ERROR: File model '{MODEL_FILENAME}' tidak ditemukan. Pastikan sudah disimpan.")
    exit()
except Exception as e:
    print(f"ERROR: Gagal memuat model: {e}")
    exit()

# Memuat data yang sudah bersih dan diperlukan untuk feature engineering on-the-fly
# Ini adalah GeoDataFrame yang sudah dibuat di Fase 1.2
try:
    # Memuat gdf_demografi_jabar_clean (Ini harusnya sudah GeoDataFrame dengan semua FE dan kemiskinan)
    # Anda perlu menyimpan gdf_demografi_jabar_clean ke file (misal .gpkg) di akhir Fase 1.2
    # Untuk sementara, saya akan buat dummy atau asumsikan sudah ada dari konteks notebook penuh
    # Contoh:
    # gdf_demografi_jabar_clean = gpd.read_file(os.path.join(PATH_DIR_DATA, 'demografi_jabar_clean.gpkg')) # Ini idealnya
    print("Memuat data gdf_demografi_jabar_clean, gdf_gempa_jabar, gdf_poi_jabar...")

    # KARENA KITA MASIH DALAM KONTEKS NOTEBOOK, VARIABEL INI HARUSNYA MASIH ADA DI MEMORI
    # JIKA TIDAK, KAMU HARUS MENYIMPANNYA KE FILE DI AKHIR FASE 1.3 DAN MEMUATNYA DI SINI.
    # Contoh data dummy jika belum ada:
    # if 'gdf_demografi_jabar_clean' not in globals():
    #     print("  - Menggunakan dummy gdf_demografi_jabar_clean karena tidak ditemukan di memori.")
    #     gdf_demografi_jabar_clean = gpd.GeoDataFrame({'geometry': [Point(107.0, -7.0)]}, crs="EPSG:4326")
    #     gdf_demografi_jabar_clean['total_penduduk'] = 1000
    #     gdf_demografi_jabar_clean['jumlah_laki_laki'] = 500
    #     gdf_demografi_jabar_clean['jumlah_perempuan'] = 500
    #     gdf_demografi_jabar_clean['jumlah_produktif'] = 700
    #     gdf_demografi_jabar_clean['jumlah_non_produktif'] = 300
    #     gdf_demografi_jabar_clean['rasio_lp'] = 1.0
    #     gdf_demografi_jabar_clean['rasio_produktif_nonproduktif'] = 2.33
    #     gdf_demografi_jabar_clean['kepadatan_penduduk_kelurahan'] = 500
    #     gdf_demografi_jabar_clean['jumlah_penduduk_miskin_kelurahan_estimasi'] = 50
    #     gdf_demografi_jabar_clean['kode_desa_spatial'] = 'dummy'
    #     gdf_demografi_jabar_clean['nama_kab'] = 'dummy_kab'
    #     gdf_demografi_jabar_clean['nama_kec'] = 'dummy_kec'
    #     gdf_demografi_jabar_clean['nama_kel'] = 'dummy_kel'
    #     gdf_demografi_jabar_clean['nama_prop'] = 'dummy_prop'

    # if 'gdf_gempa_jabar' not in globals():
    #     print("  - Menggunakan dummy gdf_gempa_jabar.")
    #     gdf_gempa_jabar = gpd.GeoDataFrame({'geometry': [Point(107.5, -6.5)], 'mag': [5.0], 'depth': [10]}, crs="EPSG:4326")

    # if 'gdf_poi_jabar' not in globals():
    #     print("  - Menggunakan dummy gdf_poi_jabar.")
    #     gdf_poi_jabar = gpd.GeoDataFrame({'geometry': [Point(107.5, -6.5)], 'type': ['school'], 'category': ['Sekolah']}, crs="EPSG:4326")

    # if 'gdf_batas_provinsi_jabar_single_poly' not in globals():
    #     print("  - Menggunakan dummy gdf_batas_provinsi_jabar_single_poly.")
    #     gdf_batas_provinsi_jabar_single_poly = gpd.GeoDataFrame({'geometry': [Polygon([(106,-7),(108,-7),(108,-6),(106,-6),(106,-7)])]}, crs="EPSG:4326")

    # if 'gdf_batas_kabkot_jabar' not in globals():
    #     print("  - Menggunakan dummy gdf_batas_kabkot_jabar.")
    #     gdf_batas_kabkot_jabar = gpd.GeoDataFrame({'geometry': [Polygon([(107.0,-7.0),(107.5,-7.0),(107.5,-6.5),(107.0,-6.5),(107.0,-7.0)])], 'KABUPATEN/KOTA':['KABUPATEN BANDUNG']}, crs="EPSG:4326")


    # Dapatkan nama kolom fitur yang digunakan saat training model (penting untuk urutan)
    # X_train harus sudah ada dari Fase 2.1
    # Jika tidak ada, kamu harus menyimpan list feature_columns dari Langkah 1.4
    # Contoh: feature_cols_model = joblib.load('feature_columns.pkl')
    # Untuk saat ini, kita ambil dari X (DataFrame lengkap sebelum train-test split)
    if 'X' not in globals(): # X adalah DataFrame fitur lengkap sebelum split
        print("ERROR: Variabel 'X' tidak ditemukan. Pastikan Fase 1.4 sudah dieksekusi atau simpan 'X' ke file.")
        exit()
    feature_cols_model = X.columns.tolist()
    print(f"Daftar kolom fitur model (X): {feature_cols_model}")

    # Label encoder untuk mengkonversi output prediksi numerik kembali ke label string
    # label_encoder harus ada dari Fase 2.1
    if 'label_encoder' not in globals():
        print("ERROR: 'label_encoder' tidak ditemukan. Pastikan Fase 2.1 sudah dieksekusi atau simpan encoder ke file.")
        exit()

except Exception as e:
    print(f"ERROR: Kesalahan saat memuat data atau variabel global: {e}")
    exit()

print("Data dan model global berhasil disiapkan untuk fungsi prediksi.")
print("\n")

# --- PARAMETER UNTUK FEATURE ENGINEERING ---
# Ini harus konsisten dengan yang digunakan saat preprocessing data pelatihan
GRID_SIZE_DEGREE = 0.05 # Ukuran grid yang digunakan saat training di Langkah 1.3
BUFFER_GEMPA_KM = 10    # Buffer gempa saat agregasi di Langkah 1.3
# Threshold POI Penting (dari 1.4)
TH_POI_PENTING_HIGH = 0 


# --- FUNGSI UTAMA UNTUK PREDIKSI SATU TITIK ---
def predict_vulnerability_for_point(
    user_lat, user_lon, 
    user_jumlah_kk, user_rasio_lp, 
    user_ada_rs, user_ada_sekolah, user_ada_pemerintahan, user_ada_bangunan_biasa, user_ada_fasos_lain
):
    """
    Mengambil input dari user, melakukan feature engineering, dan memprediksi
    tingkat kerentanan/dampak untuk satu titik lokasi.
    """
    print(f"Menganalisis titik: Lat={user_lat}, Lon={user_lon}...")
    
    # --- 1. Buat GeoDataFrame untuk titik input user ---
    user_point = gpd.GeoDataFrame(
        geometry=[Point(user_lon, user_lat)],
        crs="EPSG:4326"
    )

    # --- 2. Dapatkan Fitur Demografi & Kemiskinan dari Kelurahan Terdekat/Mengandung ---
    # Lakukan spatial join dengan gdf_demografi_jabar_clean (poligon kelurahan)
    # Ini akan menempelkan semua fitur demografi dan kemiskinan yang sudah di-FE
    point_demog_sjoin = gpd.sjoin(
        user_point,
        gdf_demografi_jabar_clean[['geometry'] + [col for col in gdf_demografi_jabar_clean.columns if col not in ['geometry', 'kode_desa_spatial']]],
        how="inner", # Inner join agar hanya titik yang ada di kelurahan yang diproses
        predicate='intersects'
    )
    
    if point_demog_sjoin.empty:
        print("  - Titik tidak berada di dalam area kelurahan Jawa Barat. Menggunakan nilai default 0.")
        # Jika titik tidak di dalam kelurahan, inisialisasi fitur demografi dengan 0
        demog_features_dict = {col: 0 for col in feature_cols_model if col in ['total_penduduk', 'pria', 'wanita',
                                                                                 'jumlah_produktif', 'jumlah_non_produktif', 'rasio_lp',
                                                                                 'rasio_produktif_nonproduktif', 'kepadatan_penduduk_kelurahan',
                                                                                 'jumlah_penduduk_miskin_kelurahan_estimasi']}
        demog_features_dict['rasio_lp'] = 1.0 # Rasio L/P default 1.0
        demog_features_dict['rasio_produktif_nonproduktif'] = 1.0 # Rasio Prod/NonProd default 1.0

    else:
        # Ambil fitur demografi dari kelurahan yang berpotongan
        demog_data = point_demog_sjoin.iloc[0]
        demog_features_dict = {
            'total_penduduk': demog_data['jumlah_penduduk'],
            'jumlah_laki_laki': demog_data['pria'],
            'jumlah_perempuan': demog_data['wanita'],
            'jumlah_produktif': demog_data['jumlah_produktif'],
            'jumlah_non_produktif': demog_data['jumlah_non_produktif'],
            'rasio_lp': demog_data['rasio_lp'],
            'rasio_produktif_nonproduktif': demog_data['rasio_produktif_nonproduktif'],
            'kepadatan_penduduk_kelurahan': demog_data['kepadatan_penduduk_kelurahan'],
            'jumlah_penduduk_miskin_kelurahan_estimasi': demog_data['jumlah_penduduk_miskin_kelurahan_estimasi']
        }
    print("  - Fitur demografi & kemiskinan berhasil didapatkan.")


    # 3. Dapatkan Fitur Gempa dari Area Sekitar (Buffer) ---
    user_point_proj = user_point.to_crs(epsg=3857)
    # Ambil geometri Point tunggal dari GeoDataFrame user_point (iloc[0]) sebelum buffer
    user_buffer_geom = user_point_proj.geometry.iloc[0].buffer(BUFFER_GEMPA_KM * 1000).buffer(0)
    user_buffer = gpd.GeoDataFrame(geometry=[user_buffer_geom], crs="EPSG:3857").to_crs(epsg=4326)

    # Spatial join gempa Jabar dengan buffer user
    nearby_gempa_sjoin = gpd.sjoin(
        gdf_gempa_jabar, # Gempa di Jabar
        user_buffer,     # Buffer sekitar titik user
        how="inner",
        predicate='intersects'
    )

    if nearby_gempa_sjoin.empty:
        gempa_features_dict = {
            'count_gempa': 0, 'max_mag': 0.0, 'avg_depth': 0.0
        }
    else:
        gempa_features_dict = {
            'count_gempa': len(nearby_gempa_sjoin),
            'max_mag': nearby_gempa_sjoin['mag'].max(),
            'avg_depth': nearby_gempa_sjoin['depth'].mean()
        }
    print("  - Fitur gempa di sekitar titik berhasil didapatkan.")


    # --- 4. Dapatkan Fitur POI dari Area Sekitar (Tanpa Buffer, langsung di titik) ---
    # Menggunakan spatial join langsung dengan titik user
    nearby_poi_sjoin = gpd.sjoin(
        gdf_poi_jabar, # POI di Jabar
        user_point,    # Titik user
        how="inner",
        predicate='intersects'
    )
    
    # Hitung jumlah POI per kategori
    poi_counts = nearby_poi_sjoin['category'].value_counts().to_dict()
    
    poi_features_dict = {}
    for category in ['Fasilitas Kesehatan', 'Sekolah', 'Pemerintahan/Publik', 'Fasilitas Sosial/Publik Lain', 'Bangunan Biasa']:
        col_name = f'count_poi_{category.replace(" ", "_").lower()}'
        poi_features_dict[col_name] = poi_counts.get(category, 0) # Ambil count, default 0

    print("  - Fitur POI di titik berhasil didapatkan (dari data global POI Jabar).")


    # --- 5. Menggabungkan Input User Manual dengan Fitur yang Diperoleh ---
    # Ini adalah input dari UI Streamlit
    user_manual_features_dict = {
        'user_input_jumlah_kk': user_jumlah_kk, # Ini akan jadi fitur terpisah
        'user_input_rasio_lp': user_rasio_lp, # Ini akan jadi fitur terpisah
        'user_ada_rs': (1 if user_ada_rs == 'Ya' else 0),
        'user_ada_sekolah': (1 if user_ada_sekolah == 'Ya' else 0),
        'user_ada_pemerintahan': (1 if user_ada_pemerintahan == 'Ya' else 0),
        'user_ada_bangunan_biasa': (1 if user_ada_bangunan_biasa == 'Ya' else 0),
        'user_ada_fasos_lain': (1 if user_ada_fasos_lain == 'Ya' else 0),
    }

    # Untuk menyamakan dengan kolom X_train, kita perlu hati-hati.
    # Kolom 'jumlah_kk', 'rasio_lp' di X_train berasal dari data demografi kelurahan.
    # Jadi, input user ini bisa dijadikan fitur terpisah atau digunakan sebagai pengganti
    # jika data demografi kelurahan tidak tersedia/relevan untuk titik tsb.
    # Untuk kesederhanaan, kita bisa membuat fitur baru ini di X_new.

    # Gabungkan semua dict fitur
    all_features_dict = {
        **demog_features_dict,
        **gempa_features_dict,
        **poi_features_dict,
        **user_manual_features_dict # Fitur manual input
    }
    
    # --- 6. Buat Feature Vector (X_new) dengan Urutan Kolom yang Konsisten ---
    # Ini adalah bagian terpenting: pastikan urutan kolom sama persis dengan X_train
    # `feature_cols_model` sudah berisi daftar kolom X_train yang benar

    X_new_series = pd.Series(all_features_dict)
    # Reindex series untuk memastikan urutan kolom sama persis dengan feature_cols_model
    X_new = X_new_series.reindex(feature_cols_model, fill_value=0) # Isi 0 jika ada kolom yang missing
    
    # Beberapa fitur dari input user mungkin tidak ada di feature_cols_model jika belum pernah digabungkan sebelumnya.
    # Kita perlu pastikan fitur manual user dimasukkan ke feature_cols_model saat training, atau dibuang jika tidak.
    # Untuk project ini, kita akan asumsikan X (dari training) sudah memiliki semua fitur yang relevan.

    # Ubah menjadi 2D array (1 baris) untuk model.predict()
    X_new_predict = X_new.values.reshape(1, -1)
    
    print("  - Feature vector untuk prediksi berhasil dibuat.")
    # print(f"  - X_new_predict shape: {X_new_predict.shape}") # Debugging shape
    # print(f"  - X_new_predict values: {X_new_predict}") # Debugging values
    
    return X_new_predict

# --- FUNGSI PREDIKSI FINAL ---
def predict_vulnerability(
    user_lat, user_lon, 
    user_jumlah_kk, user_rasio_lp, 
    user_ada_rs, user_ada_sekolah, user_ada_pemerintahan, user_ada_bangunan_biasa, user_ada_fasos_lain
):
    """
    Melakukan prediksi kerentanan/dampak dan mengkonversi output ke label string.
    """
    X_new_predict = predict_vulnerability_for_point(
        user_lat, user_lon, 
        user_jumlah_kk, user_rasio_lp, 
        user_ada_rs, user_ada_sekolah, user_ada_pemerintahan, user_ada_bangunan_biasa, user_ada_fasos_lain
    )
    
    prediction_encoded = model.predict(X_new_predict)[0]
    prediction_label = label_encoder.inverse_transform([prediction_encoded])[0] # Konversi kembali ke string

    return prediction_label

print("Fase 3, Langkah 3.1 (Logika Fitur Input User untuk Streamlit) Selesai.")
print("Fungsi 'predict_vulnerability' sudah siap.")
print("\n--- Lanjut ke Fase 3, Langka" \
"h 3.2 (Pengembangan Streamlit App) ---")

Model 'random_forest_model.pkl' berhasil dimuat.
Memuat data gdf_demografi_jabar_clean, gdf_gempa_jabar, gdf_poi_jabar...
Daftar kolom fitur model (X): ['jumlah_penduduk', 'pria', 'wanita', 'jumlah_produktif', 'jumlah_non_produktif', 'rasio_lp', 'rasio_produktif_nonproduktif', 'kepadatan_penduduk_kelurahan', 'jumlah_penduduk_miskin_kelurahan_estimasi', 'count_gempa', 'max_mag', 'avg_depth', 'count_poi_fasilitas_kesehatan', 'count_poi_sekolah', 'count_poi_pemerintahan/publik', 'count_poi_fasilitas_sosial/publik_lain', 'count_poi_bangunan_biasa', 'user_input_jumlah_kk', 'user_input_rasio_lp', 'user_ada_rs', 'user_ada_sekolah', 'user_ada_pemerintahan', 'user_ada_bangunan_biasa', 'user_ada_fasos_lain']
Data dan model global berhasil disiapkan untuk fungsi prediksi.


Fase 3, Langkah 3.1 (Logika Fitur Input User untuk Streamlit) Selesai.
Fungsi 'predict_vulnerability' sudah siap.

--- Lanjut ke Fase 3, Langkah 3.2 (Pengembangan Streamlit App) ---
