In [1]:
import pandas as pd
import os
import glob

# Path ke folder dataset
dataset_path = "dataset/"

# Mengambil semua file CSV di folder dataset
all_files = glob.glob(os.path.join(dataset_path, "*.csv"))

# List untuk menyimpan semua dataframe
dfs = []

for file in all_files:
    # Ekstrak tahun dari nama file
    filename = os.path.basename(file)
    year = filename.split(", ")[-1].replace(".csv", "")
    
    # Baca CSV, skip 3 baris header
    df = pd.read_csv(file, skiprows=4, header=None, encoding='utf-8')
    
    # Rename kolom
    df.columns = ['Provinsi', 'Perkotaan', 'Perdesaan', 'Perkotaan+Perdesaan']
    
    # Hapus baris terakhir (INDONESIA) dan baris dengan nilai kosong di Provinsi
    df = df[df['Provinsi'].notna()]
    df = df[df['Provinsi'] != 'INDONESIA']
    
    # Tambahkan kolom tahun
    df['Tahun'] = int(year)
    
    dfs.append(df)

# Gabungkan semua dataframe
merged_df = pd.concat(dfs, ignore_index=True)

# Urutkan berdasarkan Provinsi lalu Tahun
merged_df = merged_df.sort_values(['Provinsi', 'Tahun'], ascending=[True, True])

# Reset index
merged_df = merged_df.reset_index(drop=True)

# Tampilkan hasilnya
print(f"Total baris: {len(merged_df)}")
print(f"Provinsi unik: {merged_df['Provinsi'].nunique()}")
print(f"Tahun: {sorted(merged_df['Tahun'].unique())}")
print("\n")
merged_df

Total baris: 608
Provinsi unik: 38
Tahun: [np.int64(2010), np.int64(2011), np.int64(2012), np.int64(2013), np.int64(2014), np.int64(2015), np.int64(2016), np.int64(2017), np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023), np.int64(2024), np.int64(2025)]




Unnamed: 0,Provinsi,Perkotaan,Perdesaan,Perkotaan+Perdesaan,Tahun
0,ACEH,24.74,30.68,29.02,2010
1,ACEH,81.09,48.55,57.66,2011
2,ACEH,80.64,46.59,56.05,2012
3,ACEH,84.75,51.42,60.76,2013
4,ACEH,81.05,49.91,58.74,2014
...,...,...,...,...,...
603,SUMATERA UTARA,96.12,84.48,90.89,2021
604,SUMATERA UTARA,96.1,86.99,92.13,2022
605,SUMATERA UTARA,96.2,86.93,92.19,2023
606,SUMATERA UTARA,96.97,87.62,92.94,2024


In [None]:
# Simpan ke file CSV
merged_df.to_csv('merged_akses_air_minum_2010_2025.csv', index=False)
print("File berhasil disimpan sebagai 'merged_akses_air_minum_2010_2025.csv'")