In [1]:
import pandas as pd

# 1. Load Data
df = pd.read_csv('Stanting.csv', sep=';')

# 2. Fungsi Pembersih: Ganti Koma jadi Titik, lalu ubah ke Angka
cols_to_fix = ['persentase_sanitasi_layak', 'persentase_pemberian_asi', 
               'persentase_bblr', 'prevalensi_balita_stunting']

for col in cols_to_fix:
    # Ganti ',' dengan '.' dan ubah jadi float
    df[col] = df[col].astype(str).str.replace(',', '.').astype(float)

# 3. Membuat Label Target (Klasifikasi) --> BAGIAN INI YANG DIUBAH
# Jika Stunting > 20% maka Status = 'Rawan', jika tidak maka 'Aman'
df['Status_Stunting'] = df['prevalensi_balita_stunting'].apply(lambda x: 'Rawan' if x > 20 else 'Aman')

# Cek hasil akhir
print("Info Data Setelah Dibersihkan:")
print(df['Status_Stunting'].value_counts()) # Cek jumlah Aman vs Rawan
display(df.head())

# ==========================================
# 4. SIMPAN KE FILE BARU
# ==========================================
df.to_csv('Stunting_Cleaned.csv', index=False)

print("\nSukses! File 'Stanting_Cleaned.csv' berhasil dibuat dengan label Aman/Rawan.")

Info Data Setelah Dibersihkan:
Status_Stunting
Rawan    78
Aman     57
Name: count, dtype: int64


Unnamed: 0,kabupaten_kota,persentase_sanitasi_layak,persentase_pemberian_asi,persentase_bblr,prevalensi_balita_stunting,Status_Stunting
0,KABUPATEN BOGOR,56.0,53.12,1.4,34.96,Rawan
1,KABUPATEN SUKABUMI,69.0,57.15,4.6,21.93,Rawan
2,KABUPATEN CIANJUR,62.0,68.78,2.8,27.52,Rawan
3,KABUPATEN BANDUNG,80.0,63.84,2.7,27.87,Rawan
4,KABUPATEN GARUT,0.0,74.32,2.2,27.03,Rawan



Sukses! File 'Stanting_Cleaned.csv' berhasil dibuat dengan label Aman/Rawan.


In [4]:
import pandas as pd

# 1. Load Data
# Kita pakai header=0 supaya baris judul terbaca, tapi nanti baris indeks 0 kita buang
df = pd.read_csv('datasetkemiskinan.csv')

# 2. HAPUS BARIS PERTAMA (Yg isinya 'Ribu Jiwa', 'Rupiah', dll)
# Kita ambil data mulai dari indeks 1 sampai habis
df_clean = df.iloc[1:].copy()

# 3. UBAH TIPE DATA JADI ANGKA
# Daftar kolom yang harus jadi angka
cols_to_fix = ['Jumlah Penduduk Miskin', 'Garis Kemiskinan', 
               'Indeks Kedalaman', 'Indeks Keparahan', 
               'Persentase Penduduk Miskin', 'Tingkat Pengangguran']

for col in cols_to_fix:
    # Ubah jadi angka (float)
    df_clean[col] = df_clean[col].astype(float)

# 4. BUAT LABEL TARGET (Klasifikasi)
# Contoh Aturan: Jika Penduduk Miskin > 10% maka statusnya 'Rawan' (1), selain itu 'Aman' (0)
# Angka 10% ini contoh ya, bisa disesuaikan dengan rata-rata provinsi
df_clean['Status_Kemiskinan'] = df_clean['Persentase Penduduk Miskin'].apply(lambda x: 1 if x > 10 else 0)

# 5. Simpan File Bersih
df_clean.to_csv('Kemiskinan_SIAP_ML.csv', index=False)

print("Data sudah bersih! Disimpan sebagai 'Kemiskinan_SIAP_ML.csv'")
print(df_clean.info())
print(df_clean.head())

Data sudah bersih! Disimpan sebagai 'Kemiskinan_SIAP_ML.csv'
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 1 to 27
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Kabupaten / Kota            27 non-null     object 
 1   Jumlah Penduduk Miskin      27 non-null     float64
 2   Garis Kemiskinan            27 non-null     float64
 3   Indeks Kedalaman            27 non-null     float64
 4   Indeks Keparahan            27 non-null     float64
 5   Persentase Penduduk Miskin  27 non-null     float64
 6   Tingkat Pengangguran        27 non-null     float64
 7   Status_Kemiskinan           27 non-null     int64  
dtypes: float64(6), int64(1), object(1)
memory usage: 1.8+ KB
None
  Kabupaten / Kota  Jumlah Penduduk Miskin  Garis Kemiskinan  \
1            Bogor                  446.79          513512.0   
2         Sukabumi                  175.93          416751.0   
3       

In [5]:
import pandas as pd

# 1. Load Data
df = pd.read_csv('datasetkemiskinan.csv')

# 2. Hapus Baris "Sampah" (Baris index 0 yang isinya keterangan text)
df_clean = df.iloc[1:].copy()

# 3. Ubah semua kolom angka menjadi tipe Float (Desimal)
cols_to_numeric = ['Jumlah Penduduk Miskin', 'Garis Kemiskinan', 
                   'Indeks Kedalaman', 'Indeks Keparahan', 
                   'Persentase Penduduk Miskin', 'Tingkat Pengangguran']

for col in cols_to_numeric:
    df_clean[col] = df_clean[col].astype(float)

# 4. Reset Index biar rapi
df_clean.reset_index(drop=True, inplace=True)

# 5. Cek Hasil
print("Data Siap K-Means:")
print(df_clean.info())
print(df_clean.head())

# 6. SIMPAN FILE
# File ini nanti tinggal di-load saat mau clustering
df_clean.to_csv('Kemiskinan_SIAP_KMEANS.csv', index=False)

print("\nSukses! File 'Kemiskinan_SIAP_KMEANS.csv' berhasil dibuat.")

Data Siap K-Means:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Kabupaten / Kota            27 non-null     object 
 1   Jumlah Penduduk Miskin      27 non-null     float64
 2   Garis Kemiskinan            27 non-null     float64
 3   Indeks Kedalaman            27 non-null     float64
 4   Indeks Keparahan            27 non-null     float64
 5   Persentase Penduduk Miskin  27 non-null     float64
 6   Tingkat Pengangguran        27 non-null     float64
dtypes: float64(6), object(1)
memory usage: 1.6+ KB
None
  Kabupaten / Kota  Jumlah Penduduk Miskin  Garis Kemiskinan  \
0            Bogor                  446.79          513512.0   
1         Sukabumi                  175.93          416751.0   
2          Cianjur                  239.30          466509.0   
3          Bandung                  239.87          4

In [2]:
import pandas as pd
import numpy as np

# Load data yang "Fix" tadi
df = pd.read_csv('Stunting_Cleaned.csv')

# 1. Ganti angka 0 dengan NaN (biar dianggap kosong dulu)
cols_to_check = ['persentase_sanitasi_layak', 'persentase_pemberian_asi', 'persentase_bblr']
df[cols_to_check] = df[cols_to_check].replace(0, np.nan)

# 2. Tambal (Imputasi) NaN dengan Rata-rata kolom tersebut
df.fillna(df.mean(numeric_only=True), inplace=True)

# Cek lagi, harusnya Garut sanitasinya bukan 0 lagi, tapi jadi angka rata-rata (misal 60-an)
print("Cek Data Garut setelah diperbaiki:")
print(df.loc[4]) # Baris ke-4 tadi yang Garut

# 3. Simpan ulang file finalnya
df.to_csv('stunting_fix_final.csv', index=False)
print("\nSip! Angka 0 yang aneh sudah diganti rata-rata.")

Cek Data Garut setelah diperbaiki:
kabupaten_kota                KABUPATEN GARUT
persentase_sanitasi_layak           86.754254
persentase_pemberian_asi                74.32
persentase_bblr                           2.2
prevalensi_balita_stunting              27.03
Status_Stunting                         Rawan
Name: 4, dtype: object

Sip! Angka 0 yang aneh sudah diganti rata-rata.


In [1]:
import pandas as pd
import numpy as np

# 1. Load Data
# (Pastikan file stunting.csv ada di folder yang sama)
df = pd.read_csv('stunting.csv')

# Cek dulu sebelum dibersihkan (opsional, buat bukti)
print("Jumlah 0 Sebelum Dibersihkan:")
print((df[['jumlah_imunisasi', 'jumlah_bblr', 'jumlah_sanitasi']] == 0).sum())

# 2. PROSES PEMBERSIHAN (Jurus Anti-Nol)
cols_to_fix = ['jumlah_imunisasi', 'jumlah_bblr', 'jumlah_sanitasi']

for col in cols_to_fix:
    # Langkah A: Ubah angka 0 jadi NaN (Dianggap kosong)
    df[col] = df[col].replace(0, np.nan)
    
    # Langkah B: Isi yang kosong tadi dengan Rata-rata kolom itu
    rata_rata = df[col].mean()
    df[col] = df[col].fillna(rata_rata)
    
    # (Opsional) Bulatkan angkanya biar gak koma-koma panjang
    df[col] = df[col].round(0).astype(int)

print("\n" + "="*30 + "\n")

# 3. Cek Hasilnya
print("Jumlah 0 Setelah Dibersihkan:")
print((df[['jumlah_imunisasi', 'jumlah_bblr', 'jumlah_sanitasi']] == 0).sum())

# 4. Simpan Data Bersih (Biar gak capek ngulang cleaning)
df.to_csv('stunting_bersih.csv', index=False)
print("\nSukses! File bersih tersimpan dengan nama 'stunting_bersih.csv'")

Jumlah 0 Sebelum Dibersihkan:
jumlah_imunisasi    2
jumlah_bblr         4
jumlah_sanitasi     1
dtype: int64


Jumlah 0 Setelah Dibersihkan:
jumlah_imunisasi    0
jumlah_bblr         0
jumlah_sanitasi     0
dtype: int64

Sukses! File bersih tersimpan dengan nama 'stunting_bersih.csv'
