# Cleaning & Compile Data Kesehatan Berdasarkan Persentase

#### By Aditya Hanif

## Import Library

In [1]:
import pandas as pd
import os
import glob

## Cek Lokasi File

In [2]:
abc = glob.glob("/content/*.xlsx")
abc

['/content/Persentase Keluarga dengan Akses Sanitasi Layak (Jamban Sehat).xlsx',
 '/content/Persentase Desa yang Stop Buang Air Besar Sembarangan (BABS).xlsx',
 '/content/Persentase Sarana Air Minum yang Diambil Sampel.xlsx',
 '/content/Persentase Penderita Hipertensi yang Mendapat Pelayanan Kesehatan.xlsx',
 '/content/Persentase Desa atau Kelurahan Universal Child Immunization.xlsx',
 '/content/Persentase Ibu Nifas yang Mendapatkan VIT A.xlsx',
 '/content/Persentase Rumah Tangga Berperilaku Hidup Bersih dan Sehat (BER-PHBS).xlsx',
 '/content/Persentase Penderita Diabetes Melitus yang Mendapat Pelayanan Kesehatan Sesuai Standar.xlsx',
 '/content/Persentase Penduduk yang Mempunyai Keluhan Kesehatan.xlsx',
 '/content/Persentase Orang Dengan Gangguan Jiwa (ODGJ) Berat yang Mendapat Pelayanan Kesehatan.xlsx',
 '/content/Persentase Bayi Berat Badan Lahir Rendah (BBLR).xlsx',
 '/content/Persentase Pemberian Air Susu Ibu (ASI) Eksklusif pada Bayi Kurang Dari 6 Bulan.xlsx',
 '/content/Persenta

## Cleaning & Gabung Ke Dalam Satu Dataframe

In [7]:
# Folder tempat file-file Excel disimpan
folder_path = "/content/"  # ganti sesuai folder Anda

# List untuk menampung dataframe tiap file
all_data = []

for file in os.listdir(folder_path):
    if file.endswith(".xlsx"):
        file_path = os.path.join(folder_path, file)

        # Baca data
        df = pd.read_excel(file_path)

        # Mapping nama kolom
        # bila diawali jumlah_xxx dan kategori_xxx akan diubah jadi Jumlah dan Kategori
        new_columns = {}
        for col in df.columns:
            if col.startswith("persentase"):
                new_columns[col] = "Persentase"
            elif col.startswith("kategori"):
                new_columns[col] = "Kategori"
            elif col.startswith("jenis_"):
                new_columns[col] = "Kategori"
            elif col != "Jenis":
                new_columns[col] = col.replace("_", " ").title()

        df = df.rename(columns=new_columns)


        # Ubah semua value teks jadi kapital di awal kata
        for col in df.select_dtypes(include=["object"]).columns:
            df[col] = df[col].astype(str).str.title()

        # Tambahkan kolom 'Jenis' sesuai nama file (tanpa .xlsx)
        jenis_value = os.path.splitext(file)[0]
        df["Jenis"] = jenis_value

        # Masukkan ke list
        all_data.append(df)

# Gabungkan semua dataframe
final_df = pd.concat(all_data, ignore_index=True)
final_df.head(5)

Unnamed: 0,Id,Kode Provinsi,Nama Provinsi,Kode Kabupaten Kota,Nama Kabupaten Kota,Persentase,Satuan,Tahun,Jenis
0,1,32,Jawa Barat,3201,Kabupaten Bogor,6.85,Persen,2014,Persentase Keluarga dengan Akses Sanitasi Laya...
1,2,32,Jawa Barat,3202,Kabupaten Sukabumi,47.29,Persen,2014,Persentase Keluarga dengan Akses Sanitasi Laya...
2,3,32,Jawa Barat,3203,Kabupaten Cianjur,38.96,Persen,2014,Persentase Keluarga dengan Akses Sanitasi Laya...
3,4,32,Jawa Barat,3204,Kabupaten Bandung,57.97,Persen,2014,Persentase Keluarga dengan Akses Sanitasi Laya...
4,5,32,Jawa Barat,3205,Kabupaten Garut,58.15,Persen,2014,Persentase Keluarga dengan Akses Sanitasi Laya...


## Cek Lokasi Data Ke 2

In [8]:
abcd = glob.glob("/content/jns/*.xlsx")
abcd

['/content/jns/Persentase Pelayanan Kesehatan Pada Ibu Hamil [Berdasarkan Jenis Kunjungan].xlsx',
 '/content/jns/Persentase Kunjungan Neonatal [Berdasarkan Jenis Kunjungan].xlsx']

## Cleaning & Gabung Ke Dalam Satu Dataframe Data Ke-2

In [9]:
# Folder tempat file-file Excel disimpan
lokasi = "/content/jns"  # ganti sesuai folder Anda

# List untuk menampung dataframe tiap file
datas = []

for file in os.listdir(lokasi):
    if file.endswith(".xlsx"):
        lok_file = os.path.join(lokasi, file)

        # Baca data
        df2 = pd.read_excel(lok_file)

        # Mapping nama kolom
        # bila diawali jumlah_xxx dan kategori_xxx akan diubah jadi Jumlah dan Kategori
        new_columns = {}
        for col in df2.columns:
            if col.startswith("persentase"):
                new_columns[col] = "Persentase"
            elif col.startswith("kategori"):
                new_columns[col] = "Kategori"
            elif col.startswith("jenis_kunjungan"):
                new_columns[col] = "Kategori"
            elif col != "Jenis":
                new_columns[col] = col.replace("_", " ").title()

        df2 = df2.rename(columns=new_columns)


        # Ubah semua value teks jadi kapital di awal kata
        for col in df2.select_dtypes(include=["object"]).columns:
            df2[col] = df2[col].astype(str).str.title()

        # Tambahkan kolom 'Jenis' sesuai nama file (tanpa .xlsx)
        jenis_value = os.path.splitext(file)[0]
        df2["Jenis"] = jenis_value

        # Masukkan ke list
        datas.append(df2)

# Gabungkan semua dataframe
final_df2 = pd.concat(datas, ignore_index=True)
final_df2.head(5)

Unnamed: 0,Id,Kode Provinsi,Nama Provinsi,Kode Kabupaten Kota,Nama Kabupaten Kota,Kategori,Persentase,Satuan,Tahun,Jenis
0,1,32,Jawa Barat,3201,Kabupaten Bogor,K1,101.0,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...
1,2,32,Jawa Barat,3201,Kabupaten Bogor,K4,91.8,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...
2,3,32,Jawa Barat,3202,Kabupaten Sukabumi,K1,107.2,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...
3,4,32,Jawa Barat,3202,Kabupaten Sukabumi,K4,94.8,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...
4,5,32,Jawa Barat,3203,Kabupaten Cianjur,K1,107.8,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...


## Concat/Gabungkan Data Ke 1 & 2

In [10]:
df_gab = pd.concat([final_df2, final_df], ignore_index=True)
df_gab.head(5)

Unnamed: 0,Id,Kode Provinsi,Nama Provinsi,Kode Kabupaten Kota,Nama Kabupaten Kota,Kategori,Persentase,Satuan,Tahun,Jenis
0,1,32,Jawa Barat,3201,Kabupaten Bogor,K1,101.0,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...
1,2,32,Jawa Barat,3201,Kabupaten Bogor,K4,91.8,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...
2,3,32,Jawa Barat,3202,Kabupaten Sukabumi,K1,107.2,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...
3,4,32,Jawa Barat,3202,Kabupaten Sukabumi,K4,94.8,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...
4,5,32,Jawa Barat,3203,Kabupaten Cianjur,K1,107.8,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...


## Cek Data Pertama, Ternyata Kolom Kategori Berisi NaN Value

In [11]:
df_gab.tail(5)

Unnamed: 0,Id,Kode Provinsi,Nama Provinsi,Kode Kabupaten Kota,Nama Kabupaten Kota,Kategori,Persentase,Satuan,Tahun,Jenis
3802,158,32,Jawa Barat,3275,Kota Bekasi,,100.0,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...
3803,159,32,Jawa Barat,3276,Kota Depok,,98.39,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...
3804,160,32,Jawa Barat,3277,Kota Cimahi,,91.97,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...
3805,161,32,Jawa Barat,3278,Kota Tasikmalaya,,85.07,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...
3806,162,32,Jawa Barat,3279,Kota Banjar,,84.65,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...


## Isi Value NaN dengan "-"

In [13]:
df_gab = df_gab.fillna("-")
df_gab.tail(5)

Unnamed: 0,Id,Kode Provinsi,Nama Provinsi,Kode Kabupaten Kota,Nama Kabupaten Kota,Kategori,Persentase,Satuan,Tahun,Jenis
3802,158,32,Jawa Barat,3275,Kota Bekasi,-,100.0,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...
3803,159,32,Jawa Barat,3276,Kota Depok,-,98.39,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...
3804,160,32,Jawa Barat,3277,Kota Cimahi,-,91.97,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...
3805,161,32,Jawa Barat,3278,Kota Tasikmalaya,-,85.07,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...
3806,162,32,Jawa Barat,3279,Kota Banjar,-,84.65,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...


## Tambahkan Kolom Map Region Google

In [14]:
name_map = {
    'Kabupaten Bandung': 'Bandung Regency',
    'Kabupaten Bandung Barat': 'West Bandung Regency',
    'Kabupaten Bekasi': 'Bekasi Regency',
    'Kabupaten Bogor': 'Bogor Regency',
    'Kabupaten Ciamis': 'Ciamis Regency',
    'Kabupaten Cianjur': 'Cianjur Regency',
    'Kabupaten Cirebon': 'Cirebon Regency',
    'Kabupaten Garut': 'Garut Regency',
    'Kabupaten Indramayu': 'Indramayu Regency',
    'Kabupaten Karawang': 'Karawang Regency',
    'Kabupaten Kuningan': 'Kuningan Regency',
    'Kabupaten Majalengka': 'Majalengka Regency',
    'Kabupaten Pangandaran': 'Pangandaran Regency',
    'Kabupaten Purwakarta': 'Purwakarta Regency',
    'Kabupaten Subang': 'Subang Regency',
    'Kabupaten Sukabumi': 'Sukabumi',
    'Kabupaten Sumedang': 'Sumedang Regency',
    'Kabupaten Tasikmalaya': 'Tasikmalaya Regency',
    'Kota Bandung': 'Bandung City',
    'Kota Banjar': 'Banjar City',
    'Kota Bekasi': 'Bekasi City',
    'Kota Bogor': 'Bogor City',
    'Kota Cimahi': 'Cimahi City',
    'Kota Cirebon': 'Cirebon City',
    'Kota Depok': 'Depok City',
    'Kota Sukabumi': 'Sukabumi City',
    'Kota Tasikmalaya': 'Tasikmalaya City'
}

# MEMBUAT KOLOM BARU DENGAN NAMA SESUAI GOOGLE
# Mengganti "Nama Kabupaten Kota" dengan nama kolom
df_gab['Region Google'] = df_gab['Nama Kabupaten Kota'].map(name_map).fillna(df_gab['Nama Kabupaten Kota'])

print("✅ Selesai! Kolom Region_Google untuk Looker Studio sudah ditambahkan.")
df_gab.tail(5)

✅ Selesai! Kolom Region_Google untuk Looker Studio sudah ditambahkan.


Unnamed: 0,Id,Kode Provinsi,Nama Provinsi,Kode Kabupaten Kota,Nama Kabupaten Kota,Kategori,Persentase,Satuan,Tahun,Jenis,Region Google
3802,158,32,Jawa Barat,3275,Kota Bekasi,-,100.0,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...,Bekasi City
3803,159,32,Jawa Barat,3276,Kota Depok,-,98.39,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...,Depok City
3804,160,32,Jawa Barat,3277,Kota Cimahi,-,91.97,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...,Cimahi City
3805,161,32,Jawa Barat,3278,Kota Tasikmalaya,-,85.07,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...,Tasikmalaya City
3806,162,32,Jawa Barat,3279,Kota Banjar,-,84.65,Persen,2024,Persentase Bayi Menerima Inisiasi Menyusui Din...,Banjar City


## Export Data

In [15]:
df_gab.to_excel("Data Persentase 1.xlsx", index=False)

## Cek Data Persentase
#### Ternyata data berbentuk string/object, beberapa mengandung koma (,) dan ada yang nilainya lebih dari 100

In [16]:
df_gab[df_gab['Persentase'].astype(str).str.contains(',', na=False)]

Unnamed: 0,Id,Kode Provinsi,Nama Provinsi,Kode Kabupaten Kota,Nama Kabupaten Kota,Kategori,Persentase,Satuan,Tahun,Jenis,Region Google
324,325,32,Jawa Barat,3201,Kabupaten Bogor,K1,10153,Persen,2024,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Bogor Regency
325,326,32,Jawa Barat,3201,Kabupaten Bogor,K4,10045,Persen,2024,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Bogor Regency
326,327,32,Jawa Barat,3201,Kabupaten Bogor,K6,8947,Persen,2024,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Bogor Regency
327,328,32,Jawa Barat,3202,Kabupaten Sukabumi,K1,9911,Persen,2024,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Sukabumi
328,329,32,Jawa Barat,3202,Kabupaten Sukabumi,K4,9864,Persen,2024,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Sukabumi
...,...,...,...,...,...,...,...,...,...,...,...
3342,292,32,Jawa Barat,3274,Kota Cirebon,-,1304,Persen,2024,Persentase Balita Stunting,Cirebon City
3343,293,32,Jawa Barat,3275,Kota Bekasi,-,289,Persen,2024,Persentase Balita Stunting,Bekasi City
3344,294,32,Jawa Barat,3276,Kota Depok,-,358,Persen,2024,Persentase Balita Stunting,Depok City
3345,295,32,Jawa Barat,3277,Kota Cimahi,-,276,Persen,2024,Persentase Balita Stunting,Cimahi City


## Mengganti Tanda Koma
#### Tanda koma diganti dengan titik (supaya bisa jadi tipe float) dan mengubah tipe data menjadi float

In [17]:
df_gab["Persentase"] = df_gab["Persentase"].str.replace(",", ".").astype(float)

## Cek Tipe Data

In [18]:
df_gab.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3807 entries, 0 to 3806
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Id                   3807 non-null   int64  
 1   Kode Provinsi        3807 non-null   int64  
 2   Nama Provinsi        3807 non-null   object 
 3   Kode Kabupaten Kota  3807 non-null   int64  
 4   Nama Kabupaten Kota  3807 non-null   object 
 5   Kategori             3807 non-null   object 
 6   Persentase           999 non-null    float64
 7   Satuan               3807 non-null   object 
 8   Tahun                3807 non-null   int64  
 9   Jenis                3807 non-null   object 
 10  Region Google        3807 non-null   object 
dtypes: float64(1), int64(4), object(6)
memory usage: 327.3+ KB


## Cek Nilai Max Data
#### Ternyata kolom Persentase ada yang nilainya lebih dari 100. Padahal persentase proporsi maksimal 100%.

In [19]:
df_gab.describe()

Unnamed: 0,Id,Kode Provinsi,Kode Kabupaten Kota,Persentase,Tahun
count,3807.0,3807.0,3807.0,999.0,3807.0
mean,113.382979,32.0,3231.333333,64.046346,2020.93617
std,82.005898,0.0,31.205951,39.89825,2.334793
min,1.0,32.0,3201.0,0.0,2014.0
25%,51.0,32.0,3207.0,12.99,2019.0
50%,101.0,32.0,3214.0,80.5,2021.0
75%,152.0,32.0,3273.0,96.675,2023.0
max,405.0,32.0,3279.0,189.9,2024.0


## Cek Data Persentase > 100

In [20]:
df_gab[df_gab["Persentase"] > 100].head(5)

Unnamed: 0,Id,Kode Provinsi,Nama Provinsi,Kode Kabupaten Kota,Nama Kabupaten Kota,Kategori,Persentase,Satuan,Tahun,Jenis,Region Google
0,1,32,Jawa Barat,3201,Kabupaten Bogor,K1,101.0,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Bogor Regency
2,3,32,Jawa Barat,3202,Kabupaten Sukabumi,K1,107.2,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Sukabumi
4,5,32,Jawa Barat,3203,Kabupaten Cianjur,K1,107.8,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Cianjur Regency
8,9,32,Jawa Barat,3205,Kabupaten Garut,K1,106.9,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Garut Regency
10,11,32,Jawa Barat,3206,Kabupaten Tasikmalaya,K1,105.3,Persen,2019,Persentase Pelayanan Kesehatan Pada Ibu Hamil ...,Tasikmalaya Regency


## Ganti Data > 100 Dengan Value 100

In [21]:
df_gab.loc[df_gab['Persentase'] > 100, 'Persentase'] = 100

## Cek Hasilnya

In [22]:
df_gab.describe()

Unnamed: 0,Id,Kode Provinsi,Kode Kabupaten Kota,Persentase,Tahun
count,3807.0,3807.0,3807.0,999.0,3807.0
mean,113.382979,32.0,3231.333333,62.797097,2020.93617
std,82.005898,0.0,31.205951,38.23028,2.334793
min,1.0,32.0,3201.0,0.0,2014.0
25%,51.0,32.0,3207.0,12.99,2019.0
50%,101.0,32.0,3214.0,80.5,2021.0
75%,152.0,32.0,3273.0,96.675,2023.0
max,405.0,32.0,3279.0,100.0,2024.0


## Export Data Yang Sudah Diperbaiki

In [24]:
df_gab.to_excel("Data Persentase Max 100.xlsx", index=False)