Berikut adalah script untuk mengubah pdf lampiran profil kesehatan Jawa Barat jadi csv
Caveat: script setiap tahun berbeda karena halaman dan kerangka tabel berbeda-beda setiap tahunnya. Sehingga tidak dapat dilakukan automasi 
Feel free to give me any suggestions

In [25]:
# import library
import tabula
import camelot
import pandas as pd
import datetime as dt
import sys

pd.options.display.max_columns = None
pd.options.display.max_rows = None

## Scraping Data

In [54]:
def process_table(file_path, pages, year):
    df = tabula.read_pdf(file_path, pages=pages)[0]
    df.rename(columns={'Jenis Tenaga Kesehatan': "Jenis Tenaga", "Jumlah Tenaga Kesehatan": "Jumlah Tenaga"}, inplace=True)

    # Clean 'Jumlah Tenaga' column from non-numeric characters and handle missing values
    df['Jumlah Tenaga'] = pd.to_numeric(df['Jumlah Tenaga'].astype(str).str.replace("[^0-9]", "", regex=True), errors='coerce')

    # Drop rows with missing values in 'Jumlah Tenaga'
    df.dropna(subset=['Jumlah Tenaga'], inplace=True)

    # Convert to integer after cleaning
    df['Jumlah Tenaga'] = df['Jumlah Tenaga'].astype(int)
    
    df['tahun'] = year
    df['unit_kerja'] = "puskesmas"
    return df

# Process each year's data
df_2022 = process_table("2022.pdf", "56", "2022")
df_2021 = process_table("2021.pdf", "43", "2021")
df_2020 = process_table("2020.pdf", "40", "2020")

# Process 2019 data using Camelot
tables_2019 = camelot.read_pdf("2019.pdf", flavor='stream', pages='41')
df_2019 = tables_2019[1].df.iloc[4:,:2].iloc[:9]
df_2019.set_axis(["Jenis Tenaga", "Jumlah Tenaga"], axis=1, inplace=True)
df_2019['Jumlah Tenaga'] = df_2019['Jumlah Tenaga'].astype(str).str.replace(",", "").astype(int)
df_2019['tahun'] = "2019"
df_2019['unit_kerja'] = "puskesmas"

# Manual entry for 2018 data
data_2018 = {
    'Jenis Tenaga': ['Dokter atau dokter layanan primer', 'Dokter Gigi', 'Perawat', 'Bidan', 'Tenaga Kefarmasian',
                     'Tenaga Kesmas', 'Tenaga Kesehatan Lingkungan', 'Tenaga Gizi', 'Ahli Teknologi Laboratorium Medik'],
    'Jumlah Tenaga': [2097, 829, 9850, 13750, 889, 851, 674, 550, 514]
}
df_2018 = pd.DataFrame(data_2018)
df_2018['tahun'] = "2018"
df_2018['unit_kerja'] = "puskesmas"

# Combine all DataFrames
final_df = pd.concat([df_2022, df_2021, df_2020, df_2019, df_2018], ignore_index=True)
final_df_pks = final_df.iloc[:,1:5]
final_df_pks.head()




Unnamed: 0,Jenis Tenaga,Jumlah Tenaga,tahun,unit_kerja
0,Dokter atau dokter layanan primer,2938,2022,puskesmas
1,Dokter gigi,9460,2022,puskesmas
2,Perawat,11605,2022,puskesmas
3,Bidan,17334,2022,puskesmas
4,Tenaga Kefarmasian,2133,2022,puskesmas


In [55]:
## Jumlah Tenaga Rumah Sakit

def process_data_tabula(file_path, pages, year, unit_kerja):
    # Membaca data dari file PDF menggunakan tabula
    df = tabula.read_pdf(file_path, pages=pages)[0]
    
    # Membersihkan data
    df.dropna(inplace=True)
    df.rename(columns={'Jenis Tenaga Kesehatan': "Jenis Tenaga", "Jumlah Tenaga Kesehatan": "Jumlah Tenaga"}, inplace=True)
    df['Jumlah Tenaga'] = pd.to_numeric(df['Jumlah Tenaga'].astype(str).str.replace(".", ""), errors='coerce').fillna(0).astype(int)
    
    # Menambahkan kolom tahun dan unit_kerja
    df['tahun'] = year
    df['unit_kerja'] = unit_kerja
    
    return df

def process_data_camelot(file_path, pages, year, unit_kerja):
    # Membaca data dari file PDF menggunakan camelot
    tables = camelot.read_pdf(file_path, flavor='stream', pages=pages)
    
    # Menggunakan df = tables[1].df untuk tahun 2019
    if year == "2019":
        df = tables[1].df
    else:
        df = tables[0].df
    
    # Membersihkan data
    df = df.iloc[2:,:2]
    df.set_axis(["Jenis Tenaga", "Jumlah Tenaga"], axis=1, inplace=True)
    df.rename(columns={'Jenis Tenaga': "Jenis Tenaga", "Jumlah Tenaga" : "Jumlah Tenaga"}, inplace=True)
    df['Jumlah Tenaga'] = pd.to_numeric(df['Jumlah Tenaga'].astype(str).str.replace(".", ""), errors='coerce').fillna(0).astype(int)
    
    # Menambahkan kolom tahun dan unit_kerja
    df['tahun'] = year
    df['unit_kerja'] = unit_kerja
    
    return df

# Membuat DataFrames untuk setiap tahun menggunakan tabula dan camelot
df_2022 = process_data_tabula("2022.pdf", "60", "2022", "rumah sakit")
df_2021 = process_data_tabula("2021.pdf", "47", "2021", "rumah sakit")
df_2020 = process_data_camelot("2020.pdf", "44", "2020", "rumah sakit")
df_2019 = process_data_camelot("2019.pdf", "45", "2019", "rumah sakit")

# Data 2018 (manual entry)
data_2018 = {
    'Jenis Tenaga': ['Dokter atau dokter layanan primer', 'Dokter Gigi', 'Perawat', 'Bidan', 'Tenaga Kefarmasian', 'Tenaga Kesmas',
                     'Tenaga Kesehatan Lingkungan', 'Tenaga Gizi', 'Ahli Teknologi Laboratorium Medik'],
    'Jumlah Tenaga': [12002, 2436, 31024, 5831, 5229, 572, 225, 778, 4947]
}
df_2018 = pd.DataFrame(data_2018)
df_2018['tahun'] = "2018"
df_2018['unit_kerja'] = "rumah sakit"

# Menggabungkan DataFrames
final_df_rs = pd.concat([df_2022, df_2021, df_2020, df_2019, df_2018], ignore_index=True)

# Menampilkan hasil
df_akum = pd.concat([final_df_rs, final_df_pks], ignore_index = True)
df_akum.info()

  df['Jumlah Tenaga'] = pd.to_numeric(df['Jumlah Tenaga'].astype(str).str.replace(".", ""), errors='coerce').fillna(0).astype(int)
  df['Jumlah Tenaga'] = pd.to_numeric(df['Jumlah Tenaga'].astype(str).str.replace(".", ""), errors='coerce').fillna(0).astype(int)
  df['Jumlah Tenaga'] = pd.to_numeric(df['Jumlah Tenaga'].astype(str).str.replace(".", ""), errors='coerce').fillna(0).astype(int)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Jenis Tenaga   85 non-null     object
 1   Jumlah Tenaga  85 non-null     int64 
 2   tahun          85 non-null     object
 3   unit_kerja     85 non-null     object
dtypes: int64(1), object(3)
memory usage: 2.8+ KB


  df['Jumlah Tenaga'] = pd.to_numeric(df['Jumlah Tenaga'].astype(str).str.replace(".", ""), errors='coerce').fillna(0).astype(int)


In [32]:
df = tabula.read_pdf("2022.pdf", pages="61")[1]
df = df.iloc[3:,1:3]
df.set_axis(["jenis_tenaga","Ratio/100.000 Penduduk"], axis=1, inplace=True)
df['Ratio/100.000 Penduduk'] = df['Ratio/100.000 Penduduk'].str.replace(',','.')
df['Ratio/100.000 Penduduk'] = df['Ratio/100.000 Penduduk'].astype(float)
df.replace("Tenaga\rTeknisKefarmasian", "Tenaga Teknis Kefarmasian", inplace=True)

df2 = tabula.read_pdf("2022.pdf", pages="62")[0]
header_value = list(df2.columns)
df2 = df2.append(pd.Series(header_value, index=df2.columns), ignore_index=True)
df2 = df2.iloc[:,1:3]
df2.set_axis(["jenis_tenaga","Ratio/100.000 Penduduk"], axis=1, inplace=True)
df2['Ratio/100.000 Penduduk'] = df2['Ratio/100.000 Penduduk'].str.replace(',','.')
df2['Ratio/100.000 Penduduk'] = df2['Ratio/100.000 Penduduk'].astype(float)

df_2022 = pd.concat([df,df2], ignore_index = True)
df_2022['tahun'] = "2022"

def read_and_clean_camelot(file_path, pages, year):
    tables = camelot.read_pdf(file_path, flavor='stream', pages=pages)
    df = tables[0].df
    df.columns = df.iloc[1]
    df = df.iloc[2:]
    df.reset_index(drop=True, inplace=True)
    df = df.rename(columns={"Tenaga Kesehatan": "jenis_tenaga"})  # Perbarui di sini
    df['Ratio/100.000 Penduduk'] = df['Ratio/100.000 Penduduk'].astype(float)
    df['tahun'] = year
    return df

df_2021 = read_and_clean_camelot("2021.pdf", "48", "2021")
df_2020 = read_and_clean_camelot("2020.pdf", "45", "2020")
df_2019 = tabula.read_pdf("2019.pdf", pages="46")[0]
df_2019.set_axis(["jenis_tenaga", "Ratio/100.000 Penduduk"], axis=1, inplace=True)
df_2019['tahun'] = "2019"

# Data 2018 (manual entry)
data_2018 = {
    'jenis_tenaga': ['Dokter Spesialis', 'Dokter Umum', 'Dokter Gigi', 'Bidan', 'Perawat', 'Kefarmasian',
                     'Kesehatan Masyarakat', 'Kesehatan Lingkungan', 'Gizi', 'Keterafian Fisik',
                     'Keteknisan Medis', 'Non Kesehatan'],
    'Ratio/100.000 Penduduk': [17.36, 12.12, 7.1, 40.22, 81.1, 13.41, 3.17, 1.98, 2.7, 1.68, 6.6, 30.2]
}
df_2018 = pd.DataFrame(data_2018)
df_2018['tahun'] = "2018"

# Menggabungkan DataFrames
final_df = pd.concat([df_2022, df_2021, df_2020, df_2019, df_2018], ignore_index=True)

# Menampilkan hasil
final_df

  df2 = df2.append(pd.Series(header_value, index=df2.columns), ignore_index=True)


Unnamed: 0,jenis_tenaga,Ratio/100.000 Penduduk,tahun
0,Dokter Spesialis,22.31,2022
1,Dokter Umum,21.43,2022
2,Dokter Gigi,4.07,2022
3,Perawat,120.24,2022
4,Bidan,52.2,2022
5,Perawat Gigi,0.0,2022
6,Apoteker,6.94,2022
7,Tenaga Teknis Kefarmasian,11.69,2022
8,SKM,5.81,2022
9,Gizi,5.4,2022


In [43]:
import pandas as pd
import camelot

# Dataframe untuk tahun 2022
data_2022 = {
    'Kabupaten/Kota': ['KABUPATEN BOGOR', 'KABUPATEN SUKABUMI', 'KABUPATEN CIANJUR', 'KABUPATEN BANDUNG', 'KABUPATEN GARUT',
                       'KABUPATEN TASIKMALAYA', 'KABUPATEN CIAMIS', 'KABUPATEN KUNINGAN', 'KABUPATEN CIREBON',
                       'KABUPATEN MAJALENGKA', 'KABUPATEN SUMEDANG', 'KABUPATEN INDRAMAYU', 'KABUPATEN SUBANG',
                       'KABUPATEN PURWAKARTA', 'KABUPATEN KARAWANG', 'KABUPATEN BEKASI', 'KABUPATEN BANDUNG BARAT',
                       'KABUPATEN PANGANDARAN', 'KOTA BOGOR', 'KOTA SUKABUMI', 'KOTA BANDUNG', 'KOTA CIREBON',
                       'KOTA BEKASI', 'KOTA DEPOK', 'KOTA CIMAHI', 'KOTA TASIKMALAYA', 'KOTA BANJAR'],
    'Jumlah': [298, 31, 0, 13, 6, 10, 8, 63, 251, 51, 27, 77, 13, 0, 276, 66, 0, 3, 75, 40, 0, 45, 66, 131, 69, 27, 16]
}
df_2022 = pd.DataFrame(data_2022)
df_2022['tahun'] = "2022"

# Dataframe untuk tahun 2021
tables_2021 = camelot.read_pdf("2021.pdf", flavor='stream', pages='158')
df_2021 = tables_2021[0].df
df_2021.columns = df_2021.iloc[3]
df_2021 = df_2021.iloc[9:, [1, 32]]
df_2021 = df_2021.iloc[:-1, :]
df_2021.set_axis(["Kabupaten/Kota", "Jumlah"], axis=1, inplace=True)
df_2021.reset_index(drop=True, inplace=True)
df_2021['Jumlah'] = df_2021['Jumlah'].str.replace("-", "0")
df_2021['Jumlah'] = df_2021['Jumlah'].replace('', '0')
df_2021['Jumlah'] = df_2021['Jumlah'].str.replace(",", "")
df_2021['Jumlah'] = pd.to_numeric(df_2021['Jumlah'], errors='coerce').fillna(0).astype(int)
df_2021['tahun'] = "2021"

# Dataframe untuk tahun 2020
tables_2020 = camelot.read_pdf("2020.pdf", flavor='stream', pages='149')
df_2020 = tables_2020[0].df
df_2020 = df_2020.iloc[10:, [1, 30]]
df_2020 = df_2020.iloc[:-1, :]
df_2020.set_axis(["Kabupaten/Kota", "Jumlah"], axis=1, inplace=True)
df_2020.reset_index(drop=True, inplace=True)
df_2020['Jumlah'] = df_2020['Jumlah'].str.replace("-", "0")
df_2020['Jumlah'] = df_2020['Jumlah'].replace('', '0')
df_2020['Jumlah'] = df_2020['Jumlah'].str.replace(".", "")
df_2020['Jumlah'] = pd.to_numeric(df_2020['Jumlah'], errors='coerce').fillna(0).astype(int)
df_2020['tahun'] = "2020"

# Dataframe untuk tahun 2019
tables_2019 = camelot.read_pdf("2019.pdf", flavor='stream', pages='139')
df_2019 = tables_2019[0].df
df_2019 = df_2019.iloc[11:, [1, 27]]
df_2019.set_axis(["Kabupaten/Kota", "Jumlah"], axis=1, inplace=True)
df_2019.reset_index(drop=True, inplace=True)
df_2019['Jumlah'] = df_2019['Jumlah'].str.replace("-", "0")
df_2019['Jumlah'] = df_2019['Jumlah'].replace('', '0')
df_2019['Jumlah'] = df_2019['Jumlah'].str.replace(".", "")
df_2019['Jumlah'] = pd.to_numeric(df_2019['Jumlah'], errors='coerce').fillna(0).astype(int)
df_2019['tahun'] = "2019"

# Gabungkan semua DataFrames
df_gabung = pd.concat([df_2022, df_2021, df_2020, df_2019], ignore_index=True)

# Tampilkan hasil gabungan
print(df_gabung)


  df_2020['Jumlah'] = df_2020['Jumlah'].str.replace(".", "")


              Kabupaten/Kota  Jumlah tahun
0            KABUPATEN BOGOR     298  2022
1         KABUPATEN SUKABUMI      31  2022
2          KABUPATEN CIANJUR       0  2022
3          KABUPATEN BANDUNG      13  2022
4            KABUPATEN GARUT       6  2022
5      KABUPATEN TASIKMALAYA      10  2022
6           KABUPATEN CIAMIS       8  2022
7         KABUPATEN KUNINGAN      63  2022
8          KABUPATEN CIREBON     251  2022
9       KABUPATEN MAJALENGKA      51  2022
10        KABUPATEN SUMEDANG      27  2022
11       KABUPATEN INDRAMAYU      77  2022
12          KABUPATEN SUBANG      13  2022
13      KABUPATEN PURWAKARTA       0  2022
14        KABUPATEN KARAWANG     276  2022
15          KABUPATEN BEKASI      66  2022
16   KABUPATEN BANDUNG BARAT       0  2022
17     KABUPATEN PANGANDARAN       3  2022
18                KOTA BOGOR      75  2022
19             KOTA SUKABUMI      40  2022
20              KOTA BANDUNG       0  2022
21              KOTA CIREBON      45  2022
22         

  df_2019['Jumlah'] = df_2019['Jumlah'].str.replace(".", "")


In [50]:
### PELAYANAN KESEHATAN GIGI DAN MULUT MENURUT KECAMATAN DAN PUSKESMAS

import pandas as pd
import camelot

# DataFrame untuk tahun 2022
tables_2022 = camelot.read_pdf("2022.pdf", flavor='stream', pages='288')
df_2022 = tables_2022[0].df
df_2022.columns = df_2022.iloc[5]
df_2022 = df_2022.iloc[6:, [1, 3, 5, 9, 11, 13, 15]]
df_2022.reset_index(drop=True, inplace=True)
df_2022.iloc[26, 0] = "Jawa Barat"
df_2022.set_axis(["Kabupaten/Kota", "Jumlah Tumpatan Gigi Tetap", "Pencabutan Gigi Tetap", "Rasio Pencabutan",
                  "Jumlah Kasus Gigi", "Jumlah Kasus dirujuk", "% Rasio Dirujuk"], axis=1, inplace=True)
df_2022 = df_2022.replace('', '0')
df_2022 = df_2022.replace('-', '0')
for col in ['Rasio Pencabutan', '% Rasio Dirujuk']:
    df_2022[col] = df_2022[col].str.replace(',', '.').astype(float)

for col in ['Jumlah Tumpatan Gigi Tetap', 'Pencabutan Gigi Tetap', 'Jumlah Kasus Gigi', 'Jumlah Kasus dirujuk']:
    df_2022[col] = df_2022[col].str.replace('.', '').astype(int)
df_2022['tahun'] = "2022"
df_2022['unit_kerja'] = "puskesmas"

# DataFrame untuk tahun 2021
tables_2021 = camelot.read_pdf("2021.pdf", flavor='stream', pages='227')
df_2021 = tables_2021[0].df
df_2021.columns = df_2021.iloc[6]
df_2021 = df_2021.iloc[7:, [1, 3, 4, 6, 8, 10, 12]]
df_2021.reset_index(drop=True, inplace=True)
df_2021.iloc[27, 0] = "Jawa Barat"
df_2021.set_axis(["Kabupaten/Kota", "Jumlah Tumpatan Gigi Tetap", "Pencabutan Gigi Tetap", "Rasio Pencabutan",
                  "Jumlah Kasus Gigi", "Jumlah Kasus dirujuk", "% Rasio Dirujuk"], axis=1, inplace=True)
df_2021 = df_2021.replace('', '0')
df_2021 = df_2021.replace('-', '0')
for col in ['Rasio Pencabutan', '% Rasio Dirujuk']:
    df_2021[col] = df_2021[col].str.replace(',', '.').astype(float)

for col in ['Jumlah Tumpatan Gigi Tetap', 'Pencabutan Gigi Tetap', 'Jumlah Kasus Gigi', 'Jumlah Kasus dirujuk']:
    df_2021[col] = df_2021[col].str.replace(',', '').astype(int)
df_2021['tahun'] = "2021"
df_2021['unit_kerja'] = "puskesmas"

# DataFrame untuk tahun 2020
tables_2020 = camelot.read_pdf("2020.pdf", flavor='stream', pages='229')
df_2020 = tables_2020[0].df
df_2020 = df_2020.iloc[6:, [1, 3, 5, 7] + list(range(9, df_2020.shape[1]))]
df_2020.reset_index(drop=True, inplace=True)
df_2020.iloc[26, 0] = "Jawa Barat"
df_2020.set_axis(["Kabupaten/Kota", "Jumlah Tumpatan Gigi Tetap", "Pencabutan Gigi Tetap", "Rasio Pencabutan",
                  "Jumlah Kasus Gigi", "Jumlah Kasus dirujuk", "% Rasio Dirujuk"], axis=1, inplace=True)
df_2020 = df_2020.replace('', '0')
df_2020 = df_2020.replace('-', '0')
df_2020 = df_2020.replace('#DIV/0!', '0')
for col in ['Rasio Pencabutan', '% Rasio Dirujuk']:
    df_2020[col] = df_2020[col].str.replace(',', '.').astype(float)

for col in ['Jumlah Tumpatan Gigi Tetap', 'Pencabutan Gigi Tetap', 'Jumlah Kasus Gigi', 'Jumlah Kasus dirujuk']:
    df_2020[col] = df_2020[col].str.replace('.', '').astype(int)
df_2020['tahun'] = "2020"
df_2020['unit_kerja'] = "puskesmas"

# DataFrame untuk tahun 2019
tables_2019 = camelot.read_pdf("2019.pdf", flavor='stream', pages='203')
df_2019 = tables_2019[0].df
df_2019 = df_2019.iloc[6:, [1, 3] + list(range(5, df_2019.shape[1]))]
df_2019.reset_index(drop=True, inplace=True)
df_2019.iloc[22, 4] = "163839"
df_2019.iloc[22, 6] = "0,04"
df_2019.iloc[27, 0] = "Jawa Barat"
df_2019.set_axis(["Kabupaten/Kota", "Jumlah Tumpatan Gigi Tetap", "Pencabutan Gigi Tetap", "Rasio Pencabutan",
                  "Jumlah Kasus Gigi", "Jumlah Kasus dirujuk", "% Rasio Dirujuk"], axis=1, inplace=True)
df_2019 = df_2019.replace('', '0')
df_2019 = df_2019.replace('-', '0')
df_2019 = df_2019.replace('#DIV/0!', '0')
for col in ['Rasio Pencabutan', '% Rasio Dirujuk']:
    df_2019[col] = df_2019[col].str.replace(',', '.').astype(float)

for col in ['Jumlah Tumpatan Gigi Tetap', 'Pencabutan Gigi Tetap', 'Jumlah Kasus Gigi', 'Jumlah Kasus dirujuk']:
    df_2019[col] = df_2019[col].str.replace('.', '').astype(int)
df_2019['tahun'] = "2019"
df_2019['unit_kerja'] = "puskesmas"

# DataFrame untuk tahun 2018
tables_2018 = camelot.read_pdf("2018.pdf", flavor='stream', pages='178')
df_2018 = tables_2018[0].df
df_2018 = df_2018.iloc[5:, 1:]
df_2018.reset_index(drop=True, inplace=True)
df_2018.set_axis(["Kabupaten/Kota", "Jumlah Tumpatan Gigi Tetap", "Pencabutan Gigi Tetap", "Rasio Pencabutan"],
                 axis=1, inplace=True)
df_2018 = df_2018.replace('', '0')
df_2018 = df_2018.replace('-', '0')
df_2018 = df_2018.replace('#DIV/0!', '0')
for col in ['Rasio Pencabutan']:
    df_2018[col] = df_2018[col].str.replace(',', '.').astype(float)

for col in ['Jumlah Tumpatan Gigi Tetap', 'Pencabutan Gigi Tetap']:
    df_2018[col] = df_2018[col].str.replace('.', '').astype(int)
df_2018['tahun'] = "2018"
df_2018['unit_kerja'] = "puskesmas"
# Gabungkan semua DataFrame
df_gabung = pd.concat([df_2022, df_2021, df_2020, df_2019, df_2018], ignore_index=True)

# Tampilkan hasil gabunga

df_gabung

  df_2022[col] = df_2022[col].str.replace('.', '').astype(int)
  df_2020[col] = df_2020[col].str.replace('.', '').astype(int)
  df_2019[col] = df_2019[col].str.replace('.', '').astype(int)
  df_2018[col] = df_2018[col].str.replace('.', '').astype(int)


Unnamed: 0,Kabupaten/Kota,Jumlah Tumpatan Gigi Tetap,Pencabutan Gigi Tetap,Rasio Pencabutan,Jumlah Kasus Gigi,Jumlah Kasus dirujuk,% Rasio Dirujuk,tahun,unit_kerja
0,Kabupaten Bogor,10905,11277,0.97,161427.0,5016.0,3.11,2022,puskesmas
1,Kabupaten Sukabumi,4712,6911,0.68,61684.0,2723.0,4.41,2022,puskesmas
2,Kabupaten Cianjur,2022,3577,0.57,27559.0,1269.0,4.6,2022,puskesmas
3,Kabupaten Bandung,19783,20738,0.95,210294.0,9846.0,4.68,2022,puskesmas
4,Kabupaten Garut,4241,7070,0.6,50119.0,889.0,1.77,2022,puskesmas
5,Kabupaten Tasikmalaya,914,1131,0.81,9813.0,382.0,3.89,2022,puskesmas
6,Kabupaten Ciamis,1487,3096,0.48,32949.0,6040.0,18.33,2022,puskesmas
7,Kabupaten Kuningan,1466,2961,0.5,27405.0,3029.0,11.05,2022,puskesmas
8,Kabupaten Cirebon,5039,7660,0.66,114658.0,6551.0,5.71,2022,puskesmas
9,Kabupaten Majalengka,477,1906,0.25,14933.0,1869.0,12.52,2022,puskesmas


In [52]:
## PELAYANAN KESEHATAN GIGI DAN MULUT PADA ANAK SD DAN SETINGKAT MENURUT JENIS KELAMIN, KECAMATAN, DAN PUSKESMAS

tables = camelot.read_pdf("2021.pdf", flavor='stream', pages='228')

df = tables[0].df
# df.columns = df.iloc[7]

df = df.iloc[8:, [1, 2, 4, 5, 7, 8, 9, 10, 11] + list(range(13, 23)) + [24,25,27,28,31]]
df = df.iloc[:-1,: ]

df.reset_index(drop=True, inplace=True)
df = df.rename_axis(None, axis=1)
df.iloc[27,0] = "Jawa Barat"
df.set_axis(['Kabupaten/Kota', 'jumlah_SD/MI','jumlah_SD/MI_SG_Massal','%jumlah_SD/MI_SG_Massal',
             'jumlah_SD/MI_LG','%jumlah_SD/MI_LG',
            'jumlah_murid_SD/MI_L', 'jumlah_murid_SD/MI_P', 'jumlah_murid_SD/MI_LP',
            'jumlah_murid_SD/MI_L_Diperiksa','%jumlah_murid_SD/MI_L_Diperiksa','jumlah_murid_SD/MI_P_Diperiksa','%jumlah_murid_SD/MI_P_Diperiksa', 'jumlah_murid_SD/MI_LP_Diperiksa','%jumlah_murid_SD/MI_LP_Diperiksa',
            'jumlah_murid_SD/MI_L_PR','jumlah_murid_SD/MI_P_PR','jumlah_murid_SD/MI_LP_PR',
            'jumlah_murid_SD/MI_L_MP','%jumlah_murid_SD/MI_L_MP','jumlah_murid_SD/MI_P_MP','%jumlah_murid_SD/MI_P_MP','jumlah_murid_SD/MI_LP_MP','%jumlah_murid_SD/MI_LP_MP'], axis=1, inplace=True)
df = df.replace('', '0')
df = df.replace('-', '0')
for col in df.columns[df.columns.str.contains('%')]:
    df[col] = df[col].str.replace(',', '.').astype(float)

for col in df.columns[~(df.columns.str.contains('%') | (df.columns == 'Kabupaten/Kota'))]:
    df[col] = df[col].str.replace(',', '').astype(int)
df['tahun'] = "2021"
df

ValueError: could not convert string to float: ''

In [63]:
## Jumlah Tenaga Medis Per Kab/Kota Puskesmaas
tables = camelot.read_pdf("2021.pdf", flavor='stream', pages='183')

df = tables[0].df

df = df.iloc[:36,[1, 19,21,23,25,27,29] ]
df = df.iloc[9: ]
df.set_axis(['Kab/Kota','jml_dg_l','jml_dg_p','jml_dg_lp','jml_dgsp_l','jml_dgsp_p','jml_dgsp_lp'], axis=1, inplace=True)
df = df.replace('', '0')
df = df.replace('-', '0')

for col in df.columns[~(df.columns.str.contains('%') | (df.columns == 'Kab/Kota'))]:
    df[col] = df[col].str.replace(',', '').astype(int)

df

Unnamed: 0,Kab/Kota,jml_dg_l,jml_dg_p,jml_dg_lp,jml_dgsp_l,jml_dgsp_p,jml_dgsp_lp
9,Kabupaten Bogor,6,62,68,0,0,0
10,Kabupaten Sukabumi,10,19,29,0,0,0
11,Kabupaten Cianjur,15,51,66,0,0,0
12,Kabupaten Bandung,11,62,73,0,0,0
13,Kabupaten Garut,7,21,28,0,0,0
14,Kabupaten Tasikmalaya,6,15,21,0,0,0
15,Kabupaten Ciamis,6,21,27,0,0,0
16,Kabupaten Kuningan,5,11,16,0,0,0
17,Kabupaten Cirebon,11,32,43,0,0,0
18,Kabupaten Majalengka,7,11,18,0,0,0


In [64]:
# Menggabungkan kolom 'jml_dg_l', 'jml_dg_p', 'jml_dgsp_l', dan 'jml_dgsp_p' menjadi satu kolom 'jumlah'
df_dg = pd.concat([
    df.loc[:,['Kab/Kota','jml_dg_l']].rename(columns={'jml_dg_l':'jumlah'}).assign(jns_kelamin='laki-laki', profesi='dokter gigi', unit_kerja='puskesmas'),
    df.loc[:,['Kab/Kota','jml_dg_p']].rename(columns={'jml_dg_p':'jumlah'}).assign(jns_kelamin='perempuan', profesi='dokter gigi', unit_kerja='puskesmas'),
    df.loc[:,['Kab/Kota','jml_dgsp_l']].rename(columns={'jml_dgsp_l':'jumlah'}).assign(jns_kelamin='laki-laki', profesi='dokter gigi spesialis', unit_kerja='puskesmas'),
    df.loc[:,['Kab/Kota','jml_dgsp_p']].rename(columns={'jml_dgsp_p':'jumlah'}).assign(jns_kelamin='perempuan', profesi='dokter gigi spesialis', unit_kerja='puskesmas')
], ignore_index=True)

# Menghapus duplikat dan mengurutkan data berdasarkan 'Kab/Kota' dan 'jns_kelamin'
df_dg = df_dg.drop_duplicates().sort_values(['Kab/Kota','jns_kelamin'])
df_dg['tahun'] = "2021"
df_dg

Unnamed: 0,Kab/Kota,jumlah,jns_kelamin,profesi,unit_kerja,tahun
3,Kabupaten Bandung,11,laki-laki,dokter gigi,puskesmas,2021
57,Kabupaten Bandung,0,laki-laki,dokter gigi spesialis,puskesmas,2021
30,Kabupaten Bandung,62,perempuan,dokter gigi,puskesmas,2021
84,Kabupaten Bandung,0,perempuan,dokter gigi spesialis,puskesmas,2021
16,Kabupaten Bandung Barat,7,laki-laki,dokter gigi,puskesmas,2021
...,...,...,...,...,...,...
100,Kota Sukabumi,0,perempuan,dokter gigi spesialis,puskesmas,2021
25,Kota Tasikmalaya,4,laki-laki,dokter gigi,puskesmas,2021
79,Kota Tasikmalaya,0,laki-laki,dokter gigi spesialis,puskesmas,2021
52,Kota Tasikmalaya,18,perempuan,dokter gigi,puskesmas,2021


In [65]:
tables_page183 = camelot.read_pdf("2021.pdf", flavor='stream', pages='183')
df_page183 = tables_page183[0].df.iloc[37:, [1, 19, 21, 23, 25, 27, 29]]
df_page183 = df_page183.iloc[:-1]
df_page183.set_axis(['Kab/Kota', 'jml_dg_l', 'jml_dg_p', 'jml_dg_lp', 'jml_dgsp_l', 'jml_dgsp_p', 'jml_dgsp_lp'],
                    axis=1, inplace=True)
df_page183 = df_page183.replace('', '0')
df_page183 = df_page183.replace('-', '0')

# Convert numeric columns to integers
for col in df_page183.columns[~(df_page183.columns.str.contains('%') | (df_page183.columns == 'Kab/Kota'))]:
    df_page183[col] = df_page183[col].str.replace(',', '').astype(int)

# Read tables from page 184
tables_page184 = camelot.read_pdf("2021.pdf", flavor='stream', pages='184')
df_page184 = tables_page184[0].df.iloc[4:, [1, 18, 20, 22, 24, 26, 28]]
# df_page184 = df_page184.iloc[:-1]
df_page184.set_axis(['Kab/Kota', 'jml_dg_l', 'jml_dg_p', 'jml_dg_lp', 'jml_dgsp_l', 'jml_dgsp_p', 'jml_dgsp_lp'],
                    axis=1, inplace=True)
df_page184 = df_page184.replace('', '0')
df_page184 = df_page184.replace('-', '0')

# Convert numeric columns to integers
for col in df_page184.columns[~(df_page184.columns.str.contains('%') | (df_page184.columns == 'Kab/Kota'))]:
    df_page184[col] = df_page184[col].str.replace(',', '').astype(int)

# Combine the two DataFrames
df_combined = pd.concat([df_page183, df_page184], ignore_index=True)

df_combined

Unnamed: 0,Kab/Kota,jml_dg_l,jml_dg_p,jml_dg_lp,jml_dgsp_l,jml_dgsp_p,jml_dgsp_lp
0,Kabupaten Bogor,20,67,87,19,33,52
1,Kabupaten Sukabumi,8,19,27,7,1,8
2,Kabupaten Cianjur,15,51,66,1,2,3
3,Kabupaten Bandung,8,19,27,2,9,11
4,Kabupaten Garut,0,3,3,0,2,2
5,Kabupaten Tasikmalaya,1,2,3,0,0,0
6,Kabupaten Ciamis,2,6,8,0,2,2
7,Kabupaten Kuningan,7,12,19,0,1,1
8,Kabupaten Cirebon,3,17,20,7,8,15
9,Kabupaten Majalengka,1,5,6,1,0,1


In [67]:
df_dg = pd.concat([
    df_combined.loc[:,['Kab/Kota','jml_dg_l']].rename(columns={'jml_dg_l':'jumlah'}).assign(jns_kelamin='laki-laki', profesi='dokter gigi', unit_kerja='rumah sakit'),
    df_combined.loc[:,['Kab/Kota','jml_dg_p']].rename(columns={'jml_dg_p':'jumlah'}).assign(jns_kelamin='perempuan', profesi='dokter gigi', unit_kerja='rumah sakit'),
    df_combined.loc[:,['Kab/Kota','jml_dgsp_l']].rename(columns={'jml_dgsp_l':'jumlah'}).assign(jns_kelamin='laki-laki', profesi='dokter gigi spesialis', unit_kerja='rumah sakit'),
    df_combined.loc[:,['Kab/Kota','jml_dgsp_p']].rename(columns={'jml_dgsp_p':'jumlah'}).assign(jns_kelamin='perempuan', profesi='dokter gigi spesialis', unit_kerja='rumah sakit')
], ignore_index=True)

# Menghapus duplikat dan mengurutkan data berdasarkan 'Kab/Kota' dan 'jns_kelamin'
df_dg = df_dg.drop_duplicates().sort_values(['Kab/Kota','jns_kelamin'])
df_dg['tahun'] = "2021"
df_dg

Unnamed: 0,Kab/Kota,jumlah,jns_kelamin,profesi,unit_kerja,tahun
3,Kabupaten Bandung,8,laki-laki,dokter gigi,rumah sakit,2021
57,Kabupaten Bandung,2,laki-laki,dokter gigi spesialis,rumah sakit,2021
30,Kabupaten Bandung,19,perempuan,dokter gigi,rumah sakit,2021
84,Kabupaten Bandung,9,perempuan,dokter gigi spesialis,rumah sakit,2021
16,Kabupaten Bandung Barat,5,laki-laki,dokter gigi,rumah sakit,2021
...,...,...,...,...,...,...
100,Kota Sukabumi,4,perempuan,dokter gigi spesialis,rumah sakit,2021
25,Kota Tasikmalaya,6,laki-laki,dokter gigi,rumah sakit,2021
79,Kota Tasikmalaya,2,laki-laki,dokter gigi spesialis,rumah sakit,2021
52,Kota Tasikmalaya,16,perempuan,dokter gigi,rumah sakit,2021


In [68]:
## Klinik DIKLAT KESEHATAN
_garut = pd.DataFrame({
    'Kab/Kota': ['Kabupaten Garut'],
    'jml_dg_l': [4],
    'jml_dg_p': [7],
    'jml_dgsp_l': [1],
    'jml_dgsp_p': [0]
})

df_bekasi = pd.DataFrame({
    'Kab/Kota': ['Kabupaten Bekasi'],
    'jml_dg_l': [31],
    'jml_dg_p': [139],
    'jml_dgsp_l': [11],
    'jml_dgsp_p': [28]
})

df_combined = pd.concat([df_garut, df_bekasi], ignore_index=True)

df_dg = pd.concat([
    df_combined.loc[:,['Kab/Kota','jml_dg_l']].rename(columns={'jml_dg_l':'jumlah'}).assign(jns_kelamin='laki-laki', profesi='dokter gigi', unit_kerja='klinik diklat kesehatan'),
    df_combined.loc[:,['Kab/Kota','jml_dg_p']].rename(columns={'jml_dg_p':'jumlah'}).assign(jns_kelamin='perempuan', profesi='dokter gigi', unit_kerja='klinik diklat kesehatan'),
    df_combined.loc[:,['Kab/Kota','jml_dgsp_l']].rename(columns={'jml_dgsp_l':'jumlah'}).assign(jns_kelamin='laki-laki', profesi='dokter gigi spesialis', unit_kerja='klinik diklat kesehatan'),
    df_combined.loc[:,['Kab/Kota','jml_dgsp_p']].rename(columns={'jml_dgsp_p':'jumlah'}).assign(jns_kelamin='perempuan', profesi='dokter gigi spesialis', unit_kerja='klinik diklat kesehatan')
], ignore_index=True)

# Menghapus duplikat dan mengurutkan data berdasarkan 'Kab/Kota' dan 'jns_kelamin'
df_dg = df_dg.drop_duplicates().sort_values(['Kab/Kota','jns_kelamin'])
df_dg['tahun'] = "2021"
df_dg

Unnamed: 0,Kab/Kota,jumlah,jns_kelamin,profesi,unit_kerja,tahun
1,Kabupaten Bekasi,31,laki-laki,dokter gigi,klinik diklat kesehatan,2021
5,Kabupaten Bekasi,11,laki-laki,dokter gigi spesialis,klinik diklat kesehatan,2021
3,Kabupaten Bekasi,139,perempuan,dokter gigi,klinik diklat kesehatan,2021
7,Kabupaten Bekasi,28,perempuan,dokter gigi spesialis,klinik diklat kesehatan,2021
0,Kabupaten Garut,1,laki-laki,dokter gigi,klinik diklat kesehatan,2021
4,Kabupaten Garut,0,laki-laki,dokter gigi spesialis,klinik diklat kesehatan,2021
2,Kabupaten Garut,1,perempuan,dokter gigi,klinik diklat kesehatan,2021
6,Kabupaten Garut,0,perempuan,dokter gigi spesialis,klinik diklat kesehatan,2021


In [69]:
## Klinik Dinas Kesehatan
data_garut = {'Kab/Kota': 'Kabupaten Garut',
              'jml_dg_l': 1,
              'jml_dg_p': 1,
              'jml_dgsp_l': 0,
              'jml_dgsp_p': 0}

data_bandung = {'Kab/Kota': 'Kota Bandung',
                'jml_dg_l': 34,
                'jml_dg_p': 119,
                'jml_dgsp_l': 10,
                'jml_dgsp_p': 23}

data_cirebon = {'Kab/Kota': 'Kota Cirebon',
                 'jml_dg_l': 4,
                 'jml_dg_p': 16,
                 'jml_dgsp_l': 0,
                 'jml_dgsp_p': 0}

data_tasikmalaya = {'Kab/Kota': 'Kota Tasikmalaya',
                    'jml_dg_l': 24,
                    'jml_dg_p': 44,
                    'jml_dgsp_l': 18,
                    'jml_dgsp_p': 20}

df_garut = pd.DataFrame([data_garut])
df_bandung = pd.DataFrame([data_bandung])
df_cirebon = pd.DataFrame([data_cirebon])
df_tasikmalaya = pd.DataFrame([data_tasikmalaya])

df_combined = pd.concat([df_garut, df_bandung, df_cirebon, df_tasikmalaya], ignore_index=True)

df_dg = pd.concat([
    df_combined.loc[:,['Kab/Kota','jml_dg_l']].rename(columns={'jml_dg_l':'jumlah'}).assign(jns_kelamin='laki-laki', profesi='dokter gigi', unit_kerja='klinik DINKES'),
    df_combined.loc[:,['Kab/Kota','jml_dg_p']].rename(columns={'jml_dg_p':'jumlah'}).assign(jns_kelamin='perempuan', profesi='dokter gigi', unit_kerja='klinik DINKES'),
    df_combined.loc[:,['Kab/Kota','jml_dgsp_l']].rename(columns={'jml_dgsp_l':'jumlah'}).assign(jns_kelamin='laki-laki', profesi='dokter gigi spesialis', unit_kerja='klinik DINKES'),
    df_combined.loc[:,['Kab/Kota','jml_dgsp_p']].rename(columns={'jml_dgsp_p':'jumlah'}).assign(jns_kelamin='perempuan', profesi='dokter gigi spesialis', unit_kerja='klinik DINKES')
], ignore_index=True)

# Menghapus duplikat dan mengurutkan data berdasarkan 'Kab/Kota' dan 'jns_kelamin'
df_dg = df_dg.drop_duplicates().sort_values(['Kab/Kota','jns_kelamin'])
df_dg['tahun'] = "2021"
df_dg

Unnamed: 0,Kab/Kota,jumlah,jns_kelamin,profesi,unit_kerja,tahun
0,Kabupaten Garut,1,laki-laki,dokter gigi,klinik DINKES,2021
8,Kabupaten Garut,0,laki-laki,dokter gigi spesialis,klinik DINKES,2021
4,Kabupaten Garut,1,perempuan,dokter gigi,klinik DINKES,2021
12,Kabupaten Garut,0,perempuan,dokter gigi spesialis,klinik DINKES,2021
1,Kota Bandung,34,laki-laki,dokter gigi,klinik DINKES,2021
9,Kota Bandung,10,laki-laki,dokter gigi spesialis,klinik DINKES,2021
5,Kota Bandung,119,perempuan,dokter gigi,klinik DINKES,2021
13,Kota Bandung,23,perempuan,dokter gigi spesialis,klinik DINKES,2021
2,Kota Cirebon,4,laki-laki,dokter gigi,klinik DINKES,2021
10,Kota Cirebon,0,laki-laki,dokter gigi spesialis,klinik DINKES,2021


In [15]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 9 to 35
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Kab/Kota     27 non-null     object
 1   jml_dg_l     27 non-null     int32 
 2   jml_dg_p     27 non-null     int32 
 3   jml_dg_lp    27 non-null     int32 
 4   jml_dgsp_l   27 non-null     int32 
 5   jml_dgsp_p   27 non-null     int32 
 6   jml_dgsp_lp  27 non-null     int32 
dtypes: int32(6), object(1)
memory usage: 996.0+ bytes
None


# Data Tahap 1

In [5]:
def check_for_jabatan(page):
    '''
    Fungsi untuk mengecek keberadaan informasi jurusan pilihan
    Input: page (ex: pdf.pages[0])
    Output: 
        - dicitionary berisi informasi jurusan pilihan
    '''
    if "Jumlah Tenaga Kesehatan di Puskesmas" in page.extract_text():
        text = pg.extract_text()
        pendidikan = pg.extract_tables()[1][0][1]
        jurusan_strings = text.split("Jurusan : ")[1].split("Lokasi")[0]
        lokasi_front = ""
        jurusan = jurusan_strings.split("\n")[0]

        lokasi_string = text.split("Lokasi Formasi : ")[1].split("Jenis")[0]

        return {
            "kode_jurusan": jurusan.split(" - ")[0],
            "jurusan": jurusan.split(" - ")[1],
            "kode_lokasi": lokasi_string.split(" - ")[0],
            "lokasi_formasi": lokasi_string.split(" - ")[1].split("\n")[0],
            "pendidikan": pendidikan.replace("\n", " ")
        }
    else:
        return {}

def check_for_detail_tables(page):
    '''
    Fungsi untuk mengecek keberadaan tabel perorangan
    Input: page (ex: pdf.pages[0])
    Output: 
        - found (binary, iya tidaknya sebuah halaman punya tabel perorangan)
        - df_returned (tabel perorangan jika ada)
    '''
    found = False
    df_returned = pd.DataFrame()
    for table in pg.extract_tables():
        df = pd.DataFrame(table)

        if (df.shape[1] == 9): #jumlah kolom = 9 
            found = True
            df_returned = df
    return found, df_returned


def split_df(df_):
    '''
    Fungsi untuk split tabel perorangan. Kadang ada satu halaman dengan lebih dari satu tabel.
    Input: df_ (dataframe tabel perorangan)
    Output: 
        - list berisi beberapa dataframe untuk tiap individu
    '''
    dfs = []
    header_indexes = list(df_[df_[1]=="No Peserta"].index)
    header_indexes.append(len(df_))
    for i in range(len(header_indexes)-1):
        splitted_df = df_.iloc[header_indexes[i]: header_indexes[i+1], :]
        splitted_df.index = range(len(splitted_df))
        dfs.append(splitted_df)
    return dfs

def get_info_from_table(df_, idx):
    '''
    Fungsi untuk mengekstrak informasi dari tabel perorangan 
    Input: df_ (dataframe tabel perorangan)
    Output: 
        - dicitionary berisi informasi perorangan yang telah diekstrak
    '''
    base_data =  {
        "no_peserta": df_.iloc[idx,1],
        "kode_pendidikan": df_.iloc[idx,2],
        "total_twk": df_.iloc[idx,4],
        "total_tiu": df_.iloc[idx,5],
        "total_tkp": df_.iloc[idx,6],
        "total_skd": df_.iloc[idx,7],
        "keterangan": df_.iloc[idx,8]
    }

    return {**base_data}

In [7]:
start_index = 0
end_index = 929
pdf = pdfplumber.open('datasets/Lampiran B-099.02720.06.2022 Pengumuman Hasil Tahap 1 Tahun 2022.pdf')

# start iterating
result = []
last_jabatan = {}

start_time = dt.datetime.now()
start_time = dt.datetime.now()
for i in range(start_index, end_index):
    pg = pdf.pages[i]

    # jika halaman tsb ada info tentang lowongan, simpan
    current_jabatan = check_for_jabatan(pg)
    if current_jabatan != {}:
        last_jabatan = current_jabatan
    
    is_detail_found, detail_df = check_for_detail_tables(pg)
    # jika ketemu ada tabel perorangan
    if is_detail_found:
        splitted_df = split_df(detail_df)
        for df_ in splitted_df:
            for i in range(2, len(df_)):
                details = get_info_from_table(df_, i)
                if current_jabatan == {}:
                    # kalo ada info lowongan di halaman yang sama, pakai info lowongan tsb
                    details.update(last_jabatan)
                else:
                    # kalo ga, pake info lowongan terakhir
                    details.update(current_jabatan)
                    last_jabatan = current_jabatan
                result.append(details)

    # untuk logging
    if i%100 == 99:
        curr_time = dt.datetime.now()
        print("Done for "+str(i), curr_time-start_time)
        start_time = dt.datetime.now()

res = pd.DataFrame(result)


OSError: [Errno 22] Invalid argument: 'spmb_0_929_2024-02-18 13:35:49.467388.csv'

In [9]:
res.to_csv('Tahap 1.csv')