# Load Library

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os

# Asumsi data memiliki kolom 'month', 'cure_rate_with_counseling', 'cure_rate_without_counseling'
# path_raw = './data/IK Rumah Tangga/dataIKRumahTangga10_22_2024, 14_07_55.xlsx'
# path_cleaned = './data/cleaned/IK Rumah Tangga/'

# data = pd.read_excel(path_raw, header=3)


#  Cleaning Data RT & Non RT 

Data RT dan Non RT memiliki pattern yang bisa di manfaatkan untuk dilakukan cleaning, masing-masing data ini memiliki dua tipe data ada data untuk pasien dan data untuk keluarga pasien, untuk melakukan pengolahan lebih lanjut kedua tipe data ini perlu dipisahkan, dan untuk melakukan pemisahan ini, ada dua fungsi pembantu yang digunakan.
1. fungsi doClean: fungsi ini berfungsi untuk melakukan pembersihan seluruh file data mentah yang ada di RT & Non RT, pungsi ini melakukan pemggilan fungsi extract_data untuk memcah tipe data dan melakukan penyimpanan data ke output name yang ditentukan.
2. fungsi extract_data: fungsi ini berguna untuk memecah tipe data (pasien dan family) berdasarkan pola yang sudah ada, dimana untuk data family akan selalu memiliki nilai null di kolom No, sedangkan pasien sebaliknya.  

In [15]:
def extract_data(data, header_list, pasien=False):
    data_list = []
    
    for index, row in data.iterrows():
        if pasien:
            if type(row['No']) == str:
                if type(pd.to_numeric(row['No'], errors='coerce')) == np.int64:
                    data_entry = []
                    for item in row[:len(header_list)]:
                        data_entry.append(item)
                    data_list.append(data_entry)
        else:  # family data
            if type(row['No']) == float:
                data_entry = []
                for item in row[1:]:
                    data_entry.append(item)
                data_list.append(data_entry)
                
    return pd.DataFrame(data_list, columns=header_list)

def doClean(path_raw, output_pasien, output_family, header_list_pasien, header_list_family):
    file_names = [f for f in os.listdir(path_raw) if f.endswith('.xlsx') and 'combined' not in f.lower()]
    data_pasien_combined = pd.DataFrame(columns=header_list_pasien)
    data_family_combined = pd.DataFrame(columns=header_list_family)

    for filename in file_names:
        print("Nama file:", filename, flush=True)
        file_path = os.path.join(path_raw, filename)
        
        # Membaca data dari file Excel
        data = pd.read_excel(file_path, header=3)

        # Ekstrak data pasien dan keluarga
        data_pasien = extract_data(data, header_list_pasien, True)
        data_family = extract_data(data, header_list_family, False)
        
        data_pasien_combined = pd.concat([data_pasien_combined, data_pasien], ignore_index=True)
        data_family_combined = pd.concat([data_family_combined, data_family], ignore_index=True)
    
    # export csv
    data_pasien_combined.to_csv(f"{path_raw}{output_pasien}.csv", index=False)
    data_family_combined.to_csv(f"{path_raw}{output_family}.csv", index=False)

    # export excel
    data_pasien_combined.to_excel(f"{path_raw}{output_pasien}.xlsx", sheet_name='Data Keluarga', index=False)
    data_family_combined.to_excel(f"{path_raw}{output_family}.xlsx", sheet_name='Data Keluarga', index=False)

    return data_pasien_combined, data_family_combined

## Cleaning Data RT

pada tahap ini data RT akan di bersihkan, kemudian header kolom di tentukan secara explisit karna setiap data(RT & Non RT) nama kolomnya berbeda.

In [16]:
header_list_pasien = [
    'No', 'Tanggal Data', 'Sumber Data', 'Kegiatan IK', 'Fasyankes', 
    'Tahun Index', 'Semester Index', 'ID Pasien', 'Person ID SITB', 
    'Nomor Register', 'Nama Index', 'Tanggal Lahir', 'Jenis Kelamin', 
    'Umur', 'Alamat', 'Provinsi', 'Kota Kab', 'Kecamatan', 
    'Penyuluhan', 'Tanggal Penyuluhan', 'Waktu Penyuluhan', 'Fasyankes',
    'Jenis Fasyankes', 'SR', 'SSR', 'Kader', 'Jenis Kader', 
    'Verifikasi', 'Mobile'
]

header_list_family = [
    'No', 'Tanggal Kegiatan', 'Person ID SITB', 'ID Pasien', 
    'Nama Index', 'Kader', 'Jenis Kader', 'Fasyankes', 'NIK', 
    'Nama Kontak', 'Tanggal Lahir', 'Jenis Kelamin', 'Umur', 
    'Alamat', 'Jenis Kunjungan', 'Kontak Serumah', 'Batuk', 
    'Sesak Nafas', 'Berkeringat malam hari tanpa kegiatan', 
    'Demam meriang >1 bulan', 'DM', 'Lansia >60 th', 'Ibu Hamil', 
    'Perokok', 'Pernah berobat TBC tapi tidak tuntas', 'Fasyankes', 
    'Hasil Pemeriksaan', 'Tanggal Pemberian PP INH pada anak <5 th', 
    'Keterangan', 'Dikunjungi', 'Dirujuk', 'Rujukan', 'SR', 
    'SSR', 'Mobile', 'Tgl Revisit'
]

# Path folder
path_raw = './data/IK Rumah Tangga/'
data_pasien_combined, data_family_combined = doClean(
    path_raw=path_raw, 
    output_pasien="rt_pasien_combined",
    output_family="rt_family_combined",
    header_list_pasien=header_list_pasien,
    header_list_family=header_list_family
    )

# Menampilkan hasil akhir
display("Data Pasien:")
display(data_pasien_combined)

display("Data Keluarga:")
display(data_family_combined)

Nama file: dataIKRumahTangga10_22_2024, 14_07_55 - Copy.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_07_55.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_08_22.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_10_34.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_11_29.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_12_17.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_13_28.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_14_38.xlsx


'Data Pasien:'

Unnamed: 0,No,Tanggal Data,Sumber Data,Kegiatan IK,Fasyankes,Tahun Index,Semester Index,ID Pasien,Person ID SITB,Nomor Register,...,Tanggal Penyuluhan,Waktu Penyuluhan,Fasyankes.1,Jenis Fasyankes,SR,SSR,Kader,Jenis Kader,Verifikasi,Mobile
0,1,30-06-2021,Fasyankes,,Puskesmas,2020,0,IK-212635,',,...,,,UNTER IWES,,Nusa Tenggara Barat,Sumbawa,Hajriati,Kader,1,0
1,2,30-06-2021,Fasyankes,,Puskesmas,2021,0,IK-212623,',,...,,,MOYO HILIR,Pemerintah,Nusa Tenggara Barat,Sumbawa,Hamnawati,Kader,1,0
2,3,30-06-2021,Fasyankes,,Puskesmas,2021,0,IK-212616,',,...,,,MOYO HILIR,Pemerintah,Nusa Tenggara Barat,Sumbawa,Hamnawati,Kader,1,0
3,4,30-06-2021,Fasyankes,,Puskesmas,2021,0,IK-212598,',,...,,,MOYO HILIR,Pemerintah,Nusa Tenggara Barat,Sumbawa,siti siah,Kader,1,0
4,5,30-06-2021,Fasyankes,,Puskesmas,2021,0,IK-212576,',,...,,,MOYO HILIR,Pemerintah,Nusa Tenggara Barat,Sumbawa,siti siah,Kader,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14403,1844,11-01-2024,Fasyankes,,Puskesmas,2023,2,IK-678345,'2023000062780342,0065,...,,,KOTARAJA,Pemerintah,Nusa Tenggara Barat,Lombok Timur,AIDA MAHDALENA,Kader,1,0
14404,1845,11-01-2024,Fasyankes,,Puskesmas,2023,2,IK-678344,'2023000165950015,0395,...,,,KOTARAJA,Pemerintah,Nusa Tenggara Barat,Lombok Timur,AIDA MAHDALENA,Kader,1,0
14405,1846,09-01-2024,Fasyankes,,Puskesmas,2023,2,IK-678175,'2023000062840793,04,...,,,KERONGKONG,Pemerintah,Nusa Tenggara Barat,Lombok Timur,ZULITA,Kader,1,0
14406,1847,08-01-2024,Fasyankes,,Puskesmas,2023,2,IK-678161,'2023000062811099,08,...,,,LENDANG NANGKA,Pemerintah,Nusa Tenggara Barat,Lombok Timur,Baiq Patriah,Kader,1,0


'Data Keluarga:'

Unnamed: 0,No,Tanggal Kegiatan,Person ID SITB,ID Pasien,Nama Index,Kader,Jenis Kader,Fasyankes,NIK,Nama Kontak,...,Hasil Pemeriksaan,Tanggal Pemberian PP INH pada anak <5 th,Keterangan,Dikunjungi,Dirujuk,Rujukan,SR,SSR,Mobile,Tgl Revisit
0,1,2021-06-13,,IK-212635,M. Insani Akbar,Hajriati,Kader,UNTER IWES,'0000000000000000,Halima,...,TIDAK ADA,0000-00-00,,1,0,0,Nusa Tenggara Barat,Sumbawa,,
1,2,2021-06-13,,IK-212635,M. Insani Akbar,Hajriati,Kader,UNTER IWES,'0000000000000000,Bambang,...,TIDAK ADA,0000-00-00,,1,0,0,Nusa Tenggara Barat,Sumbawa,,
2,3,2021-06-13,,IK-212635,M. Insani Akbar,Hajriati,Kader,UNTER IWES,'0000000000000000,idayati,...,TIDAK ADA,0000-00-00,,1,0,0,Nusa Tenggara Barat,Sumbawa,,
3,4,2021-06-13,,IK-212635,M. Insani Akbar,Hajriati,Kader,UNTER IWES,'0000000000000000,Wanda,...,TIDAK ADA,0000-00-00,,1,0,0,Nusa Tenggara Barat,Sumbawa,,
4,5,2021-06-13,,IK-212635,M. Insani Akbar,Hajriati,Kader,UNTER IWES,'0000000000000000,Radiansyah,...,TIDAK ADA,0000-00-00,,1,0,0,Nusa Tenggara Barat,Sumbawa,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
256716,8,2023-11-29,2023000062811108,IK-678159,AMAQ MAKRUP,Baiq Patriah,Kader,LENDANG NANGKA,',SADIAH,...,TIDAK,0000-00-00,,1,0,0,Nusa Tenggara Barat,Lombok Timur,,0000-00-00
256717,9,2023-11-29,2023000062811108,IK-678159,AMAQ MAKRUP,Baiq Patriah,Kader,LENDANG NANGKA,',SARTINI,...,TIDAK,0000-00-00,,1,1,1,Nusa Tenggara Barat,Lombok Timur,,0000-00-00
256718,10,2023-11-29,2023000062811108,IK-678159,AMAQ MAKRUP,Baiq Patriah,Kader,LENDANG NANGKA,',MAWADATUL HALISAH,...,TIDAK,0000-00-00,,1,1,1,Nusa Tenggara Barat,Lombok Timur,,0000-00-00
256719,11,2023-11-29,2023000062811108,IK-678159,AMAQ MAKRUP,Baiq Patriah,Kader,LENDANG NANGKA,',JUMNAH,...,TIDAK,0000-00-00,,1,0,0,Nusa Tenggara Barat,Lombok Timur,,0000-00-00


## Cleaning Data Non RT

pada tahap ini data Non RT akan di bersihkan, kemudian header kolom di tentukan secara explisit karna setiap data(RT & Non RT) nama kolomnya berbeda.

In [17]:
header_list_pasien_no_rt = [
    "No",
    "Tanggal Data",
    "ID Pasien",
    "Nomor Register",
    "Nama Index",
    "Tanggal Lahir",
    "Jenis Kelamin",
    "Umur",
    "Alamat",
    "Provinsi",
    "Kota Kab",
    "Kecamatan",
    "Penyuluhan",
    "Tanggal Penyuluhan",
    "Waktu Penyuluhan",
    "Jenis Penyuluhan",
    "Fasyankes",
    "Jenis Fasyankes",
    "SR",
    "SSR",
    "Kader",
    "Jenis Kader",
    "Verifikasi",
    "Mobile"
]

header_list_family_no_rt = [
    "No",
    "Tanggal Kegiatan",
    "ID Pasien",
    "Nama Index",
    "Penyuluhan",
    "Tanggal Penyuluhan",
    "Waktu Penyuluhan",
    "Kader",
    "Jenis Kader",
    "Fasyankes",
    "NIK",
    "Nama Kontak",
    "Tanggal Lahir",
    "Jenis Kelamin",
    "Umur",
    "Alamat",
    "Jenis Kunjungan",
    "Kontak Serumah",
    "Batuk",
    "Sesak Nafas",
    "Berkeringat malam hari tanpa kegiatan",
    "Demam meriang >1 bulan",
    "DM",
    "Lansia >60 th",
    "Ibu Hamil",
    "Perokok",
    "Pernah berobat TBC tapi tidak tuntas",
    "Fasyankes",
    "Hasil Pemeriksaan",
    "Tanggal Pemberian PP INH pada anak <5 th",
    "Keterangan",
    "Dikunjungi",
    "Dirujuk",
    "Rujukan",
    "SR",
    "SSR",
    "Mobile"
]

# Path folder
path_raw = './data/Non Rumah Tangga/'
data_pasien_combined, data_family_combined = doClean(
    path_raw=path_raw, 
    output_pasien="noRT_pasien_combined",
    output_family="noRT_family_combined",
    header_list_pasien=header_list_pasien_no_rt,
    header_list_family=header_list_family_no_rt
    )

# Menampilkan hasil akhir
display("Data Pasien NonRT:")
display(data_pasien_combined)

display("Data Keluarga NonRT:")
display(data_family_combined)

Nama file: dataIKRumahTangga10_22_2024, 14_15_55.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_16_36.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_17_16.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_18_52.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_19_51.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_21_01.xlsx
Nama file: dataIKRumahTangga10_22_2024, 14_22_16.xlsx


'Data Pasien NonRT:'

Unnamed: 0,No,Tanggal Data,ID Pasien,Nomor Register,Nama Index,Tanggal Lahir,Jenis Kelamin,Umur,Alamat,Provinsi,...,Waktu Penyuluhan,Jenis Penyuluhan,Fasyankes,Jenis Fasyankes,SR,SSR,Kader,Jenis Kader,Verifikasi,Mobile
0,1,30-12-2021,,,,,,,,Nusa Tenggara Barat,...,,,LANGKO,,Nusa Tenggara Barat,Lombok Tengah,Baiq Sari Sumartini,Kader,0,0
1,1,30-06-2022,,,,0000-00-00,,0,,Nusa Tenggara Barat,...,Pagi,,ALAS BARAT,Pemerintah,Nusa Tenggara Barat,Sumbawa,Erni Retno Utami,Patient Suporter,1,0
2,2,30-06-2022,,,,0000-00-00,,0,,Nusa Tenggara Barat,...,Pagi,,ALAS BARAT,Pemerintah,Nusa Tenggara Barat,Sumbawa,Erni Retno Utami,Patient Suporter,1,0
3,3,30-06-2022,IK-339504,0000,M. Nasir,1953-07-01,,69,RT/RW 02/06 Lempeh,Nusa Tenggara Barat,...,Pagi,,UNIT II SUMBAWA,,Nusa Tenggara Barat,Sumbawa,Ratnawati,Kader,1,0
4,4,30-06-2022,IK-332376,0005,ERNAWATI,1988-06-10,Perempuan,33,Uma Sima Gang Mangga 4 RT/RW 02/04,Nusa Tenggara Barat,...,Siang,,UNIT II SUMBAWA,,Nusa Tenggara Barat,Sumbawa,Suhada,Kader,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4072,475,19-07-2024,IK-699936,,SAMIAH,1995-04-10,Perempuan,57,JL. LESTARI MONCOK TELAGA MAS RT 2 RW 300,Nusa Tenggara Barat,...,Siang,Budget,PEJERUK,,Nusa Tenggara Barat,Kota Mataram,MAISYARAH,Kader,1,0
4073,476,19-07-2024,IK-765135,,SLAMET HERMAWAN,1996-04-30,Laki-laki,28,JL. KH. MANSYUR I DASAN SARI RT 4 RW 38,Nusa Tenggara Barat,...,Siang,Budget,PEJERUK,,Nusa Tenggara Barat,Kota Mataram,MAISYARAH,Kader,1,0
4074,477,19-07-2024,,,,,,,,Nusa Tenggara Barat,...,Pagi,Budget,KARANG TALIWANG,,Nusa Tenggara Barat,Kota Mataram,ASA FITRIANI,Kader,1,0
4075,478,19-07-2024,IK-759778,,MUNAWARAH,1975-12-31,Perempuan,48,JL. SEMANGKA KARANG BAGU RT 3 RW 170,Nusa Tenggara Barat,...,Pagi,Budget,KARANG TALIWANG,,Nusa Tenggara Barat,Kota Mataram,ASA FITRIANI,Kader,1,0


'Data Keluarga NonRT:'

Unnamed: 0,No,Tanggal Kegiatan,ID Pasien,Nama Index,Penyuluhan,Tanggal Penyuluhan,Waktu Penyuluhan,Kader,Jenis Kader,Fasyankes,...,Fasyankes.1,Hasil Pemeriksaan,Tanggal Pemberian PP INH pada anak <5 th,Keterangan,Dikunjungi,Dirujuk,Rujukan,SR,SSR,Mobile
0,1,2022-06-20,,,Pertemuan RT/RW/Kel/Kec,2022-06-20,Pagi,Erni Retno Utami,Patient Suporter,ALAS BARAT,...,ALAS BARAT,Tidak TBC,0000-00-00,,1,1,1,Nusa Tenggara Barat,Sumbawa,
1,2,2022-06-20,,,Pertemuan RT/RW/Kel/Kec,2022-06-20,Pagi,Erni Retno Utami,Patient Suporter,ALAS BARAT,...,ALAS BARAT,Tidak TBC,0000-00-00,,1,1,1,Nusa Tenggara Barat,Sumbawa,
2,3,2022-06-20,,,Pertemuan RT/RW/Kel/Kec,2022-06-20,Pagi,Erni Retno Utami,Patient Suporter,ALAS BARAT,...,ALAS BARAT,,0000-00-00,,1,0,0,Nusa Tenggara Barat,Sumbawa,
3,4,2022-06-20,,,Pertemuan RT/RW/Kel/Kec,2022-06-20,Pagi,Erni Retno Utami,Patient Suporter,ALAS BARAT,...,ALAS BARAT,,0000-00-00,,1,0,0,Nusa Tenggara Barat,Sumbawa,
4,5,2022-06-20,,,Pertemuan RT/RW/Kel/Kec,2022-06-20,Pagi,Erni Retno Utami,Patient Suporter,ALAS BARAT,...,ALAS BARAT,Tidak TBC,0000-00-00,,1,1,1,Nusa Tenggara Barat,Sumbawa,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
78386,12,2024-07-13,IK-765126,ANIDA SALSABILA,Pertemuan PKK/Posyandu/Arisan,2024-07-13,Pagi,NUR AINUN,Kader,SELAPARANG,...,SELAPARANG,Tidak TBC,0000-00-00,N,1,1,1,Nusa Tenggara Barat,Kota Mataram,
78387,13,2024-07-13,IK-765126,ANIDA SALSABILA,Pertemuan PKK/Posyandu/Arisan,2024-07-13,Pagi,NUR AINUN,Kader,SELAPARANG,...,SELAPARANG,Tidak Ada,0000-00-00,,1,1,1,Nusa Tenggara Barat,Kota Mataram,
78388,14,2024-07-13,IK-765126,ANIDA SALSABILA,Pertemuan PKK/Posyandu/Arisan,2024-07-13,Pagi,NUR AINUN,Kader,SELAPARANG,...,SELAPARANG,Tidak Ada,0000-00-00,,1,1,1,Nusa Tenggara Barat,Kota Mataram,
78389,15,2024-07-13,IK-765126,ANIDA SALSABILA,Pertemuan PKK/Posyandu/Arisan,2024-07-13,Pagi,NUR AINUN,Kader,SELAPARANG,...,SELAPARANG,Tidak Ada,0000-00-00,,1,1,0,Nusa Tenggara Barat,Kota Mataram,


# TPT CLeaning

data TPT di merging keseluruhan untuk memudahkan dalam analisa data keseluruhan

In [28]:
path_raw = './data/TPT/'

# Membaca semua file Excel di dalam folder
file_names = [f for f in os.listdir(path_raw) if f.endswith('.xlsx') and 'combined' not in f.lower()]
header = [col.strip().lower() for col in [
    'No', 'Tanggal Data', 'Nama Index', 'Person ID', 'NIK', 'Nomor Register', 
    'Nama Balita ', 'Tanggal Lahir', 'Jenis Kelamin', 'Umur', 'Alamat', 
    'Provinsi', 'Kota Kab', 'Kecamatan', 'Fasyankes', 'SR', 'SSR', 'Kader', 
    'Verifikasi', 'Tanggal Mulai TPT', 'Hasil Akhir TPT', 'ID Pasien', 
    'Tanggal Kegiatan', 'Nama Kontak', 'Tanggal Lahir.1', 'Jenis Kelamin.1', 
    'Umur.1', 'Alamat.1', 'Jenis Kunjungan', 'Kontak Serumah', 'Batuk', 
    'Sesak Nafas', 'Berkeringat malam hari tanpa kegiatan', 
    'Demam meriang >1 bulan', 'DM', 'Lansia >60 th', 'Ibu Hamil', 
    'Perokok', 'Pernah berobat TBC tapi tidak tuntas', 'Fasyankes', 
    'Hasil Pemeriksaan', 'Tanggal Pemberian PP INH pada anak <5 th', 
    'Keterangan', 'Dikunjungi', 'Dirujuk', 'Rujukan'
]]
data_tpt_combined = pd.DataFrame(columns=header)

for file_name in file_names:
    file_path = os.path.join(path_raw, file_name)
    try:
        # Membaca file dengan header di baris ke-3
        df = pd.read_excel(file_path, engine='openpyxl', header=3)
        
        df.columns = [col.strip().lower() for col in df.columns]
        # Memeriksa apakah header file sesuai dengan header yang diharapkan
        if list(df.columns) == header:
            # Jika sesuai, gabungkan data
            data_tpt_combined = pd.concat([data_tpt_combined, df], ignore_index=True, axis=0)
        else:
            # Menentukan kolom yang tidak cocok
            missing_columns = set(header) - set(df.columns)
            extra_columns = set(df.columns) - set(header)
            
            print(f"File {file_name} dilewati karena header tidak sesuai.")
            if missing_columns:
                print(f"  - Kolom yang hilang: {missing_columns}")
            if extra_columns:
                print(f"  - Kolom tambahan: {extra_columns}")
            

            display(header)
            display(df.columns)
            break
    except Exception as e:
        print(f"Error membaca file {file_name}: {e}")

data_tpt_combined.to_csv(f"{path_raw}combined.csv", index=False)
data_tpt_combined.to_excel(f"{path_raw}combined.xlsx", index=False)

  data_tpt_combined = pd.concat([data_tpt_combined, df], ignore_index=True, axis=0)
