# Tuberculosis

[Tuberculosis](https://www.who.int/health-topics/tuberculosis), or TB, is an infectious disease that can [affect](https://www.healthdirect.gov.au/tuberculosis) [any part of the body](https://www.nhsinform.scot/illnesses-and-conditions/infections-and-poisoning/tuberculosis-tb), including the glands, bones and nervous system, most often affects the lungs. TB is caused by a type of bacteria (*Mycobacterium tuberculosis*).

In [1]:
# Data manipulation
import numpy as np
import pandas as pd
import datetime as dt

# Data visualization
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# Ignore warning
import warnings
warnings.filterwarnings('ignore')

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [4]:
print('NumPy', np.__version__)
print('Pandas', pd.__version__)
print('Matplotlib', mpl.__version__)
print('Seaborn', sns.__version__)

NumPy 1.23.5
Pandas 1.5.3
Matplotlib 3.7.1
Seaborn 0.12.2


In [5]:
# Read the data files
df_19 = pd.read_stata('/content/drive/MyDrive/Extra Space/Healthkathon/Data Sampel Final 2022/Kontekstual TB/TB2019_kepesertaan.dta')
df_20 = pd.read_stata('/content/drive/MyDrive/Extra Space/Healthkathon/Data Sampel Final 2022/Kontekstual TB/TB2020_kepesertaan.dta')
df_21 = pd.read_stata('/content/drive/MyDrive/Extra Space/Healthkathon/Data Sampel Final 2022/Kontekstual TB/TB2021_kepesertaan.dta')
# df_fktp_k = pd.read_stata('/content/drive/MyDrive/Extra Space/Healthkathon/Data Sampel Final 2022/Kontekstual TB/TB20152021_fktpkapitasi.dta', convert_categoricals=False)
df_fkrtl_1 = pd.read_stata('/content/drive/MyDrive/Extra Space/Healthkathon/Data Sampel Final 2022/Kontekstual TB/TB20152021_fkrtl.dta')
df_fktp_nk = pd.read_stata('/content/drive/MyDrive/Extra Space/Healthkathon/Data Sampel Final 2022/Kontekstual TB/TB20152021_fktpnonkapitasi.dta')
df_fkrtl_2 = pd.read_stata('/content/drive/MyDrive/Extra Space/Healthkathon/Data Sampel Final 2022/Kontekstual TB/TB20152021_fkrtldxsekunder.dta')

## 1. Hasil Data Sampel BPJS Kesehatan

### 1.1. Kepesertaan BPJS Kesehatan

#### 1.1.1. Tahun 2019

In [6]:
df_19.columns

Index(['PSTV01', 'PSTV02', 'PSTV03', 'PSTV04', 'PSTV05', 'PSTV06', 'PSTV07',
       'PSTV08', 'PSTV09', 'PSTV10', 'PSTV11', 'PSTV12', 'PSTV13', 'PSTV14',
       'PSTV15', 'PSTV16', 'PSTV17', 'PSTV18'],
      dtype='object')

In [7]:
df_19.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV03': 'Tanggal_Lahir_Peserta',
    'PSTV04': 'Hubungan_Keluarga',
    'PSTV05': 'Jenis_Kelamin',
    'PSTV06': 'Status_Perkawinan',
    'PSTV07': 'Kelas_Rawat',
    'PSTV08': 'Segmen_Peserta',
    'PSTV09': 'Provinsi_Tempat_Tinggal_Peserta',
    'PSTV10': 'Kabupaten_Kota_Tempat_Tinggal_Peserta',
    'PSTV11': 'Kepemilikan_Faskes',
    'PSTV12': 'Jenis_Faskes',
    'PSTV13': 'Provinsi_Faskes_Peserta',
    'PSTV14': 'Kabupaten_Kota_Faskes_Peserta',
    'PSTV15': 'Bobot',
    'PSTV16': 'Tahun_Sampel',
    'PSTV17': 'Status_Kepesertaan',
    'PSTV18': 'Tahun_Meninggal'
}, inplace=True)

In [8]:
print('\nData in TB2019_kepesertaan.dta')
df_19.head()


Data in TB2019_kepesertaan.dta


Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal
0,21611150,21611150,1957-09-12,PESERTA,PEREMPUAN,KAWIN,KELAS I,PPU,ACEH,ACEH BESAR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH BESAR,1.157796,2019,AKTIF,
1,94343049,96772919,1961-12-03,SUAMI,LAKI-LAKI,KAWIN,KELAS I,PPU,ACEH,ACEH TENGGARA,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TENGGARA,1.556821,2019,AKTIF,
2,83393824,298548714,2002-10-05,ANAK,LAKI-LAKI,BELUM KAWIN,KELAS I,PPU,ACEH,ACEH TENGGARA,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TENGGARA,1.159913,2019,AKTIF,
3,328537885,328537885,1989-07-13,PESERTA,PEREMPUAN,BELUM KAWIN,KELAS III,PBI APBD,ACEH,ACEH TAMIANG,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TAMIANG,9.436164,2019,AKTIF,
4,67805935,67805935,1972-11-13,PESERTA,LAKI-LAKI,KAWIN,KELAS I,PPU,ACEH,ACEH TAMIANG,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TAMIANG,0.899331,2019,AKTIF,


In [9]:
df_19.shape

(94966, 18)

In [10]:
df_19.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 94966 entries, 0 to 94965
Data columns (total 18 columns):
 #   Column                                 Non-Null Count  Dtype         
---  ------                                 --------------  -----         
 0   Nomor_Peserta                          94966 non-null  int32         
 1   Nomor_Keluarga                         94966 non-null  int32         
 2   Tanggal_Lahir_Peserta                  94966 non-null  datetime64[ns]
 3   Hubungan_Keluarga                      94966 non-null  category      
 4   Jenis_Kelamin                          94966 non-null  category      
 5   Status_Perkawinan                      94966 non-null  category      
 6   Kelas_Rawat                            94966 non-null  category      
 7   Segmen_Peserta                         94966 non-null  category      
 8   Provinsi_Tempat_Tinggal_Peserta        94966 non-null  category      
 9   Kabupaten_Kota_Tempat_Tinggal_Peserta  94966 non-null  catego

In [11]:
df_19.duplicated().sum()

0

In [12]:
df_19.isna().sum().sum()

90490

In [13]:
df_19.isna().sum()

Nomor_Peserta                                0
Nomor_Keluarga                               0
Tanggal_Lahir_Peserta                        0
Hubungan_Keluarga                            0
Jenis_Kelamin                                0
Status_Perkawinan                            0
Kelas_Rawat                                  0
Segmen_Peserta                               0
Provinsi_Tempat_Tinggal_Peserta              0
Kabupaten_Kota_Tempat_Tinggal_Peserta        0
Kepemilikan_Faskes                           0
Jenis_Faskes                                 0
Provinsi_Faskes_Peserta                      0
Kabupaten_Kota_Faskes_Peserta                0
Bobot                                        0
Tahun_Sampel                                 0
Status_Kepesertaan                           0
Tahun_Meninggal                          90490
dtype: int64

- Jumlah missing value pada fitur `Tahun_Meninggal` sebanyak 90.490.

In [14]:
df_19['Tahun_Meninggal'] = df_19['Tahun_Meninggal'].fillna(0).astype(int)
df_19['Tahun_Lahir'] = df_19['Tanggal_Lahir_Peserta'].dt.year

umur = np.where(df_19['Tahun_Meninggal'] != 0,
                df_19['Tahun_Meninggal'] - df_19['Tahun_Lahir'],
                df_19['Tahun_Sampel'] - df_19['Tahun_Lahir'])
df_19['Umur'] = umur.astype(int)

In [15]:
df_19.head()

Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
0,21611150,21611150,1957-09-12,PESERTA,PEREMPUAN,KAWIN,KELAS I,PPU,ACEH,ACEH BESAR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH BESAR,1.157796,2019,AKTIF,0,1957,62
1,94343049,96772919,1961-12-03,SUAMI,LAKI-LAKI,KAWIN,KELAS I,PPU,ACEH,ACEH TENGGARA,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TENGGARA,1.556821,2019,AKTIF,0,1961,58
2,83393824,298548714,2002-10-05,ANAK,LAKI-LAKI,BELUM KAWIN,KELAS I,PPU,ACEH,ACEH TENGGARA,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TENGGARA,1.159913,2019,AKTIF,0,2002,17
3,328537885,328537885,1989-07-13,PESERTA,PEREMPUAN,BELUM KAWIN,KELAS III,PBI APBD,ACEH,ACEH TAMIANG,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TAMIANG,9.436164,2019,AKTIF,0,1989,30
4,67805935,67805935,1972-11-13,PESERTA,LAKI-LAKI,KAWIN,KELAS I,PPU,ACEH,ACEH TAMIANG,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TAMIANG,0.899331,2019,AKTIF,0,1972,47


In [16]:
df_19.describe(include='all')

Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
count,94966.0,94966.0,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966.0,94966.0,94966,94966.0,94966.0,94966.0
unique,,,26362,5,2,3,3,5,35,515,9,3,34,514,,,3,,,
top,,,1960-07-01 00:00:00,PESERTA,LAKI-LAKI,KAWIN,KELAS III,PPU,JAWA TIMUR,BOGOR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,JAWA TIMUR,KOTA MEDAN,,,AKTIF,,,
freq,,,171,45375,50610,52192,55572,28232,9479,390,68772,68890,9473,346,,,85515,,,
first,,,1912-12-30 00:00:00,,,,,,,,,,,,,,,,,
last,,,2019-07-19 00:00:00,,,,,,,,,,,,,,,,,
mean,183028100.0,190326900.0,,,,,,,,,,,,,8.461007,2019.0,,95.160837,1981.904819,37.095181
std,159760700.0,160758800.0,,,,,,,,,,,,,19.109184,0.0,,427.873897,21.737231,21.737231
min,1394.0,3687.0,,,,,,,,,,,,,0.156804,2019.0,,0.0,1912.0,0.0
25%,43668000.0,45639710.0,,,,,,,,,,,,,1.154869,2019.0,,0.0,1964.0,20.0


#### 1.1.2. Tahun 2020

In [17]:
df_20.columns

Index(['PSTV01', 'PSTV02', 'PSTV03', 'PSTV04', 'PSTV05', 'PSTV06', 'PSTV07',
       'PSTV08', 'PSTV09', 'PSTV10', 'PSTV11', 'PSTV12', 'PSTV13', 'PSTV14',
       'PSTV15', 'PSTV16', 'PSTV17', 'PSTV18'],
      dtype='object')

In [18]:
df_20.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV03': 'Tanggal_Lahir_Peserta',
    'PSTV04': 'Hubungan_Keluarga',
    'PSTV05': 'Jenis_Kelamin',
    'PSTV06': 'Status_Perkawinan',
    'PSTV07': 'Kelas_Rawat',
    'PSTV08': 'Segmen_Peserta',
    'PSTV09': 'Provinsi_Tempat_Tinggal_Peserta',
    'PSTV10': 'Kabupaten_Kota_Tempat_Tinggal_Peserta',
    'PSTV11': 'Kepemilikan_Faskes',
    'PSTV12': 'Jenis_Faskes',
    'PSTV13': 'Provinsi_Faskes_Peserta',
    'PSTV14': 'Kabupaten_Kota_Faskes_Peserta',
    'PSTV15': 'Bobot',
    'PSTV16': 'Tahun_Sampel',
    'PSTV17': 'Status_Kepesertaan',
    'PSTV18': 'Tahun_Meninggal'
}, inplace=True)

In [19]:
print('\nData in TB2020_kepesertaan.dta')
df_20.head()


Data in TB2020_kepesertaan.dta


Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal
0,32853965,31945523,1958-11-27,SUAMI,LAKI-LAKI,KAWIN,KELAS I,PPU,ACEH,ACEH TENGAH,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TENGAH,1.531137,2020,MENINGGAL,2020.0
1,8555967,8555967,1936-07-01,PESERTA,LAKI-LAKI,KAWIN,KELAS I,BUKAN PEKERJA,ACEH,ACEH TENGAH,POLRI,KLINIK PRATAMA,ACEH,BIREUEN,0.998777,2020,AKTIF,
2,8797049,249479,1950-07-21,SUAMI,LAKI-LAKI,KAWIN,KELAS I,BUKAN PEKERJA,ACEH,ACEH SELATAN,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH SELATAN,30.096481,2020,TIDAK AKTIF,
3,83472658,54408870,2012-08-12,ANAK,PEREMPUAN,BELUM KAWIN,KELAS I,PPU,ACEH,ACEH BARAT,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH BARAT,9.837102,2020,AKTIF,
4,425874326,296852327,2004-12-30,ANAK,LAKI-LAKI,BELUM KAWIN,KELAS II,PPU,SUMATERA UTARA,TOBA SAMOSIR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA UTARA,TOBA SAMOSIR,1.038886,2020,AKTIF,


In [20]:
df_20.shape

(94966, 18)

In [21]:
df_20.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 94966 entries, 0 to 94965
Data columns (total 18 columns):
 #   Column                                 Non-Null Count  Dtype         
---  ------                                 --------------  -----         
 0   Nomor_Peserta                          94966 non-null  int32         
 1   Nomor_Keluarga                         94966 non-null  int32         
 2   Tanggal_Lahir_Peserta                  94966 non-null  datetime64[ns]
 3   Hubungan_Keluarga                      94966 non-null  category      
 4   Jenis_Kelamin                          94966 non-null  category      
 5   Status_Perkawinan                      94966 non-null  category      
 6   Kelas_Rawat                            94966 non-null  category      
 7   Segmen_Peserta                         94966 non-null  category      
 8   Provinsi_Tempat_Tinggal_Peserta        94966 non-null  category      
 9   Kabupaten_Kota_Tempat_Tinggal_Peserta  94966 non-null  catego

In [22]:
df_20.duplicated().sum()

0

In [23]:
df_20.isna().sum().sum()

87819

In [24]:
df_20.isna().sum()

Nomor_Peserta                                0
Nomor_Keluarga                               0
Tanggal_Lahir_Peserta                        0
Hubungan_Keluarga                            0
Jenis_Kelamin                                0
Status_Perkawinan                            0
Kelas_Rawat                                  0
Segmen_Peserta                               0
Provinsi_Tempat_Tinggal_Peserta              0
Kabupaten_Kota_Tempat_Tinggal_Peserta        0
Kepemilikan_Faskes                           0
Jenis_Faskes                                 0
Provinsi_Faskes_Peserta                      0
Kabupaten_Kota_Faskes_Peserta                0
Bobot                                        0
Tahun_Sampel                                 0
Status_Kepesertaan                           0
Tahun_Meninggal                          87819
dtype: int64

- Jumlah missing value pada fitur `Tahun_Meninggal` sebanyak 87.819.

In [25]:
df_20['Tahun_Meninggal'] = df_20['Tahun_Meninggal'].fillna(0).astype(int)
df_20['Tahun_Lahir'] = df_20['Tanggal_Lahir_Peserta'].dt.year

umur = np.where(df_20['Tahun_Meninggal'] != 0,
                df_20['Tahun_Meninggal'] - df_20['Tahun_Lahir'],
                df_20['Tahun_Sampel'] - df_20['Tahun_Lahir'])
df_20['Umur'] = umur.astype(int)

In [26]:
df_20.head()

Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
0,32853965,31945523,1958-11-27,SUAMI,LAKI-LAKI,KAWIN,KELAS I,PPU,ACEH,ACEH TENGAH,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TENGAH,1.531137,2020,MENINGGAL,2020,1958,62
1,8555967,8555967,1936-07-01,PESERTA,LAKI-LAKI,KAWIN,KELAS I,BUKAN PEKERJA,ACEH,ACEH TENGAH,POLRI,KLINIK PRATAMA,ACEH,BIREUEN,0.998777,2020,AKTIF,0,1936,84
2,8797049,249479,1950-07-21,SUAMI,LAKI-LAKI,KAWIN,KELAS I,BUKAN PEKERJA,ACEH,ACEH SELATAN,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH SELATAN,30.096481,2020,TIDAK AKTIF,0,1950,70
3,83472658,54408870,2012-08-12,ANAK,PEREMPUAN,BELUM KAWIN,KELAS I,PPU,ACEH,ACEH BARAT,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH BARAT,9.837102,2020,AKTIF,0,2012,8
4,425874326,296852327,2004-12-30,ANAK,LAKI-LAKI,BELUM KAWIN,KELAS II,PPU,SUMATERA UTARA,TOBA SAMOSIR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA UTARA,TOBA SAMOSIR,1.038886,2020,AKTIF,0,2004,16


In [27]:
df_20.describe(include='all')

Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
count,94966.0,94966.0,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966.0,94966.0,94966,94966.0,94966.0,94966.0
unique,,,26362,5,2,3,4,6,35,515,9,3,34,514,,,3,,,
top,,,1960-07-01 00:00:00,PESERTA,LAKI-LAKI,KAWIN,KELAS III,PPU,JAWA TIMUR,BOGOR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,JAWA TIMUR,KOTA MEDAN,,,AKTIF,,,
freq,,,171,46045,50610,52489,57629,28177,9492,382,68772,68890,9473,346,,,75608,,,
first,,,1912-12-30 00:00:00,,,,,,,,,,,,,,,,,
last,,,2019-07-19 00:00:00,,,,,,,,,,,,,,,,,
mean,183028100.0,190326900.0,,,,,,,,,,,,,8.461007,2020.0,,151.974812,1981.904819,38.047796
std,159760700.0,160758800.0,,,,,,,,,,,,,19.109184,0.0,,532.728912,21.737231,21.708006
min,1394.0,3687.0,,,,,,,,,,,,,0.156804,2020.0,,0.0,1912.0,0.0
25%,43668000.0,45639710.0,,,,,,,,,,,,,1.154869,2020.0,,0.0,1964.0,21.0


#### 1.1.3. Tahun 2021

In [28]:
df_21.columns

Index(['PSTV01', 'PSTV02', 'PSTV03', 'PSTV04', 'PSTV05', 'PSTV06', 'PSTV07',
       'PSTV08', 'PSTV09', 'PSTV10', 'PSTV11', 'PSTV12', 'PSTV13', 'PSTV14',
       'PSTV15', 'PSTV16', 'PSTV17', 'PSTV18'],
      dtype='object')

In [29]:
df_21.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV03': 'Tanggal_Lahir_Peserta',
    'PSTV04': 'Hubungan_Keluarga',
    'PSTV05': 'Jenis_Kelamin',
    'PSTV06': 'Status_Perkawinan',
    'PSTV07': 'Kelas_Rawat',
    'PSTV08': 'Segmen_Peserta',
    'PSTV09': 'Provinsi_Tempat_Tinggal_Peserta',
    'PSTV10': 'Kabupaten_Kota_Tempat_Tinggal_Peserta',
    'PSTV11': 'Kepemilikan_Faskes',
    'PSTV12': 'Jenis_Faskes',
    'PSTV13': 'Provinsi_Faskes_Peserta',
    'PSTV14': 'Kabupaten_Kota_Faskes_Peserta',
    'PSTV15': 'Bobot',
    'PSTV16': 'Tahun_Sampel',
    'PSTV17': 'Status_Kepesertaan',
    'PSTV18': 'Tahun_Meninggal'
}, inplace=True)

In [30]:
print('\nData in TB2021_kepesertaan.dta')
df_21.head()


Data in TB2021_kepesertaan.dta


Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal
0,32853965,31945523,1958-11-27,SUAMI,LAKI-LAKI,KAWIN,KELAS I,PPU,ACEH,ACEH TENGAH,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TENGAH,1.531137,2021,MENINGGAL,2020.0
1,8555967,8555967,1936-07-01,PESERTA,LAKI-LAKI,KAWIN,KELAS I,BUKAN PEKERJA,ACEH,ACEH TENGAH,POLRI,KLINIK PRATAMA,ACEH,BIREUEN,0.998777,2021,AKTIF,
2,8797049,249479,1950-07-21,SUAMI,LAKI-LAKI,KAWIN,KELAS I,BUKAN PEKERJA,ACEH,ACEH SELATAN,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH SELATAN,30.096481,2021,TIDAK AKTIF,
3,83472658,54408870,2012-08-12,ANAK,PEREMPUAN,BELUM KAWIN,KELAS I,PPU,ACEH,ACEH BARAT,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH BARAT,9.837102,2021,AKTIF,
4,425874326,296852327,2004-12-30,ANAK,LAKI-LAKI,BELUM KAWIN,KELAS II,PPU,SUMATERA UTARA,TOBA SAMOSIR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA UTARA,TOBA SAMOSIR,1.038886,2021,AKTIF,


In [31]:
df_21.shape

(94966, 18)

In [32]:
df_21.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 94966 entries, 0 to 94965
Data columns (total 18 columns):
 #   Column                                 Non-Null Count  Dtype         
---  ------                                 --------------  -----         
 0   Nomor_Peserta                          94966 non-null  int32         
 1   Nomor_Keluarga                         94966 non-null  int32         
 2   Tanggal_Lahir_Peserta                  94966 non-null  datetime64[ns]
 3   Hubungan_Keluarga                      94966 non-null  category      
 4   Jenis_Kelamin                          94966 non-null  category      
 5   Status_Perkawinan                      94966 non-null  category      
 6   Kelas_Rawat                            94966 non-null  category      
 7   Segmen_Peserta                         94966 non-null  category      
 8   Provinsi_Tempat_Tinggal_Peserta        94966 non-null  category      
 9   Kabupaten_Kota_Tempat_Tinggal_Peserta  94966 non-null  catego

In [33]:
df_21.duplicated().sum()

0

In [34]:
df_21.isna().sum().sum()

86312

In [35]:
df_21.isna().sum()

Nomor_Peserta                                0
Nomor_Keluarga                               0
Tanggal_Lahir_Peserta                        0
Hubungan_Keluarga                            0
Jenis_Kelamin                                0
Status_Perkawinan                            0
Kelas_Rawat                                  0
Segmen_Peserta                               0
Provinsi_Tempat_Tinggal_Peserta              0
Kabupaten_Kota_Tempat_Tinggal_Peserta        0
Kepemilikan_Faskes                           0
Jenis_Faskes                                 0
Provinsi_Faskes_Peserta                      0
Kabupaten_Kota_Faskes_Peserta                0
Bobot                                        0
Tahun_Sampel                                 0
Status_Kepesertaan                           0
Tahun_Meninggal                          86312
dtype: int64

- Jumlah missing value pada fitur `Tahun_Meninggal` sebanyak 86.312.

In [36]:
df_21['Tahun_Meninggal'] = df_21['Tahun_Meninggal'].fillna(0).astype(int)
df_21['Tahun_Lahir'] = df_21['Tanggal_Lahir_Peserta'].dt.year

umur = np.where(df_21['Tahun_Meninggal'] != 0,
                df_21['Tahun_Meninggal'] - df_21['Tahun_Lahir'],
                df_21['Tahun_Sampel'] - df_21['Tahun_Lahir'])
df_21['Umur'] = umur.astype(int)

In [37]:
df_21.head()

Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
0,32853965,31945523,1958-11-27,SUAMI,LAKI-LAKI,KAWIN,KELAS I,PPU,ACEH,ACEH TENGAH,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH TENGAH,1.531137,2021,MENINGGAL,2020,1958,62
1,8555967,8555967,1936-07-01,PESERTA,LAKI-LAKI,KAWIN,KELAS I,BUKAN PEKERJA,ACEH,ACEH TENGAH,POLRI,KLINIK PRATAMA,ACEH,BIREUEN,0.998777,2021,AKTIF,0,1936,85
2,8797049,249479,1950-07-21,SUAMI,LAKI-LAKI,KAWIN,KELAS I,BUKAN PEKERJA,ACEH,ACEH SELATAN,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH SELATAN,30.096481,2021,TIDAK AKTIF,0,1950,71
3,83472658,54408870,2012-08-12,ANAK,PEREMPUAN,BELUM KAWIN,KELAS I,PPU,ACEH,ACEH BARAT,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,ACEH BARAT,9.837102,2021,AKTIF,0,2012,9
4,425874326,296852327,2004-12-30,ANAK,LAKI-LAKI,BELUM KAWIN,KELAS II,PPU,SUMATERA UTARA,TOBA SAMOSIR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA UTARA,TOBA SAMOSIR,1.038886,2021,AKTIF,0,2004,17


In [38]:
df_21.describe(include='all')

Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Tanggal_Lahir_Peserta,Hubungan_Keluarga,Jenis_Kelamin,Status_Perkawinan,Kelas_Rawat,Segmen_Peserta,Provinsi_Tempat_Tinggal_Peserta,Kabupaten_Kota_Tempat_Tinggal_Peserta,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Bobot,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
count,94966.0,94966.0,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966,94966.0,94966.0,94966,94966.0,94966.0,94966.0
unique,,,26362,5,2,3,4,6,35,515,9,3,34,514,,,4,,,
top,,,1960-07-01 00:00:00,PESERTA,LAKI-LAKI,KAWIN,KELAS III,PPU,JAWA TIMUR,BOGOR,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,JAWA TIMUR,KOTA MEDAN,,,AKTIF,,,
freq,,,171,46915,50610,53023,57594,28408,9495,382,69160,69282,9514,409,,,69686,,,
first,,,1912-12-30 00:00:00,,,,,,,,,,,,,,,,,
last,,,2019-07-19 00:00:00,,,,,,,,,,,,,,,,,
mean,183028100.0,190326900.0,,,,,,,,,,,,,8.461007,2021.0,,184.045932,1981.904819,38.972738
std,159760700.0,160758800.0,,,,,,,,,,,,,19.109184,0.0,,581.24026,21.737231,21.663097
min,1394.0,3687.0,,,,,,,,,,,,,0.156804,2021.0,,0.0,1912.0,0.0
25%,43668000.0,45639710.0,,,,,,,,,,,,,1.154869,2021.0,,0.0,1964.0,22.0


### 1.2. Fasilitas Kesehatan Rujukan Tingkat Lanjutan (FKRTL) Diagnosis Primer

In [39]:
df_fkrtl_1.columns

Index(['PSTV01', 'PSTV02', 'PSTV15', 'FKP02', 'FKL02', 'FKL03', 'FKL04',
       'FKL05', 'FKL06', 'FKL07', 'FKL08', 'FKL09', 'FKL10', 'FKL11', 'FKL12',
       'FKL13', 'FKL14', 'FKL15', 'FKL15A', 'FKL16', 'FKL16A', 'FKL17',
       'FKL17A', 'FKL18', 'FKL18A', 'FKL19', 'FKL19A', 'FKL20', 'FKL21',
       'FKL22', 'FKL23', 'FKL25', 'FKL26', 'FKL27', 'FKL28', 'FKL29', 'FKL30',
       'FKL31', 'FKL32', 'FKL33', 'FKL34', 'FKL35', 'FKL36', 'FKL37', 'FKL38',
       'FKL39', 'FKL40', 'FKL41', 'FKL42', 'FKL43', 'FKL44', 'FKL45', 'FKL46',
       'FKL47', 'FKL48'],
      dtype='object')

In [40]:
df_fkrtl_1.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV15': 'Bobot',
    'FKP02' : 'ID_Kunjungan_FKTP',
    'FKL02' : 'ID_Kunjungan_FKRTL',
    'FKL03' : 'Tanggal_Datang_Kunjungan',
    'FKL04' : 'Tanggal_Pulang_Kunjungan',
    'FKL05' : 'Provinsi',
    'FKL06' : 'Kabupaten_Kota',
    'FKL07' : 'Kepemilikan',
    'FKL08' : 'Jenis',
    'FKL09' : 'Tipe',
    'FKL10' : 'Tingkat_Pelayanan',
    'FKL11' : 'Jenis_Poli',
    'FKL12' : 'Segmen_Peserta_Akses_Layanan',
    'FKL13' : 'Kelas_Rawat_Peserta',
    'FKL14' : 'Status_Pulang',
    'FKL15' : 'Kode_Nama_Diagnosis_Masuk_ICD_10',
    'FKL15A': 'Kode_Diagnosis_Masuk_ICD_10',
    'FKL16' : 'Kode_ICD_10_Diagnosis_Masuk',
    'FKL16A': 'Nama_Diagnosis_Masuk',
    'FKL17' : 'Kode_Nama_Diagnosis_Primer_ICD_10',
    'FKL17A': 'Kode_Diagnosis_Primer_ICD_10',
    'FKL18' : 'Kode_ICD_10_Diagnosis_Primer',
    'FKL18A': 'Nama_Diagnosis_Primer',
    'FKL19' : 'Kode_INACBGs',
    'FKL19A': 'Deskripsi_Kode_INACBGs',
    'FKL20' : 'INACBGs_Kode_Casemix_Main_Groups',
    'FKL21' : 'INACBGs_Tipe_Kelompok_Kasus',
    'FKL22' : 'INACBGs_Spesifikasi_Kelompok_Kasus',
    'FKL23' : 'INACBGs_Tingkat_Keparahan_Kelompok_Kasus',
    'FKL25' : 'Provinsi_Faskes_Perujuk',
    'FKL26' : 'Kabupaten_Kota_Faskes_Perujuk',
    'FKL27' : 'Kepemilikan_Faskes_Perujuk',
    'FKL28' : 'Jenis_Faskes_Perujuk',
    'FKL29' : 'Tipe_Faskes_Perujuk',
    'FKL30' : 'Jenis_Prosedur',
    'FKL31' : 'Tarif_Regional_INACBGs',
    'FKL32' : 'Group_Tarif_INACBGs',
    'FKL33' : 'Kode_Special_Sub-Acute_Groups_SA',
    'FKL34' : 'Tarif_Special_Sub-Acute_Groups_SA',
    'FKL35' : 'Kode_Special_Procedures_SP',
    'FKL36' : 'Deskripsi_Special_Procedures_SP',
    'FKL37' : 'Tarif_Special_Procedures_SP',
    'FKL38' : 'Kode_Special_Prosthesis_RR',
    'FKL39' : 'Deskripsi_Special_Prosthesis_RR',
    'FKL40' : 'Tarif_Special_Prosthesis_RR',
    'FKL41' : 'Kode_Special_Investigation_SI',
    'FKL42' : 'Deskripsi_Special_Investigation_SI',
    'FKL43' : 'Tarif_Special_Investigation_SI',
    'FKL44' : 'Kode_Special_Drugs_SD',
    'FKL45' : 'Deskripsi_Special_Drugs_SD',
    'FKL46' : 'Tarif_Special_Drugs_SD',
    'FKL47' : 'Biaya_Tagih_Faskes_Provider',
    'FKL48' : 'Biaya_Verifikasi'
}, inplace=True)

In [41]:
df_fkrtl_1.head()

Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Bobot,ID_Kunjungan_FKTP,ID_Kunjungan_FKRTL,Tanggal_Datang_Kunjungan,Tanggal_Pulang_Kunjungan,Provinsi,Kabupaten_Kota,Kepemilikan,Jenis,Tipe,Tingkat_Pelayanan,Jenis_Poli,Segmen_Peserta_Akses_Layanan,Kelas_Rawat_Peserta,Status_Pulang,Kode_Nama_Diagnosis_Masuk_ICD_10,Kode_Diagnosis_Masuk_ICD_10,Kode_ICD_10_Diagnosis_Masuk,Nama_Diagnosis_Masuk,Kode_Nama_Diagnosis_Primer_ICD_10,Kode_Diagnosis_Primer_ICD_10,Kode_ICD_10_Diagnosis_Primer,Nama_Diagnosis_Primer,Kode_INACBGs,Deskripsi_Kode_INACBGs,INACBGs_Kode_Casemix_Main_Groups,INACBGs_Tipe_Kelompok_Kasus,INACBGs_Spesifikasi_Kelompok_Kasus,INACBGs_Tingkat_Keparahan_Kelompok_Kasus,Provinsi_Faskes_Perujuk,Kabupaten_Kota_Faskes_Perujuk,Kepemilikan_Faskes_Perujuk,Jenis_Faskes_Perujuk,Tipe_Faskes_Perujuk,Jenis_Prosedur,Tarif_Regional_INACBGs,Group_Tarif_INACBGs,Kode_Special_Sub-Acute_Groups_SA,Tarif_Special_Sub-Acute_Groups_SA,Kode_Special_Procedures_SP,Deskripsi_Special_Procedures_SP,Tarif_Special_Procedures_SP,Kode_Special_Prosthesis_RR,Deskripsi_Special_Prosthesis_RR,Tarif_Special_Prosthesis_RR,Kode_Special_Investigation_SI,Deskripsi_Special_Investigation_SI,Tarif_Special_Investigation_SI,Kode_Special_Drugs_SD,Deskripsi_Special_Drugs_SD,Tarif_Special_Drugs_SD,Biaya_Tagih_Faskes_Provider,Biaya_Verifikasi
0,96934726,96934726,0.899331,,1000801150000582,2015-01-21,2015-01-21,PAPUA,JAYAPURA,Pemerintah kab/kota,Rumah sakit,RS Kelas C,RJTL,INT,PPU,Kelas 3,Sehat,Z09 Follow-up examination after treatment for ...,Z09,Z098,Follow-up examination after other treatment fo...,E11 Type 2 diabetes mellitus,E11,E119,Non-insulin-dependent diabetes mellitus withou...,Q-5-44-0,PENYAKIT KRONIS KECIL LAIN-LAIN,Q. Ambulatory Groups-Episodic,Rawat Jalan Bukan Prosedur,44,Rawat Jalan,PAPUA,JAYAPURA,PemKab,Puskesmas,NON RAWAT INAP,,regional 5,166300,,,,,,,,,,,,,,,166300,166300
1,11315168,11315168,0.938273,,1000801150001076,2015-01-13,2015-01-13,PAPUA,JAYAPURA,Pemerintah kab/kota,Rumah sakit,RS Kelas C,RJTL,UGD,PPU,Kelas 3,Sehat,J20 Acute bronchitis,J20,J209,"Acute bronchitis, unspecified","J40 Bronchitis, not specified as acute or chronic",J40,J40,"Bronchitis, not specified as acute or chronic",J-3-13-0,PROSEDUR TERAPI SALURAN PERNAFASAN,J. Respiratory system Groups,Prosedur Signifikan Rawat Jalan,13,Rawat Jalan,PAPUA,JAYAPURA,Swasta,Dokter Umum,DOKTER PRAKTER PERORANGAN,,regional 5,255200,,,,,,,,,,,,,,,255200,255200
2,48014275,20325942,0.998232,,1000801160000002,2016-01-02,2016-01-06,PAPUA,JAYAPURA,Pemerintah kab/kota,Rumah sakit,RS Kelas C,RITL,Missing,PBI APBN,Kelas 3,Sehat,T14 Injury of unspecified body region,T14,T141,Open wound of unspecified body region,T01 Open wounds involving multiple body regions,T01,T019,"Multiple open wounds, unspecified",L-4-13-I,"TRAUMA PADA KULIT, JARINGAN BAWAH KULIT DAN PA...","L. Skin, subcutaneous tissue & breast G",Rawat Inap Bukan Prosedur,13,Ringan (rawat inap keparahan 1),TIDAK DIRUJUK,TIDAK DIRUJUK,BUKAN RUJUKAN,BUKAN RUJUKAN,BUKAN RUJUKAN,,regional 5,1515300,,0.0,,,0.0,,,0.0,,,0.0,,,0.0,1515300,1515300
3,78552717,3459550,1.205653,,1000801160000219,2016-01-08,2016-01-08,PAPUA,JAYAPURA,Pemerintah kab/kota,Rumah sakit,RS Kelas C,RJTL,GIG,PBPU,Kelas 3,Sehat,K04 Diseases of pulp and periapical tissues,K04,K041,Necrosis of pulp,K02 Dental caries,K02,K020,Caries limited to enamel,Q-5-12-0,GIGI,Q. Ambulatory Groups-Episodic,Rawat Jalan Bukan Prosedur,12,Rawat Jalan,PAPUA,JAYAPURA,PemKab,Puskesmas,RAWAT INAP,,regional 5,128600,,0.0,,,0.0,,,0.0,,,0.0,,,0.0,128600,128600
4,48014275,20325942,0.998232,,1000801160000321,2016-01-11,2016-01-11,PAPUA,JAYAPURA,Pemerintah kab/kota,Rumah sakit,RS Kelas C,RJTL,BED,PBI APBN,Kelas 3,Sehat,Z09 Follow-up examination after treatment for ...,Z09,Z098,Follow-up examination after other treatment fo...,Z09 Follow-up examination after treatment for ...,Z09,Z098,Follow-up examination after other treatment fo...,Q-5-44-0,PENYAKIT KRONIS KECIL LAIN-LAIN,Q. Ambulatory Groups-Episodic,Rawat Jalan Bukan Prosedur,44,Rawat Jalan,PAPUA,SARMI,PemKab,Puskesmas,RAWAT INAP,,regional 5,166300,,0.0,,,0.0,,,0.0,,,0.0,,,0.0,166300,166300


In [42]:
df_fkrtl_1.shape

(1583242, 55)

In [43]:
df_fkrtl_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1583242 entries, 0 to 1583241
Data columns (total 55 columns):
 #   Column                                    Non-Null Count    Dtype         
---  ------                                    --------------    -----         
 0   Nomor_Peserta                             1583242 non-null  int32         
 1   Nomor_Keluarga                            1583242 non-null  int32         
 2   Bobot                                     1583242 non-null  float32       
 3   ID_Kunjungan_FKTP                         1583242 non-null  object        
 4   ID_Kunjungan_FKRTL                        1583242 non-null  object        
 5   Tanggal_Datang_Kunjungan                  1583242 non-null  datetime64[ns]
 6   Tanggal_Pulang_Kunjungan                  1583242 non-null  datetime64[ns]
 7   Provinsi                                  1583242 non-null  category      
 8   Kabupaten_Kota                            1583242 non-null  category      
 9   Ke

In [44]:
df_fkrtl_1.duplicated().sum()

0

In [45]:
df_fkrtl_1.isna().sum().sum()

306007

In [46]:
df_fkrtl_1.isna().sum()

Nomor_Peserta                                   0
Nomor_Keluarga                                  0
Bobot                                           0
ID_Kunjungan_FKTP                               0
ID_Kunjungan_FKRTL                              0
Tanggal_Datang_Kunjungan                        0
Tanggal_Pulang_Kunjungan                        0
Provinsi                                        0
Kabupaten_Kota                                  0
Kepemilikan                                     0
Jenis                                           0
Tipe                                            0
Tingkat_Pelayanan                               0
Jenis_Poli                                      0
Segmen_Peserta_Akses_Layanan                    0
Kelas_Rawat_Peserta                             0
Status_Pulang                                   0
Kode_Nama_Diagnosis_Masuk_ICD_10                0
Kode_Diagnosis_Masuk_ICD_10                     0
Kode_ICD_10_Diagnosis_Masuk                     0


### 1.3. Fasilitas Kesehatan Tingkat Pratama (FKTP) Non-Kapitasi

In [47]:
df_fktp_nk.columns

Index(['PSTV01', 'PSTV02', 'PSTV15', 'PNK02', 'PNK03', 'PNK04', 'PNK05',
       'PNK06', 'PNK07', 'PNK08', 'PNK09', 'PNK10', 'PNK11', 'PNK12', 'PNK13',
       'PNK13A', 'PNK14', 'PNK15', 'PNK16', 'PNK17', 'PNK18'],
      dtype='object')

In [48]:
df_fktp_nk.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV15': 'Bobot',
    'PNK02' : 'ID_Kunjungan',
    'PNK03' : 'Tanggal_Kunjungan',
    'PNK04' : 'Tanggal_Tindakan',
    'PNK05' : 'Tanggal_Pulang',
    'PNK06' : 'Provinsi_Faskes',
    'PNK07' : 'Kode_Kab_Kota_Faskes',
    'PNK08' : 'Kepemilikan_Faskes',
    'PNK09' : 'Jenis_Faskes',
    'PNK10' : 'Tipe_Faskes',
    'PNK11' : 'Tingkat_Layanan',
    'PNK12' : 'Segmen_Peserta',
    'PNK13' : 'Kode_Nama_Diagnosis_ICD_10',
    'PNK13A': 'Kode_Diagnosis_ICD_10',
    'PNK14' : 'Kode_Diagnosis_3_5_Digit',
    'PNK15' : 'Nama_Diagnosis',
    'PNK16' : 'Nama_Tindakan',
    'PNK17' : 'Biaya_Tagih',
    'PNK18' : 'Biaya_Verifikasi',
    'PNK19' : 'Hasil_Pemeriksaan_GDP_1', # Gula Darah Puasa
    'PNK20' : 'Hasil_Pemeriksaan_GDP_2'
}, inplace=True)

In [49]:
df_fktp_nk.head()

Unnamed: 0,Nomor_Peserta,Nomor_Keluarga,Bobot,ID_Kunjungan,Tanggal_Kunjungan,Tanggal_Tindakan,Tanggal_Pulang,Provinsi_Faskes,Kode_Kab_Kota_Faskes,Kepemilikan_Faskes,Jenis_Faskes,Tipe_Faskes,Tingkat_Layanan,Segmen_Peserta,Kode_Nama_Diagnosis_ICD_10,Kode_Diagnosis_ICD_10,Kode_Diagnosis_3_5_Digit,Nama_Diagnosis,Nama_Tindakan,Biaya_Tagih,Biaya_Verifikasi
0,93858078,93216423,7.659537,183920215Y000376,2015-02-26,2015-02-26,2015-02-27,SULAWESI SELATAN,BARRU,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,RAWAT INAP,RITP,PBI APBN,,,9999,9999,Evakuasi medis / Ambulans Darat,120000,120000
1,93747649,346217457,1.800196,19500915Y000074,2015-09-21,2015-09-23,2015-09-23,KALIMANTAN SELATAN,TAPIN,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,RAWAT INAP,RITP,PBI APBN,,,9999,9999,Rawat Inap di R. Perawatan Biasa,240000,240000
2,359887820,72989971,0.959155,250630919P000299,2019-09-26,2019-09-29,2019-09-29,PAPUA,JAYAPURA,TNI AD,KLINIK PRATAMA,KLINIK RAWAT INAP,RITP,PPU,A01 Typhoid and paratyphoid fevers,A01,A010,Typhoid fever,Rawat Inap di R. Perawatan Biasa,600000,600000
3,84126594,84126594,1.110887,326360919P001086,2019-09-09,2019-09-12,2019-09-12,JAWA TENGAH,REMBANG,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,RAWAT INAP,RITP,PBI APBN,A01 Typhoid and paratyphoid fevers,A01,A01,Typhoid and paratyphoid fevers,Rawat Inap di R. Perawatan Biasa,480000,480000
4,87558937,62126532,32.451832,252721019P001142,2019-10-14,2019-10-17,2019-10-17,JAWA TENGAH,KEBUMEN,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,RAWAT INAP,RITP,PBI APBN,A01 Typhoid and paratyphoid fevers,A01,A01,Typhoid and paratyphoid fevers,Rawat Inap di R. Perawatan Biasa,600000,600000


In [50]:
df_fktp_nk.shape

(36493, 21)

In [51]:
df_fktp_nk.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36493 entries, 0 to 36492
Data columns (total 21 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   Nomor_Peserta               36493 non-null  int32         
 1   Nomor_Keluarga              36493 non-null  int32         
 2   Bobot                       36493 non-null  float32       
 3   ID_Kunjungan                36493 non-null  object        
 4   Tanggal_Kunjungan           36493 non-null  datetime64[ns]
 5   Tanggal_Tindakan            36493 non-null  datetime64[ns]
 6   Tanggal_Pulang              36493 non-null  datetime64[ns]
 7   Provinsi_Faskes             36493 non-null  category      
 8   Kode_Kab_Kota_Faskes        36493 non-null  category      
 9   Kepemilikan_Faskes          36493 non-null  category      
 10  Jenis_Faskes                36493 non-null  category      
 11  Tipe_Faskes                 36493 non-null  category  

In [52]:
df_fktp_nk.duplicated().sum()

487

In [53]:
df_fktp_nk.isna().sum().sum()

2

In [54]:
df_fktp_nk.isna().sum()

Nomor_Peserta                 0
Nomor_Keluarga                0
Bobot                         0
ID_Kunjungan                  0
Tanggal_Kunjungan             0
Tanggal_Tindakan              0
Tanggal_Pulang                0
Provinsi_Faskes               0
Kode_Kab_Kota_Faskes          0
Kepemilikan_Faskes            0
Jenis_Faskes                  0
Tipe_Faskes                   0
Tingkat_Layanan               0
Segmen_Peserta                0
Kode_Nama_Diagnosis_ICD_10    2
Kode_Diagnosis_ICD_10         0
Kode_Diagnosis_3_5_Digit      0
Nama_Diagnosis                0
Nama_Tindakan                 0
Biaya_Tagih                   0
Biaya_Verifikasi              0
dtype: int64

### 1.4. FKRTL Diagnosis Sekunder

In [55]:
df_fkrtl_2.columns

Index(['FKL02', 'FKL24', 'FKL24A', 'FKL24B'], dtype='object')

In [56]:
df_fkrtl_2.rename(columns={
    'FKL02' : 'ID_Kunjungan_FKRTL',
    'FKL24' : 'Kode_Diagnosis_3_5_Digit',
    'FKL24A': 'Kode_Diagnosis_ICD_10',
    'FKL24B': 'Kode_Nama_Diagnosis_ICD_10'
}, inplace=True)

In [57]:
df_fkrtl_2.head()

Unnamed: 0,ID_Kunjungan_FKRTL,Kode_Diagnosis_3_5_Digit,Kode_Diagnosis_ICD_10,Kode_Nama_Diagnosis_ICD_10
0,2603412140001163,H814,H81,H81 Disorders of vestibular function
1,1337801150000108,M199,M19,M19 Other arthrosis
2,1571901150000730,M4909,M49,M49 Spondylopathies in diseases classified els...
3,3039201150000052,E790,E79,E79 Disorders of purine and pyrimidine metabolism
4,3376701150000072,N390,N39,N39 Other disorders of urinary system


In [58]:
df_fkrtl_2.shape

(1562211, 4)

In [59]:
df_fkrtl_2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1562211 entries, 0 to 1562210
Data columns (total 4 columns):
 #   Column                      Non-Null Count    Dtype 
---  ------                      --------------    ----- 
 0   ID_Kunjungan_FKRTL          1562211 non-null  object
 1   Kode_Diagnosis_3_5_Digit    1562211 non-null  object
 2   Kode_Diagnosis_ICD_10       1562211 non-null  object
 3   Kode_Nama_Diagnosis_ICD_10  1562211 non-null  object
dtypes: object(4)
memory usage: 59.6+ MB


In [60]:
df_fkrtl_2.duplicated().sum()

0

In [61]:
df_fkrtl_2.isna().sum().sum()

0