# 2. BPJS Kesehatan Diabetes Mellitus

[Diabetes](https://www.who.int/health-topics/diabetes) [mellitus](https://www.healthdirect.gov.au/diabetes), or DM, more commonly known simply as diabetes, is a group of diseases that can cause high levels of glucose in the blood. There are two main [types of diabetes](https://www.nhsinform.scot/illnesses-and-conditions/diabetes/diabetes):
- Type 1 – where the pancreas doesn't produce any insulin
- Type 2 – where the pancreas doesn't produce enough insulin or the body’s cells don't react to insulin

In [1]:
# Data manipulation
import numpy as np
import pandas as pd
import datetime as dt

# Data visualization
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# Ignore warning
import warnings
warnings.filterwarnings('ignore')

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [4]:
print('NumPy', np.__version__)
print('Pandas', pd.__version__)
print('Matplotlib', mpl.__version__)
print('Seaborn', sns.__version__)

NumPy 1.23.5
Pandas 1.5.3
Matplotlib 3.7.1
Seaborn 0.12.2


In [5]:
# Read the data files
df_19 = pd.read_stata('/content/drive/MyDrive/BPJS-Healthkathon-2.0-main/Files/Data Sampel Final 2022/Kontekstual DM/DM2019_kepesertaan.dta')
df_20 = pd.read_stata('/content/drive/MyDrive/BPJS-Healthkathon-2.0-main/Files/Data Sampel Final 2022/Kontekstual DM/DM2020_kepesertaan.dta')
df_21 = pd.read_stata('/content/drive/MyDrive/BPJS-Healthkathon-2.0-main/Files/Data Sampel Final 2022/Kontekstual DM/DM2021_kepesertaan.dta')
df_fktp_k = pd.read_stata('/content/drive/MyDrive/BPJS-Healthkathon-2.0-main/Files/Data Sampel Final 2022/Kontekstual DM/DM2021_fktpkapitasi.dta', convert_categoricals=False)
df_fkrtl_1 = pd.read_stata('/content/drive/MyDrive/BPJS-Healthkathon-2.0-main/Files/Data Sampel Final 2022/Kontekstual DM/DM2021_fkrtl.dta')
df_fktp_nk = pd.read_stata('/content/drive/MyDrive/BPJS-Healthkathon-2.0-main/Files/Data Sampel Final 2022/Kontekstual DM/DM2021_fktpnonkapitasi.dta')
df_fkrtl_2 = pd.read_stata('/content/drive/MyDrive/BPJS-Healthkathon-2.0-main/Files/Data Sampel Final 2022/Kontekstual DM/DM2021_fkrtldxsekunder.dta')

## 2.1. Hasil Data Sampel BPJS Kesehatan

### 2.1.1. Kepesertaan BPJS Kesehatan

#### 2.1.1.1. Tahun 2019

In [6]:
df_19.columns

Index(['PSTV01', 'PSTV02', 'PSTV03', 'PSTV04', 'PSTV05', 'PSTV06', 'PSTV07',
       'PSTV08', 'PSTV09', 'PSTV10', 'PSTV11', 'PSTV12', 'PSTV13', 'PSTV14',
       'PSTV15', 'PSTV16', 'PSTV17', 'PSTV18'],
      dtype='object')

In [7]:
df_19.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV03': 'Tanggal_Lahir_Peserta',
    'PSTV04': 'Hubungan_Keluarga',
    'PSTV05': 'Jenis_Kelamin',
    'PSTV06': 'Status_Perkawinan',
    'PSTV07': 'Kelas_Rawat',
    'PSTV08': 'Segmen_Peserta',
    'PSTV09': 'Provinsi_Tempat_Tinggal_Peserta',
    'PSTV10': 'Kabupaten_Kota_Tempat_Tinggal_Peserta',
    'PSTV11': 'Kepemilikan_Faskes',
    'PSTV12': 'Jenis_Faskes',
    'PSTV13': 'Provinsi_Faskes_Peserta',
    'PSTV14': 'Kabupaten_Kota_Faskes_Peserta',
    'PSTV15': 'Bobot',
    'PSTV16': 'Tahun_Sampel',
    'PSTV17': 'Status_Kepesertaan',
    'PSTV18': 'Tahun_Meninggal'
}, inplace=True)

In [8]:
df_19.drop([
    'Nomor_Keluarga', 'Hubungan_Keluarga', 'Status_Perkawinan', 'Segmen_Peserta',
    'Provinsi_Tempat_Tinggal_Peserta', 'Kabupaten_Kota_Tempat_Tinggal_Peserta', 'Bobot',
    # 'Tahun_Sampel'
    ], axis=1, inplace=True)

In [9]:
print('\nData in DM2019_kepesertaan.dta')
df_19.head()


Data in DM2019_kepesertaan.dta


Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal
0,45243428,1959-10-11,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,PIDIE,2020,AKTIF,
1,356470819,1965-12-31,LAKI-LAKI,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA BANDA ACEH,2020,AKTIF,
2,72280409,1964-08-03,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA UTARA,BATU BARA,2020,AKTIF,
3,88501975,1959-10-02,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA UTARA,ASAHAN,2020,MENINGGAL,2019.0
4,94870095,1947-01-01,LAKI-LAKI,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA BARAT,PESISIR SELATAN,2020,AKTIF,


In [10]:
df_19.shape

(143496, 11)

In [11]:
df_19.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 143496 entries, 0 to 143495
Data columns (total 11 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   Nomor_Peserta                  143496 non-null  int32         
 1   Tanggal_Lahir_Peserta          143496 non-null  datetime64[ns]
 2   Jenis_Kelamin                  143496 non-null  category      
 3   Kelas_Rawat                    143496 non-null  category      
 4   Kepemilikan_Faskes             143496 non-null  category      
 5   Jenis_Faskes                   143496 non-null  category      
 6   Provinsi_Faskes_Peserta        143496 non-null  category      
 7   Kabupaten_Kota_Faskes_Peserta  143496 non-null  category      
 8   Tahun_Sampel                   143496 non-null  int16         
 9   Status_Kepesertaan             143496 non-null  category      
 10  Tahun_Meninggal                10268 non-null   float64       
dtype

In [12]:
df_19.duplicated().sum()

0

In [13]:
df_19.isna().sum().sum()

133228

In [14]:
df_19.isna().sum()

Nomor_Peserta                         0
Tanggal_Lahir_Peserta                 0
Jenis_Kelamin                         0
Kelas_Rawat                           0
Kepemilikan_Faskes                    0
Jenis_Faskes                          0
Provinsi_Faskes_Peserta               0
Kabupaten_Kota_Faskes_Peserta         0
Tahun_Sampel                          0
Status_Kepesertaan                    0
Tahun_Meninggal                  133228
dtype: int64

- Jumlah missing value pada fitur `Tahun_Meninggal` sebanyak 133.228.

In [15]:
df_19['Tahun_Meninggal'] = df_19['Tahun_Meninggal'].fillna(0).astype(int)
df_19['Tahun_Lahir'] = df_19['Tanggal_Lahir_Peserta'].dt.year

umur = np.where(df_19['Tahun_Meninggal'] != 0,
                df_19['Tahun_Meninggal'] - df_19['Tahun_Lahir'],
                df_19['Tahun_Sampel'] - df_19['Tahun_Lahir'])
df_19.drop(['Tahun_Sampel'], axis=1, inplace=True)
df_19['Umur'] = umur.astype(int)

In [16]:
df_19.head()

Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
0,45243428,1959-10-11,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,PIDIE,AKTIF,0,1959,61
1,356470819,1965-12-31,LAKI-LAKI,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA BANDA ACEH,AKTIF,0,1965,55
2,72280409,1964-08-03,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA UTARA,BATU BARA,AKTIF,0,1964,56
3,88501975,1959-10-02,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA UTARA,ASAHAN,MENINGGAL,2019,1959,60
4,94870095,1947-01-01,LAKI-LAKI,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,SUMATERA BARAT,PESISIR SELATAN,AKTIF,0,1947,73


In [17]:
df_19.describe(include='all')

Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
count,143496.0,143496,143496,143496,143496,143496,143496,143496,143496,143496.0,143496.0,143496.0
unique,,18552,2,3,9,3,34,488,3,,,
top,,1960-12-31 00:00:00,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,JAWA TIMUR,KOTA SURABAYA,AKTIF,,,
freq,,441,85829,55547,84405,86105,23514,4098,135730,,,
first,,1899-12-30 00:00:00,,,,,,,,,,
last,,2018-06-12 00:00:00,,,,,,,,,,
mean,101597000.0,,,,,,,,,144.512864,1961.257763,58.711978
std,120983000.0,,,,,,,,,520.550492,10.243017,10.236496
min,968.0,,,,,,,,,0.0,1899.0,2.0
25%,30112370.0,,,,,,,,,0.0,1954.0,52.0


#### 2.1.1.2. Tahun 2020

In [18]:
df_20.columns

Index(['PSTV01', 'PSTV02', 'PSTV03', 'PSTV04', 'PSTV05', 'PSTV06', 'PSTV07',
       'PSTV08', 'PSTV09', 'PSTV10', 'PSTV11', 'PSTV12', 'PSTV13', 'PSTV14',
       'PSTV15', 'PSTV16', 'PSTV17', 'PSTV18'],
      dtype='object')

In [19]:
df_20.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV03': 'Tanggal_Lahir_Peserta',
    'PSTV04': 'Hubungan_Keluarga',
    'PSTV05': 'Jenis_Kelamin',
    'PSTV06': 'Status_Perkawinan',
    'PSTV07': 'Kelas_Rawat',
    'PSTV08': 'Segmen_Peserta',
    'PSTV09': 'Provinsi_Tempat_Tinggal_Peserta',
    'PSTV10': 'Kabupaten_Kota_Tempat_Tinggal_Peserta',
    'PSTV11': 'Kepemilikan_Faskes',
    'PSTV12': 'Jenis_Faskes',
    'PSTV13': 'Provinsi_Faskes_Peserta',
    'PSTV14': 'Kabupaten_Kota_Faskes_Peserta',
    'PSTV15': 'Bobot',
    'PSTV16': 'Tahun_Sampel',
    'PSTV17': 'Status_Kepesertaan',
    'PSTV18': 'Tahun_Meninggal'
}, inplace=True)

In [20]:
df_20.drop([
    'Nomor_Keluarga', 'Hubungan_Keluarga', 'Status_Perkawinan', 'Segmen_Peserta',
    'Provinsi_Tempat_Tinggal_Peserta', 'Kabupaten_Kota_Tempat_Tinggal_Peserta', 'Bobot',
    # 'Tahun_Sampel'
    ], axis=1, inplace=True)

In [21]:
print('\nData in DM2020_kepesertaan.dta')
df_20.head()


Data in DM2020_kepesertaan.dta


Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal
0,66897393,1955-12-31,LAKI-LAKI,KELAS II,SWASTA,KLINIK PRATAMA,ACEH,PIDIE,2020,AKTIF,
1,36947751,1957-01-01,LAKI-LAKI,KELAS I,SWASTA,DOKTER UMUM,ACEH,KOTA BANDA ACEH,2020,AKTIF,
2,58468881,1959-06-15,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LANGSA,2020,AKTIF,
3,67318251,1977-11-11,LAKI-LAKI,KELAS II,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LHOKSEUMAWE,2020,AKTIF,
4,80155656,1961-12-31,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,BIREUEN,2020,AKTIF,


In [22]:
df_20.shape

(143496, 11)

In [23]:
df_20.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 143496 entries, 0 to 143495
Data columns (total 11 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   Nomor_Peserta                  143496 non-null  int32         
 1   Tanggal_Lahir_Peserta          143496 non-null  datetime64[ns]
 2   Jenis_Kelamin                  143496 non-null  category      
 3   Kelas_Rawat                    143496 non-null  category      
 4   Kepemilikan_Faskes             143496 non-null  category      
 5   Jenis_Faskes                   143496 non-null  category      
 6   Provinsi_Faskes_Peserta        143496 non-null  category      
 7   Kabupaten_Kota_Faskes_Peserta  143496 non-null  category      
 8   Tahun_Sampel                   143496 non-null  int16         
 9   Status_Kepesertaan             143496 non-null  category      
 10  Tahun_Meninggal                10268 non-null   float64       
dtype

In [24]:
df_20.duplicated().sum()

0

In [25]:
df_20.isna().sum().sum()

133228

In [26]:
df_20.isna().sum()

Nomor_Peserta                         0
Tanggal_Lahir_Peserta                 0
Jenis_Kelamin                         0
Kelas_Rawat                           0
Kepemilikan_Faskes                    0
Jenis_Faskes                          0
Provinsi_Faskes_Peserta               0
Kabupaten_Kota_Faskes_Peserta         0
Tahun_Sampel                          0
Status_Kepesertaan                    0
Tahun_Meninggal                  133228
dtype: int64

- Jumlah missing value pada fitur `Tahun_Meninggal` sebanyak 133.228.

In [27]:
df_20['Tahun_Meninggal'] = df_20['Tahun_Meninggal'].fillna(0).astype(int)
df_20['Tahun_Lahir'] = df_20['Tanggal_Lahir_Peserta'].dt.year

umur = np.where(df_20['Tahun_Meninggal'] != 0,
                df_20['Tahun_Meninggal'] - df_20['Tahun_Lahir'],
                df_20['Tahun_Sampel'] - df_20['Tahun_Lahir'])
df_20.drop(['Tahun_Sampel'], axis=1, inplace=True)
df_20['Umur'] = umur.astype(int)

In [28]:
df_20.head()

Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
0,66897393,1955-12-31,LAKI-LAKI,KELAS II,SWASTA,KLINIK PRATAMA,ACEH,PIDIE,AKTIF,0,1955,65
1,36947751,1957-01-01,LAKI-LAKI,KELAS I,SWASTA,DOKTER UMUM,ACEH,KOTA BANDA ACEH,AKTIF,0,1957,63
2,58468881,1959-06-15,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LANGSA,AKTIF,0,1959,61
3,67318251,1977-11-11,LAKI-LAKI,KELAS II,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LHOKSEUMAWE,AKTIF,0,1977,43
4,80155656,1961-12-31,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,BIREUEN,AKTIF,0,1961,59


In [29]:
df_20.describe(include='all')

Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
count,143496.0,143496,143496,143496,143496,143496,143496,143496,143496,143496.0,143496.0,143496.0
unique,,18552,2,4,9,3,34,488,3,,,
top,,1960-12-31 00:00:00,PEREMPUAN,KELAS III,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,JAWA TIMUR,KOTA SURABAYA,AKTIF,,,
freq,,441,85829,60800,84426,86105,23514,4098,124477,,,
first,,1899-12-30 00:00:00,,,,,,,,,,
last,,2018-06-12 00:00:00,,,,,,,,,,
mean,101597000.0,,,,,,,,,144.512864,1961.257763,58.711978
std,120983000.0,,,,,,,,,520.550492,10.243017,10.236496
min,968.0,,,,,,,,,0.0,1899.0,2.0
25%,30112370.0,,,,,,,,,0.0,1954.0,52.0


#### 2.1.1.3. Tahun 2021

In [30]:
df_21.columns

Index(['PSTV01', 'PSTV02', 'PSTV03', 'PSTV04', 'PSTV05', 'PSTV06', 'PSTV07',
       'PSTV08', 'PSTV09', 'PSTV10', 'PSTV11', 'PSTV12', 'PSTV13', 'PSTV14',
       'PSTV15', 'PSTV16', 'PSTV17', 'PSTV18'],
      dtype='object')

In [31]:
df_21.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV03': 'Tanggal_Lahir_Peserta',
    'PSTV04': 'Hubungan_Keluarga',
    'PSTV05': 'Jenis_Kelamin',
    'PSTV06': 'Status_Perkawinan',
    'PSTV07': 'Kelas_Rawat',
    'PSTV08': 'Segmen_Peserta',
    'PSTV09': 'Provinsi_Tempat_Tinggal_Peserta',
    'PSTV10': 'Kabupaten_Kota_Tempat_Tinggal_Peserta',
    'PSTV11': 'Kepemilikan_Faskes',
    'PSTV12': 'Jenis_Faskes',
    'PSTV13': 'Provinsi_Faskes_Peserta',
    'PSTV14': 'Kabupaten_Kota_Faskes_Peserta',
    'PSTV15': 'Bobot',
    'PSTV16': 'Tahun_Sampel',
    'PSTV17': 'Status_Kepesertaan',
    'PSTV18': 'Tahun_Meninggal'
}, inplace=True)

In [32]:
df_21.drop([
    'Nomor_Keluarga', 'Hubungan_Keluarga', 'Status_Perkawinan', 'Segmen_Peserta',
    'Provinsi_Tempat_Tinggal_Peserta', 'Kabupaten_Kota_Tempat_Tinggal_Peserta', 'Bobot',
    # 'Tahun_Sampel'
    ], axis=1, inplace=True)

In [33]:
print('\nData in DM2021_kepesertaan.dta')
df_21.head()


Data in DM2021_kepesertaan.dta


Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Tahun_Sampel,Status_Kepesertaan,Tahun_Meninggal
0,66897393,1955-12-31,LAKI-LAKI,KELAS II,SWASTA,KLINIK PRATAMA,ACEH,PIDIE,2021,AKTIF,
1,36947751,1957-01-01,LAKI-LAKI,KELAS I,SWASTA,DOKTER UMUM,ACEH,KOTA BANDA ACEH,2021,AKTIF,
2,58468881,1959-06-15,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LANGSA,2021,AKTIF,
3,67318251,1977-11-11,LAKI-LAKI,KELAS II,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LHOKSEUMAWE,2021,AKTIF,
4,80155656,1961-12-31,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,BIREUEN,2021,AKTIF,


In [34]:
df_21.shape

(143496, 11)

In [35]:
df_21.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 143496 entries, 0 to 143495
Data columns (total 11 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   Nomor_Peserta                  143496 non-null  int32         
 1   Tanggal_Lahir_Peserta          143496 non-null  datetime64[ns]
 2   Jenis_Kelamin                  143496 non-null  category      
 3   Kelas_Rawat                    143496 non-null  category      
 4   Kepemilikan_Faskes             143496 non-null  category      
 5   Jenis_Faskes                   143496 non-null  category      
 6   Provinsi_Faskes_Peserta        143496 non-null  category      
 7   Kabupaten_Kota_Faskes_Peserta  143496 non-null  category      
 8   Tahun_Sampel                   143496 non-null  int16         
 9   Status_Kepesertaan             143496 non-null  category      
 10  Tahun_Meninggal                17679 non-null   float64       
dtype

In [36]:
df_21.duplicated().sum()

0

In [37]:
df_21.isna().sum().sum()

125817

In [38]:
df_21.isna().sum()

Nomor_Peserta                         0
Tanggal_Lahir_Peserta                 0
Jenis_Kelamin                         0
Kelas_Rawat                           0
Kepemilikan_Faskes                    0
Jenis_Faskes                          0
Provinsi_Faskes_Peserta               0
Kabupaten_Kota_Faskes_Peserta         0
Tahun_Sampel                          0
Status_Kepesertaan                    0
Tahun_Meninggal                  125817
dtype: int64

- Jumlah missing value pada fitur `Tahun_Meninggal` sebanyak 125.817.

In [39]:
df_21['Tahun_Meninggal'] = df_21['Tahun_Meninggal'].fillna(0).astype(int)
df_21['Tahun_Lahir'] = df_21['Tanggal_Lahir_Peserta'].dt.year

umur = np.where(df_21['Tahun_Meninggal'] != 0,
                df_21['Tahun_Meninggal'] - df_21['Tahun_Lahir'],
                df_21['Tahun_Sampel'] - df_21['Tahun_Lahir'])
df_21.drop(['Tahun_Sampel'], axis=1, inplace=True)
df_21['Umur'] = umur.astype(int)

In [40]:
df_21.head()

Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
0,66897393,1955-12-31,LAKI-LAKI,KELAS II,SWASTA,KLINIK PRATAMA,ACEH,PIDIE,AKTIF,0,1955,66
1,36947751,1957-01-01,LAKI-LAKI,KELAS I,SWASTA,DOKTER UMUM,ACEH,KOTA BANDA ACEH,AKTIF,0,1957,64
2,58468881,1959-06-15,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LANGSA,AKTIF,0,1959,62
3,67318251,1977-11-11,LAKI-LAKI,KELAS II,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LHOKSEUMAWE,AKTIF,0,1977,44
4,80155656,1961-12-31,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,BIREUEN,AKTIF,0,1961,60


In [41]:
df_21.describe(include='all')

Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
count,143496.0,143496,143496,143496,143496,143496,143496,143496,143496,143496.0,143496.0,143496.0
unique,,18552,2,4,9,3,34,486,4,,,
top,,1960-12-31 00:00:00,PEREMPUAN,KELAS III,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,JAWA TIMUR,KOTA SURABAYA,AKTIF,,,
freq,,441,85829,61732,84974,86622,23567,4074,113005,,,
first,,1899-12-30 00:00:00,,,,,,,,,,
last,,2018-06-12 00:00:00,,,,,,,,,,
mean,101597000.0,,,,,,,,,248.889648,1961.257763,59.640561
std,120983000.0,,,,,,,,,663.971137,10.243017,10.224047
min,968.0,,,,,,,,,0.0,1899.0,3.0
25%,30112370.0,,,,,,,,,0.0,1954.0,53.0


#### 2.1.1.4. Menggabungkan Data Tahun 2019–2021

In [42]:
df_19.shape

(143496, 12)

In [43]:
df_20.shape

(143496, 12)

In [44]:
df_21.shape

(143496, 12)

In [45]:
# Append DataFrames
df_19_21 = df_21.append([df_20, df_19])

# Remove duplicates based on 'Nomor_Peserta', keeping the first occurrence
df_19_21 = df_19_21.drop_duplicates(subset='Nomor_Peserta', keep='first')

In [46]:
df_19_21.head()

Unnamed: 0,Nomor_Peserta,Tanggal_Lahir_Peserta,Jenis_Kelamin,Kelas_Rawat,Kepemilikan_Faskes,Jenis_Faskes,Provinsi_Faskes_Peserta,Kabupaten_Kota_Faskes_Peserta,Status_Kepesertaan,Tahun_Meninggal,Tahun_Lahir,Umur
0,66897393,1955-12-31,LAKI-LAKI,KELAS II,SWASTA,KLINIK PRATAMA,ACEH,PIDIE,AKTIF,0,1955,66
1,36947751,1957-01-01,LAKI-LAKI,KELAS I,SWASTA,DOKTER UMUM,ACEH,KOTA BANDA ACEH,AKTIF,0,1957,64
2,58468881,1959-06-15,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LANGSA,AKTIF,0,1959,62
3,67318251,1977-11-11,LAKI-LAKI,KELAS II,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,KOTA LHOKSEUMAWE,AKTIF,0,1977,44
4,80155656,1961-12-31,PEREMPUAN,KELAS I,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,ACEH,BIREUEN,AKTIF,0,1961,60


In [47]:
df_19_21.shape

(143496, 12)

In [48]:
df_19_21.duplicated().sum()

0

### 2.1.2. Fasilitas Kesehatan Tingkat Pratama (FKTP) Kapitasi

In [49]:
df_fktp_k.columns

Index(['PSTV01', 'PSTV02', 'PSTV15', 'FKP02', 'FKP03', 'FKP04', 'FKP05',
       'FKP06', 'FKP07', 'FKP08', 'FKP09', 'FKP10', 'FKP11', 'FKP12', 'FKP13',
       'FKP14', 'FKP14A', 'FKP15', 'FKP15A', 'FKP16', 'FKP17', 'FKP18',
       'FKP19', 'FKP20', 'FKP21', 'FKP22'],
      dtype='object')

In [50]:
df_fktp_k.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV15': 'Bobot',
    'FKP02' : 'ID_Kunjungan_FKTP',
    'FKP03' : 'Tanggal_Datang_Kunjungan',
    'FKP04' : 'Tanggal_Pulang_Kunjungan',
    'FKP05' : 'Provinsi',
    'FKP06' : 'Kabupaten_Kota',
    'FKP07' : 'Kepemilikan',
    'FKP08' : 'Jenis',
    'FKP09' : 'Tipe',
    'FKP10' : 'Tingkat_Pelayanan',
    'FKP11' : 'Jenis_Poli',
    'FKP12' : 'Segmen_Peserta_Akses_Layanan',
    'FKP13' : 'Status_Pulang_Peserta',
    'FKP14' : 'Kode_Nama_Diagnosis_ICD_10_FKP',
    'FKP14A': 'Kode_Diagnosis_ICD_10_FKP',
    'FKP15' : 'Kode_Diagnosis_3_5_Digit_FKP',
    'FKP15A': 'Nama_Diagnosis_Dari_Kode_Diagnosis_FKP15',
    'FKP16' : 'Provinsi_Faskes_Tujuan_Rujukan',
    'FKP17' : 'Kabupaten_Kota_Faskes_Tujuan_Rujukan',
    'FKP18' : 'Kepemilikan_Faskes_Tujuan_Rujukan',
    'FKP19' : 'Jenis_Faskes_Tujuan_Rujukan',
    'FKP20' : 'Tipe_Faskes_Tujuan_Rujukan',
    'FKP21' : 'Poli_Faskes_Tujuan_Rujukan',
    'FKP22' : 'Jenis_Kunjungan'
}, inplace=True)

In [51]:
df_fktp_k.drop([
    'Nomor_Keluarga', 'Bobot', 'Tipe', 'Tingkat_Pelayanan', 'Jenis_Poli', 'Segmen_Peserta_Akses_Layanan',
    # 'Tanggal_Datang_Kunjungan', 'Tanggal_Pulang_Kunjungan',
    'Kode_Nama_Diagnosis_ICD_10_FKP', 'Kode_Diagnosis_ICD_10_FKP', 'Kode_Diagnosis_3_5_Digit_FKP', 'Nama_Diagnosis_Dari_Kode_Diagnosis_FKP15',
    'Provinsi_Faskes_Tujuan_Rujukan', 'Kabupaten_Kota_Faskes_Tujuan_Rujukan', 'Kepemilikan_Faskes_Tujuan_Rujukan',
    'Jenis_Faskes_Tujuan_Rujukan', 'Tipe_Faskes_Tujuan_Rujukan', 'Poli_Faskes_Tujuan_Rujukan', 'Jenis_Kunjungan'
    ], axis=1, inplace=True)

In [52]:
df_fktp_k.head()

Unnamed: 0,Nomor_Peserta,ID_Kunjungan_FKTP,Tanggal_Datang_Kunjungan,Tanggal_Pulang_Kunjungan,Provinsi,Kabupaten_Kota,Kepemilikan,Jenis,Status_Pulang_Peserta
0,12380560,1687160334,2021-11-10,2021-11-10,31,3174,3,1,98
1,288452470,1457720536,2021-02-26,2021-02-26,17,1702,3,1,98
2,337885189,1732989007,2021-12-08,2021-12-08,31,3175,3,1,98
3,2783323,1464029376,2021-03-03,2021-03-03,32,3276,3,1,98
4,99122276,1646802901,2021-09-28,2021-09-28,52,5272,3,1,98


In [53]:
df_fktp_k.shape

(1188324, 9)

In [54]:
df_fktp_k.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1188324 entries, 0 to 1188323
Data columns (total 9 columns):
 #   Column                    Non-Null Count    Dtype         
---  ------                    --------------    -----         
 0   Nomor_Peserta             1188324 non-null  int32         
 1   ID_Kunjungan_FKTP         1188324 non-null  object        
 2   Tanggal_Datang_Kunjungan  1188324 non-null  datetime64[ns]
 3   Tanggal_Pulang_Kunjungan  1188324 non-null  datetime64[ns]
 4   Provinsi                  1188324 non-null  int8          
 5   Kabupaten_Kota            1188324 non-null  int16         
 6   Kepemilikan               1188324 non-null  int8          
 7   Jenis                     1188324 non-null  int8          
 8   Status_Pulang_Peserta     1188324 non-null  int8          
dtypes: datetime64[ns](2), int16(1), int32(1), int8(4), object(1)
memory usage: 47.6+ MB


In [55]:
df_fktp_k.duplicated().sum()

0

In [56]:
df_fktp_k.isna().sum().sum()

0

### 2.1.3. Fasilitas Kesehatan Rujukan Tingkat Lanjutan (FKRTL) Diagnosis Primer

In [57]:
df_fkrtl_1.columns

Index(['PSTV01', 'PSTV02', 'PSTV15', 'FKP02', 'FKL02', 'FKL03', 'FKL04',
       'FKL05', 'FKL06', 'FKL07', 'FKL08', 'FKL09', 'FKL10', 'FKL11', 'FKL12',
       'FKL13', 'FKL14', 'FKL15', 'FKL15A', 'FKL16', 'FKL16A', 'FKL17',
       'FKL17A', 'FKL18', 'FKL18A', 'FKL19', 'FKL19A', 'FKL20', 'FKL21',
       'FKL22', 'FKL23', 'FKL25', 'FKL26', 'FKL27', 'FKL28', 'FKL29', 'FKL30',
       'FKL31', 'FKL32', 'FKL33', 'FKL34', 'FKL35', 'FKL36', 'FKL37', 'FKL38',
       'FKL39', 'FKL40', 'FKL41', 'FKL42', 'FKL43', 'FKL44', 'FKL45', 'FKL46',
       'FKL47', 'FKL48'],
      dtype='object')

In [58]:
df_fkrtl_1.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV15': 'Bobot',
    'FKP02' : 'ID_Kunjungan_FKTP',
    'FKL02' : 'ID_Kunjungan_FKRTL',
    'FKL03' : 'Tanggal_Datang_Kunjungan',
    'FKL04' : 'Tanggal_Pulang_Kunjungan',
    'FKL05' : 'Provinsi',
    'FKL06' : 'Kabupaten_Kota',
    'FKL07' : 'Kepemilikan',
    'FKL08' : 'Jenis',
    'FKL09' : 'Tipe',
    'FKL10' : 'Tingkat_Pelayanan',
    'FKL11' : 'Jenis_Poli',
    'FKL12' : 'Segmen_Peserta_Akses_Layanan',
    'FKL13' : 'Kelas_Rawat_Peserta',
    'FKL14' : 'Status_Pulang',
    'FKL15' : 'Kode_Nama_Diagnosis_Masuk_ICD_10',
    'FKL15A': 'Kode_Diagnosis_Masuk_ICD_10',
    'FKL16' : 'Kode_ICD_10_Diagnosis_Masuk',
    'FKL16A': 'Nama_Diagnosis_Masuk',
    'FKL17' : 'Kode_Nama_Diagnosis_Primer_ICD_10',
    'FKL17A': 'Kode_Diagnosis_Primer_ICD_10',
    'FKL18' : 'Kode_ICD_10_Diagnosis_Primer',
    'FKL18A': 'Nama_Diagnosis_Primer',
    'FKL19' : 'Kode_INACBGs',
    'FKL19A': 'Deskripsi_Kode_INACBGs',
    'FKL20' : 'INACBGs_Kode_Casemix_Main_Groups',
    'FKL21' : 'INACBGs_Tipe_Kelompok_Kasus',
    'FKL22' : 'INACBGs_Spesifikasi_Kelompok_Kasus',
    'FKL23' : 'INACBGs_Tingkat_Keparahan_Kelompok_Kasus',
    'FKL25' : 'Provinsi_Faskes_Perujuk',
    'FKL26' : 'Kabupaten_Kota_Faskes_Perujuk',
    'FKL27' : 'Kepemilikan_Faskes_Perujuk',
    'FKL28' : 'Jenis_Faskes_Perujuk',
    'FKL29' : 'Tipe_Faskes_Perujuk',
    'FKL30' : 'Jenis_Prosedur',
    'FKL31' : 'Tarif_Regional_INACBGs',
    'FKL32' : 'Group_Tarif_INACBGs',
    'FKL33' : 'Kode_Special_Sub-Acute_Groups_SA',
    'FKL34' : 'Tarif_Special_Sub-Acute_Groups_SA',
    'FKL35' : 'Kode_Special_Procedures_SP',
    'FKL36' : 'Deskripsi_Special_Procedures_SP',
    'FKL37' : 'Tarif_Special_Procedures_SP',
    'FKL38' : 'Kode_Special_Prosthesis_RR',
    'FKL39' : 'Deskripsi_Special_Prosthesis_RR',
    'FKL40' : 'Tarif_Special_Prosthesis_RR',
    'FKL41' : 'Kode_Special_Investigation_SI',
    'FKL42' : 'Deskripsi_Special_Investigation_SI',
    'FKL43' : 'Tarif_Special_Investigation_SI',
    'FKL44' : 'Kode_Special_Drugs_SD',
    'FKL45' : 'Deskripsi_Special_Drugs_SD',
    'FKL46' : 'Tarif_Special_Drugs_SD',
    'FKL47' : 'Biaya_Tagih_Faskes_Provider',
    'FKL48' : 'Biaya_Verifikasi'
}, inplace=True)

In [59]:
df_fkrtl_1.drop([
    'Nomor_Keluarga', 'Bobot', 'Tipe', 'Tingkat_Pelayanan', 'Jenis_Poli', 'Segmen_Peserta_Akses_Layanan',
    # 'Tanggal_Datang_Kunjungan', 'Tanggal_Pulang_Kunjungan',
    'Kode_Nama_Diagnosis_Masuk_ICD_10', 'Kode_Diagnosis_Masuk_ICD_10', 'Kode_ICD_10_Diagnosis_Masuk', 'Nama_Diagnosis_Masuk',
    'Kode_Nama_Diagnosis_Primer_ICD_10', 'Kode_Diagnosis_Primer_ICD_10', 'Kode_ICD_10_Diagnosis_Primer', 'Nama_Diagnosis_Primer',
    'Kode_INACBGs', 'Deskripsi_Kode_INACBGs', 'INACBGs_Kode_Casemix_Main_Groups',
    'INACBGs_Tipe_Kelompok_Kasus', 'INACBGs_Spesifikasi_Kelompok_Kasus', 'INACBGs_Tingkat_Keparahan_Kelompok_Kasus',
    'Provinsi_Faskes_Perujuk', 'Kabupaten_Kota_Faskes_Perujuk', 'Kepemilikan_Faskes_Perujuk', 'Jenis_Faskes_Perujuk', 'Tipe_Faskes_Perujuk', 'Jenis_Prosedur',
    'Tarif_Regional_INACBGs', 'Group_Tarif_INACBGs',
    'Kode_Special_Sub-Acute_Groups_SA', 'Tarif_Special_Sub-Acute_Groups_SA',
    'Kode_Special_Procedures_SP', 'Deskripsi_Special_Procedures_SP', 'Tarif_Special_Procedures_SP',
    'Kode_Special_Prosthesis_RR', 'Deskripsi_Special_Prosthesis_RR', 'Tarif_Special_Prosthesis_RR',
    'Kode_Special_Investigation_SI', 'Deskripsi_Special_Investigation_SI', 'Tarif_Special_Investigation_SI',
    'Kode_Special_Drugs_SD', 'Deskripsi_Special_Drugs_SD', 'Tarif_Special_Drugs_SD',
    'Biaya_Tagih_Faskes_Provider', 'Biaya_Verifikasi'
    ], axis=1, inplace=True)

In [60]:
df_fkrtl_1.head()

Unnamed: 0,Nomor_Peserta,ID_Kunjungan_FKTP,ID_Kunjungan_FKRTL,Tanggal_Datang_Kunjungan,Tanggal_Pulang_Kunjungan,Provinsi,Kabupaten_Kota,Kepemilikan,Jenis,Kelas_Rawat_Peserta,Status_Pulang
0,50886719,,414390221V002006,2021-02-20,2021-02-20,RIAU,KOTA PEKANBARU,POLRI,Rumah sakit,Kelas 3,Sehat
1,70972186,,380700421V000216,2021-04-07,2021-04-08,KALIMANTAN TIMUR,KOTA SAMARINDA,TNI AD,Rumah sakit,Kelas 2,Sehat
2,31874094,,385450421V006571,2021-04-19,2021-04-19,JAWA TENGAH,KOTA SURAKARTA,Swasta,Rumah sakit,Kelas 3,Sehat
3,87945875,,206900221V006045,2021-02-28,2021-03-03,ACEH,ACEH TENGAH,Pemerintah kab/kota,Rumah sakit,Kelas 3,Sehat
4,384677503,,447120121V000468,2021-01-29,2021-02-01,SUMATERA SELATAN,KOTA PRABUMULIH,Swasta,Rumah sakit,Kelas 3,Sehat


In [61]:
df_fkrtl_1.shape

(826641, 11)

In [62]:
df_fkrtl_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 826641 entries, 0 to 826640
Data columns (total 11 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   Nomor_Peserta             826641 non-null  int32         
 1   ID_Kunjungan_FKTP         826641 non-null  object        
 2   ID_Kunjungan_FKRTL        826641 non-null  object        
 3   Tanggal_Datang_Kunjungan  826641 non-null  datetime64[ns]
 4   Tanggal_Pulang_Kunjungan  826641 non-null  datetime64[ns]
 5   Provinsi                  826641 non-null  category      
 6   Kabupaten_Kota            826641 non-null  category      
 7   Kepemilikan               826641 non-null  category      
 8   Jenis                     826641 non-null  category      
 9   Kelas_Rawat_Peserta       826641 non-null  category      
 10  Status_Pulang             826641 non-null  category      
dtypes: category(6), datetime64[ns](2), int32(1), object(2)
memory usa

In [63]:
df_fkrtl_1.duplicated().sum()

0

In [64]:
df_fkrtl_1.isna().sum().sum()

0

### 2.1.4. FKTP Non-Kapitasi

In [65]:
df_fktp_nk.columns

Index(['PSTV01', 'PSTV02', 'PSTV15', 'PNK02', 'PNK03', 'PNK04', 'PNK05',
       'PNK06', 'PNK07', 'PNK08', 'PNK09', 'PNK10', 'PNK11', 'PNK12', 'PNK13',
       'PNK13A', 'PNK14', 'PNK15', 'PNK16', 'PNK17', 'PNK18', 'PNK19',
       'PNK20'],
      dtype='object')

In [66]:
df_fktp_nk.rename(columns={
    'PSTV01': 'Nomor_Peserta',
    'PSTV02': 'Nomor_Keluarga',
    'PSTV15': 'Bobot',
    'PNK02' : 'ID_Kunjungan',
    'PNK03' : 'Tanggal_Kunjungan',
    'PNK04' : 'Tanggal_Tindakan',
    'PNK05' : 'Tanggal_Pulang',
    'PNK06' : 'Provinsi_Faskes',
    'PNK07' : 'Kode_Kab_Kota_Faskes',
    'PNK08' : 'Kepemilikan_Faskes',
    'PNK09' : 'Jenis_Faskes',
    'PNK10' : 'Tipe_Faskes',
    'PNK11' : 'Tingkat_Layanan',
    'PNK12' : 'Segmen_Peserta',
    'PNK13' : 'Kode_Nama_Diagnosis_ICD_10',
    'PNK13A': 'Kode_Diagnosis_ICD_10',
    'PNK14' : 'Kode_Diagnosis_3_5_Digit',
    'PNK15' : 'Nama_Diagnosis',
    'PNK16' : 'Nama_Tindakan',
    'PNK17' : 'Biaya_Tagih',
    'PNK18' : 'Biaya_Verifikasi',
    'PNK19' : 'Hasil_Pemeriksaan_GDP_1', # Gula Darah Puasa
    'PNK20' : 'Hasil_Pemeriksaan_GDP_2'
}, inplace=True)

In [67]:
df_fktp_nk.drop([
    'Nomor_Keluarga', 'Bobot',
    'Tipe_Faskes', 'Tingkat_Layanan', 'Segmen_Peserta',
    'Kode_Nama_Diagnosis_ICD_10', 'Kode_Diagnosis_ICD_10',
    'Kode_Diagnosis_3_5_Digit', 'Nama_Diagnosis',
    'Biaya_Tagih', 'Biaya_Verifikasi',
    'Hasil_Pemeriksaan_GDP_1', 'Hasil_Pemeriksaan_GDP_2'
    ], axis=1, inplace=True)

In [68]:
df_fktp_nk.head()

Unnamed: 0,Nomor_Peserta,ID_Kunjungan,Tanggal_Kunjungan,Tanggal_Tindakan,Tanggal_Pulang,Provinsi_Faskes,Kode_Kab_Kota_Faskes,Kepemilikan_Faskes,Jenis_Faskes,Nama_Tindakan
0,88204825,203960321P000052,2021-03-13,2021-03-16,2021-03-16,NUSA TENGGARA BARAT,LOMBOK TIMUR,SWASTA,KLINIK PRATAMA,Rawat Inap di R. Perawatan Biasa
1,24034617,185630321P001651,2021-03-28,2021-03-28,2021-03-30,SULAWESI SELATAN,LUWU,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,Rawat Inap di R. Perawatan Biasa
2,17391573,46631021P000693,2021-10-11,2021-10-14,2021-10-14,JAWA BARAT,BANDUNG,PEMERINTAH KABUPATEN/KOTA,PUSKESMAS,Rawat Inap di R. Perawatan Biasa
3,60560444,325900321P000146,2021-03-17,2021-03-21,2021-03-21,JAWA TENGAH,SRAGEN,SWASTA,KLINIK PRATAMA,Rawat Inap di R. Perawatan Biasa
4,291346266,460570621P000056,2021-06-13,2021-06-16,2021-06-16,ACEH,ACEH UTARA,SWASTA,KLINIK PRATAMA,Rawat Inap di R. Perawatan Biasa


In [69]:
df_fktp_nk.shape

(1702, 10)

In [70]:
df_fktp_nk.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1702 entries, 0 to 1701
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Nomor_Peserta         1702 non-null   int32         
 1   ID_Kunjungan          1702 non-null   object        
 2   Tanggal_Kunjungan     1702 non-null   datetime64[ns]
 3   Tanggal_Tindakan      1702 non-null   datetime64[ns]
 4   Tanggal_Pulang        1702 non-null   datetime64[ns]
 5   Provinsi_Faskes       1702 non-null   category      
 6   Kode_Kab_Kota_Faskes  1702 non-null   category      
 7   Kepemilikan_Faskes    1702 non-null   category      
 8   Jenis_Faskes          1702 non-null   category      
 9   Nama_Tindakan         1702 non-null   category      
dtypes: category(5), datetime64[ns](3), int32(1), object(1)
memory usage: 91.6+ KB


In [71]:
df_fktp_nk.duplicated().sum()

0

In [72]:
df_fktp_nk.isna().sum().sum()

0

### 2.1.5. FKRTL Diagnosis Sekunder

In [74]:
df_fkrtl_2.columns

Index(['FKL02', 'FKL24', 'FKL24A', 'FKL24B'], dtype='object')

In [75]:
df_fkrtl_2.rename(columns={
    'FKL02' : 'ID_Kunjungan_FKRTL',
    'FKL24' : 'Kode_Diagnosis_3_5_Digit',
    'FKL24A': 'Kode_Diagnosis_ICD_10',
    'FKL24B': 'Kode_Nama_Diagnosis_ICD_10'
}, inplace=True)

In [76]:
df_fkrtl_2.head()

Unnamed: 0,ID_Kunjungan_FKRTL,Kode_Diagnosis_3_5_Digit,Kode_Diagnosis_ICD_10,Kode_Nama_Diagnosis_ICD_10
0,100080121V000024,E119,E11,E11 Type 2 diabetes mellitus
1,100080121V000024,I10,I10,I10 Essential (primary) hypertension
2,100080121V000024,I693,I69,I69 Sequelae of cerebrovascular disease
3,100080121V000078,E119,E11,E11 Type 2 diabetes mellitus
4,100080121V000078,I693,I69,I69 Sequelae of cerebrovascular disease


In [77]:
df_fkrtl_2.shape

(1202910, 4)

In [78]:
df_fkrtl_2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1202910 entries, 0 to 1202909
Data columns (total 4 columns):
 #   Column                      Non-Null Count    Dtype 
---  ------                      --------------    ----- 
 0   ID_Kunjungan_FKRTL          1202910 non-null  object
 1   Kode_Diagnosis_3_5_Digit    1202910 non-null  object
 2   Kode_Diagnosis_ICD_10       1202910 non-null  object
 3   Kode_Nama_Diagnosis_ICD_10  1202910 non-null  object
dtypes: object(4)
memory usage: 45.9+ MB


In [79]:
df_fkrtl_2.duplicated().sum()

0

In [80]:
df_fkrtl_2.isna().sum().sum()

0

In [81]:
df_fkrtl_2.drop(['Kode_Diagnosis_ICD_10', 'Kode_Nama_Diagnosis_ICD_10'], axis=1, inplace=True)

In [82]:
df_fkrtl_2.head()

Unnamed: 0,ID_Kunjungan_FKRTL,Kode_Diagnosis_3_5_Digit
0,100080121V000024,E119
1,100080121V000024,I10
2,100080121V000024,I693
3,100080121V000078,E119
4,100080121V000078,I693


## 2.2. Menggabungkan Data

In [83]:
df_1 = df_19_21.copy()
df_2 = df_fkrtl_1.copy()
df_3 = df_fktp_nk.copy() # Non-Kapitasi
df_4 = df_fktp_k.copy()  # Kapitasi

In [84]:
# Merge df_1 with df_2
fkrtl_merged_df = df_1.merge(df_2, on='Nomor_Peserta', how='inner')

# Merge df_1 with df_3
# Select necessary columns from df_3
df_3 = df_3.loc[:, ~df_3.columns.isin([
    'Provinsi_Faskes', 'Kode_Kab_Kota_Faskes',
    'Kepemilikan_Faskes', 'Jenis_Faskes'
    ])]
fktp_merged_df = df_1.merge(df_3, on='Nomor_Peserta', how='inner')

# Merge fktp_merged_df with df_2
# Select necessary columns from df_2
df_2 = df_2.loc[:, ~df_2.columns.isin([
    'Nomor_Peserta', 'Lama_Kunjungan'
    ])]
fktp_fkrtl_df = fktp_merged_df.merge(df_2, left_on='ID_Kunjungan', right_on='ID_Kunjungan_FKTP', how='inner')

## 2.3. Mengekspor Data

In [85]:
# Define the directory
directory = '/content/drive/MyDrive/BPJS-Healthkathon-2.0-main/Files/'

In [86]:
# Export fktp_merged_df to a CSV file
fktp_merged_df.to_csv(directory + 'data_kepesertaan_pelayanan_fktp_DM.csv', index=False)

# Export fkrtl_merged_df to a CSV file
fkrtl_merged_df.to_csv(directory + 'data_kepesertaan_pelayanan_fkrt_DM.csv', index=False)

# Export fktp_fkrtl_df to a CSV file
fktp_fkrtl_df.to_csv(directory + 'data_pelayanan_fktp_fkrtl_DM.csv', index=False)