In [102]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


In [103]:
# Mengatur opsi untuk menampilkan semua kolom
pd.set_option('display.max_columns', None)
# Mengatur opsi untuk melingkupi konten kolom
pd.set_option('display.max_colwidth', None)


#### Load Data

In [104]:
df = pd.read_csv('datasets/cause-of-death/Penyebab Kematian di Indonesia yang Dilaporkan - Raw.csv')
# df = pd.read_csv('datasets/cause-of-death/Penyebab Kematian di Indonesia yang Dilaporkan - Clean.csv')
df.head(5)

Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL
0,Abrasi Air Laut,Bencana Alam,2012,1,0,Profil Kesehatan Indonesia Tahun 2012,Lampiran 3.38,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2012.pdf
1,AIDS,Bencana Non Alam dan Penyakit,2000,1,47,Profil Kesehatan Indonesia Tahun 2004,78,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf
2,AIDS,Bencana Non Alam dan Penyakit,2001,1,99,Profil Kesehatan Indonesia Tahun 2004,78,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf
3,AIDS,Bencana Non Alam dan Penyakit,2002,1,100,Profil Kesehatan Indonesia Tahun 2004,78,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf
4,AIDS,Bencana Non Alam dan Penyakit,2003,1,261,Profil Kesehatan Indonesia Tahun 2004,78,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf


#### Check Data

In [105]:
df.describe()

Unnamed: 0,Year,Data Redundancy,Total Deaths
count,990.0,990.0,990.0
mean,2009.455556,0.623232,1132.813131
std,4.587487,0.484821,5201.67518
min,2000.0,0.0,0.0
25%,2006.0,0.0,7.0
50%,2009.0,1.0,43.0
75%,2013.0,1.0,276.0
max,2021.0,1.0,129171.0


In [106]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 990 entries, 0 to 989
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Cause            990 non-null    object
 1   Type             990 non-null    object
 2   Year             990 non-null    int64 
 3   Data Redundancy  990 non-null    int64 
 4   Total Deaths     990 non-null    int64 
 5   Source           990 non-null    object
 6   Page at Source   988 non-null    object
 7   Source URL       988 non-null    object
dtypes: int64(3), object(5)
memory usage: 62.0+ KB


#### 15 Penyebab Penyakit Teratas

In [107]:
df.value_counts("Cause").head(15)

Cause
Avian Influenza (Flu Burung)    101
Antraks                          74
Leptospirosis                    68
KLB Diare                        64
Rabies - Lyssa                   51
AIDS                             41
Demam Berdarah Dengue (DBD)      24
Tetanus Neonatorium              22
Banjir                           13
Gempa Bumi                       13
KLB Campak                       13
Banjir Bandang                   13
Tanah Longsor                    13
Difteri                          13
Campak                           10
dtype: int64

#### jenis penyakit

In [108]:
df.value_counts("Type")

Type
Bencana Non Alam dan Penyakit    848
Bencana Alam                     126
Bencana Sosial                    16
dtype: int64

#### Variable Description
1. Cause : specific cause of the death
2. Type : category of the cause
3. Year : year of the occurance
4. Data Redundancy: number of copies of same data in the database
5. Total Deaths : number of the death
6. Source : source name
7. Page at Source : page number at the source
8. Source URL : source url

#### Handle Missing Values

In [109]:
df.isnull().sum()


Cause              0
Type               0
Year               0
Data Redundancy    0
Total Deaths       0
Source             0
Page at Source     2
Source URL         2
dtype: int64

In [110]:
df[df["Source URL"].isna() | df["Page at Source"].isna()]

Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL
310,COVID-19,Bencana Non Alam dan Penyakit,2020,1,22138,COVID19.go.id,,
311,COVID-19 (per tanggal 24/4/2021),Bencana Non Alam dan Penyakit,2021,1,22362,COVID19.go.id,,


##### Update Data COVID-19 (Merge)

In [111]:
df.loc[df.Cause == "COVID-19", "Total Deaths"] = 22138 + 37889
df.loc[df.Cause == "COVID-19", "Year"] = 2021
df.loc[df.Cause == "COVID-19", "Source URL"] = "unknown"
df.loc[df.Cause == "COVID-19", "Page at Source"] = "unknown"

In [112]:
df_to_drop = df[ df['Cause'] == "COVID-19 (per tanggal 3/7/2021)" ] 
df = df.drop(df_to_drop.index, axis=0)
df.reset_index(drop=True, inplace=True)

In [113]:
df[(df["Cause"]=="COVID-19") | (df["Cause"]=="COVID-19 (per tanggal 3/7/2021)")]

Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL
310,COVID-19,Bencana Non Alam dan Penyakit,2021,1,60027,COVID19.go.id,unknown,unknown


In [114]:
df.isnull().sum()

Cause              0
Type               0
Year               0
Data Redundancy    0
Total Deaths       0
Source             0
Page at Source     1
Source URL         1
dtype: int64

#### Ternyata masih ada data covid, jadi kita merger lagi

In [115]:
df[df["Source URL"].isna() | df["Page at Source"].isna()]

Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL
311,COVID-19 (per tanggal 24/4/2021),Bencana Non Alam dan Penyakit,2021,1,22362,COVID19.go.id,,


In [120]:
df.loc[df.Cause == "COVID-19", "Total Deaths"] = 22138 + 22362
df.loc[df.Cause == "COVID-19", "Year"] = 2021
df.loc[df.Cause == "COVID-19", "Source URL"] = "unknown"
df.loc[df.Cause == "COVID-19", "Page at Source"] = "unknown"

df_to_drop = df[ df['Cause'] == "COVID-19 (per tanggal 24/4/2021)" ] 
df = df.drop(df_to_drop.index, axis=0)
df.reset_index(drop=True, inplace=True)

df[df["Source URL"].isna() | df["Page at Source"].isna()]

Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL


##### cek apa sudah tidak ada missing values

In [121]:
df.isnull().sum()

Cause              0
Type               0
Year               0
Data Redundancy    0
Total Deaths       0
Source             0
Page at Source     0
Source URL         0
dtype: int64

#### pastikan spasi hanya 1

In [122]:
df['Cause'] = df['Cause'].replace('\s+', ' ', regex=True)
df['Type'] = df['Type'].replace('\s+', ' ', regex=True)
df['Source'] = df['Source'].replace('\s+', ' ', regex=True)
df['Page at Source'] = df['Page at Source'].replace('\s+', ' ', regex=True)
df['Source URL'] = df['Source URL'].replace('\s+', ' ', regex=True)

df.head()

Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL
0,Abrasi Air Laut,Bencana Alam,2012,1,0,Profil Kesehatan Indonesia Tahun 2012,Lampiran 3.38,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2012.pdf
1,AIDS,Bencana Non Alam dan Penyakit,2000,1,47,Profil Kesehatan Indonesia Tahun 2004,78,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf
2,AIDS,Bencana Non Alam dan Penyakit,2001,1,99,Profil Kesehatan Indonesia Tahun 2004,78,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf
3,AIDS,Bencana Non Alam dan Penyakit,2002,1,100,Profil Kesehatan Indonesia Tahun 2004,78,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf
4,AIDS,Bencana Non Alam dan Penyakit,2003,1,261,Profil Kesehatan Indonesia Tahun 2004,78,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf


#### cek data duplikat

In [123]:
df[df.duplicated(keep=False)]


Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL
585,KLB Diare,Bencana Non Alam dan Penyakit,2010,1,73,Profil Kesehatan Indonesia Tahun 2011,Lampiran 3.19,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2011.pdf
586,KLB Diare,Bencana Non Alam dan Penyakit,2010,1,73,Profil Kesehatan Indonesia Tahun 2011,Lampiran 3.19,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2011.pdf


In [125]:
df.drop_duplicates(inplace=True)
df[df.duplicated(keep=False)]


Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL


#### cek data duplikat dengan mengecualikan source url

In [127]:
df[df.duplicated(['Cause', 'Type', 'Year', 'Data Redundancy', 'Total Deaths', 'Source', 'Source URL'], keep=False)].head(10)

Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL
98,Antraks,Bencana Non Alam dan Penyakit,2011,1,1,Profil Kesehatan Indonesia Tahun 2013,158,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2013.pdf
99,Antraks,Bencana Non Alam dan Penyakit,2011,1,1,Profil Kesehatan Indonesia Tahun 2013,Lampiran 6.33,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2013.pdf
106,Antraks,Bencana Non Alam dan Penyakit,2012,1,0,Profil Kesehatan Indonesia Tahun 2013,158,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2013.pdf
107,Antraks,Bencana Non Alam dan Penyakit,2012,1,0,Profil Kesehatan Indonesia Tahun 2013,Lampiran 6.33,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2013.pdf
113,Antraks,Bencana Non Alam dan Penyakit,2013,1,1,Profil Kesehatan Indonesia Tahun 2013,158,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2013.pdf
114,Antraks,Bencana Non Alam dan Penyakit,2013,1,1,Profil Kesehatan Indonesia Tahun 2013,Lampiran 6.33,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2013.pdf
307,"Cedera, Keracunan, dan Akibat Sebab Luar Tertentu Lainnya",Bencana Non Alam dan Penyakit,2008,1,5767,Profil Kesehatan Indonesia Tahun 2008,31,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2008.pdf
308,"Cedera, Keracunan, dan Akibat Sebab Luar Tertentu Lainnya",Bencana Non Alam dan Penyakit,2008,1,5767,Profil Kesehatan Indonesia Tahun 2008,Lampiran 3.4,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2008.pdf
398,"Gejala, Tanda & Penemuan Laboratorium, Klinik Abnormal YTK",Bencana Non Alam dan Penyakit,2008,1,4238,Profil Kesehatan Indonesia Tahun 2008,31,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2008.pdf
399,"Gejala, Tanda & Penemuan Laboratorium, Klinik Abnormal YTK",Bencana Non Alam dan Penyakit,2008,1,4238,Profil Kesehatan Indonesia Tahun 2008,Lampiran 3.4,https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2008.pdf


In [129]:
df.drop_duplicates(['Cause', 'Type', 'Year', 'Data Redundancy', 'Total Deaths', 'Source'], keep='first',inplace=True)

In [131]:
df[df.duplicated(['Cause', 'Type', 'Year', 'Data Redundancy', 'Total Deaths', 'Source', 'Source URL'], keep=False)].head(10)

Unnamed: 0,Cause,Type,Year,Data Redundancy,Total Deaths,Source,Page at Source,Source URL


In [132]:
df.reset_index(drop=True, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 970 entries, 0 to 969
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Cause            970 non-null    object
 1   Type             970 non-null    object
 2   Year             970 non-null    int64 
 3   Data Redundancy  970 non-null    int64 
 4   Total Deaths     970 non-null    int64 
 5   Source           970 non-null    object
 6   Page at Source   970 non-null    object
 7   Source URL       970 non-null    object
dtypes: int64(3), object(5)
memory usage: 60.8+ KB


#### Check Typo

In [133]:
df["Type"].value_counts()

Bencana Non Alam dan Penyakit    828
Bencana Alam                     126
Bencana Sosial                    16
Name: Type, dtype: int64

In [135]:
df["Source"].value_counts()

Profil Kesehatan Indonesia Tahun 2006    93
Profil Kesehatan Indonesia Tahun 2005    91
Profil Kesehatan Indonesia Tahun 2008    82
Profil Kesehatan Indonesia Tahun 2004    68
Profil Kesehatan Indonesia Tahun 2018    66
Profil Kesehatan Indonesia Tahun 2010    66
Profil Kesehatan Indonesia Tahun 2016    65
Profil Kesehatan Indonesia Tahun 2017    65
Profil Kesehatan Indonesia Tahun 2011    62
Profil Kesehatan Indonesia Tahun 2007    58
Profil Kesehatan Indonesia Tahun 2009    58
Profil Kesehatan Indonesia Tahun 2015    54
Profil Kesehatan Indonesia Tahun 2019    41
Profil Kesehatan Indonesia Tahun 2012    40
Profil Kesehatan Indonesia Tahun 2013    31
Profil Kesehatan Indonesia Tahun 2014    29
COVID19.go.id                             1
Name: Source, dtype: int64

In [136]:
df["Source URL"].value_counts()

https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2006.pdf          93
https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2005.pdf          91
https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2008.pdf          82
https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2004.pdf          68
https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/PROFIL_KESEHATAN_2018_1.pdf                  66
https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/profil-kesehatan-indonesia-2010.pdf          66
https://pusdatin.kemkes.go.id/download.php?file=download/pusdatin/profil-kesehatan-indonesia/Profil-Kesehatan-Indonesia-2016.pdf          65
https://pusda

In [146]:
df["Cause"].value_counts().head(50)

Avian Influenza (Flu Burung)                                                101
Antraks                                                                      71
Leptospirosis                                                                68
KLB Diare                                                                    62
Rabies - Lyssa                                                               47
AIDS                                                                         41
Demam Berdarah Dengue (DBD)                                                  24
Tetanus Neonatorium                                                          22
Banjir                                                                       13
Gempa Bumi                                                                   13
KLB Campak                                                                   13
Banjir Bandang                                                               13
Tanah Longsor                           