## **A. Perkenalan**
Nama    : Richie Devon Sumantri <br>

<div style='text-align: justify'><em>Objective</em> dari dokumen ini adalah melakukan analisis terhadap banyaknya penyakit Parkinson pada pasien lanjut usia yang ada pada suatu Rumah Sakit A, dalam menjawab permasalahan yang dialami oleh Rumah Sakit A maka sebagai Data Analyst dapat melakukan analisa menggunakan visualisasi data, memanfaatkan statisika deskriptif dan inferensial.</div>

---

## **B. Identifikasi Masalah**

### 1. Latar Belakang

<div style="text-align: justify">Parkinson merupakan penyakit sistem saraf pusat yang bersifat menahun dan progresif. Perkiraan insidensi penyakit Parkinson secara kasar per tahunnya adalah 15 per 100.000 penduduk dengan prevalensi 18-328 kasus per 100.000 penduduk <a href='https://www.mitrakeluarga.com/artikel/penyakit-parkinson-3'>[1]</a>. Penyakit Parkinson disebabkan oleh kerusakan atau kematian sel-sel saraf di otak. Penyebab kerusakan atau kematian sel tersebut belum diketahui, tetapi riwayat penyakit Parkinson pada keluarga dan paparan senyawa kimia bisa meningkatkan risiko terjadinya penyakit ini <a href='https://www.alodokter.com/penyakit-parkinson'>[2]</a>.</div>
<br>
<blockquote><em>
"Penyakit Parkinson diderita oleh sekitar 10 juta orang di seluruh dunia <a href='https://www.alodokter.com/penyakit-parkinson'>[3]</a>."
</em></blockquote><br>

<div style="text-align: justify">Rumah Sakit A yang berada pada suatu lingkungan mendapati laporan dari divisi penanganan lanjut usia pada rumah sakit tersebut bahwa terjadi peningkatan jumlah pasien dengan diagnosis Parkinson. Divisi ini melihat banyaknya gejala-gejala seperti tremor dan otot yang kaku pada pasien lanjut usia yang berasal dari lingkungan sekitar rumah sakit. Berdasarkan informasi divisi terkait bahwa latar belakang pasien berasal dari berbagai riwayat kesehatan dan gaya hidup yang dapat mempengaruhi pasien sebagai faktor penentu diagnosis Parkinson.</div><br>

<div style="text-align: justify">Berdasarkan berbagai informasi latar belakang pasien, Rumah Sakit A ingin melakukan penekanan persentase penyakit Parkinson pada lingkungan masyarakat lanjut usia. Salah satu cara dalam mewujudkan hal tersebut adalah dengan melakukan usaha preventif pada pasien yang berpotensi rentan terhadap penyakit Parkinson berupa edukasi gaya hidup sehat, olahraga teratur dan pola makan sehat <a href='https://www.prudential.co.id/id/pulse/article/apa-itu-parkinson/'>[4]</a>.</div> 

### 2. Topik permasalahan

<div style="text-align: justify">Peningkatan penyakit Parkinson yang ada di masyarakat lanjut usia memberikan tantangan pada Rumah Sakit A untuk dapat menekan persentase penyakit tersebut. Rumah sakit harus melakukan perencanaan terkait penekanan penyakit Parkinson yang efektif dan efisien. Hal ini membutuhkan identifikasi faktor-faktor penentu diagnosis Parkinson.</div>
<br>

<div style="text-align: justify">Dengan melakukan analisis terkait faktor penentu diagnosis Parkinson, maka dapat diketahui aspek kehidupan yang menjadi fokus edukasi preventif oleh Rumah Sakit A. Analisis faktor diagnosis juga dapat menjadi bentuk intervensi penyakit Parkinson dengan melihat faktor-faktor yang menjadi penentu seseorang tidak terkena penyakit. Dengan melakukan analisis ini, maka faktor-faktor penyokong diagnosis Parkinson dapat dihindari dan faktor-faktor pelindung dapat diperkuat. Berdasarkan hasil analisis, Rumah Sakit A dapat mengidentifikasi kelompok pasien yang paling beresiko dan memerlukan perawatan yang lebih intensif. Program atau pedoman pencegahan penyakit Parkinson yang akan dilancarkan oleh Rumah Sakit A akan lebih tepat sasaran.</div>

### 3. Problem Statement

<div style="text-align: justify">Rumah Sakit A yang ingin Menekan perkembangan penyakit Parkinson dengan menurunkan persentase Parkinson pada populasi pasien lanjut usia sebesar 10% dalam 1 sampai 2 tahun, di mana dibutuhkan usaha preventif untuk menghindari penyakit Parkinson menggunakan analisis faktor-faktor yang dapat mempengaruhi penyakit Parkinson.</div>

Rincian detail dapat dilihat pada SMART _framework_ sebagai berikut.
- **Spesific**: Menekan perkembangan penyakit Parkinson di masyarakat lanjut usia.
- **Measureable**: Persentase penyakit Parkinson pada pasien lanjut usia berkurang sebesar 10% di masyarakat.
- **Achievable**: Melakukan analisis faktor-faktor yang dapat mempengaruhi penyakit Parkinson sehingga dapat melakukan usaha preventif seperti terapi saraf, pola makan, dan lain-lain.
- **Relevant**: Dengan melakukan berbagai usaha preventif kepada pasien yang tergolong rentan terhadap Parkinson maka diharapkan pasien lanjut usia dapat terhindar dari penyakit Parkinson.
- **Time-bound**: _project_ ini dapat dilakukan bergantung pada seberapa besar dari lingkungan masyarakat, namun secara umum 1 sampai 2 tahun.

### 4. Penjabaran Masalah

- Berapa usia pasien lanjut usia paling banyak terkena dan tidak terkena penyakit Parkinson? (visualisasi) 
- Siapa (etnis) yang paling banyak terkena penyakit Parkinson?(visualisasi)
- Jenis kelamin apa yang paling banyak terkena dan tidak terkena penyakit Parkinson? (visualisasi)
- Berapa rata-rata konsumsi alkohol dan aktivitas fisik pasien yang terkena penyakit Parkinson? (visualisasi)
- Bagaimana korelasi tingkat pendidikan dengan penentuan diagnosis penyakit Parkinson? (Statistik Deskriptif)
- Apakah ada hubungan antara riwayat kesehatan dengan penentuan diagnosis penyakit Parkinson? (Statistik Inferensial) 
- Apakah ada hubungan antara gejala-gejala yang dialami oleh pasien dengan penentuan diagnosis penyakit Parkinson? (Statisik Inferensial) 

## **C. Data Loading**

### 1. Input Data

In [1]:
# Importing libraries
import pandas as pd
from IPython.display import display, HTML
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from scipy import stats

# Alokasi dokumen csv ke dalam variabel dataframe original
df_org = pd.read_csv('parkinsons_disease_data.csv')

<div style="text-align: justify">Sumber data yang digunakan dalam <em>project</em> kali ini dapat diakses dari <a href='https://www.kaggle.com/datasets/rabieelkharoua/parkinsons-disease-dataset-analysis'><strong>Kaggle</strong></a>. Data yang digunakan berjudul 'Parkinson's Disease Dataset Analysis' dan dibuat oleh 'Rabie El Kharoua' pada 11 Juni 2024. Lisensi terkait penggunaan data dapat dilihat sebagai berikut: <a href='https://creativecommons.org/licenses/by/4.0/'>lisensi</a>.</div>

Dashboard Tableau dapat diakses sebagai berikut: <a href='https://public.tableau.com/views/Dashboard-M1-Devon/DashboardUtama?:language=en-US&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link'>Link Tableau</a>.

### 2. Eksplorasi Data Sederhana

In [2]:
# Menampilkan judul dari Tabel
display(HTML('<center><b><h3>Data Pasien Lanjut Usia</h3></b></center>'))
# Menampilkan dataframe original
display(df_org)

Unnamed: 0,PatientID,Age,Gender,Ethnicity,EducationLevel,BMI,Smoking,AlcoholConsumption,PhysicalActivity,DietQuality,...,FunctionalAssessment,Tremor,Rigidity,Bradykinesia,PosturalInstability,SpeechProblems,SleepDisorders,Constipation,Diagnosis,DoctorInCharge
0,3058,85,0,3,1,19.619878,0,5.108241,1.380660,3.893969,...,1.572427,1,0,0,0,0,0,0,0,DrXXXConfid
1,3059,75,0,0,2,16.247339,1,6.027648,8.409804,8.513428,...,4.787551,0,1,0,1,0,1,0,1,DrXXXConfid
2,3060,70,1,0,0,15.368239,0,2.242135,0.213275,6.498805,...,2.130686,1,0,0,0,1,0,1,1,DrXXXConfid
3,3061,52,0,0,0,15.454557,0,5.997788,1.375045,6.715033,...,3.391288,1,1,1,0,0,0,1,1,DrXXXConfid
4,3062,87,0,0,1,18.616042,0,9.775243,1.188607,4.657572,...,3.200969,0,0,0,1,0,1,0,0,DrXXXConfid
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2100,5158,87,1,0,2,38.483841,0,12.674393,5.325900,5.947278,...,8.076254,1,0,0,0,1,1,0,0,DrXXXConfid
2101,5159,67,0,0,1,33.694396,1,0.977018,0.108599,4.825187,...,1.665751,0,0,0,1,0,1,1,1,DrXXXConfid
2102,5160,65,0,0,2,22.829631,0,6.152286,5.775103,0.334244,...,4.785614,0,0,0,0,1,1,0,1,DrXXXConfid
2103,5161,61,1,0,0,16.871030,1,0.292094,2.280475,9.598513,...,8.378979,1,0,1,0,0,1,1,1,DrXXXConfid


<div style='text-align justify'>Berdasarkan informasi pada tabel <em>dataframe</em> yang telah ditampilkan bahwa data pasien lanjut usia terdiri dari 2105 pasien dengan 35 informasi detail rincian pasien tersebut dalam bentuk kolom. </div>

In [3]:
# Menampilkan informasi umum mengenai dataframe
df_org.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2105 entries, 0 to 2104
Data columns (total 35 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   PatientID                 2105 non-null   int64  
 1   Age                       2105 non-null   int64  
 2   Gender                    2105 non-null   int64  
 3   Ethnicity                 2105 non-null   int64  
 4   EducationLevel            2105 non-null   int64  
 5   BMI                       2105 non-null   float64
 6   Smoking                   2105 non-null   int64  
 7   AlcoholConsumption        2105 non-null   float64
 8   PhysicalActivity          2105 non-null   float64
 9   DietQuality               2105 non-null   float64
 10  SleepQuality              2105 non-null   float64
 11  FamilyHistoryParkinsons   2105 non-null   int64  
 12  TraumaticBrainInjury      2105 non-null   int64  
 13  Hypertension              2105 non-null   int64  
 14  Diabetes

<div style="text-align: justify">Berdasarkan informasi di atas terlihat bahwa sebagian besar tipe data pada kolom yang berada pada <em>dataframe</em> pasien lanjut usia telat memiliki bentuk numerik, bentuk numerik dari berbagai kolom seperti <em>gender</em>, <em>Ethnicity</em> dan <em>education level</em> telah dilakukan proses <em>encoding</em> sehingga menghasilkan bentuk <em>integer</em> yang melambangkan kelompok tertentu. Pada <em>dataframe</em> ini secara umum tidak memiliki <em>missing value</em>. Detail kolom yang akan digunakan adalah sebagai berikut.</div>

#### _Unique Indentifier_

- **PatientID**: Merupakan bentuk _primary key_ dari _dataframe_ pasien lanjut usia yang melambangkan nomor unik dari pasien tersebut.

#### _Demographic Details_

- **Age**: Merupakan umur dari pasien pada Rumah Sakit A yang berkisar dari 50 sampai 90 Tahun
- **Gender**: Merupakan representasi jenis kelamin dari pasien yang dilambangkan sebagai berikut.
    - 0 : Pria
    - 1 : Wanita
- **Ethnicity**: Merupakan representasi dari latar belakang etnis atau ras pasien tersebut, yang dapat dilambangkan sebagai berikut.
    - 0 : Kaukasia
    - 1 : Afrika Amerika
    - 2 : Asian
    - 3 : Lainnya
- **EducationLevel**: Merupakan tingkat pendidikan dari pasien tersebut, yang dapat dilambangkan sebagai berikut.
    - 0 : Di bawah SMA Sederajat
    - 1 : SMA Sederajat
    - 2 : Sarjana
    - 3 : Di atas Sarjana

#### _Medical History_

- **FamilyHistoryParkinsons**: Merupakan kondisi _boolean_ pasien yang terindikasi memiliki riwayat penyakit Parkinson yang diderita oleh keluarga pasien.
- **TraumaticBrainInjury**: Merupakan kondisi _boolean_ pasien yang terindikasi memiliki riwayat cidera otak.
- **Hypertension**: Merupakan kondisi _boolean_ pasien yang terindikasi memiliki riwayat hipertensi.
- **Diabetes**: Merupakan kondisi _boolean_ pasien yang terindikasi memiliki riwayat diabetes.
- **Depression**: Merupakan kondisi _boolean_ pasien yang terindikasi mengalami riwayat penyakit depresi.
- **Stroke**: Merupakan kondisi _boolean_ pasien yang terindikasi memiliki riwayat penyakit stroke.


#### _Lifestyle Factors_

- **BMI**: Merupakan perkiraan lemak tubuh yang didasarkan pada tinggi dan berat badan, yang memiliki rentang dari 15 sampai 40.
- **Smoking**: Merupakan kondisi _boolean_ pasien yang terindikasi merokok.
- **AlcoholConsumption**: Merupakan jumlah konsumsi alkohol pada satu minggu dalam satuan gelas yang memiliki rentang dari 0 sampai 20.
- **PhysicalActivity**: Merupakan jumlah waktu aktivitas yang berhubungan dengan fisik dalam satuan jam yang memiliki rentang dari 0 sampai 10.
- **DietQuality**: Merupakan kualitas diet yang dilakukan oleh pasien yang memiliki rentang dari 0 sampai 10.
- **SleepQuality**: Merupakan kualitas tidur oleh pasien yang memiliki rentang dari 4 sampai 10.

#### _Clinical Measurements_

- **SystolicBP**: Merupakan tekanan darah Systolic.
- **DiastolicBP**: Merupakan tekanan darah Diastolic.
- **CholesterolTotal**: Merupakan jumlah keseluruhan kolesterol.
- **CholesterolLDL**: Merupakan jumlah kolesterol jahat atau kolesterol dengan kepadatan rendah.
- **CholesterolHDL**: Merupakan jumlah kolesterol baik atau kolesterol dengan kepadatan tinggi.
- **CholesterolTriglycerides**: Merupakan tingkat Triglycerides dalam tubuh. 

#### _Cognitive and Functional Assessments_

- **UPDRS** (_Unified Parkinson's Disease Ratinng Scale_): Merupakan skor tingkat keparahan penyakit Parkinson yang berkisar dari 0 sampai 199, semakin tinggi skor UPDRS maka semakin parah tingkat keparahan penyakit Parkinson, penilaian ini dilakukan oleh pihak medis.
- **MoCA** (_Montreal Cognitive Assessment Score_): Merupakan tingkat kemampuan berpikir yang berkisar dari 0 sampai 30, semakin kecil skor MoCA maka semakin parah gangguan pemikiran yang dialami pasien, penilaian ini dilakukan oleh pihak medis.
- **FunctionalAssessment**: Merupakan tingkat kemampuan pasien dalam melakukan aktivitas sehari-hari yang berkisar antara 0 sampai 10, semakin kecil skor FunctionalAssessment maka semakin parah gangguan aktivitas sehari-hari yang dialami oleh pasien, penilaian ini dilakukan oleh pihak medis.

#### _Symptoms_

- **Tremor**: Merupakan kondisi _boolean_ pasien yang terindikasi mengalami tremor.
- **Rigidity**: Merupakan kondisi _boolean_ pasien yang terindikasi mengalami kekakuan otot.
- **Bradykinesia**: Merupakan kondisi _boolean_ pasien yang terindikasi mengalami pergerakan yang lambat.
- **PosturalInstability**: Merupakan kondisi _boolean_ pasien yang terindikasi mengalami gangguan keseimbangan tubuh.
- **SpeechProblems**: Merupakan kondisi _boolean_ pasien yang terindikasi mengalami gangguan berbicara.
- **SleepDisorders**: Merupakan kondisi _boolean_ pasien yang terindikasi mengalami gangguan tidur.
- **Constipation**: Merupakan kondisi _boolean_ pasien yang terindikasi mengalami gangguan buang air besar.

#### _Diagnosis Information_

- **Diagnosis**: Merupakan kondisi _boolean_ pasien dengan  nilai 1 terindikasi terkena penyakit Parkinson dan nilai 0 tidak berindikasi terkena penyakit Parkinson.

#### _Confidential Information_

- **DoctorInCharge**: Merupakan informasi dokter yang menangani pasien tersebut.

## **D. Data Cleaning**

<div style="text-align: justify"> Proses pada tahap ini berfokus pada pengolahan data yang berguna untuk membuat data dapat diproses menggunakan pengujian dan analisis dengan menggunakan tipe data yang tepat, <em>format</em> data yang tepat serta pengisian <em>missing value</em> pada setiap kolom pada <em>dataframe</em>.</div>

In [4]:
# Persalinan dataframe menjadi dataframe tahap data cleaning
df_clean = df_org.copy()

### 1. Pengecekan _missing value_

In [5]:
# Pembuatan list berisi jumlah pengecekan missing value pada setiap baris 
column_list_null = list(df_clean.isnull().sum())

# Penjumlahan setiap baris pada variabel column list null
print(f'Jumlah missing value pada keseluruhan kolom: {sum(column_list_null)}')

Jumlah missing value pada keseluruhan kolom: 0


<div style="text-align: justify">Berdasarkan informasi di atas terlihat bahwa dari semua kolom, tidak terdapat <em>missing value</em> yang didasarkan pada tidak adanya nilai <em>True</em> pada penjumlahan setiap isi <em>list</em> variabel <strong>column_list_null</strong> sehingga nilai jumlah <em>missing value</em> bernilai 0. Maka dari itu, tidak akan dibutuhkan pengisian <em>missing value</em>.</div>

### 2. Pengecekan data duplikasi

In [6]:
# Pengecekan jumlah data yang terduplikasi pada dataframe 
print(f'Jumlah duplikasi data pada dataframe: {df_clean.duplicated().sum()}')

Jumlah duplikasi data pada dataframe: 0


<div style='text-align: justify'>Berdasarkan informasi di atas bahwa tidak ada data yang sama pada masing-masing baris yang ada pada <em>dataframe</em> <strong>df_clean</strong>, hal ini dapat dilihat dengan jumlah data duplikasi sebesar 0. Melihat hal ini tidak dibutuhkan pengolahan penghapusan data duplikat.</div>

### 3. Penghapusan Kolom

In [7]:
# Pengecekan unique value dari kolom dokter yang menangani pasien
df_clean['DoctorInCharge'].unique()

array(['DrXXXConfid'], dtype=object)

In [8]:
# Pembuatan list kolom yang akan dihapus
deleted_columns = [
    'SystolicBP',
    'DiastolicBP',
    'CholesterolTotal',
    'CholesterolLDL',
    'CholesterolHDL',
    'CholesterolTriglycerides',
    'UPDRS',
    'MoCA',
    'FunctionalAssessment',
    'DoctorInCharge'
]

# Penghapusan kolom berdasarkan variabel list yang telah dibuat pada dataframe
df_clean.drop(columns=deleted_columns, inplace=True)

<div style='text-align: justify'>Berdasarkan pengecekan <em>unique value</em> dari kolom <strong>DoctorInCharge</strong> terlihat bahwa isi dari kolom tersebut hanya terdiri dari satu <em>value</em>, maka dari itu untuk mengurangi penggunaan data berulang dikarenakan hanya berisi satu value yang sama maka dapat dihilangkan pada <em>dataframe</em> dan juga tidak memberikan informasi yang relevan terkait dengan informasi identifikasi penyakit Parkinson. Sementara kolom lain yang dihilangkan adalah keseluruhan bagian dari <em>clinical measurement</em> dan <em>Cognitive and Functional Assessments</em>, hal ini dikarenakan kurangnya latar belakang penulis dalam bidang kesehatan terkait hasil data pengukuran klinis sehingga dapat mengakibatkan interpretasi data yang salah atau kurang tepat.<div> 

### 4. Pengecekan tipe kolom

In [9]:
# Pembuatan list kosong sebagai variabel pengisi tipe
column_set = []

# Pembuatan for loop untuk setiap kolom pada dataframe
for column in df_clean.columns:
    # Memasukkan tipe dari kolom ke dalam variabel
    column_set.append(df_clean[column].dtypes)

# Menampilkan informasi tipe data yang ada pada variabel berisi tipe kolom 
print(f'Tipe-tipe data pada dataframe adalah sebagai berikut: {set(column_set)}')

Tipe-tipe data pada dataframe adalah sebagai berikut: {dtype('int64'), dtype('float64')}


<div style='text-align: justify'>Berdasarkan informasi di atas dapat diketahui bahwa tidak ada tipe data kolom yang memiliki jenis <em>object</em>, maka dari itu pada tahap pengolahan analisis akan dipermudah dengan penggunaan data berbentuk numerik sebagai lambang kategorikal dari suatu <em>object</em>. Sehingga tidak dibutuhkan pengolahan pengubahan tipe kolom pada tahap <em>data cleaning</em></div>

### 5. Pergantian Nama Kolom

In [11]:
# Pembuatan dictionary berisi nama kolom lama sebagai key dan nama kolom baru sebagai value
rename_dict = {
    'PatientID'             : 'Pasien ID',
    'Age'                   : 'Umur',
    'Ethnicity'             : 'Etnis',
    'EducationLevel'        : 'Tingkat Pendidikan',
    'Smoking'               : 'Perokok Aktif',
    'AlcoholConsumption'    : 'Konsumsi Alkohol per Minggu',
    'PhysicalActivity'      : 'Jam Aktivitas Fisik per Minggu',
    'DietQuality'           : 'Kualitas Diet',
    'SleepQuality'          : 'Kualitas Tidur',
    'FamilyHistoryParkinsons': 'Riwayat Keluarga Parkinson',
    'TraumaticBrainInjury'  : 'Riwayat Cidera Otak',
    'Hypertension'          : 'Riwayat Hipertensi',
    'Diabetes'              : 'Riwayat Diabetes',
    'Depression'            : 'Riwayat Depresi',
    'Stroke'                : 'Riwayat Stroke',
    'Tremor'                : 'Gejala Tremor',
    'Rigidity'              : 'Gejala Otot Kaku',
    'Bradykinesia'          : 'Gejala Lambatnya Gerakan Tubuh',
    'PosturalInstability'   : 'Gejala Ketidakstabilan Tubuh',
    'SpeechProblems'        : 'Gejala Masalah Bicara',
    'SleepDisorders'        : 'Gejala Gangguan Tidur',
    'Constipation'          : 'Gejala Gangguan Buang Air Besar'
}

# Proses pergantian nama berdasarkan variabel dictionary yang telah dibuat
df_clean.rename(columns=rename_dict, inplace=True)

# Menampilkan nama kolom dari dataframe
df_clean.columns

Index(['Pasien ID', 'Umur', 'Gender', 'Etnis', 'Tingkat Pendidikan', 'BMI',
       'Perokok Aktif', 'Konsumsi Alkohol per Minggu',
       'Jam Aktivitas Fisik per Minggu', 'Kualitas Diet', 'Kualitas Tidur',
       'Riwayat Keluarga Parkinson', 'Riwayat Cidera Otak',
       'Riwayat Hipertensi', 'Riwayat Diabetes', 'Riwayat Depresi',
       'Riwayat Stroke', 'Gejala Tremor', 'Gejala Otot Kaku',
       'Gejala Lambatnya Gerakan Tubuh', 'Gejala Ketidakstabilan Tubuh',
       'Gejala Masalah Bicara', 'Gejala Gangguan Tidur',
       'Gejala Gangguan Buang Air Besar', 'Diagnosis'],
      dtype='object')

<div style='text-align: justify'>Terlihat bahwa pemberian nama kolom baru dilakukan untuk mempermudah pengolahan data dalam Bahasa Indonesia dan lebih mudah dalam identifikasi isi kolom berdasarkan nama kolom. Terlihat dari nama kolom dari <em>dataframe</em> telah berhasil diganti berdasarkan variabel pada <strong>rename_dict</strong>.</div>

In [12]:
# Menampilkan judul dari Tabel
display(HTML('<center><b><h3>Data Pasien Lanjut Usia</h3></b></center>'))

# Menampilkan hasil akhir dari tahap data cleaning
df_clean.head()

Unnamed: 0,Pasien ID,Umur,Gender,Etnis,Tingkat Pendidikan,BMI,Perokok Aktif,Konsumsi Alkohol per Minggu,Jam Aktivitas Fisik per Minggu,Kualitas Diet,...,Riwayat Depresi,Riwayat Stroke,Gejala Tremor,Gejala Otot Kaku,Gejala Lambatnya Gerakan Tubuh,Gejala Ketidakstabilan Tubuh,Gejala Masalah Bicara,Gejala Gangguan Tidur,Gejala Gangguan Buang Air Besar,Diagnosis
0,3058,85,0,3,1,19.619878,0,5.108241,1.38066,3.893969,...,0,0,1,0,0,0,0,0,0,0
1,3059,75,0,0,2,16.247339,1,6.027648,8.409804,8.513428,...,0,0,0,1,0,1,0,1,0,1
2,3060,70,1,0,0,15.368239,0,2.242135,0.213275,6.498805,...,0,0,1,0,0,0,1,0,1,1
3,3061,52,0,0,0,15.454557,0,5.997788,1.375045,6.715033,...,0,0,1,1,1,0,0,0,1,1
4,3062,87,0,0,1,18.616042,0,9.775243,1.188607,4.657572,...,0,0,0,0,0,1,0,1,0,0


### 6. Penambahan Kolom

In [13]:
# Pembuatan kolom baru
df_clean['Gender label'] = ''
df_clean['Etnis label'] = ''
df_clean['Tingkat Pendidikan label'] = ''
df_clean['Diagnosis label'] = ''

# Pengulangan setiap baris unttuk pengisian kolom
for index, row in df_clean.iterrows():
    # Penyesuaian isi kolom gender label 
    if row['Gender'] == 0:
        df_clean.loc[index, 'Gender label'] = 'Pria'
    else:
        df_clean.loc[index, 'Gender label'] = 'Wanita'
    
    # Penyesuaian isi kolom etnis label
    if row['Etnis'] == 0:
        df_clean.loc[index, 'Etnis label'] = 'Kaukasia'
    elif row['Etnis'] == 1:
        df_clean.loc[index, 'Etnis label'] = 'Afrika Amerika'
    elif row['Etnis'] == 2:
        df_clean.loc[index, 'Etnis label'] = 'Asian'
    else:
        df_clean.loc[index, 'Etnis label'] = 'Lainnya'
        
    # Penyesuaian isi kolom tingkat pendidikan label
    if row['Tingkat Pendidikan'] == 0:
        df_clean.loc[index, 'Tingkat Pendidikan label'] = 'Di bawah SMA Sederajat'
    elif row['Tingkat Pendidikan'] == 1:
        df_clean.loc[index, 'Tingkat Pendidikan label'] = 'SMA Sederajat'
    elif row['Tingkat Pendidikan'] == 2:
        df_clean.loc[index, 'Tingkat Pendidikan label'] = 'Sarjana'
    else:
        df_clean.loc[index, 'Tingkat Pendidikan label'] = 'Di atas Sarjana'
        
     # Penyesuaian isi kolom tingkat pendidikan label
    if row['Diagnosis'] == 0:
        df_clean.loc[index, 'Diagnosis label'] = 'Negatif Parkinson'
    else:
        df_clean.loc[index, 'Diagnosis label'] = 'Positif Parkinson'

# Menampilkan judul dari Tabel
display(HTML('<center><b><h3>Data Pasien Lanjut Usia</h3></b></center>'))

# Menampilkan dataframe        
df_clean.head()
    

Unnamed: 0,Pasien ID,Umur,Gender,Etnis,Tingkat Pendidikan,BMI,Perokok Aktif,Konsumsi Alkohol per Minggu,Jam Aktivitas Fisik per Minggu,Kualitas Diet,...,Gejala Lambatnya Gerakan Tubuh,Gejala Ketidakstabilan Tubuh,Gejala Masalah Bicara,Gejala Gangguan Tidur,Gejala Gangguan Buang Air Besar,Diagnosis,Gender label,Etnis label,Tingkat Pendidikan label,Diagnosis label
0,3058,85,0,3,1,19.619878,0,5.108241,1.38066,3.893969,...,0,0,0,0,0,0,Pria,Lainnya,SMA Sederajat,Negatif Parkinson
1,3059,75,0,0,2,16.247339,1,6.027648,8.409804,8.513428,...,0,1,0,1,0,1,Pria,Kaukasia,Sarjana,Positif Parkinson
2,3060,70,1,0,0,15.368239,0,2.242135,0.213275,6.498805,...,0,0,1,0,1,1,Wanita,Kaukasia,Di bawah SMA Sederajat,Positif Parkinson
3,3061,52,0,0,0,15.454557,0,5.997788,1.375045,6.715033,...,1,0,0,0,1,1,Pria,Kaukasia,Di bawah SMA Sederajat,Positif Parkinson
4,3062,87,0,0,1,18.616042,0,9.775243,1.188607,4.657572,...,0,1,0,1,0,0,Pria,Kaukasia,SMA Sederajat,Negatif Parkinson


## **E. Analysis dan Perhitungan**

<div style='text-align: justify'>Pada tahap ini dilakukan analisis untuk menjawab permasalahan yang berada pada <em>problem statement</em> dengan menggunakan visualisasi data, penggunaan statistik deskriptif dan statistik inferensial.</div>

In [14]:
# Persalinan dataframe df_clean menjadi df_analysis
df_analysis = df_clean.copy()

#### 1. Analisis Umur Pasien Lanjut Usia

In [15]:
# Pembuatan figure berisi historgram ngelompokkan identifikasi diagnosis berdasarkan umur pasien
fig_1_0 = px.histogram(df_analysis.groupby(['Umur','Diagnosis label'])['Pasien ID'].count().reset_index(), 
             x = 'Umur', 
             y = 'Pasien ID',
             title = 'Grafik 1.0 Jumlah Pasien Berdasarkan Umur',
             nbins = 15,
             text_auto = True,
             color = 'Diagnosis label'
             )
fig_1_0.update_layout(bargap = 0.2, yaxis_title = 'Jumlah Pasien', title_x = 0.5)
fig_1_0.show()

# Pembuatan ngelompokan dataframe berdasarkan kondisi diagnosis
df_analysis_diagnosis_0 = df_analysis[df_analysis['Diagnosis'] == 0]
df_analysis_diagnosis_1 = df_analysis[df_analysis['Diagnosis'] == 1]

# Pembuatan figure berisi grafik bar untuk melihat jumlah pasien pada setiap umur yang terkena penyakit Parkinson
df_analysis_1_diagnosis = df_analysis_diagnosis_1.groupby(['Umur','Diagnosis label'])['Pasien ID'].count().reset_index()
fig_1_1 = px.histogram(df_analysis_1_diagnosis, 
             x='Umur', 
             y='Pasien ID',
             title='Grafik 1.1 Detail Jumlah Pasien Terdiagnosa Parkinson berdasarkan Umur',
             nbins = 40,
             text_auto = True,
             color='Diagnosis label',
             color_discrete_sequence=['#ef553b']
             )
fig_1_1.update_layout(yaxis_title='Jumlah Pasien',title_x = 0.5)
fig_1_1.show()

# Pembuatan figure berisi grafik bar untuk melihat jumlah pasien pada setiap umur yang tidak terkena penyakit Parkinson
df_analysis_1_no_diagnosis = df_analysis_diagnosis_0.groupby(['Umur','Diagnosis label'])['Pasien ID'].count().reset_index()
fig_1_2 = px.histogram(df_analysis_1_no_diagnosis, 
             x='Umur', 
             y='Pasien ID',
             title='Grafik 1.2 Detail Jumlah Pasien tidak Terdiagnosa Parkinson berdasarkan Umur',
             nbins = 40,
             text_auto = True,
             color='Diagnosis label',
             )
fig_1_2.update_layout(yaxis_title='Jumlah Pasien',title_x = 0.5)
fig_1_2.show()

<div style = 'text-align: justify'>Berdasarkan informasi grafik 1.0 diketahui bahwa penyebaran umur pasien sangatlah merata melihat tidak adanya umur yang memiliki jumlah pasien yang signifikan lebih banyak dari pada umur lainnya, namun untuk kelompok umur dengan jumlah pasien terbanyak berada pada rentang umur 50 sampai 54 Tahun dengan 288 pasien. Namun ketika melihat penyebaran kondisi diagnosis, terlihat bahwa rentang umur 70 sampai 75 tahun paling banyak terkena penyakit parkinson dibandingkan dengan rentang umur lain. Sementara ketika melihat penyebaran kondisi tidak terdiagnosis penyakit, terlihat bahwa rentang umur 50 sampai 54 tahun paling banyak tidak terkena penyakit parkinson. </div><br>

<div style = 'text-align: justify'>Berdasarkan histogram yang dihasilkan terlihat bahwa pasien lanjut usia dengan umur yang lebih muda yakni pada awal 50 tahun memiliki jumlah pasien yang tidak terkena Parkinson paling tinggi dibandingkan dengan umur pasien lain, secara detail terlihat bahwa sebanyak 30 pasien berumur 53 dan 54 tahun. Sementara jumlah pasien yang paling banyak terkena penyakit Parkinson secara detail berada pada usia 75, 73 dan 70. Jumlah penyakit Parkinson pada usia awal lanjut usia yang minim dapat diakibatkan karena pengaruh umur yang masih bisa melakukan berbagai aktivitas, apabila dibandingkan dengan pasien yang berumur 70 tahun ke atas maka lebih dibutuhkan bantuan terkait aktivitas sehari-hari (aktivitas fisik) sehingga susah untuk berolahraga, maka dari itu tergolong lebih rentan terhadap penyakit pada usia-usia yang lebih tua <a href='https://www.google.com/url?sa=t&source=web&rct=j&opi=89978449&url=https://journal.uny.ac.id/index.php/jorpres/article/download/5725/4943&ved=2ahUKEwjvpJLRl4qHAxXJSmwGHRGDAmEQFnoECCQQAQ&usg=AOvVaw1l-vvJ2A6y0UNwlSZ7KVS6'>[5]</a>.

### 2. Analisis Etnis Pasien Lanjut Usia

In [16]:
# Pembuatan dataframe khusus berisi jumlah pasien berdasarkan etnis
df_analysis_2_1 = df_analysis.groupby(['Etnis label'])['Pasien ID'].count().reset_index()

# Pembuatan grafik pie menggunakan variabel dataframe
fig_2_0 = px.pie(df_analysis_2_1, 
             names='Etnis label', 
             values='Pasien ID', 
             title='Grafik 2.0 Persentase pasien pada tiap Etnis',
             color='Etnis label',
             )
fig_2_0.update_layout(xaxis_title='Etnis',yaxis_title = 'Jumlah Pasien', title_x=0.5)
fig_2_0.show()

# Pembuatan dataframe khusus berisi jumlah pasien berdasarkan etnis dan diagnosis
df_analysis_2_1 = df_analysis.groupby(['Etnis label', 'Diagnosis label'])['Pasien ID'].count().reset_index()

# Pembuatan grafik batang menggunakan variabel dataframe
fig_2_1 = px.bar(df_analysis_2_1, 
             x='Etnis label', 
             y='Pasien ID', 
             title='Grafik 2.1 Jumlah pasien dengan kondisi diagnosis pada tiap Etnis',
             text_auto=True,
             color='Diagnosis label',
             labels={'Diagnosis label': 'Diagnosis Legend'}
             )
fig_2_1.update_layout(xaxis_title='Etnis',yaxis_title = 'Jumlah Pasien', title_x=0.5)
fig_2_1.show()

# Perhitungan persentase penyakit Parkinson untuk setiap etnis
print(f"Sebanyak {((df_analysis_2_1[(df_analysis_2_1['Diagnosis label'] == 'Positif Parkinson') & (df_analysis_2_1['Etnis label'] == 'Afrika Amerika')]['Pasien ID'][1])/df_analysis_2_1[df_analysis_2_1['Etnis label'] == 'Afrika Amerika']['Pasien ID'].sum())*100:.2f}% dari Pasien beretnis Afrika Amerika terkena Parkinson")
print(f"Sebanyak {((df_analysis_2_1[(df_analysis_2_1['Diagnosis label'] == 'Positif Parkinson') & (df_analysis_2_1['Etnis label'] == 'Asian')]['Pasien ID'][3])/df_analysis_2_1[df_analysis_2_1['Etnis label'] == 'Asian']['Pasien ID'].sum())*100:.2f}% dari Pasien beretnis Asian terkena Parkinson")
print(f"Sebanyak {((df_analysis_2_1[(df_analysis_2_1['Diagnosis label'] == 'Positif Parkinson') & (df_analysis_2_1['Etnis label'] == 'Kaukasia')]['Pasien ID'][5])/df_analysis_2_1[df_analysis_2_1['Etnis label'] == 'Kaukasia']['Pasien ID'].sum())*100:.2f}% dari Pasien beretnis Kaukasia terkena Parkinson")
print(f"Sebanyak {((df_analysis_2_1[(df_analysis_2_1['Diagnosis label'] == 'Positif Parkinson') & (df_analysis_2_1['Etnis label'] == 'Lainnya')]['Pasien ID'][7])/df_analysis_2_1[df_analysis_2_1['Etnis label'] == 'Lainnya']['Pasien ID'].sum())*100:.2f}% dari Pasien beretnis Lainnya terkena Parkinson")

Sebanyak 64.71% dari Pasien beretnis Afrika Amerika terkena Parkinson
Sebanyak 62.94% dari Pasien beretnis Asian terkena Parkinson
Sebanyak 61.42% dari Pasien beretnis Kaukasia terkena Parkinson
Sebanyak 58.69% dari Pasien beretnis Lainnya terkena Parkinson


<div style='text-align: justify'>Berdasarkan informasi dari grafik di atas, terlihat bahwa secara jumlah etnis Kaukasia memiliki jumlah pasien paling banyak di Rumah Sakit A. Namun secara proporsional terlihat bahwa 64.71% pasien beretnis Afrika Amerika lebih banyak terkena penyakit Parkinson, sedangkan proporsional terkecil yakni 58% dari pasien beretnis lain yang terkena penyakit Parkinson. Kecenderungan proporsional ini terpisah oleh nilai rentang 58 sampai 64 persen, ketika melakukan perhitungan rata-rata keseluruhan maka akan mendapatkan 61% pasien lanjut usia yang berada di Rumah Sakit A mengalami penyakit Parkinson. </div><br>

<div style='text-align: justify'>Etnis Kaukasia memiliki pasien yang paling banyak dapat dikarenakan kondisi lingkungan Rumah Sakit A yang dapat dikelilingi oleh masyarakat Kaukasia, maka dari itu sebagian besar pasien lanjut usia berasal dari masyarakat beretnis Kaukasia. Secara keseluruhan proporsional tidak terlihat perbedaan signifikan antara proporsional satu etnis dan etnis lain yang membuat suatu etnis dapat dikatakan lebih rentan terhadap penyakit Parkinson, namun untuk memastikan hal ini dibutuhkan analisa hubungan antarvariabel lebih lanjut.</div>

### 3. Analisis Jenis Kelamin Pasien Lanjut Usia

In [17]:
# Pembuatan variabel dataframe untuk analisis perhitungan jumlah pasien berdasarkan jenis kelamin 
df_analysis_3_0 = df_analysis.groupby(['Gender label', 'Diagnosis label'])['Pasien ID'].count().reset_index()

# Pembuatan grafik pie menggunakan variabel dataframe
fig_3_0 = px.pie(df_analysis_3_0, 
             names='Gender label', 
             values='Pasien ID', 
             title='Grafik 3.0 Persentase Jenis Kelamin pada Pasien Lanjut Usia',
             color='Gender label',
             )
fig_3_0.update_layout(title_x=0.5)
fig_3_0.show()

# Pembuatan grafik batang menggunakan variabel dataframe
fig_3_1 = px.bar(df_analysis_3_0, 
             x='Gender label', 
             y='Pasien ID', 
             title='Grafik 3.1 Jumlah Pasien dengan Kondisi Parkinson tiap Jenis Kelamin',
             text_auto=True,
             color='Diagnosis label',
             labels={'Diagnosis label': 'Diagnosis Legend'}
             )
fig_3_1.update_layout(xaxis_title='Jenis Kelamin',yaxis_title = 'Jumlah Pasien', title_x=0.5)
fig_3_1.show()


# Perhitungan persentase penyakit Parkinson untuk setiap jenis kelamin
print(f"Sebanyak {((df_analysis_3_0[(df_analysis_3_0['Diagnosis label'] == 'Positif Parkinson') & (df_analysis_3_0['Gender label'] == 'Pria')]['Pasien ID'][1])/df_analysis_3_0[df_analysis_3_0['Gender label'] == 'Pria']['Pasien ID'].sum())*100:.2f}% dari Pasien berjenis kelamin Pria terkena Parkinson")
print(f"Sebanyak {((df_analysis_3_0[(df_analysis_3_0['Diagnosis label'] == 'Positif Parkinson') & (df_analysis_3_0['Gender label'] == 'Wanita')]['Pasien ID'][3])/df_analysis_3_0[df_analysis_3_0['Gender label'] == 'Wanita']['Pasien ID'].sum())*100:.2f}% dari Pasien berjenis kelamin wanita terkena Parkinson")


Sebanyak 61.14% dari Pasien berjenis kelamin Pria terkena Parkinson
Sebanyak 62.78% dari Pasien berjenis kelamin wanita terkena Parkinson


<div style='text-align: justify'>Berdasarkan informasi di atas, terlihat bahwa persentase jenis kelamin pada pasien lanjut usia cukup seimbang, persentase pasien lanjut usia berkelamin pria sebesar 50.7% sementara pasien wanita sebesar 49.3%. Maka dari itu penyebaran jenis kelamin dapat dikatakan cukup merata, pasien berjenis kelamin pria memiliki 31 lebih pasien dibandingkan dengan pasien berjenis kelamin wanita. <div><br>
<div style='text-align: justify'>Berdasarkan diagnosis dari penyakit Parkinson, terlihat bahwa pasien berjenis kelamin pria dan wanita memiliki proporsional yang hampir sama yakni 61% dari pasien berjenis kelamin pria terkena penyakit Parkinson dan 62% dari pasien berjenis kelamin wanita terkena penyakit Parkinson. Walaupun jumlah pasien berjenis kelamin pria lebih banyak dibandingkan dengan pasien berjenis kelamin wanita, tapi secara proporsional lebih banyak pasien berjenis kelamin wanita yang terkena penyakit Parkinson dengan selisih sebanyak 1%.</div>

#### 4. Analisis Rata-rata Konsumsi Alkohol dan Aktivitas Fisik

In [18]:
# Pembuatan figure berisi historgram ngelompokkan identifikasi diagnosis berdasarkan umur pasien
fig_4_0 = px.histogram(df_analysis.groupby(['Diagnosis label'])['Konsumsi Alkohol per Minggu'].mean().reset_index(), 
             x = 'Diagnosis label', 
             y = 'Konsumsi Alkohol per Minggu',
             title = 'Grafik 4.0 Rata-rata Konsumsi Alkohol Berdasarkan Diagnosa',
             text_auto = True,
             color = 'Diagnosis label'
             )
fig_4_0.update_layout(bargap = 0.2, yaxis_title = 'Rata-rata Konsumsi Alkohol', xaxis_title='Diagnosis', title_x = 0.5)
fig_4_0.show()

# Pembuatan figure berisi historgram ngelompokkan identifikasi diagnosis berdasarkan umur pasien
fig_4_1 = px.histogram(df_analysis.groupby(['Diagnosis label'])['Jam Aktivitas Fisik per Minggu'].mean().reset_index(), 
             x = 'Diagnosis label', 
             y = 'Jam Aktivitas Fisik per Minggu',
             title = 'Grafik 4.1 Rata-rata Jam Aktivitas Fisik Berdasarkan Diagnosa',
             text_auto = True,
             color = 'Diagnosis label'
             )
fig_4_1.update_layout(bargap = 0.2, yaxis_title = 'Rata-rata Jam Aktivitas Fisik', xaxis_title='Diagnosis', title_x = 0.5)
fig_4_1.show()

<div style='text-align: justify'> Berdasarkan grafik 4.0 dan 4.1, terlihat bahwa tidak ada perbedaan signifikan antara rata-rata konsumsi alkohol dan jam aktivitas. Pasien lanjut usia yang terdiagnosis penyakit Parkinson memiliki rata-rata konsumsi alkohol yang lebih tinggi yakni 10.2 dan rata-rata konsumsi alkohol yang terdiagnosis tidak Parkinson memiliki nilai sebesar 9.7. Kecenderungan penyakit parkinson tidak bisa terlihat karena perbedaan antara dua kondisi diagnosis cukup kecil yakni 0.5. Sementara pasien dengan kondisi Parkinson memiliki jam aktivitas yang lebih tinggi namun tidak secara signifikan yakni 5.04, sementara pasien yang tidak terdiagnosis Parkinson memiliki rata-rata jam aktivitas sebesar 4.96.</div><br>

<div style='text-align: justify'>Secara keseluruhan grafik 4.0 dan 4.1, tidak terlihat adanya perbedaan signifikan antar pasien terdiagnosis Parkinson dan tidak. Perbedaan rata-rata jam aktivitas dan konsumsi alkohol yang tidak signifikan ini dibutuhkan analisis korelasi lebih lanjut untuk melihat apakah perbedaan kecil pada rata-rata ini dapat memberikan korelasi dengan penentuan diagnosis Parkinson.
</div>

#### 5. Hubungan tingkat pendidikan terhadap Penentuan Diagnosis Parkinson 

In [19]:
# Hubungan korelasi antar tingkat pendidikan dan penentuan diagnosis Parkinson
print(f"Besar korelasi antara tingkat pendidikan dan diagnosis Parkinson : {df_analysis['Tingkat Pendidikan'].corr(df_analysis['Diagnosis'],method='kendall'):.3f}")

Besar korelasi antara tingkat pendidikan dan diagnosis Parkinson : 0.004


<div style='text-align: justify'>Pemilihan pengolahan korelasi menggunakan metode <strong>kendall</strong> dikarenakan bentuk tipe data yang akan diolah adalah bentuk kategorikal sehingga penggunaan metode kendall akan lebih efektif dalam pengolahan data kategorikal dan tidak membutuhkan pengolahan data <em>outlier</em> karena metode kendall tidak menghiraukan adanya <em>outlier</em> <a href='http://www.statistics4u.info/fundstat_eng/ee_kendall_rank_correlation.html'>[6]</a>.</div><br>

<div style='text-align: justify'>Berdasarkan informasi di atas terlihat bahwa faktor demografis seperti tingkat pendidikan tidak mempengaruhi pasien akan penentuan diagnosis penyakit Parkinson karena nilai korelasi yang mendekati nol. Hal ini terlihat dari nilai korelasi tingkat pendidikan yang kecil yakni 0.004, maka dari itu kecil sekali pengaruh dari tingkat pendidikan dalam menghasilkan pengaruh penentuan penyakit Parkinson.<div><br>

<div style='text-align: justify'>Kesimpulan yang dapat diambil adalah pengaruh dari faktor demografis tingkat pendidikan sangat kecil dan mendekati nol. Hasil korelasi ini didapatkan dari bentuk data yang terlihat tidak ada perbedaan yang signifikan antar faktor demografis dalam penentuan penyakit Parkinson. Maka dari itu penyakit Parkinson tidak di alami oleh kelompok tingkat pendidikan tertentu, namun secara umum seseorang dapat terkena penyakit Parkinson tanpa melihat latar belakang tingkat pendidikan.</div>

### 6. Hubungan Faktor Riwayat Kesehatan dan Penentuan Diagnosis Parkinson

<div style='text-align: justify'>Pada bagian ini, dibutuhkan pengolahan data menggunakan statistik inferensial dengan mempertimbangkan hasil p-value dan <em>critical value</em> sebesar 0.01. Penentuan hipotesis nol dan hipotesis alternatif adalah sebagai berikut.</div>

- **Hipotesis nol** : Tidak ada hubungan dari faktor riwayat kesehatan yang dipilih dengan penentuan diagnoisis Parkinson.
- **Hipotesis alternatif**: ada hubungan dari faktor riwayat kesehatan yang dipilih dengan penentuan diagnoisis Parkinson.

In [20]:
# Pembuatan dataframe kosong
df_hubungan_diagnosis = pd.DataFrame()
df_hubungan_diagnosis['Nama Kolom'] = None
df_hubungan_diagnosis['P-value'] = None 


# Pengulangaan menggunakan for loop dari setiap kolom menggunakan index tertentu
for kolom in list(df_analysis.columns)[11:17]:
    # Pembuatan crosstab antar kolom dan diagnosis
    contingency_table_1 = pd.crosstab(df_analysis[kolom],df_analysis['Diagnosis label'])
    # Perhitungan chi squared test
    res_1 = stats.chi2_contingency(contingency_table_1)
    # Melakukan input hasil p-value ke dataframe kosong
    df_hubungan_diagnosis.loc[len(df_hubungan_diagnosis)] = [kolom, res_1.pvalue]

# Melakukan reset index
df_hubungan_diagnosis.sort_values(by='P-value').reset_index(inplace=True)

# Menampilkan judul dari Tabel
display(HTML('<b><h3>Data Nilai P-value dari Masing-masing Riwayat Kesehatan</h3></b>'))

# Menampilkan dataframe
df_hubungan_diagnosis

Unnamed: 0,Nama Kolom,P-value
0,Riwayat Keluarga Parkinson,0.582647
1,Riwayat Cidera Otak,0.326698
2,Riwayat Hipertensi,0.639776
3,Riwayat Diabetes,0.010617
4,Riwayat Depresi,0.00793
5,Riwayat Stroke,0.236063


<div style='text-align: justify'>Pemilihan model pengujian yang digunakan pada tahap ini menggunakan <strong>chi-squared test</strong>, pemilihan pengujian ini digunakan karena membandingkan kolom kategorikal. Maka dari itu tidak dibutuhkan pengolahan data <em>outlier</em> karena pengujian menggunakan chi-squared test tahan akan data <em>outlier</em>.</div><br>

<div style='text-align: justify'>Berdasarkan informasi di atas terlihat bahwa faktor riwayat kesehatan berupa Depresi memiliki nilai di bawah <em>critical value</em> sehingga dapat disimpulkan bahwa hipotesis nol ditolak dan hipotesis alternatif diterima. Sedangkan lima faktor riwayat kesehatan lain memiliki nilai p-value di atas 0.01, maka dari itu ke-lima riwayat kesehatan lainnya tidak memiliki hubungan dengan penentuan diagnosis Parkinson.</div><br>

<div style='text-align: justify'>Faktor riwayat kesehatan berupa depresi dapat memiliki hubungan karena adanya perubahan pada area otak yang terlibat dalam pengaturan suasana hati, energi, motivasi, nafsu makan dan tidur. Depresi juga dapat menjadi awal dari gejala motorik dan dapat memperparah gejala motorik <a href='https://med.stanford.edu/parkinsons/symptoms-PD/depression.html'>[7]</a>.</div>

### 7. Hubungan Gejala-gejala yang dialami oleh Pasien terhadap Penentuan Diagnosis Parkinson

<div style='text-align: justify'>Pada bagian ini, dibutuhkan pengolahan data menggunakan statistik inferensial dengan mempertimbangkan hasil p-value dan <em>critical value</em> sebesar 0.01. Penentuan hipotesis nol dan hipotesis alternatif adalah sebagai berikut.</div>

- **Hipotesis nol** : Tidak ada hubungan dari gejala yang dipilih dengan penentuan diagnoisis Parkinson.
- **Hipotesis alternatif**: ada hubungan dari gejala yang dipilih dengan penentuan diagnoisis Parkinson.

In [21]:
# Pembuatan dataframe kosong
df_hubungan_diagnosis_1 = pd.DataFrame()
df_hubungan_diagnosis_1['Nama Kolom'] = None
df_hubungan_diagnosis_1['P-value'] = None 

# Pengulangaan menggunakan for loop dari setiap kolom menggunakan index tertentu
for kolom in list(df_analysis.columns)[17:24]:
    # Pembuatan crosstab antar kolom dan diagnosis
    contingency_table_1 = pd.crosstab(df_analysis[kolom],df_analysis['Diagnosis label'])
    # Perhitungan chi squared test
    res_1 = stats.chi2_contingency(contingency_table_1)
    # Melakukan input hasil p-value ke dataframe kosong
    df_hubungan_diagnosis_1.loc[len(df_hubungan_diagnosis_1)] = [kolom, res_1.pvalue]

# Melakukan reset index
df_hubungan_diagnosis_1.sort_values(by='P-value').reset_index(inplace=True)

# Menampilkan judul dari Tabel
display(HTML('<b><h3>Data Nilai P-value dari Masing-masing Gejala</h3></b>'))

# Menampilkan dataframe
df_hubungan_diagnosis_1

Unnamed: 0,Nama Kolom,P-value
0,Gejala Tremor,4.350985e-36
1,Gejala Otot Kaku,2.5781400000000004e-17
2,Gejala Lambatnya Gerakan Tubuh,4.9217690000000005e-17
3,Gejala Ketidakstabilan Tubuh,2.037697e-11
4,Gejala Masalah Bicara,0.6090497
5,Gejala Gangguan Tidur,0.6649179
6,Gejala Gangguan Buang Air Besar,0.265756


<div style='text-align: justify'>Pemilihan model pengujian yang digunakan pada tahap ini menggunakan <strong>chi-squared test</strong>, pemilihan pengujian ini digunakan karena membandingkan kolom kategorikal. Maka dari itu tidak dibutuhkan pengolahan data <em>outlier</em> karena pengujian menggunakan chi-squared test tahan akan data <em>outlier</em>.</div><br>

<div style='text-align: justify'> Berdasarkan informasi di atas terlihat bahwa gejala tremor, otot kaku, lambatnya gerakan tubuh dan ketidakstabilan tubuh memiliki nilai p-value lebih kecil dari <em>critical value</em>. Maka dari itu dapat disimpulkan bahwa gejala tremor, otot kaku, lambatnya gerakan tubuh dan ketidakstabilan tubuh mimiliki hubungan dengan penentuan diagnosis penyakit Parkinson. Terlihat bahwa gejala yang berhubungan dengan kontrol tubuh akan segala bentuk gerakan motorik merupakan gejala-gejala awal yang berhubungan dengan penentuan diagnosis dari penyakit Parkinson.<div><br>

<div style='text-align: justify'> Gejala umum seperti hilangnya kontrol tubuh ini merupakan hal yang cukup banyak dialami oleh penderita penyakit Parkinson <a href='https://www.mitrakeluarga.com/artikel/penyakit-parkinson-3'>[8]</a>. Penyakit parkinson yang sejatinya merupakan hilangnya kontrol tubuh akan sensor motorik sebagai pengendali gerakan dan keseimbangan tubuh, banyak diawali oleh gejala tremor. Tremor merupakan gerakan seperti gemetar pada beberapa bagian tubuh, biasanya di tangan, kaki, dan badan <a href='https://www.alodokter.com/kenali-tremor-dan-penyebabnya'>[9]</a>. Gejala-gejala lain seperti gejala masalah tidur, masalah bicara dan gangguan buang air besar tidak dianggap memiliki cukup hubungan sebagai faktor penentu diagnosis Parkinson.</div>


## **F. Kesimpulan**

Kesimpulan dari analisis yang dilakukan pada dokumen ini adalah sebagai berikut.

- Pasien dengan usia 70 sampai 75 Tahun paling banyak terkena penyakit Parkinson, sementara pasien dengan usia 50 sampai 54 Tahun paling banyak tidak terkena penyakit Parkinson.
- Etnis yang paling banyak terkena penyakit Parkinson adalah Kaukasia, sementara secara proporsional etnis yang paling banyak terkena penyakit parkinson adalah Afrika Amerika sebesar 64.71%.
- Jenis kelamin yang paling banyak terkena penyakit Parkinson adalah Pria sebesar 50.7%, namun secara proporsional jenis kelamin yang lebih besar yakni wanita dengan 62.78% dari populasi wanita terkena penyakit Parkinson.
- Rata-rata konsumsi alkohol per minggu dari pasien yang terdiagnosis Parkinson adalah 10.2, sementara rata-rata aktivitas fisik per minggu adalah 5.04 Jam.
- Korelasi antara informasi tingkat pendidikan pasien lanjut usia dengan penentuan diagnosis parkinson sangat kecil, yakni 0.004.
- Riwayat kesehatan berupa depresi memiliki hubungan dengan penentuan diagnosis penyakit Parkinson.
- Gejala tremor, ketidakstabilan tubuh, otot kaku dan lambatnya gerakan tubuh memiliki hubungan dengan penentuan diagnosis penyakit parkinson.

<br>
Berikut merupakan rekomendasi dari analisis yang telah dilakukan.

- Pembuatan program edukasi untuk target usia 70 hingga 75 tahun untuk mengenal gejala-gejala dari penyakit Parkinson berupa tremor, ketidakstabilan tubuh, otot kaku dan lambatnya gerakan tubuh.
- Pengenalan edukasi untuk pasien kelompok awal lanjut usia akan pentingnya gaya hidup dan cara pencegahan penyakit Parkinson.
- Menyediakan layanan penanganan terkait kesehatan mental untuk menangani potensi adanya penyakit depresi pada masyarakat lanjut usia.