# **Prediksi Hepatitis C**

## **Latar Belakang**
Menurut Lembaga Center for Disease Control Amerika Serikat, **Hepatitis C adalah infeksi hati yang disebabkan oleh virus hepatitis C (HCV). Hepatitis C menyebar melalui kontak dengan darah dari orang yang terinfeksi.** Banyak pasien tertular Hepatitis C karena **saling berbagi jarum** atau peralatan lainnya yang digunakan untuk mempersiapkan dan memasukkan obat-obatan kedalam darah.

Hepatitis sendiri terbagi 3, yaitu Hepatitis A, B, dan C. Vaksin sudah tersedia untuk pencegahan Hepatitis A dan B, namun **belum ada vaksin untuk Hepatitis C**. Ini sangat berbahaya, mengingat walau Hepatitis C biasanya berada pada tingkat akut, di sebagian orang virus ini akan naik menjadi tingkat kronis, yang dapat **menyebabkan masalah kesehatan jangka panjang** lainnya, seperti **Fibrosis** dan **Sirosis**.

Lebih dari **50%** orang yang terkena Hepatitis C akan naik ke tingkat kronis. Dan sekitar **5% hingga 25% pasien** akan terkena sirosis dalam 10-20 tahun. Semakin lama seseorang terjangkit dengan Hepatitis C, akan semakin besar kerusakan pada liver, yang menyebabkan fibrosis.

Sumber:
- [CDC : Hepatitis C](https://www.cdc.gov/hepatitis/hcv/index.htm#:~:text=Hepatitis%20C%20is%20a%20liver,to%20prepare%20and%20inject%20drugs.)

- [Hepatitis C dan Fibrosis](https://www.healthline.com/health/hepatitis-c-fibrosis-score#fibrosis-score)

## **Goals**

Tujuan Projek ini adalah membangun sebuah *classifier* yang dapat menentukan kondisi seorang pasien, baik dalam kondisi Hepatitis, Fibrosis, ataupun Sirosis.

## **Data**

Data yang digunakan berisi nilai-nilai hasil laboratorium untuk para donor darah dan pasien Hepatitis C.

Sumber:
- [Data](https://archive.ics.uci.edu/dataset/571/hcv+data)
- [Informasi Tiap Kolom](https://rstudio-pubs-static.s3.amazonaws.com/782255_662e3ed516fe41a2b89cea20400e3fec.html)

## **Import Libraries**

In [None]:
import pandas as pd       # pandas untuk pembentukan dataframe/tabel
import numpy as np        # numpy untuk perhitungan matematika
import scipy.stats as sp  # module stats library scipy untuk uji statistik

## **Load Data**

In [None]:
df = pd.read_csv('/content/HepatitisCdata.csv')
df

Unnamed: 0.1,Unnamed: 0,Category,Age,Sex,ALB,ALP,ALT,AST,BIL,CHE,CHOL,CREA,GGT,PROT
0,1,0=Blood Donor,32,m,38.5,52.5,7.7,22.1,7.5,6.93,3.23,106.0,12.1,69.0
1,2,0=Blood Donor,32,m,38.5,70.3,18.0,24.7,3.9,11.17,4.80,74.0,15.6,76.5
2,3,0=Blood Donor,32,m,46.9,74.7,36.2,52.6,6.1,8.84,5.20,86.0,33.2,79.3
3,4,0=Blood Donor,32,m,43.2,52.0,30.6,22.6,18.9,7.33,4.74,80.0,33.8,75.7
4,5,0=Blood Donor,32,m,39.2,74.1,32.6,24.8,9.6,9.15,4.32,76.0,29.9,68.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
610,611,3=Cirrhosis,62,f,32.0,416.6,5.9,110.3,50.0,5.57,6.30,55.7,650.9,68.5
611,612,3=Cirrhosis,64,f,24.0,102.8,2.9,44.4,20.0,1.54,3.02,63.0,35.9,71.3
612,613,3=Cirrhosis,64,f,29.0,87.3,3.5,99.0,48.0,1.66,3.63,66.7,64.2,82.0
613,614,3=Cirrhosis,46,f,33.0,,39.0,62.0,20.0,3.56,4.20,52.0,50.0,71.0


## **Data Wrangling**

Disini, seluruh data akan dipastikan dalam bentuk yang diinginkan, termasuk dalam bentuk nilai dan nama kolom.

Pertama, kita akan buang kolom unnamed, yang berisikan urutan baris dalam file csv.

In [None]:
# Buang kolom unnamed: 0
df.drop(columns = ['Unnamed: 0'], inplace = True)
df

Unnamed: 0,Category,Age,Sex,ALB,ALP,ALT,AST,BIL,CHE,CHOL,CREA,GGT,PROT
0,0=Blood Donor,32,m,38.5,52.5,7.7,22.1,7.5,6.93,3.23,106.0,12.1,69.0
1,0=Blood Donor,32,m,38.5,70.3,18.0,24.7,3.9,11.17,4.80,74.0,15.6,76.5
2,0=Blood Donor,32,m,46.9,74.7,36.2,52.6,6.1,8.84,5.20,86.0,33.2,79.3
3,0=Blood Donor,32,m,43.2,52.0,30.6,22.6,18.9,7.33,4.74,80.0,33.8,75.7
4,0=Blood Donor,32,m,39.2,74.1,32.6,24.8,9.6,9.15,4.32,76.0,29.9,68.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...
610,3=Cirrhosis,62,f,32.0,416.6,5.9,110.3,50.0,5.57,6.30,55.7,650.9,68.5
611,3=Cirrhosis,64,f,24.0,102.8,2.9,44.4,20.0,1.54,3.02,63.0,35.9,71.3
612,3=Cirrhosis,64,f,29.0,87.3,3.5,99.0,48.0,1.66,3.63,66.7,64.2,82.0
613,3=Cirrhosis,46,f,33.0,,39.0,62.0,20.0,3.56,4.20,52.0,50.0,71.0


Sekarang, akan kita ubah seluruh nilai kolom category agar hanya menggunakan angka.

In [None]:
# Pertama kita lihat terlebih dahulu nilai apa saja yang dimiliki kolom Category
df.loc[:,"Category"].unique()

array(['0=Blood Donor', '0s=suspect Blood Donor', '1=Hepatitis',
       '2=Fibrosis', '3=Cirrhosis'], dtype=object)

Terdapat 4 nilai, 0 untuk Blood Donor, 0s untuk suspect Blood Donor, 1 untuk Hepatitis, 2 untuk Fibrosis, dan 3 untuk Sirosis. Kita akan ubah 0s menjadi 1, 1 menjadi 2, 2 menjadi 3, dan 3 menjadi 4.

In [None]:
for i in range(0,len(df.loc[:,"Category"])):
  if(df.loc[i,"Category"] == '0=Blood Donor'):
    df.loc[i,"Category"] = 0
  elif(df.loc[i,"Category"] == '0s=suspect Blood Donor'):
    df.loc[i,"Category"] = 1
  elif(df.loc[i,"Category"] == '1=Hepatitis'):
    df.loc[i,"Category"] = 2
  elif(df.loc[i,"Category"] == '2=Fibrosis'):
    df.loc[i,"Category"] = 3
  else:
    df.loc[i,"Category"] = 4

In [None]:
df

Unnamed: 0,Category,Age,Sex,ALB,ALP,ALT,AST,BIL,CHE,CHOL,CREA,GGT,PROT
0,0,32,m,38.5,52.5,7.7,22.1,7.5,6.93,3.23,106.0,12.1,69.0
1,0,32,m,38.5,70.3,18.0,24.7,3.9,11.17,4.80,74.0,15.6,76.5
2,0,32,m,46.9,74.7,36.2,52.6,6.1,8.84,5.20,86.0,33.2,79.3
3,0,32,m,43.2,52.0,30.6,22.6,18.9,7.33,4.74,80.0,33.8,75.7
4,0,32,m,39.2,74.1,32.6,24.8,9.6,9.15,4.32,76.0,29.9,68.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...
610,4,62,f,32.0,416.6,5.9,110.3,50.0,5.57,6.30,55.7,650.9,68.5
611,4,64,f,24.0,102.8,2.9,44.4,20.0,1.54,3.02,63.0,35.9,71.3
612,4,64,f,29.0,87.3,3.5,99.0,48.0,1.66,3.63,66.7,64.2,82.0
613,4,46,f,33.0,,39.0,62.0,20.0,3.56,4.20,52.0,50.0,71.0


Lalu, untuk kolom Sex, akan kita ubah f menjadi 0 dan m menjadi 1.

In [None]:
for i in range(0,len(df.loc[:,"Sex"])):
  if(df.loc[i,"Sex"] == 'f'):
    df.loc[i,"Sex"] = 0
  else:
    df.loc[i,"Sex"] = 1

In [None]:
df

Unnamed: 0,Category,Age,Sex,ALB,ALP,ALT,AST,BIL,CHE,CHOL,CREA,GGT,PROT
0,0,32,1,38.5,52.5,7.7,22.1,7.5,6.93,3.23,106.0,12.1,69.0
1,0,32,1,38.5,70.3,18.0,24.7,3.9,11.17,4.80,74.0,15.6,76.5
2,0,32,1,46.9,74.7,36.2,52.6,6.1,8.84,5.20,86.0,33.2,79.3
3,0,32,1,43.2,52.0,30.6,22.6,18.9,7.33,4.74,80.0,33.8,75.7
4,0,32,1,39.2,74.1,32.6,24.8,9.6,9.15,4.32,76.0,29.9,68.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...
610,4,62,0,32.0,416.6,5.9,110.3,50.0,5.57,6.30,55.7,650.9,68.5
611,4,64,0,24.0,102.8,2.9,44.4,20.0,1.54,3.02,63.0,35.9,71.3
612,4,64,0,29.0,87.3,3.5,99.0,48.0,1.66,3.63,66.7,64.2,82.0
613,4,46,0,33.0,,39.0,62.0,20.0,3.56,4.20,52.0,50.0,71.0


## **Data Cleaning**

Disini, kita akan membersihkan data dari data kosong.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 615 entries, 0 to 614
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Category  615 non-null    object 
 1   Age       615 non-null    int64  
 2   Sex       615 non-null    object 
 3   ALB       614 non-null    float64
 4   ALP       597 non-null    float64
 5   ALT       614 non-null    float64
 6   AST       615 non-null    float64
 7   BIL       615 non-null    float64
 8   CHE       615 non-null    float64
 9   CHOL      605 non-null    float64
 10  CREA      615 non-null    float64
 11  GGT       615 non-null    float64
 12  PROT      614 non-null    float64
dtypes: float64(10), int64(1), object(2)
memory usage: 62.6+ KB


Terlihat bahwa kolom ALP dan CHOL merupakan kolom-kolom dengan nilai kosong yang paling banyak. Data kosong ini akan kita ganti dengan Mean/Rata-rata jika kolom berdistribusi normal, dan dengan Median/Nilai Tengah jika tidak.

Data juga lebih banyak dari 50 sampel, sehingga akan kita gunakan Uji Kolmogorov-Smirnov, dengan alpha 0.05.

In [None]:
df

Unnamed: 0,Category,Age,Sex,ALB,ALP,ALT,AST,BIL,CHE,CHOL,CREA,GGT,PROT
0,0,32,1,38.5,52.5,7.7,22.1,7.5,6.93,3.23,106.0,12.1,69.0
1,0,32,1,38.5,70.3,18.0,24.7,3.9,11.17,4.80,74.0,15.6,76.5
2,0,32,1,46.9,74.7,36.2,52.6,6.1,8.84,5.20,86.0,33.2,79.3
3,0,32,1,43.2,52.0,30.6,22.6,18.9,7.33,4.74,80.0,33.8,75.7
4,0,32,1,39.2,74.1,32.6,24.8,9.6,9.15,4.32,76.0,29.9,68.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...
610,4,62,0,32.0,416.6,5.9,110.3,50.0,5.57,6.30,55.7,650.9,68.5
611,4,64,0,24.0,102.8,2.9,44.4,20.0,1.54,3.02,63.0,35.9,71.3
612,4,64,0,29.0,87.3,3.5,99.0,48.0,1.66,3.63,66.7,64.2,82.0
613,4,46,0,33.0,,39.0,62.0,20.0,3.56,4.20,52.0,50.0,71.0


In [None]:
# Kita gunakan uji KS
# Kita gunakan z-score sebagai input, bukan data secara langsung
list_Kolom = ['ALP','CHOL']
for i in list_Kolom:
  if(sp.kstest((df[i]-np.mean(df[i]))/np.std(df[i],ddof=1), 'norm').pvalue > 0.05):
    df.loc[:,i].fillna(value = df.loc[:,i].mean(), inplace = True)
  else:
    df.loc[:,i].fillna(value = df.loc[:,i].median(), inplace = True)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 615 entries, 0 to 614
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Category  615 non-null    object 
 1   Age       615 non-null    int64  
 2   Sex       615 non-null    object 
 3   ALB       614 non-null    float64
 4   ALP       615 non-null    float64
 5   ALT       614 non-null    float64
 6   AST       615 non-null    float64
 7   BIL       615 non-null    float64
 8   CHE       615 non-null    float64
 9   CHOL      615 non-null    float64
 10  CREA      615 non-null    float64
 11  GGT       615 non-null    float64
 12  PROT      614 non-null    float64
dtypes: float64(10), int64(1), object(2)
memory usage: 62.6+ KB


Sedangkan untuk sisanya, akan langsung kita hapus, karena hanya 1-2 kolom.

In [None]:
df.dropna(inplace = True)

In [None]:
df.describe()

Unnamed: 0,Age,ALB,ALP,ALT,AST,BIL,CHE,CHOL,CREA,GGT,PROT
count,612.0,612.0,612.0,612.0,612.0,612.0,612.0,612.0,612.0,612.0,612.0
mean,47.397059,41.65,68.24902,28.377124,34.629902,11.004902,8.206487,5.366176,81.258333,39.295752,72.047549
std,10.04723,5.721926,25.70445,25.470818,33.010979,17.100164,2.193388,1.125956,49.85832,54.575007,5.391748
min,19.0,14.9,11.3,0.9,10.6,0.8,1.42,1.43,8.0,4.5,44.8
25%,39.0,38.8,52.9,16.4,21.6,5.275,6.9375,4.6175,67.0,15.7,69.3
50%,47.0,41.95,66.2,22.95,25.85,7.3,8.265,5.3,76.85,23.3,72.2
75%,54.0,45.225,79.375,32.925,32.825,11.2,9.6,6.06,88.0,40.125,75.4
max,77.0,82.2,416.6,325.3,324.0,209.0,16.41,9.67,1079.1,650.9,90.0


## **Data Validation**

Disini, kita pastikan validitas data, dengan memastikan tipe data tiap kolom sudah tepat dan rentang data masuk akal. Untuk kolom ke 4 hingga 12 merupakan nilai hasil laboratorium, sehingga hanya tipe data yang akan diperiksa.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 612 entries, 0 to 614
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Category  612 non-null    object 
 1   Age       612 non-null    int64  
 2   Sex       612 non-null    object 
 3   ALB       612 non-null    float64
 4   ALP       612 non-null    float64
 5   ALT       612 non-null    float64
 6   AST       612 non-null    float64
 7   BIL       612 non-null    float64
 8   CHE       612 non-null    float64
 9   CHOL      612 non-null    float64
 10  CREA      612 non-null    float64
 11  GGT       612 non-null    float64
 12  PROT      612 non-null    float64
dtypes: float64(10), int64(1), object(2)
memory usage: 66.9+ KB


Akan kita ubah semua yang berbentuk object menjadi string, dan Umur akan kita ubah menjadi float, karena umur adalah variabel kontinu rasio.

In [None]:
df.loc[:,"Category"] = df['Category'].astype(str)
df.loc[:,"Age"] = df['Age'].astype(float)
df.loc[:,"Sex"] = df['Sex'].astype(str)

  df.loc[:,"Age"] = df['Age'].astype(float)


## **Simpan Data dalam CSV**

Terakhir, data yang sudah bersih akan kita masukkan dalam bentuk CSV.

In [None]:
df.to_csv('/content/cleaned_Data.csv')