## Import the independencies
#### นำ library ที่เกี่ยวข้องกับผลงานเข้ามา

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import hvplot.pandas
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# **Import dataset**
- importing dataset from kaggle

> source https://www.kaggle.com/ronitf/heart-disease-uci

In [48]:
df = pd.read_csv('heart.csv')
df

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


## **type of data in each column**

In [None]:
df.info()

## **Check for missing value**
    no missing value or extreme value found in the dataset


In [None]:
df.isna().sum()

> no missing values in the dataset

# **Data Explanatory**
- age: The person's age in years
- sex: The person's sex (1 = male, 0 = female)
- cp: The chest pain experienced (Value 1: typical angina, Value 2: atypical angina, Value 3: non-anginal pain, Value 4: asymptomatic)
- trestbps: The person's resting blood pressure (mm Hg on admission to the hospital)
- chol: The person's cholesterol measurement in mg/dl
- fbs: The person's fasting blood sugar (> 120 mg/dl, 1 = true; 0 = false)
- restecg: Resting electrocardiographic measurement (0 = normal, 1 = having ST-T wave abnormality, 2 = showing probable or definite left ventricular hypertrophy by Estes' criteria)
- thalach: The person's maximum heart rate achieved
- exang: Exercise induced angina (1 = yes; 0 = no)
- oldpeak: ST depression induced by exercise relative to rest ('ST' relates to positions on the ECG plot. See more here)
- slope: the slope of the peak exercise ST segment (Value 1: upsloping, Value 2: flat, Value 3: downsloping)
- ca: The number of major vessels (0-3)
- thal: A blood disorder called thalassemia (3 = normal; 6 = fixed defect; 7 = reversable defect)
- target: Heart disease (0 = no, 1 = yes)

## **Exploratory Data**

ทำการทดลองหาความสัมพันธ์ระหว่างตัวแปรต้นต่างๆ กับตัวแปรตาม(target)

### Heart Disease Count

In [None]:
f, ax = plt.subplots(figsize=(8,6))
ax = sns.countplot(x = "target", data=df)
plt.title("Heart Disease Count")
plt.show()

### Heart Disease Count by Sex

In [None]:
f, ax = plt.subplots(figsize=(8,6))
ax = sns.countplot(x="sex", hue="target", data=df)
plt.title("Heart Disease Count by Sex")
plt.show()

### Heart Disease Frequency for Ages

In [None]:
pd.crosstab(df.age, df.target).plot(kind="bar", figsize=(20,6))
plt.title('Heart Disease Frequency for Ages')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

### Heart Disease Frequency According to Chest Pain Type

In [None]:
pd.crosstab(df.cp, df.target).plot(kind='bar', figsize=(12,6))
plt.title('Heart Disease Frequency According to Checst Pain Type')
plt.xlabel('Chest Pain Type')
plt.xticks(rotation = 0)
plt.ylabel('Frequency of Disease or Not')
plt.show()

# **Pearson's Similarity (Correlation Matrix)**

ใช้ทฤษฎีทาง vector เพื่อหาความสัมพันธ์ระหว่างตัวแปรต้นกับตัวแปรตาม และนำมา plot เป็น Correlation Matrix

<img src="pearsons.png">

In [None]:
fig, ax = plt.subplots(figsize=(15,15))
sns.heatmap(df.corr(),
            annot=True,
            cmap="YlGn",
            fmt='.2f',
            linewidths=0.5)
bottom, top = ax.get_ylim()
ax.set_ylim(bottom + 0.5, top - 0.5)

# **Data Processing**
need to create dummies variables for categorical variables (sex, cp, fbs, etc.)

In [None]:
ds = pd.get_dummies(df, columns=['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal'])
ds.head()

In [39]:
print(df.columns)
print(ds.columns)

Index(['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'],
      dtype='object')
Index(['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'target', 'sex_0',
       'sex_1', 'cp_0', 'cp_1', 'cp_2', 'cp_3', 'fbs_0', 'fbs_1', 'restecg_0',
       'restecg_1', 'restecg_2', 'exang_0', 'exang_1', 'slope_0', 'slope_1',
       'slope_2', 'ca_0', 'ca_1', 'ca_2', 'ca_3', 'ca_4', 'thal_0', 'thal_1',
       'thal_2', 'thal_3'],
      dtype='object')


#### scale ค่าข้อมูลให้อยู่ค่าใกล้เคียงกัน

In [None]:
# from sklearn.preprocessing import StandardScaler

# s_sc = StandardScaler()
# col_to_scale = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']
# ds[col_to_scale] = s_sc.fit_transform(ds[col_to_scale])
# ds.head()

#### plot กราฟ correlation matrix หลังจากที่ได้ประมวลผลข้อมูลออกมาแล้ว

In [None]:
fig, ax = plt.subplots(figsize=(15,15))
sns.heatmap(ds.corr(),
            annot=True,
            cmap="YlGn",
            fmt='.2f',
            linewidths=0.5)
bottom, top = ax.get_ylim()
ax.set_ylim(bottom + 0.5, top - 0.5)

# **Logistic Regression**
#### ใช้ Logistic Regression มาสร้าง model เพื่อทำการทำนาย

<img src="sigmoid.png">

#### ทำการแบ่งชุดข้อมูลเป็นสองชุด โดยจะเป็นชุดทดลอง และชุดทดสอบ และจะมี random_state = 5

In [None]:
X, y = ds.drop('target', axis=1), ds.target

test_size = 0.3
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=5)

#### ทดลองหาค่า random_state ที่ทำให้ค่า model.score มีค่ามากที่สุดโดยจะให้ลองใช้ค่า random_state ตั้งแต่ 0-99

In [None]:
X, y = ds.drop('target', axis=1), ds.target

test_size = 0.3
dff = pd.DataFrame(columns=['train score', 'test score'])
for i in range(100):
    # print(f"*** for random state = {i} ***")
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=i)
    model = LogisticRegression(solver='liblinear')
    model.fit(X_train, y_train)
    # print(f"model train score : {model.score(X_train, y_train)}")
    # print(f"model test score : {model.score(X_test, y_test)}")
    dff.loc[i] = [model.score(X_train, y_train)]+ [model.score(X_test, y_test)]

In [None]:
# pd.set_option('display.max_rows', 500)
dff

#### สามารถนำไป plot กราฟได้ออกมา
<img src="random_state_model_score.png" width="600">ฃ

> ซึ่งเป็นเหตุผลที่ทางเราเลือกใช้ random_state = 5

#### หาค่าเฉลี่ยของ model.score จากที่ได้ออกมาจาก การทดลองให้ค่า random_state(0-99)

In [66]:
print(f'average of train score : ',end='')
print(sum(dff['train score'] / 100))
print("average of testing score : ", end='')
print(sum(dff['test score']) / 100)


average of train score : 0.8809433962264147
average of testing score : 0.8517582417582412


In [None]:
X_train.head()

#### นำข้อมูลชุดทดลองมาใส่โมเดลเพื่อทำการเทรนโมเดลของเรา และดูค่า coefficient ที่ได้ออกมา

In [None]:
model = LogisticRegression(solver='liblinear')
model.fit(X_train, y_train)
model.score(X_train, y_train)

In [67]:
X_test

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,sex_0,sex_1,cp_0,cp_1,cp_2,...,slope_2,ca_0,ca_1,ca_2,ca_3,ca_4,thal_0,thal_1,thal_2,thal_3
137,62,128,208,140,0.0,0,1,0,1,0,...,1,1,0,0,0,0,0,0,1,0
262,53,123,282,95,2.0,0,1,1,0,0,...,0,0,0,1,0,0,0,0,0,1
43,53,130,264,143,0.4,1,0,1,0,0,...,0,1,0,0,0,0,0,0,1,0
90,48,124,255,175,0.0,0,1,0,0,1,...,1,0,0,1,0,0,0,0,1,0
32,44,130,219,188,0.0,0,1,0,1,0,...,1,1,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
110,64,180,325,154,0.0,1,0,1,0,0,...,1,1,0,0,0,0,0,0,1,0
119,46,138,243,152,0.0,1,0,1,0,0,...,0,1,0,0,0,0,0,0,1,0
66,51,100,222,143,1.2,0,1,0,0,1,...,0,1,0,0,0,0,0,0,1,0
276,58,146,218,105,2.0,0,1,1,0,0,...,0,0,1,0,0,0,0,0,0,1


#### นำข้อมูลชุดทดสอบมาใส่ model ที่เทรนแล้วโดยทำการให้ทำนายผลออกมาให้อยู่ในรูปแบบของความน่าจะเป็น 
#### ซึ่งคอลัมน์แรกหมายถึง ความน่าจะเป็นที่จะไม่เป็นโรคหัวใจ(0) และคอลัมน์ที่สองหมายถึงความน่าจะเป็นที่จะเป็นโรคหัวใจ(1) โดยจะให้ใช้ threshold อยู่ที่ 0.5 ตามค่า Default

In [64]:
pred = model.predict_proba(X_test)
pred

array([[0.08368095, 0.91631905],
       [0.99596264, 0.00403736],
       [0.38791264, 0.61208736],
       [0.14476409, 0.85523591],
       [0.07065402, 0.92934598],
       [0.13994262, 0.86005738],
       [0.07757503, 0.92242497],
       [0.30243422, 0.69756578],
       [0.97403344, 0.02596656],
       [0.23806305, 0.76193695],
       [0.9218092 , 0.0781908 ],
       [0.0341154 , 0.9658846 ],
       [0.96861117, 0.03138883],
       [0.15139486, 0.84860514],
       [0.0562698 , 0.9437302 ],
       [0.13081876, 0.86918124],
       [0.00681282, 0.99318718],
       [0.14639387, 0.85360613],
       [0.87094537, 0.12905463],
       [0.81124346, 0.18875654],
       [0.53646271, 0.46353729],
       [0.0798109 , 0.9201891 ],
       [0.68491736, 0.31508264],
       [0.14273682, 0.85726318],
       [0.98904508, 0.01095492],
       [0.98869523, 0.01130477],
       [0.0312643 , 0.9687357 ],
       [0.0215785 , 0.9784215 ],
       [0.18432182, 0.81567818],
       [0.72115746, 0.27884254],
       [0.

#### นำค่า target ในความจริงของข้อมูลแต่ละชุดออกมาดู สามารถเปรียบเทียบได้ว่าเหมือนจากด้านบนหรือไม่

In [65]:
y_test.values

array([1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1,
       1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1,
       0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1], dtype=int64)

#### แสดงให้เห็นถึงค่า coefficient ที่ได้มาจากการทำนายค่าจากชุดทดสอบ

In [None]:
model.score(X_test, y_test)

## *Confusion Matrix*
สามารถนำทฤษฎี confusion matrix มาใช้อธิบายผลการทำนายที่ได้ออกมาได้

<img src="confusion.png"><img src="model_score.png">

In [None]:
from sklearn import metrics

In [None]:
# cm = metrics.confusion_matrix(y_test, pred)
# cm
# print(metrics.classification_report(y_test, pred))

# tn, fp, fn, tp = cm.ravel()
# print(f'tn : {tn}, fp : {fp}, fn : {fn}, tp : {tp}')
# print(f'Accuracy : {(tp+tn)/(tp+tn+fn+fp):.4f}')

#### ทำการทดลองปรับค่า Threshold ตั้งแต่ 0.05 - 0.99 โดยห่างช่วงละ 0.05 และดูค่า coefficient ที่ได้ออกมาด้วย

In [30]:
pred_proba_df = pd.DataFrame(model.predict_proba(X_test))
threshold_list = [0.05,0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45,0.5,0.55,0.6,0.65,.7,.75,.8,.85,.9,.95,.99]
for i in threshold_list:
    print ('\n******** For i = {} ******'.format(i))
    Y_test_pred = pred_proba_df.applymap(lambda x: 1 if x>i else 0)
    test_accuracy = metrics.accuracy_score(y_test.to_numpy().reshape(y_test.to_numpy().size,1),
                                           Y_test_pred.iloc[:,1].to_numpy().reshape(Y_test_pred.iloc[:,1].to_numpy().size,1))
    print('Our testing accuracy is {}'.format(test_accuracy))

    print(metrics.confusion_matrix(y_test.to_numpy().reshape(y_test.to_numpy().size,1),
                           Y_test_pred.iloc[:,1].to_numpy().reshape(Y_test_pred.iloc[:,1].to_numpy().size,1)))
    # print(pred_proba_df)


******** For i = 0.05 ******
Our testing accuracy is 0.8021978021978022
[[14 18]
 [ 0 59]]

******** For i = 0.1 ******
Our testing accuracy is 0.8351648351648352
[[18 14]
 [ 1 58]]

******** For i = 0.15 ******
Our testing accuracy is 0.8461538461538461
[[19 13]
 [ 1 58]]

******** For i = 0.2 ******
Our testing accuracy is 0.8571428571428571
[[20 12]
 [ 1 58]]

******** For i = 0.25 ******
Our testing accuracy is 0.8571428571428571
[[20 12]
 [ 1 58]]

******** For i = 0.3 ******
Our testing accuracy is 0.8791208791208791
[[22 10]
 [ 1 58]]

******** For i = 0.35 ******
Our testing accuracy is 0.8681318681318682
[[23  9]
 [ 3 56]]

******** For i = 0.4 ******
Our testing accuracy is 0.8901098901098901
[[25  7]
 [ 3 56]]

******** For i = 0.45 ******
Our testing accuracy is 0.8791208791208791
[[25  7]
 [ 4 55]]

******** For i = 0.5 ******
Our testing accuracy is 0.8681318681318682
[[26  6]
 [ 6 53]]

******** For i = 0.55 ******
Our testing accuracy is 0.8681318681318682
[[27  5]
 [ 

# **Predicting the given data**
จากข้อมูลที่เพื่อนๆทดลองใส่ เราสามารถนำมาทำนายและดูผลทำนายได้ดังนี้

#### ความหมายของตัวแปรต่างๆ
- sex(เพศ) [0=female, 1=male]
- cp(ประเภทของการเจ็บหน้าอก) [0=typical, 1=atypical, 2=non anginal, 3=asymtomatic]
- fbs(ค่าความเข้มข้นของน้ำตาลในหลอดเลือด) [if >120 mg/dl : 1 else: 0 ]
- restecg(ผลการตรวจคลื่นไฟฟ้าหัวใจ) [0=normal, 1=abnormal, 2=more abnormal]
- exang(การออกกำลังกายและเกิดหลอดเลือดตีบ) (1=yes, 0=no)
- slop(ความชันกราฟ ST ตอนออกำลังกาย) [0=abnormal heart, 1=normal heart, 2=unhealthy heart]
- ca(จน.ของหลอดเลือดใหญ่ที่เห็นเลือดไหลผ่าน) [range from 0 to 3]
- thal(ผลการตรวจความผิดปกติของเส้นเลือด) [1-3=normal, 6=fixed defect, 7=reversable defect]

In [68]:
               #age  trestbps  chol  thalach   oldpeak   sex(0=female, 1=male)   cp(0-3)   fbs(0-1)   restecg(0-2)    exang(0-1)   slope(0-2)   ca(0-4)       thal(0-3)
s1 = pd.Series([20,     95,    270,   160,       1.4,         1,0,               0,1,0,0,    0,1,        0,0,1,         0,1,         0,0,1,     0,0,0,0,1,     0,0,0,1])

dataFrame = pd.DataFrame([list(s1)], columns=['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'sex_0',
       'sex_1', 'cp_0', 'cp_1', 'cp_2', 'cp_3', 'fbs_0', 'fbs_1', 'restecg_0',
       'restecg_1', 'restecg_2', 'exang_0', 'exang_1', 'slope_0', 'slope_1',
       'slope_2', 'ca_0', 'ca_1', 'ca_2', 'ca_3', 'ca_4', 'thal_0', 'thal_1',
       'thal_2', 'thal_3'])

dataFrame

Unnamed: 0,age,trestbps,chol,thalach,oldpeak,sex_0,sex_1,cp_0,cp_1,cp_2,...,slope_2,ca_0,ca_1,ca_2,ca_3,ca_4,thal_0,thal_1,thal_2,thal_3
0,20.0,95.0,270.0,160.0,1.4,1.0,0.0,0.0,1.0,0.0,...,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0


#### สามารถดูผลลัพธ์ที่ได้ออกมาได้ดังนี้

In [69]:
prediction = model.predict_proba(dataFrame)
prediction


array([[0.54140592, 0.45859408]])