# Giriş
<a id="toc"></a>

Bu çalışmada [Heart Disease UCI](https://archive.ics.uci.edu/ml/datasets/Heart+Disease) veri kümesi inceleyeceğiz. 
Bu veri kümesi içerisindeki değişkenler üzerinden hastada kalp hastalığı olup olmadığı tahmin etmeye çalışan bir model oluşturacağız.

Kalp hastalığı ile ilgili risk faktörlerine baktığımızda
* **Değiştirilemeyen başlıca faktörler:**
    * artan yaş
    * cinsiyet
    * kalıtım. 
    > Bu veri kümesi değişkenlerden biri olan **talaseminin**(thal) kalıtım olduğuna dikkat edin.
* **Değiştirilebilecek ana faktörler şunlardır:**
    * Sigara içmek
    * Yüksek kolesterol
    * Yüksek tansiyon
    * Fiziksel hareketsizlik
    * Fazla kilolu olmak
    * Şeker hastası olmak
* **Diğer faktörler arasında stres, alkol ve zayıf diyet / beslenme sayılabilir.**

>Yukarıdaki veriler göz önüne alındığında, modelimiz tahminde bulunabiliyorsa, yukarıdaki faktörlerin önemli olduğunu göreceğiz.
 


**Hedefimiz**, hastada kalp hastalığının varlığını tespit etmektir.

Bu doğrultuda,
* [Logistic Regression](#Logistic-Regression), 
* [K-Nearest Neighbour (KNN) Classification](#K-Nearest-Neighbour-(KNN)-Classification), 
* [Support Vector Machine (SVM) Algorithm](#Support-Vector-Machine-(SVM)-Algorithm), 
* [Naive Bayes Algorithm](#Naive-Bayes-Algorithm), 
* [Decision Tree Algorithm](#Decision-Tree-Algorithm), 
* [Random Forest Classification](#Random-Forest-Classification) 
algoritmalarını kullanacağız.



## Kütüphanelerin Yüklenmesi
<a id="toc"></a>

Kullandığımız kütüphanelerin yüklenmesi.

In [None]:
# Temel Kütüphaneler
import numpy as np
import pandas as pd

# Görselleştirme
import seaborn as sns #for plotting
import matplotlib.pyplot as plt

# Model Kurma
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import train_test_split

from sklearn.metrics import confusion_matrix

from sklearn import preprocessing

import warnings
warnings.filterwarnings('ignore')

## Veri kümesini yükleme
<a id="toc"></a>

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#ROOT_DIR = "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day4-ProbabilityStatistics/notebooks"
ROOT_DIR = "https://media.githubusercontent.com/media/yapay-ogrenme/casgem-eu-project-training-on-data-mining/main/PART1/Day4-ProbabilityStatistics/notebooks/"
DATASET_PATH = ROOT_DIR + "/datasets/"

In [None]:
df = pd.read_csv(DATASET_PATH + "heart.csv")

In [None]:
# Verimize bakalım.
df.head(10)

## Değişkenler
<a id="toc"></a>

Verimize yakından baktığımızda oldukça temiz bir yapısı olduğunu görüyoruz. Eksik değerlerin kontrolü ve boyutlarına bakmadan önce değişkenlerin kısaltmalarını açıklayalım.

1. **age:** The person's age in years
2. **sex:** The person's sex (1 = male, 0 = female)
* **cp:** The chest pain experienced (Value 1: typical angina, Value 2: atypical angina, Value 3: non-anginal pain, Value 4: asymptomatic)
* **trestbps:** The person's resting blood pressure (mm Hg on admission to the hospital)
* **chol:** The person's cholesterol measurement in mg/dl
* **fbs:** The person's fasting blood sugar (> 120 mg/dl, 1 = true; 0 = false)
* **restecg:** Resting electrocardiographic measurement (0 = normal, 1 = having ST-T wave abnormality, 2 = showing probable or definite left ventricular hypertrophy by Estes' criteria)
* **thalach:** The person's maximum heart rate achieved
* **exang:** Exercise induced angina (1 = yes; 0 = no)
* **oldpeak:** ST depression induced by exercise relative to rest ('ST' relates to positions on the ECG plot. See more here)
* **slope:** the slope of the peak exercise ST segment (Value 1: upsloping, Value 2: flat, Value 3: downsloping)
* **ca:** The number of major vessels (0-3)
* **thal:** A blood disorder called thalassemia (3 = normal; 6 = fixed defect; 7 = reversable defect)
* **target: Heart disease (0 = no, 1 = yes)**


### Türkçeleri
<a id="toc"></a>
1. Yaş
2. Cinsiyet
3. Göğüs ağrısı tipi (4 değer)
4. Dinlenme kan basıncı
5. Serum kolestrolü (mg / dl)
6. Açlık kan şekeri (>120 mg / dl)
7. Elektrokardiyografik sonuçların dinlenmesi (değerler 0,1,2)
8. Elde edilen maksimum kalp atış hızı
9. Egzersize bağlı Anjin (Anjin, kalbe kan akışının azalmasından kaynaklanan bir tür göğüs ağrısıdır.)
10. Eski tepe noktası = istirahate bağlı egzersiz ile indüklenen ST depresyonu
11. Tepe egzersizi ST segmentinin eğimi
12. floroskopi ile renklendirilmiş ana damarların sayısı (0-3)
13. thal: 
    * 3 = normal
    * 6 = sabit hata
    * 7 = tersinir defekt

# Keşifçi Veri Analizi ve Veri Görselleştirme
<a id="toc"></a>

Bu bölümde değişkenlere ait değerleri ve değişkenlerin kendi içerisindeki karşılaştırmalarına bakacağız. Ardından değişken içerisindeki değerlerin karşılaştırmalı grafiğini çizdireceğiz.

## Hasta olanlar ve olmayanların dağılımı
Burada **1** ile gösterilenler kalp hastalığı olanları, **0** ile gösterilenler ise kalp rahatsızlığı olmayanları verir.

In [None]:
# seaborn
color = ["#58a3bc","#666666"]
plt.figure(figsize=(12,7))
sns.set()
sns.countplot(x="target",
              data=df,
              palette=color)
plt.ylabel("Kişi Sayısı")
plt.xlabel("Target (0 = hasta olmayan, 1= hasta olan)")

plt.show()

## Hasta olanlar ve olmayanların yüzdelik dağılımları

In [None]:
countNoDisease = len(df[df.target == 0]) # hastalığı olmayanların sayısı
countHaveDisease = len(df[df.target == 1]) # hastalığı olanların sayısı

print("Kalp Rahatsızlığı olmayan hastaların yüzdesi: {:.2f}%".format((countNoDisease / (len(df.target))*100)))
print("Kalp Rahatsızlığı olan hastaların yüzdesi: {:.2f}%".format((countHaveDisease / (len(df.target))*100)))

In [None]:
plt.figure(figsize=(8,8))
color = ["#58a3bc","#666666"]
plt.pie([countNoDisease,countHaveDisease],
        labels=["Hasta Olmayan Kişiler","Hasta Olan Kişiler"],
        colors=color,
        autopct='%1.2f%%');

## Veri setimizdeki cinsiyet dağılımı

In [None]:
plt.figure(figsize=(12,7))
sns.set()
sns.countplot(x='sex', data=df, palette=color)
plt.xlabel("Cinsiyet (0 = kadın, 1= erkek)")
plt.ylabel("Kişi Sayısı")

plt.show()

In [None]:
countFemale = len(df[df.sex == 0]) # kadınların sayısı
countMale = len(df[df.sex == 1]) # erkeklerin sayısı
print("Kadın hastaların yüzdesi: {:.2f}%".format((countFemale / (len(df.sex))*100)))
print("Erkek hastaların yüzdesi: {:.2f}%".format((countMale / (len(df.sex))*100)))

## Hastalık durumuna göre diğer değişkenlerin ortalama değerleri

Hastalık durumuna göre bir gruplandırma işlemi yapılmıştır.

In [None]:
df.groupby('target').mean()

## Yaşlara göre Kalp Rahatsızlığı olup olmaması

In [None]:
pd.crosstab(df.age,df.target).plot(kind="bar",figsize=(20,9),color=color)
plt.title('Yaşlara Göre Kalp Rahatsızlığı')
plt.xlabel('Yaş')
plt.ylabel('Sıklık')
plt.show()

## Cinsiyete göre Kalp rahatsızlığı olup olmaması

In [None]:
pd.crosstab(df.sex,df.target).plot(kind="bar",figsize=(15,6),color=color)
plt.title('Cinsiyete Göre Kalp Hastalığı Sıklığı')
plt.xlabel('Cinsiyet (0 = Kadın, 1 = Erkek)')
plt.xticks(rotation=0)
plt.legend(["Hasta Olmayanlar", "Hasta Olanlar"])
plt.ylabel('Sıklık')

plt.show()

## Maksimum Kalp Atış Hızı ve Yaş Arasında Hastalık Dağılımı

In [None]:
plt.figure(figsize=(12,8))
plt.scatter(x=df.age[df.target==1], y=df.thalach[(df.target==1)], c="red")
plt.scatter(x=df.age[df.target==0], y=df.thalach[(df.target==0)])
plt.legend(["Hasta", "Hasta Değil"])
plt.xlabel("Yaş")
plt.ylabel("Maksimum Kalp Atış Hızı")
plt.show()

## Slope Değişkenine Göre Hastalık Sıklığı

In [None]:
color = ["#58a3bc","#666666"]
pd.crosstab(df.slope,df.target).plot(kind="bar",figsize=(15,6),color=color)
plt.title('Slope Değişkenine Göre Hastalık Sıklığı')
plt.xlabel('The Slope of The Peak Exercise ST Segment')
plt.xticks(rotation = 0)
plt.legend(["Hasta Olmayanlar", "Hasta Olanlar"])
plt.ylabel('Sıklık')

plt.show()

## Açlık Kan Şekerine Göre Kalp Hastalığı Sıklığı

In [None]:
pd.crosstab(df.fbs,df.target).plot(kind="bar",figsize=(15,6),color=color)
plt.title('Açlık Kan Şekerine Göre Kalp Hastalığı Sıklığı')
plt.xlabel('FBS - (Açlık Kan Şekeri > 120 mg/dl) (1 = true; 0 = false)')
plt.xticks(rotation = 0)
plt.legend(["Hasta Değil", "Hasta"])
plt.ylabel('Hasta veya Hasta Olmayanların Sıklığı')

plt.show()

## Göğüs Ağrısı Tipine Göre Halp Hastalığı Sıklığı

In [None]:
pd.crosstab(df.cp,df.target).plot(kind="bar",figsize=(15,6),color=color)
plt.title('Göğüs Ağrısı Tipine Göre Halp Hastalığı Sıklığı')
plt.xlabel('Göğüs Ağrısı Tipi (4 Değer)')
plt.xticks(rotation = 0)
plt.ylabel('Hasta veya Hasta Olmayanların Sıklığı')

plt.show()

# Kategorik Değişkenlerin Dönüştürülmesi

Makine öğrenmesi kısmına geçmeden önce veri setimiz içerisinde bulunan kategorik değişkenlerin dönüştürülmesi gerekmektedir.

Bunun için hangi değişkenlerin kategorik olduğunu ve ölçek türlerini saptamalıyız.

In [None]:
df.head()

İlk bakışta **sex, cp, fbs, testecg, exang, slope, ca ve thal** değişkenlerinin kategorik olduklarını görüyoruz. 

Şimdi bu değişkenlerin değerlerine **.uniqe()** metodu yardımıyla bakalım. Eğer **0 - 1** haricinde değerler almışlarsa onları **Nominal ve Ordinal** olarak ayıralım. **Nominal** ölçek türüne sahip değişkenleri **get_dummies() metoduyla** tekrardan şekillendirelim. 

Çünkü örneğin **0 ve 1** makine için bir ast-üst oluşturmazken içerisinde **0, 1, 2** değerlerini almış bir nominal değişken makinede, **2** değerinin **1** değerinin iki katı gibi bir intiba bırakabilir. Oysa burada **0, 1 ve 2** ile anlatılmak istenen hepsinin ayrı birer **kategorik değişken** olduğudur yani bizim için bunlar arasında bir *ast-üst* ilişkisi yoktur. 

**Bu sebeple eğer dönüştürme işlemini yapmazsak modelimizin yanlış eğitilmesi söz konusu olacaktır.**

In [None]:
print("""
Sex değişkeni eşsiz değerleri: {}
Cp değişkeni eşsiz değerleri: {}
Fbs değişkeni eşsiz değerleri: {}
Restecg değişkeni eşsiz değerleri: {}
Exang değişkeni eşsiz değerleri: {}
Slope değişkeni eşsiz değerleri: {}
Ca değişkeni eşsiz değerleri: {}
Thal değişkeni eşsiz değerleri: {}
""".format(df.sex.unique(),
           df.cp.unique(),
           df.fbs.unique(),
           df.restecg.unique(),
           df.exang.unique(),
           df.slope.unique(),
           df.ca.unique(),
           df.thal.unique()))

Burada **cp, restecg, slope, ca ve thal** değişkenlerinin **0 - 1** haricinde değerlere sahip olduklarını görüyoruz. Bu değişkenlere **get_dummies()** metodunu uygulamadan önce *tiplerine* bakalım. **get_dummies()** metodu obje yada categorik tipleri dönüştürdüğü için içerisinde numerik tipe sahip değişkenlerin dönüşümlerini gerçekleştirelim.

In [None]:
df.dtypes

Değişkenlerin Kategorik tiplere dönüştürülmesi.

In [None]:
df.cp = pd.Categorical(df.cp)
df.restecg = pd.Categorical(df.restecg)
df.slope = pd.Categorical(df.slope)
df.ca = pd.Categorical(df.ca)
df.thal = pd.Categorical(df.thal)

In [None]:
df.dtypes

Artık **get_dummies()** metodunu kullanabiliriz. 

> `drop_first=True` paremetresi dönüştürülen değişkenlerin çıkartılması işini üstlenecek

In [None]:
df = pd.get_dummies(df, drop_first=True)

In [None]:
df = df[['age', 'sex', 'trestbps', 'chol', 'fbs', 'thalach', 'exang', 'oldpeak',
         'cp_1', 'cp_2', 'cp_3', 'restecg_1', 'restecg_2', 'slope_1',
         'slope_2', 'ca_1', 'ca_2', 'ca_3', 'ca_4', 'thal_1', 'thal_2',
         'thal_3','target']]

In [None]:
df.head()

# Modelin Uygulanması

Makine öğrenmesi kısmına geldik. Bu kısımda `sklearn` kütüphanesi içerisindeki çeşitli sınıflandırma modellerini uygulayacağız ve bunlar arasında bir karşılaştırma yapıcaz.

Modellerin uygulanmasından önce veri setimizi **train ve test** olarak ayıralım.

Bu aşamada %80 eğitim ve %20 test olarak veri setimizi rassal olarak ayırıyoruz.

> Aynı rassal değişkenleri yakalamak için bir `random_state` atıyoruz.

## Logistic Regression

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
                                   df.drop('target', axis=1), # target hariç veri setinin tamamı X
                                   df['target'], # target Y
                                   test_size = .2, # %80 train %20 test olmak üzere ayırdık.
                                   random_state=1905)
lr = LogisticRegression()
lr.fit(X_train,y_train)
print("Test Accuracy {:.2f}%".format(lr.score(X_test,y_test)*100))

Test verisi ile prediction ve Confusion Matrix değerlerini elde etme

In [None]:
#prediction
y_head_lr = lr.predict(X_test)

#confusion matrix
cm_lr = confusion_matrix(y_test, y_head_lr)
cm_lr

#### Modelimin doğruluğu **88.52%** olarak görülüyor.

## Normelleştirme

Bir de değişkenlerimi normalleştirerek sonuçları görelim.

> Normalleştirme her bir değişkenin maksimum ve minimum değerlerini **0-1** arasında gösterir.

In [None]:
X = df.drop('target',axis=1) # X
y = df.target # y

min_max_scaler = preprocessing.MinMaxScaler()
np_scaled = min_max_scaler.fit_transform(X)
X_normalized = pd.DataFrame(np_scaled)
X_normalized.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
                                   X_normalized, # target hariç veri setinin tamamı (X)
                                   y, # target (Y)
                                   test_size = .2, # %80 train %20 test olmak üzere ayırdık.
                                   random_state=1905)
lr = LogisticRegression()
lr.fit(X_train,y_train)

lr_score = lr.score(X_test,y_test)
print("Test Accuracy {:.2f}%".format(lr_score*100))

In [None]:
#prediction
y_head_lr = lr.predict(X_test)

#confusion matrix
cm_lr = confusion_matrix(y_test, y_head_lr)
cm_lr

#### Normelleştirme sonrasında **88.52%** olan sonucum **90.16%** yükseldi.

## K-Nearest Neighbour (KNN) Classification

Tahminlerin gözlem benzerliğine göre yapılmasıdır.

> **"Bana arkadaşını söyle sana kim olduğunu söyleyeyim."** yaklaşımıdır.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
                                   X_normalized, # target hariç veri setinin tamamı (X)
                                   y, # target (Y)
                                   test_size = .2, # %80 train %20 test olmak üzere ayırdık.
                                   random_state=1905)
# KNN Model
knn = KNeighborsClassifier(n_neighbors = 2)  # n_neighbors means k
knn.fit(X_train, y_train)
prediction = knn.predict(X_test)

knn_score = knn.score(X_test, y_test)
print("{} NN Score: {:.2f}%".format(knn.n_neighbors, knn_score*100))


### `n_neighbors = 2` olduğunda skorum: 81.97%

In [None]:
#prediction
y_head_knn = knn.predict(X_test)

#confusion matrix
cm_knn = confusion_matrix(y_test, y_head_knn)
cm_knn

### En iyi n_neighbors değerini bulma

In [None]:
scoreList = []
for i in range(1,20):
    knn2 = KNeighborsClassifier(n_neighbors = i)  # n_neighbors means k
    knn2.fit(X_train, y_train)
    scoreList.append(knn2.score(X_test, y_test))

sns.set()    
plt.plot(range(1,20), scoreList)
plt.xticks(np.arange(1,20,1))
plt.xlabel("K value")
plt.ylabel("Skor")
plt.show()

knn_score = max(scoreList)
print("Maximum KNN Score is {:.2f}%".format((max(scoreList))*100))

### Maksimum KNN skorum 86.89% 

## Support Vector Machine (SVM) Algorithm 

In [None]:
svm = SVC(random_state = 1)
svm.fit(X_train, y_train)
svm_score = svm.score(X_test,y_test)
print("Test Accuracy of SVM Algorithm: {:.2f}%".format(svm_score*100))

In [None]:
#prediction
y_head_svm = svm.predict(X_test)

#confusion matrix
cm_svm = confusion_matrix(y_test, y_head_svm)
cm_svm

## Naive Bayes Algorithm

In [None]:
nb = GaussianNB()
nb.fit(X_train, y_train)

nb_score = nb.score(X_test,y_test)
print("Accuracy of Naive Bayes: {:.2f}%".format(nb_score*100))

In [None]:
#prediction
y_head_nb = nb.predict(X_test)

#confusion matrix
cm_nb = confusion_matrix(y_test, y_head_nb)
cm_nb

## Decision Tree Algorithm

Normalleştirilmemiş veri setiyle daha yüksek skor yakalandı.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), # target hariç veri setinin tamamı (X)
                                   y, # target (Y)
                                   test_size = .2, # %80 train %20 test olmak üzere ayırdık.
                                   random_state=1905)
dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)

dtc_score = dtc.score(X_test, y_test)
print("Decision Tree Test Accuracy {:.2f}%".format(dtc_score*100))

In [None]:
#prediction
y_head_dtc = dtc.predict(X_test)

#confusion matrix
cm_dtc = confusion_matrix(y_test, y_head_dtc)
cm_dtc

## Random Forest Classification

In [None]:
# Random Forest Classification
rf = RandomForestClassifier(n_estimators = 1000, random_state = 1)
rf.fit(X_train, y_train)

rf_score = rf.score(X_test, y_test)
print("Random Forest Algorithm Accuracy Score : {:.2f}%".format(rf_score*100))

In [None]:
#prediction
y_head_rf = rf.predict(X_test)

#confusion matrix
cm_rf = confusion_matrix(y_test, y_head_rf)
cm_rf

In [None]:
methods_accuracy = {
    "Logistic Regression":lr_score,
    "KNN" : knn_score,
    "SVM" : svm_score,
    "Naive Bayes" : nb_score,
    "Decision Tree" : dtc_score,
    "Random Forest" : rf_score
}

In [None]:
methods = ["Logistic Regression","Naive Bayes", "KNN", "SVM", "Decision Tree", "Random Forest"]
accuracy = [lr_score, nb_score, knn_score, svm_score, dtc_score, rf_score]

sns.set()
plt.figure(figsize=(14,6))
plt.ylabel("Başarı %")
plt.xlabel("Algoritmalar")
sns.barplot(x=methods, y=accuracy, palette="deep")

# Kırılımlar Üzerine Değerlerini Yazmak
for line in range(len(methods)):
     plt.text(line-0.15, # x
              0.70, # y
             "{:.2f}%".format(accuracy[line]*100), # yazdırılacak değer
             horizontalalignment='left',
              size='large',
             color="white",
             )

        
plt.show()

## Confusion Matrix

In [None]:
plt.figure(figsize=(24,12))

plt.suptitle("Confusion Matrixes",fontsize=24)
plt.subplots_adjust(wspace = 0.4, hspace= 0.4)

plt.subplot(2,3,1)
plt.title("Logistic Regression Confusion Matrix")
sns.heatmap(cm_lr,annot=True,cmap="Blues",fmt="d",cbar=False, annot_kws={"size": 14})

plt.subplot(2,3,2)
plt.title("K Nearest Neighbors Confusion Matrix")
sns.heatmap(cm_knn,annot=True,cmap="Blues",fmt="d",cbar=False, annot_kws={"size": 14})

plt.subplot(2,3,3)
plt.title("Support Vector Machine Confusion Matrix")
sns.heatmap(cm_svm,annot=True,cmap="Blues",fmt="d",cbar=False, annot_kws={"size": 14})

plt.subplot(2,3,4)
plt.title("Naive Bayes Confusion Matrix")
sns.heatmap(cm_nb,annot=True,cmap="Blues",fmt="d",cbar=False, annot_kws={"size": 14})

plt.subplot(2,3,5)
plt.title("Decision Tree Classifier Confusion Matrix")
sns.heatmap(cm_dtc,annot=True,cmap="Blues",fmt="d",cbar=False, annot_kws={"size": 14})

plt.subplot(2,3,6)
plt.title("Random Forest Confusion Matrix")
sns.heatmap(cm_rf,annot=True,cmap="Blues",fmt="d",cbar=False, annot_kws={"size": 14})

plt.show()