In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv("diabetes.csv")
df.head()

In [None]:
df.info()

In [None]:
df.describe().T

In [None]:
df.isnull().sum().any()

In [None]:
df["Glucose"].value_counts()[0]

In [None]:
df_copy = df.copy()
df_copy[["Glucose","BloodPressure","SkinThickness","Insulin","BMI"]] = df[["Glucose","BloodPressure","SkinThickness","Insulin","BMI"]].replace(0,np.NaN)


In [None]:
df_copy.isnull().sum().any()

In [None]:
df_copy.isnull().sum()

In [None]:
df.hist(figsize=(20,20));

In [None]:
df_copy["Glucose"].fillna(df_copy["Glucose"].mean(),inplace=True)
df_copy["BloodPressure"].fillna(df_copy["BloodPressure"].mean(),inplace=True)
df_copy["SkinThickness"].fillna(df_copy["SkinThickness"].median(),inplace=True)
df_copy["Insulin"].fillna(df_copy["Insulin"].median(),inplace=True)
df_copy["BMI"].fillna(df_copy["BMI"].mean(),inplace=True)

In [None]:
df_copy.isnull().sum().any()

In [None]:
X = df_copy.drop("Outcome",axis=1)
y = df_copy["Outcome"]

In [None]:
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
X_scaler = ss.fit_transform(X)
df_X = pd.DataFrame(X_scaler,columns=['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
       'BMI', 'DiabetesPedigreeFunction', 'Age'])

In [None]:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X_scaler,y,test_size=0.3,random_state=42)

## K-Nearest Neighbors

<center><img src = "knn2.png" style="widht:400px;height:300px" ><center>

K- Nearest Neighbors(K-En Yakın Komşu) algoritması, vakaları diğer vakalarla benzerliklerine göre sınıflandırır. "Aynı sınıf etiketlerine sahip benzer durumlar birbirine yakındır" düşüncesini benimser. İki nokta arasındaki mesafe farklılığın bir ölçüsüdür.

Algoritma adımları şöyle ilerler: 

1- K için bir değer seçin.

2- Veri kümesindeki vakaların her birinden yeni durumdan uzaklığı hesaplayın. 

<center><img src = "öklid.png" style="widht:400px;height:300px" ><center>

3- Bilinmeyen veri noktasının ölçümlerine en yakın olan eğitim verilerindeki K-gözlemlerini arayın.

4- En Yakın Komşulardan gelen en popüler yanıt değerini kullanarak bilinmeyen veri noktasının yanıtını tahmin edin.

<center><img src = "knn.png" style="widht:400px;height:300px" ><center>

## Performans Değerlendirme Metrikleri

### Confusion Matrix

Bir sınıflandırma modelinin performansını değerlendirmek için kullanılan bir tablodur. İki sınıf (gerçek ve tahmin edilen) ve bu sınıflara ait doğru ve yanlış sınıflandırılan örnekleri gösterir. Karmaşıklık matrisi dört temel terimden oluşur:

True Positive (TP): Gerçek pozitif, doğru olarak pozitif olarak tahmin edilen örnekler.

True Negative (TN): Gerçek negatif, doğru olarak negatif olarak tahmin edilen örnekler.

False Positive (FP): Yanlış pozitif, yanlış olarak pozitif olarak tahmin edilen örnekler.

False Negative (FN): Yanlış negatif, yanlış olarak negatif olarak tahmin edilen örnekler.

<center><img src = "cf.png" style="widht:400px;height:300px" ><center>

### Accuracy

Accuracy, bir sınıflandırma modelinin doğru tahminlerinin tüm tahminlere oranını temsil eden bir performans ölçüsüdür. Basit bir şekilde, doğru sınıflandırılmış örneklerin toplam örnek sayısına bölünmesiyle elde edilir.

<center><img src = "accuracy.png" style="widht:200px;height:100px" ><center>

### Recall (Duyarlılık)

Bu metrik, bir sınıfın ne kadar iyi tespit edildiğini gösterir. Yani, gerçek pozitiflerin, gerçek pozitiflerle yanlış negatiflerin toplamına oranıdır. Recall, kaç tane gerçek pozitif örneğinin doğru bir şekilde tespit edildiğini belirtir. Yüksek recall değeri, modelin olumlu örnekleri kaçırmama yeteneğini gösterir.

<center><img src = "recall.png" style="widht:200px;height:100px" ><center>

### Precision (Hassasiyet)

Bu metrik, bir sınıfın ne kadar doğru tahmin edildiğini gösterir. Yani, doğru pozitiflerin, doğru pozitiflerle yanlış pozitiflerin toplamına oranıdır. Precision, pozitif olarak tahmin edilen örneklerin ne kadarının gerçekten pozitif olduğunu gösterir. Yüksek precision değeri, modelin pozitif tahminlerinin doğruluğunu gösterir.

<center><img src = "precision.png" style="widht:100px;height:100px" ><center>

### F1 Score

Precision ve recall'ın harmonik ortalamasıdır. F1-score, bir sınıflandırıcı modelin kesinliği ve kapsamlılığı arasındaki dengeyi sağlayarak bir performans ölçüsü sağlar.

<center><img src = "f1score.png" style="widht:100px;height:100px" ><center>

## Models Building

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()

In [None]:
knn_model = knn.fit(X_train,y_train)

In [None]:
y_pred = knn_model.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test,y_pred)

In [None]:
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.metrics import f1_score, precision_score, recall_score
print("Classification Report is:\n",classification_report(y_test,y_pred))
print("\n F1:\n",f1_score(y_test,y_pred))
print("\n Precision score is:\n",precision_score(y_test,y_pred))
print("\n Recall score is:\n",recall_score(y_test,y_pred))
print("\n Confusion Matrix:\n")
print(confusion_matrix(y_test,y_pred))
plt.figure(figsize=(15,8))
sns.heatmap(confusion_matrix(y_test,y_pred),annot=True)
plt.ylabel('Prediction',fontsize=13)
plt.xlabel('Actual',fontsize=13)
plt.title('Confusion Matrix',fontsize=17)
plt.show()

### Model Tuning

In [None]:
test_scores = []
train_scores = []

for i in range(1,15):

    knn = KNeighborsClassifier(i)
    knn.fit(X_train,y_train)
    
    train_scores.append(knn.score(X_train,y_train))
    test_scores.append(knn.score(X_test,y_test))

In [None]:
max_train_score = max(train_scores)
train_scores_ind = [i for i, v in enumerate(train_scores) if v == max_train_score]
print('Max train score {} % and k = {}'.format(max_train_score*100,list(map(lambda x: x+1, train_scores_ind))))

In [None]:
max_test_score = max(test_scores)
test_scores_ind = [i for i, v in enumerate(test_scores) if v == max_test_score]
print('Max test score {} % and k = {}'.format(max_test_score*100,list(map(lambda x: x+1, test_scores_ind))))

In [None]:
plt.figure(figsize=(12,5))
p = sns.lineplot(range(1,15),train_scores,marker='*',label='Train Score')
p = sns.lineplot(range(1,15),test_scores,marker='o',label='Test Score')

## Support Vector Machine

<center><img src="svm.jpg" alt="Drawing"/><center>



Destek Vektör Makinesi, bir ayırıcı bularak vakaları sınıflandırabilen denetimli bir algoritmadır. Veriler lineer olarak ayrılmadığı durumlarda yüksek boyutlu bir ortamda, bir ayırıcının hiper düzlem olarak çizilebileceği şekilde dönüştürülmelidir. Veriler daha yüksek boyutlu bir alana aktarılabilir ve iki kategori arasındaki sınır bir hiper düzlem ile tanımlanabilir. 

Yapılan bu işleme yani, verileri, doğrusal olarak ayrılmaz bir veri kümesini doğrusal olarak ayrılabilir bir veri kümesine dönüştürebilecek şekilde daha yüksek boyutlu bir alana eşlemeye **kernelling** denir.


<center><table><tr>
<td> <img src="kernel.jpg" alt="Drawing" style="width: 600px;"/> </td>
<td> <img src="kernel_2.png" alt="Drawing" style="width: 600px;"/> </td>
</tr></table><center>

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.30, random_state=42)

In [None]:
from sklearn.svm import SVC
svm_model = SVC(kernel="linear").fit(X_train,y_train)
y_pred = svm_model.predict(X_test)

In [None]:
accuracy_score(y_test,y_pred)

### Model Tuning

In [None]:
svm= SVC()

In [None]:
svm_params = {"C": np.arange(1,10),
              "gamma":(0.001, 0.01, 0.1),
              "kernel":["linear","rbf"]}

#C parametresi, SVM'in sınıflandırma hatasını nasıl kabul edeceğini belirler. C değeri ne kadar büyükse, SVM sınıflandırma hatasını azaltmak için daha fazla çaba harcar. 
#Gamma'nın değeri ne kadar büyükse, tek bir eğitim örneği, modeldeki diğer örneklerin sınıflandırılmasında daha fazla ağırlığa sahip olur. Bu da modelin eğitim verilerine aşırı uyum yapmasına neden olabilir.
#Kernel parametresi, SVM'de kullanılan çekirdek fonksiyonunu belirler. 

In [None]:
from sklearn.model_selection import GridSearchCV
svm_cv = GridSearchCV(svm,svm_params,n_jobs=-1, cv=5, verbose=1, scoring="accuracy")

#scoring: Modellerin performansını değerlendirmek için kullanılan bir ölçütü belirtir.
#cv: Modellerin performansını değerlendirmek için kullanılan bir ölçütü belirtir.
#verbose: Çıktının detay seviyesini belirtir. Ne kadar fazla ayrıntı görmek istediğinizi belirleyebilirsiniz
#n_jobs: İşlemci çekirdeklerinin sayısını belirtir.

In [None]:
svm_cv.fit(X_train, y_train)
best_params = svm_cv.best_params_
print(f"Best params: {best_params}")

In [None]:
svm_tuned = SVC(C=8,gamma=0.001,kernel='linear').fit(X_train,y_train)
y_pred_tuned = svm_tuned.predict(X_test)
accuracy_score(y_test,y_pred_tuned)


In [None]:
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.metrics import f1_score, precision_score, recall_score
print("Classification Report is:\n",classification_report(y_test,y_pred_tuned))
print("\n F1:\n",f1_score(y_test,y_pred_tuned))
print("\n Precision score is:\n",precision_score(y_test,y_pred_tuned))
print("\n Recall score is:\n",recall_score(y_test,y_pred_tuned))
print("\n Confusion Matrix:\n")
print(confusion_matrix(y_test,y_pred_tuned))
plt.figure(figsize=(15,8))
sns.heatmap(confusion_matrix(y_test,y_pred_tuned),annot=True)
plt.ylabel('Prediction',fontsize=13)
plt.xlabel('Actual',fontsize=13)
plt.title('Confusion Matrix',fontsize=17)
plt.show()

## Decision Tree

<center><img src="dc.png" style="widht:500px;height:400px"/><center>

Karar ağaçları, veri tabanlı karar yapısını anlamak için ağaç benzeri bir model oluşturur. Bu ağaç, veri kümesini sınıflandırmak veya regresyon yapmak için bir dizi karar kuralı ve özellik içerir. Temel olarak, bir karar ağacı veri kümesindeki her bir özelliğin en iyi ayrım noktasını bulmaya çalışır ve bu ayrım noktaları kullanarak veriyi sınıflandırır veya tahmin eder.

<center><img src="şema.png" style="widht:500px;height:400px"/><center>


Eğitim veri setinin kategorileri içeren **düğümlere(nodes)** bölünmesiyle oluşur. Karar ağaçları bir özniteliği test eder ve testin sonucuna göre durumları dallandırır. Her **iç düğüm(internal node)** bir teste karşılık gelir ve her **dal(branch)** testin sonucuna karşılık gelir ve her **yaprak düğümü(leaf node)** bir hastayı bir sınıfa atar.

<center><table><tr>
<td> <img src="tree.png" alt="Drawing" style="widht:200px;height: 300px;"/> </td>
<td> <img src="tree_2.png" alt="Drawing" style="widht:200px;height: 300px;"/> </td>
<td> <img src="tree_3.jpg" alt="Drawing" style="widht:300px;height: 400px;"/> </td>
</tr></table><center>

Bir karar ağacı şöyle oluşturulur:

1 - Veri kümenizden bir öznitelik seçin

2 - Verilerin bölünmesinde özniteliğin önemini hesaplayın

3 - Verileri en iyi özniteliğin değerine göre bölün

4 - Birinci adıma geçin

Algoritma, verileri bölmek için en öngörücü özelliği(feature) seçer. Bir karar ağacı oluştururken önemli olan, özelliğe göre verileri bölmek için hangi özelliğin en iyi veya daha öngörücü olduğunu belirlemektir. Karar ağaçlarının dallanacağı feature'lar entropiye göre belirlenir. 

<center><img src="entropy.png" style="widht:400px;height:300px"/><center>

In [None]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(random_state=42).fit(X_train, y_train)
y_pred = tree.predict(X_test)
accuracy_score(y_test,y_pred)

In [None]:
params = {"criterion": ("entropy","gini"), #Karar ağacının düğümlerini bölmek için kullanılacak ölçütü belirler. Sıklıkla kullanılan kriterler arasında "gini" ve "entropy" bulunur. 
          "splitter":("best", "random"), #Karar ağacının düğümlerini bölme stratejisini belirler.
          "max_depth":(list(range(1, 10))), #Oluşturulacak olan ağacın maksimum derinliğini belirler. Bu parametre, ağacın aşırı öğrenme veya ezberleme sorunlarından kaçınmak için kullanılır. 
          "min_samples_split":[2, 3, 4], #Bir düğümün bölünmesi için gereken minimum örnek sayısını belirler.
          "min_samples_leaf":list(range(1, 10)) #Bir yaprak düğümü oluşturmak için gerekli olan minimum örnek sayısını belirler.
          }

In [None]:
tree_clf = DecisionTreeClassifier(random_state=42)
tree_cv = GridSearchCV(tree_clf, params, scoring="accuracy", n_jobs=-1, verbose=1, cv=5)
tree_cv.fit(X_train, y_train)
best_params = tree_cv.best_params_

In [None]:
best_params

In [None]:
tree_tuned = DecisionTreeClassifier(**best_params)
tree_tuned.fit(X_train,y_train)
y_pred = tree_tuned.predict(X_test)
accuracy_score(y_test,y_pred)

In [None]:
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.metrics import f1_score, precision_score, recall_score
print("Classification Report is:\n",classification_report(y_test,y_pred))
print("\n F1:\n",f1_score(y_test,y_pred))
print("\n Precision score is:\n",precision_score(y_test,y_pred))
print("\n Recall score is:\n",recall_score(y_test,y_pred))
print("\n Confusion Matrix:\n")
print(confusion_matrix(y_test,y_pred))
plt.figure(figsize=(15,8))
sns.heatmap(confusion_matrix(y_test,y_pred),annot=True)
plt.ylabel('Prediction',fontsize=13)
plt.xlabel('Actual',fontsize=13)
plt.title('Confusion Matrix',fontsize=17)
plt.show()

## Random Forest

Random Forest (Rastgele ormanlar), birden fazla karar ağacının bir araya gelmesiyle oluşturulan bir topluluk öğrenme modelidir. Bu ağaçlar rastgele örneklemeler ve özelliklerin bir alt kümesi kullanılarak oluşturulur. Rastgele ormanlar, her bir ağacın tahminini alarak bu tahminlerin ortalamasını veya modunu alarak son tahmini verir. Rastgele ormanlar genellikle aşırı öğrenmeye daha dirençlidir, daha yüksek doğruluk sağlayabilir ve genellikle daha karmaşık veri setleri üzerinde daha iyi performans gösterebilir.

<center><img src="random_forest.png" style="widht:500px;height:400px"/><center>

In [None]:
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(n_estimators=1000, random_state=42)
rf_clf.fit(X_train, y_train)
y_pred = rf_clf.predict(X_test)
accuracy_score(y_test,y_pred)

In [None]:
n_estimators = [500, 900, 1100, 1500] #Oluşturulacak olan karar ağacı sayısını belirler
max_features = ['auto', 'sqrt'] #Her bir karar ağacında değerlendirilecek olan maksimum özellik sayısını belirler. Bu, her bir bölünmede göz önünde bulundurulacak özelliklerin sayısını kontrol eder.
max_depth = [2, 3, 5, 10, 15, None]  #Her bir karar ağacının maksimum derinliğini belirler
min_samples_split = [2, 5, 10]
min_samples_leaf = [1, 2, 4]

params_grid = {
    'n_estimators': n_estimators, 
    'max_features': max_features,
    'max_depth': max_depth, 
    'min_samples_split': min_samples_split,
    'min_samples_leaf': min_samples_leaf
              }

rf_clf = RandomForestClassifier(random_state=42)
rf_cv = GridSearchCV(rf_clf, params_grid, scoring="accuracy", cv=5, verbose=1, n_jobs=-1)
rf_cv.fit(X_train, y_train)
best_params = rf_cv.best_params_
print(f"Best parameters: {best_params}")

In [None]:
random_forest_tuned = RandomForestClassifier(**best_params)
random_forest_tuned.fit(X_train,y_train)
y_pred = random_forest_tuned.predict(X_test)
accuracy_score(y_test,y_pred)

In [None]:
from sklearn.metrics import classification_report,confusion_matrix
from sklearn.metrics import f1_score, precision_score, recall_score
print("Classification Report is:\n",classification_report(y_test,y_pred))
print("\n F1:\n",f1_score(y_test,y_pred))
print("\n Precision score is:\n",precision_score(y_test,y_pred))
print("\n Recall score is:\n",recall_score(y_test,y_pred))
print("\n Confusion Matrix:\n")
print(confusion_matrix(y_test,y_pred))
plt.figure(figsize=(15,8))
sns.heatmap(confusion_matrix(y_test,y_pred),annot=True)
plt.ylabel('Prediction',fontsize=13)
plt.xlabel('Actual',fontsize=13)
plt.title('Confusion Matrix',fontsize=17)
plt.show()

**K-Nearest Neighbours (K-NN):** K-NN, veri kümesindeki benzer örneklerin birbirine yakın olma eğilimi varsa ve sınıflar arasındaki sınırlar belirgin değilse kullanışlı olabilir. Veri seti küçük veya orta ölçekli olduğunda etkilidir. Ayrıca, veri seti üzerindeki gürültüye ve etiketlenmemiş verilere karşı da oldukça dirençlidir.

**Support Vector Machine (SVM):** SVM, yüksek boyutlu veri setleriyle çalışırken etkilidir. Veri seti arasındaki karmaşık ilişkileri anlamak ve sınıflar arasındaki net ayrımı çizmek için kullanılabilir. SVM, özellikle veri setindeki sınıf dengesizliği durumunda da etkili olabilir.

**Decision Tree (Karar Ağacı):** Karar ağaçları, veri seti içindeki ilişkileri ve karar yapısını anlamak istediğinizde faydalı olabilir. Karar ağaçları anlaşılması kolaydır ve yorumlanabilirliği yüksektir. Ayrıca, kategorik ve sayısal veri türlerini işlemek için de uygundur.

**Random Forest:** Random forest, karmaşık ilişkiler içeren büyük veri setleri üzerinde yüksek performans sağlar. Aynı zamanda aşırı öğrenmeye karşı dirençlidir ve genellikle daha yüksek doğruluk sağlar. Veri setindeki gürültüye ve eksik verilere karşı da oldukça dirençlidir.

Bu algoritmaların seçimi, veri setinin özelliklerine, boyutuna, sınıf dengesine ve problemin doğasına bağlıdır. Veri analizi, model performansı ve doğruluk gereksinimleri gibi faktörler de seçimde rol oynar.