In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [7]:
# Veri setini yükleme
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
column_names = ["Pregnancies", "Glucose", "BloodPressure", "SkinThickness", "Insulin", "BMI", "DiabetesPedigreeFunction", "Age", "Outcome"]
data = pd.read_csv(url, names=column_names)

# Veri setinin ilk 5 satırını görüntüleme
print(data.head())

# Veri setinin boyutunu görüntüleme
print(data.shape)

# Veri setinin istatistiksel özetini görüntüleme
print(data.describe())

# Eksik değerleri kontrol etme
print(data.isnull().sum())

   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  
(768, 9)
       Pregnancies     Glucose  BloodPressure  SkinThickness     Insulin  \
count   768.000000  768.000000     768.000000     768.000000  768.000000   
mean      3.845052  120.894531      69.105469      20.536458   79.799479   
std       3.369578   31.972618      19.355807      15.952218  115.

In [5]:
# Eksik değerleri doldurma (örneğin, 0 ile doldurma)
data[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']] = data[['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']].replace(0, np.nan)
data.fillna(data.median(), inplace=True)

# Özellikler ve hedef değişkeni ayırma
X = data.drop('Outcome', axis=1)
y = data['Outcome']

# Veriyi eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Özellikleri ölçeklendirme
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [9]:
# Lojistik Regresyon
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)

# Karar Ağaçları
dec_tree = DecisionTreeClassifier()
dec_tree.fit(X_train, y_train)

# Random Forest
rand_forest = RandomForestClassifier()
rand_forest.fit(X_train, y_train)

In [11]:
# Lojistik Regresyon için tahminler
y_pred_log_reg = log_reg.predict(X_test)
print("Lojistik Regresyon Doğruluk:", accuracy_score(y_test, y_pred_log_reg))
print("Lojistik Regresyon Sınıflandırma Raporu:\n", classification_report(y_test, y_pred_log_reg))

# Karar Ağaçları için tahminler
y_pred_dec_tree = dec_tree.predict(X_test)
print("Karar Ağaçları Doğruluk:", accuracy_score(y_test, y_pred_dec_tree))
print("Karar Ağaçları Sınıflandırma Raporu:\n", classification_report(y_test, y_pred_dec_tree))

# Random Forest için tahminler
y_pred_rand_forest = rand_forest.predict(X_test)
print("Random Forest Doğruluk:", accuracy_score(y_test, y_pred_rand_forest))
print("Random Forest Sınıflandırma Raporu:\n", classification_report(y_test, y_pred_rand_forest))

Lojistik Regresyon Doğruluk: 0.7532467532467533
Lojistik Regresyon Sınıflandırma Raporu:
               precision    recall  f1-score   support

           0       0.80      0.83      0.81        99
           1       0.67      0.62      0.64        55

    accuracy                           0.75       154
   macro avg       0.73      0.72      0.73       154
weighted avg       0.75      0.75      0.75       154

Karar Ağaçları Doğruluk: 0.7337662337662337
Karar Ağaçları Sınıflandırma Raporu:
               precision    recall  f1-score   support

           0       0.80      0.79      0.79        99
           1       0.62      0.64      0.63        55

    accuracy                           0.73       154
   macro avg       0.71      0.71      0.71       154
weighted avg       0.73      0.73      0.73       154

Random Forest Doğruluk: 0.7727272727272727
Random Forest Sınıflandırma Raporu:
               precision    recall  f1-score   support

           0       0.83      0.81      

In [13]:
print("Lojistik Regresyon Doğruluk:", accuracy_score(y_test, y_pred_log_reg))
print("Karar Ağaçları Doğruluk:", accuracy_score(y_test, y_pred_dec_tree))
print("Random Forest Doğruluk:", accuracy_score(y_test, y_pred_rand_forest))

Lojistik Regresyon Doğruluk: 0.7532467532467533
Karar Ağaçları Doğruluk: 0.7337662337662337
Random Forest Doğruluk: 0.7727272727272727


In [15]:
from sklearn.model_selection import GridSearchCV

# Örnek: Random Forest için hiperparametre optimizasyonu
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

grid_search = GridSearchCV(estimator=rand_forest, param_grid=param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print("En iyi parametreler:", grid_search.best_params_)
print("En iyi doğruluk:", grid_search.best_score_)

En iyi parametreler: {'max_depth': 10, 'min_samples_split': 5, 'n_estimators': 100}
En iyi doğruluk: 0.7785552445688391


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import plot_confusion_matrix

# Confusion Matrix Görselleştirme
plot_confusion_matrix(rand_forest, X_test, y_test)
plt.show()