# 02_Classification.py

This notebook was automatically converted from a Python script.

In [None]:

"""
Scikit-learn Sınıflandırma Algoritmaları

Bu script, scikit-learn kütüphanesindeki temel sınıflandırma algoritmalarını göstermektedir.
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import load_iris, load_breast_cancer, make_classification
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score



Sınıflandırıcılar


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB



%matplotlib inline


In [None]:

print("Scikit-learn Sınıflandırma Algoritmaları")
print("="*50)



1. Veri Yükleme ve Ön İşleme


In [None]:
print("\n1. Veri Yükleme ve Ön İşleme")
print("-"*50)



İris veri setini yükle


In [None]:
iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names

print("Veri seti boyutu:", X.shape)
print("Özellik isimleri:", feature_names)
print("Sınıf isimleri:", target_names)
print("Sınıf dağılımı:", np.bincount(y))



Eğitim ve test kümelerine ayırma


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)



Veri ölçeklendirme


In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)



2. Lojistik Regresyon


In [None]:
print("\n2. Lojistik Regresyon")
print("-"*50)



Lojistik Regresyon modeli


In [None]:
lr = LogisticRegression(random_state=42, max_iter=200)
lr.fit(X_train_scaled, y_train)



Tahmin


In [None]:
y_pred_lr = lr.predict(X_test_scaled)



Performans değerlendirme


In [None]:
print("Lojistik Regresyon Doğruluk:", accuracy_score(y_test, y_pred_lr))
print("\nSınıflandırma Raporu:")
print(classification_report(y_test, y_pred_lr, target_names=target_names))



Karmaşıklık matrisi


In [None]:
cm = confusion_matrix(y_test, y_pred_lr)
print("\nKarmaşıklık Matrisi:")
print(cm)



Karmaşıklık matrisini görselleştirme


In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=target_names, yticklabels=target_names)
plt.xlabel('Tahmin')
plt.ylabel('Gerçek')
plt.title('Lojistik Regresyon - Karmaşıklık Matrisi')
plt.tight_layout()
plt.savefig('logistic_regression_confusion_matrix.png')
plt.close()
print("Karmaşıklık matrisi grafiği 'logistic_regression_confusion_matrix.png' olarak kaydedildi.")



3. K-En Yakın Komşu (KNN)


In [None]:
print("\n3. K-En Yakın Komşu (KNN)")
print("-"*50)



K değerini belirleme


In [None]:
neighbors = range(1, 21)
cv_scores = []

for k in neighbors:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X_train_scaled, y_train, cv=10, scoring='accuracy')
    cv_scores.append(scores.mean())



En iyi K değeri


In [None]:
optimal_k = neighbors[np.argmax(cv_scores)]
print("En yüksek çapraz doğrulama skoru:", max(cv_scores))
print("En iyi K değeri:", optimal_k)



K değerlerine göre doğruluk grafiği


In [None]:
plt.figure(figsize=(10, 6))
plt.plot(neighbors, cv_scores, marker='o')
plt.xlabel('Komşu Sayısı (K)')
plt.ylabel('Doğruluk')
plt.title('K Değerine Göre KNN Performansı')
plt.xticks(neighbors)
plt.grid(True)
plt.savefig('knn_k_values.png')
plt.close()
print("KNN K değerleri grafiği 'knn_k_values.png' olarak kaydedildi.")



Optimal K ile KNN modeli


In [None]:
knn = KNeighborsClassifier(n_neighbors=optimal_k)
knn.fit(X_train_scaled, y_train)
y_pred_knn = knn.predict(X_test_scaled)



Performans değerlendirme


In [None]:
print("\nKNN Doğruluk:", accuracy_score(y_test, y_pred_knn))
print("\nSınıflandırma Raporu:")
print(classification_report(y_test, y_pred_knn, target_names=target_names))



4. Destek Vektör Makinesi (SVM)


In [None]:
print("\n4. Destek Vektör Makinesi (SVM)")
print("-"*50)



SVM modeli


In [None]:
svm = SVC(kernel='rbf', random_state=42)
svm.fit(X_train_scaled, y_train)



Tahmin


In [None]:
y_pred_svm = svm.predict(X_test_scaled)



Performans değerlendirme


In [None]:
print("SVM Doğruluk:", accuracy_score(y_test, y_pred_svm))
print("\nSınıflandırma Raporu:")
print(classification_report(y_test, y_pred_svm, target_names=target_names))



Farklı çekirdek (kernel) fonksiyonları


In [None]:
kernels = ['linear', 'poly', 'rbf', 'sigmoid']
kernel_scores = []

for kernel in kernels:
    svm = SVC(kernel=kernel)
    scores = cross_val_score(svm, X_train_scaled, y_train, cv=5, scoring='accuracy')
    kernel_scores.append(scores.mean())
    print(f"{kernel} çekirdeği ortalama doğruluk: {scores.mean():.4f}")



Çekirdek karşılaştırma grafiği


In [None]:
plt.figure(figsize=(10, 6))
plt.bar(kernels, kernel_scores, color='skyblue')
plt.xlabel('Çekirdek Fonksiyonu')
plt.ylabel('Doğruluk')
plt.title('SVM - Çekirdek Fonksiyonlarının Karşılaştırması')
plt.ylim(0.8, 1.0)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.savefig('svm_kernels.png')
plt.close()
print("SVM çekirdek karşılaştırma grafiği 'svm_kernels.png' olarak kaydedildi.")



5. Karar Ağacı


In [None]:
print("\n5. Karar Ağacı")
print("-"*50)



Karar ağacı modeli


In [None]:
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)  # Ölçeklendirmeye gerek yok



Tahmin


In [None]:
y_pred_dt = dt.predict(X_test)



Performans değerlendirme


In [None]:
print("Karar Ağacı Doğruluk:", accuracy_score(y_test, y_pred_dt))
print("\nSınıflandırma Raporu:")
print(classification_report(y_test, y_pred_dt, target_names=target_names))



Özellik önem dereceleri


In [None]:
feature_importance = dt.feature_importances_
sorted_idx = np.argsort(feature_importance)

plt.figure(figsize=(10, 6))
plt.barh(range(len(sorted_idx)), feature_importance[sorted_idx], align='center')
plt.yticks(range(len(sorted_idx)), [feature_names[i] for i in sorted_idx])
plt.xlabel('Özellik Önem Derecesi')
plt.title('Karar Ağacı - Özellik Önem Dereceleri')
plt.tight_layout()
plt.savefig('decision_tree_feature_importance.png')
plt.close()
print("Karar ağacı özellik önem dereceleri grafiği 'decision_tree_feature_importance.png' olarak kaydedildi.")



6. Rastgele Orman


In [None]:
print("\n6. Rastgele Orman")
print("-"*50)



Rastgele orman modeli


In [None]:
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)  # Ölçeklendirmeye gerek yok



Tahmin


In [None]:
y_pred_rf = rf.predict(X_test)



Performans değerlendirme


In [None]:
print("Rastgele Orman Doğruluk:", accuracy_score(y_test, y_pred_rf))
print("\nSınıflandırma Raporu:")
print(classification_report(y_test, y_pred_rf, target_names=target_names))



Özellik önem dereceleri


In [None]:
feature_importance = rf.feature_importances_
sorted_idx = np.argsort(feature_importance)

plt.figure(figsize=(10, 6))
plt.barh(range(len(sorted_idx)), feature_importance[sorted_idx], align='center')
plt.yticks(range(len(sorted_idx)), [feature_names[i] for i in sorted_idx])
plt.xlabel('Özellik Önem Derecesi')
plt.title('Rastgele Orman - Özellik Önem Dereceleri')
plt.tight_layout()
plt.savefig('random_forest_feature_importance.png')
plt.close()
print("Rastgele orman özellik önem dereceleri grafiği 'random_forest_feature_importance.png' olarak kaydedildi.")



7. Naive Bayes


In [None]:
print("\n7. Naive Bayes")
print("-"*50)



Naive Bayes modeli


In [None]:
nb = GaussianNB()
nb.fit(X_train_scaled, y_train)



Tahmin


In [None]:
y_pred_nb = nb.predict(X_test_scaled)



Performans değerlendirme


In [None]:
print("Naive Bayes Doğruluk:", accuracy_score(y_test, y_pred_nb))
print("\nSınıflandırma Raporu:")
print(classification_report(y_test, y_pred_nb, target_names=target_names))



8. Model Karşılaştırma


In [None]:
print("\n8. Model Karşılaştırma")
print("-"*50)



Tüm modelleri karşılaştırma


In [None]:
models = {
    'Lojistik Regresyon': LogisticRegression(random_state=42, max_iter=200),
    'KNN': KNeighborsClassifier(n_neighbors=optimal_k),
    'SVM': SVC(kernel='rbf', random_state=42),
    'Karar Ağacı': DecisionTreeClassifier(random_state=42),
    'Rastgele Orman': RandomForestClassifier(n_estimators=100, random_state=42),
    'Naive Bayes': GaussianNB()
}



Çapraz doğrulama ile değerlendirme


In [None]:
cv_results = {}
for name, model in models.items():
    scores = cross_val_score(model, X, y, cv=10, scoring='accuracy')
    cv_results[name] = scores
    print(f"{name} - Ortalama Doğruluk: {scores.mean():.4f} (±{scores.std():.4f})")



Karşılaştırma grafiği


In [None]:
plt.figure(figsize=(12, 6))
box = plt.boxplot([cv_results[name] for name in models.keys()], 
                  patch_artist=True, 
                  labels=list(models.keys()),
                  widths=0.7)



Kutu renklendirme


In [None]:
colors = ['lightblue', 'lightgreen', 'pink', 'wheat', 'lightcoral', 'lightcyan']
for patch, color in zip(box['boxes'], colors):
    patch.set_facecolor(color)

plt.title('Model Performans Karşılaştırması')
plt.ylabel('Doğruluk')
plt.ylim(0.8, 1.05)
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.savefig('classifier_model_comparison.png')
plt.close()
print("Model karşılaştırma grafiği 'classifier_model_comparison.png' olarak kaydedildi.") 
