
# پروژه: مقایسه مدل‌های KNN و Naive Bayes
این پروژه شامل مراحل زیر است:
1. انتخاب مجموعه داده
2. ارزیابی مدل‌ها با استفاده از روش‌های Hold-out و Cross-validation
3. پیاده‌سازی مدل بیزی ساده (Naive Bayes)
4. بهینه‌سازی مقدار K در روش KNN
5. ترسیم منحنی نرخ صحت بر حسب مقادیر مختلف K
6. مقایسه متریک‌های دو مدل شامل دقت (Accuracy)، بازخوانی (Recall)، دقت پیش‌بینی (Precision) و F1-Score


In [None]:
! pip install numpy pandas scikit-learn matplotlib


In [4]:

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, KFold, cross_val_score, GridSearchCV
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import matplotlib.pyplot as plt


## 1. انتخاب مجموعه داده

In [5]:

# انتخاب مجموعه داده (در اینجا از داده Iris استفاده می‌شود)
data = load_iris()
X = data.data
y = data.target


## 2. ارزیابی مدل‌ها با روش‌های Hold-out و Cross-validation

In [6]:

# روش Hold-out
holdout_accuracies = []
for _ in range(100):  # تکرار 100 بار
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=None)
    model_nb = GaussianNB()
    model_nb.fit(X_train, y_train)
    y_pred = model_nb.predict(X_test)
    holdout_accuracies.append(accuracy_score(y_test, y_pred))
holdout_mean_accuracy = np.mean(holdout_accuracies)

# روش 10-fold Cross Validation
kf = KFold(n_splits=10, shuffle=True, random_state=42)
model_nb_cv = GaussianNB()
cv_accuracies = cross_val_score(model_nb_cv, X, y, cv=kf, scoring='accuracy')
cross_val_mean_accuracy = np.mean(cv_accuracies)


## 3. پیاده‌سازی مدل بیزی ساده

In [7]:

# پیاده‌سازی روش بیزی ساده
model_nb.fit(X, y)
nb_accuracy = np.mean(cv_accuracies)


## 4. بهینه‌سازی مقدار K در روش KNN

In [None]:

# بهینه‌سازی K در KNN
param_grid = {'n_neighbors': range(1, len(X))}
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=10, scoring='accuracy')
grid_search.fit(X, y)
best_k = grid_search.best_params_['n_neighbors']
best_accuracy = grid_search.best_score_


## 5. ترسیم منحنی نرخ صحت بر حسب مقادیر مختلف K

In [None]:

# ترسیم منحنی نرخ صحت
k_values = list(range(1, len(X)))
accuracies = []
for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')
    accuracies.append(np.mean(scores))

plt.plot(k_values, accuracies, marker='o')
plt.xlabel('K Value')
plt.ylabel('Accuracy')
plt.title('Accuracy vs K Value for KNN')
plt.show()


## 6. مقایسه متریک‌های دو مدل

In [None]:

# مقایسه دو روش
y_pred_nb = model_nb.predict(X)
nb_precision = precision_score(y, y_pred_nb, average='weighted')
nb_recall = recall_score(y, y_pred_nb, average='weighted')
nb_f1 = f1_score(y, y_pred_nb, average='weighted')
nb_confusion = confusion_matrix(y, y_pred_nb)

knn = KNeighborsClassifier(n_neighbors=best_k)
knn.fit(X, y)
y_pred_knn = knn.predict(X)
knn_precision = precision_score(y, y_pred_knn, average='weighted')
knn_recall = recall_score(y, y_pred_knn, average='weighted')
knn_f1 = f1_score(y, y_pred_knn, average='weighted')
knn_confusion = confusion_matrix(y, y_pred_knn)

# چاپ نتایج
print(f"Naive Bayes Accuracy: {nb_accuracy}")
print(f"KNN Best K: {best_k}, Best Accuracy: {best_accuracy}")
print("Naive Bayes Metrics:")
print(f"Precision: {nb_precision}, Recall: {nb_recall}, F1-Score: {nb_f1}")
print("Confusion Matrix:")
print(nb_confusion)
print("KNN Metrics:")
print(f"Precision: {knn_precision}, Recall: {knn_recall}, F1-Score: {knn_f1}")
print("Confusion Matrix:")
print(knn_confusion)
