# پروژه دسته‌بندی داده‌ها
این پروژه شامل مراحل بارگذاری داده‌ها، مدل‌سازی با استفاده از رگرسیون لجستیک و ماشین بردار پشتیبان (SVM)، و ارزیابی مدل‌ها می‌باشد.

## مرحله 1: بارگذاری داده‌ها
در این بخش داده‌ها از فایل CSV بارگذاری می‌شوند. برای نمونه، داده‌های مصنوعی تولید می‌شوند.

In [None]:
import pandas as pd
import numpy as np

# تولید مجموعه داده مصنوعی
data = pd.DataFrame({
    'Feature1': np.random.rand(100),
    'Feature2': np.random.rand(100),
    'Feature3': np.random.rand(100),
    'Target': np.random.choice([0, 1], size=100)
})

## مرحله 2: جداسازی ویژگی‌ها و متغیر هدف
در این مرحله داده‌ها به ویژگی‌ها (X) و متغیر هدف (y) تقسیم می‌شوند.

In [None]:
X = data.drop(columns=['Target'])  # ویژگی‌ها
y = data['Target']  # متغیر هدف

## مرحله 3: تقسیم داده‌ها به آموزش و آزمایش
70 درصد داده‌ها برای آموزش و 30 درصد برای آزمایش تخصیص داده می‌شوند.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## مرحله 4: مدل‌سازی با استفاده از رگرسیون لجستیک

In [None]:
from sklearn.linear_model import LogisticRegression

# ایجاد و آموزش مدل رگرسیون لجستیک
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)

In [None]:
from sklearn.metrics import classification_report, accuracy_score

# ارزیابی مدل
logistic_predictions = logistic_model.predict(X_test)
logistic_accuracy = accuracy_score(y_test, logistic_predictions)
logistic_report = classification_report(y_test, logistic_predictions)

print("دقت مدل رگرسیون لجستیک:", logistic_accuracy)
print(logistic_report)

## مرحله 5: مدل‌سازی با استفاده از ماشین بردار پشتیبان (SVM)
مدل‌های SVM با کرنل خطی و کرنل RBF بررسی می‌شوند.

In [None]:
from sklearn.svm import SVC

# SVM با کرنل خطی
svm_linear = SVC(kernel='linear', C=1)
svm_linear.fit(X_train, y_train)

# SVM با کرنل RBF
svm_rbf = SVC(kernel='rbf', C=1, gamma='scale')
svm_rbf.fit(X_train, y_train)

In [None]:
# ارزیابی مدل‌ها
linear_predictions = svm_linear.predict(X_test)
linear_accuracy = accuracy_score(y_test, linear_predictions)
linear_report = classification_report(y_test, linear_predictions)

rbf_predictions = svm_rbf.predict(X_test)
rbf_accuracy = accuracy_score(y_test, rbf_predictions)
rbf_report = classification_report(y_test, rbf_predictions)

print("دقت مدل SVM (کرنل خطی):", linear_accuracy)
print(linear_report)

print("دقت مدل SVM (کرنل RBF):", rbf_accuracy)
print(rbf_report)

## مرحله 6: اعتبارسنجی متقابل (Cross-validation)
برای ارزیابی بهتر مدل‌ها از روش اعتبارسنجی 10 بخشی استفاده می‌کنیم.

In [None]:
from sklearn.model_selection import cross_val_score, KFold

kf = KFold(n_splits=10, shuffle=True, random_state=42)
logistic_cv_scores = cross_val_score(logistic_model, X, y, cv=kf)
svm_linear_cv_scores = cross_val_score(svm_linear, X, y, cv=kf)
svm_rbf_cv_scores = cross_val_score(svm_rbf, X, y, cv=kf)

print("میانگین دقت اعتبارسنجی 10 بخشی - رگرسیون لجستیک:", np.mean(logistic_cv_scores))
print("میانگین دقت اعتبارسنجی 10 بخشی - SVM (کرنل خطی):", np.mean(svm_linear_cv_scores))
print("میانگین دقت اعتبارسنجی 10 بخشی - SVM (کرنل RBF):", np.mean(svm_rbf_cv_scores))

## خلاصه نتایج مدل‌ها

In [None]:
# خلاصه نتایج
results = {
    "مدل": ["رگرسیون لجستیک", "SVM (کرنل خطی)", "SVM (کرنل RBF)"],
    "دقت (Hold-out)": [logistic_accuracy, linear_accuracy, rbf_accuracy],
    "میانگین دقت اعتبارسنجی 10 بخشی": [
        np.mean(logistic_cv_scores),
        np.mean(svm_linear_cv_scores),
        np.mean(svm_rbf_cv_scores)
    ]
}
results_df = pd.DataFrame(results)
print(results_df)