<h1>Load and Preprocess the Data</h1>

In [1]:
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

mnist = fetch_openml('mnist_784', version=1)
X, y = mnist["data"], mnist["target"]
y = y.astype(int)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


<h1>Train the SVM Classifier<h1>

In [None]:
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.metrics import accuracy_score

# تعریف مدل SVM
svm_clf = OneVsRestClassifier(SVC(kernel='rbf', gamma='auto'))

# تابع برای آموزش مدل و محاسبه دقت
def train_and_evaluate(X_train, y_train, X_test, y_test, sizes):
    results = {}
    for size in sizes:
        svm_clf.fit(X_train[:size], y_train[:size])
        y_pred = svm_clf.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        results[size] = accuracy
    return results

# مقادیر مختلف برای تعداد داده‌ها
sizes = [1000, 5000, 10000, len(X_train)]

# اجرای تابع برای ارزیابی دقت
results = train_and_evaluate(X_train, y_train, X_test, y_test, sizes)

# چاپ نتایج
for size, accuracy in results.items():
    print(f"Accuracy with {size} samples: {accuracy}")

#Accuracy: 0.9657142857142857


Accuracy: 0.9657142857142857


<h1>Hyperparameter Tuning</h1>

In [4]:
from sklearn.model_selection import GridSearchCV

# تعریف مدل SVM
svm_clf = OneVsRestClassifier(SVC(kernel='rbf', gamma='auto'))

# تنظیم پارامترها با GridSearchCV
param_grid = {'estimator__C': [1, 10], 'estimator__gamma': ['scale']}

# تابع برای آموزش مدل و محاسبه دقت
def train_and_evaluate(X_train, y_train, X_test, y_test):
    grid_search = GridSearchCV(svm_clf, param_grid, cv=2)
    grid_search.fit(X_train, y_train)
    
    best_svm_clf = grid_search.best_estimator_
    y_pred = best_svm_clf.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    return accuracy

# آزمایش با تعداد داده‌های مختلف
for size in [1000, 5000, 10000, len(X_train)]:
    accuracy = train_and_evaluate(X_train[:size], y_train[:size], X_test, y_test)
    print(f"Accuracy with {size} samples: {accuracy}")

# استفاده از 10,000 نمونه برای تنظیم پارامترها
grid_search = GridSearchCV(svm_clf, param_grid, cv=2)
grid_search.fit(X_train[:10000], y_train[:10000])

print("Best parameters: ", grid_search.best_params_)
best_svm_clf = grid_search.best_estimator_

y_pred = best_svm_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Tuned Accuracy: {accuracy}")

#با افزایش تعداد سمپل ها ، دقت نیز افزایش پیدا میکند
#Accuracy with 1000 samples: 0.8847857142857143
#Accuracy with 5000 samples: 0.9375
#Accuracy with 10000 samples: 0.9531428571428572
#Best parameters:  {'estimator__C': 10, 'estimator__gamma': 'scale'}
#Tuned Accuracy: 0.9531428571428572


Accuracy with 1000 samples: 0.8847857142857143
Accuracy with 5000 samples: 0.9375
Accuracy with 10000 samples: 0.9531428571428572


KeyboardInterrupt: 

<h1>تاثیر تغیر پارامترها</h1>

<h4> با افزایش تعداد نمونه‌های آموزشی، مدل اطلاعات بیشتری برای یادگیری دارد و دقت آن بهبود می‌یابد.
به عنوان مثال، نتایج نشان داده شده:

دقت با 1000 نمونه: 0.8848

دقت با 5000 نمونه: 0.9375

دقت با 10000 نمونه: 0.9531
</h4>


<h1>تغییر پارامترهای C و gamma:</h1>

<h4>C: پارامتری که کنترل می‌کند مدل چقدر به داده‌های آموزشی اهمیت دهد. مقدار بالای C منجر به دقت بیشتر در داده‌های آموزشی می‌شود ولی ممکن است مدل بیش‌بیش‌برنایی (overfitting) پیدا کند.

gamma: پارامتری که نشان می‌دهد هر نمونه داده چقدر تاثیر در تصمیم‌گیری مدل داشته باشد. مقدار بالای gamma می‌تواند به بیش‌بیش‌برنایی منجر شود.</h4>

بهترین پارامتر ها به صورت زیر است:

Best parameters: {'estimator__C': 10, 'estimator__gamma': 'scale'}

Tuned Accuracy: 0.9531