## Лабораторная работа №2

#### Задание 1
Провести классификацию найденного датасета, методом машины опорных векторов. В формате Markdown писать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

#### Ход работы:

Импортируем библиотеки и загружаем датасет

In [21]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from tqdm import tqdm
import pandas as pd

file_path = "../Dataset.xls"
df = pd.read_excel(file_path)

Разделение данных и нормализация

In [22]:
# Разделение на признаки (X) и целевую переменную (y)
X = df.drop('default payment next month', axis=1)
y = df['default payment next month']

# Разделение данных на тренировочный и тестовый наборы
# random_state=42 - гарантирует, что данные каждый раз будут одинакого разбиваться
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков (нормализация)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Гиперпараметры:
   - C (регуляризация): Определяет силу регуляризации в модели SVM (Support Vector Machine / Машина опорных векторов); более низкое значение C увеличивает штраф за неправильную классификацию, что может привести к созданию простой модели с большей обобщающей способностью.
   - gamma (ядерный коэффициент): Определяет влияние одного тренировочного примера на другие; меньшие значения gamma означают более широкие гауссовы функции и приводят к более простым/прямым границам решения.
   - kernel (ядро): Определяет тип использованного ядра (линейное или RBF); линейное ядро работает линейно, тогда как RBF (радиально-базисная функция) способно моделировать сложные границы решений.

In [24]:
# Выбрал такие значения для C и gamma для более быстрого обучения модели 
# (при большом C или gamma увеличивается время работы, но при слишком маленьком значении gamma увеличивается время 
# работы через RBF)
param_grid = {'C': [0.001, 0.01], 'gamma': [0.01, 0.02], 'kernel': ['linear', 'rbf']}

Подбор гиперпараметров с помощью перекрестной проверки

In [19]:
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=3)
grid.fit(X_train_scaled, y_train)

best_params = grid.best_params_
best_score = grid.best_score_

Fitting 5 folds for each of 8 candidates, totalling 40 fits
[CV 1/5] END C=1e-10, gamma=0.01, kernel=linear;, score=0.778 total time=   5.4s
[CV 2/5] END C=1e-10, gamma=0.01, kernel=linear;, score=0.778 total time=   5.4s
[CV 3/5] END C=1e-10, gamma=0.01, kernel=linear;, score=0.778 total time=   5.6s
[CV 4/5] END C=1e-10, gamma=0.01, kernel=linear;, score=0.778 total time=   5.3s
[CV 5/5] END C=1e-10, gamma=0.01, kernel=linear;, score=0.778 total time=   5.3s
[CV 1/5] END ...C=1e-10, gamma=0.01, kernel=rbf;, score=0.778 total time=  10.9s
[CV 2/5] END ...C=1e-10, gamma=0.01, kernel=rbf;, score=0.778 total time=  10.8s
[CV 3/5] END ...C=1e-10, gamma=0.01, kernel=rbf;, score=0.778 total time=  10.7s
[CV 4/5] END ...C=1e-10, gamma=0.01, kernel=rbf;, score=0.778 total time=  10.8s
[CV 5/5] END ...C=1e-10, gamma=0.01, kernel=rbf;, score=0.778 total time=  10.9s
[CV 1/5] END .C=1e-10, gamma=0.2, kernel=linear;, score=0.778 total time=   5.3s
[CV 2/5] END .C=1e-10, gamma=0.2, kernel=linear;,

Вывод лучших гиперпараметров и оценка производительности модели на тестовом наборе

In [20]:
print("Лучшие гиперпараметры:", grid.best_params_)
best_svc = grid.best_estimator_
y_pred = best_svc.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy}")

Лучшие гиперпараметры: {'C': 0.01, 'gamma': 0.01, 'kernel': 'linear'}
Точность модели: 0.8105
