## Лабораторная работа №2

#### Задание 1
Провести классификацию найденного датасета, методом машины опорных векторов. В формате Markdown писать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

#### Ход работы:

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

In [2]:
# Загрузка данных
data = pd.read_csv('anime-dataset-2023.csv')

In [3]:
# Вывод общей информации о данных
print("Общая информация о данных:")
print(f"Количество строк: {data.shape[0]}")
print(f"Количество столбцов: {data.shape[1]}")
print("\nТипы данных по столбцам:")
print(data.dtypes)

Общая информация о данных:
Количество строк: 24905
Количество столбцов: 24

Типы данных по столбцам:
anime_id         int64
Name            object
English name    object
Other name      object
Score           object
Genres          object
Synopsis        object
Type            object
Episodes        object
Aired           object
Premiered       object
Status          object
Producers       object
Licensors       object
Studios         object
Source          object
Duration        object
Rating          object
Rank            object
Popularity       int64
Favorites        int64
Scored By       object
Members          int64
Image URL       object
dtype: object


In [4]:
# Разделение на признаки (X) и целевую переменную (y)
X = data.drop('Type', axis=1)
y = data['Type']
label_encoder = LabelEncoder()
for column in X.columns:
    if X[column].dtype == 'object':
        X[column] = label_encoder.fit_transform(X[column])

# Разделение данных на тренировочный и тестовый наборы
# random_state=42 - гарантирует, что данные каждый раз будут одинакого разбиваться
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков (нормализация)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Гиперпараметры:
   - C (регуляризация): Определяет силу регуляризации в модели SVM (Support Vector Machine / Машина опорных векторов); более низкое значение C увеличивает штраф за неправильную классификацию, что может привести к созданию простой модели с большей обобщающей способностью.
   - gamma (ядерный коэффициент): Определяет влияние одного тренировочного примера на другие; меньшие значения gamma означают более широкие гауссовы функции и приводят к более простым/прямым границам решения.
   - kernel (ядро): Определяет тип использованного ядра (линейное или RBF); линейное ядро работает линейно, тогда как RBF (радиально-базисная функция) способно моделировать сложные границы решений.

In [5]:
param_grid = {'C': [0.01, 0.1, 1], 'kernel': ['linear', 'rbf', 'sigmoid'], 'gamma': [0.1, 1, 10]}

Подбор гиперпараметров с помощью перекрестной проверки

In [6]:
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=3)
grid.fit(X_train_scaled, y_train)

best_params = grid.best_params_
best_score = grid.best_score_

Fitting 5 folds for each of 27 candidates, totalling 135 fits
[CV 1/5] END ..C=0.01, gamma=0.1, kernel=linear;, score=0.705 total time=   6.9s
[CV 2/5] END ..C=0.01, gamma=0.1, kernel=linear;, score=0.699 total time=   6.6s
[CV 3/5] END ..C=0.01, gamma=0.1, kernel=linear;, score=0.696 total time=   6.8s
[CV 4/5] END ..C=0.01, gamma=0.1, kernel=linear;, score=0.699 total time=   6.8s
[CV 5/5] END ..C=0.01, gamma=0.1, kernel=linear;, score=0.696 total time=   6.9s
[CV 1/5] END .....C=0.01, gamma=0.1, kernel=rbf;, score=0.491 total time=  25.1s
[CV 2/5] END .....C=0.01, gamma=0.1, kernel=rbf;, score=0.489 total time=  26.2s
[CV 3/5] END .....C=0.01, gamma=0.1, kernel=rbf;, score=0.493 total time=  24.9s
[CV 4/5] END .....C=0.01, gamma=0.1, kernel=rbf;, score=0.491 total time=  24.4s
[CV 5/5] END .....C=0.01, gamma=0.1, kernel=rbf;, score=0.492 total time=  24.1s
[CV 1/5] END .C=0.01, gamma=0.1, kernel=sigmoid;, score=0.625 total time=  17.6s
[CV 2/5] END .C=0.01, gamma=0.1, kernel=sigmoid

[CV 2/5] END ....C=1, gamma=0.1, kernel=sigmoid;, score=0.487 total time=   8.3s
[CV 3/5] END ....C=1, gamma=0.1, kernel=sigmoid;, score=0.487 total time=   8.4s
[CV 4/5] END ....C=1, gamma=0.1, kernel=sigmoid;, score=0.507 total time=   9.2s
[CV 5/5] END ....C=1, gamma=0.1, kernel=sigmoid;, score=0.490 total time=   9.5s
[CV 1/5] END .......C=1, gamma=1, kernel=linear;, score=0.718 total time=  11.6s
[CV 2/5] END .......C=1, gamma=1, kernel=linear;, score=0.715 total time=  10.2s
[CV 3/5] END .......C=1, gamma=1, kernel=linear;, score=0.712 total time=   9.6s
[CV 4/5] END .......C=1, gamma=1, kernel=linear;, score=0.720 total time=  10.0s
[CV 5/5] END .......C=1, gamma=1, kernel=linear;, score=0.715 total time=   9.9s
[CV 1/5] END ..........C=1, gamma=1, kernel=rbf;, score=0.395 total time=  38.1s
[CV 2/5] END ..........C=1, gamma=1, kernel=rbf;, score=0.393 total time=  36.8s
[CV 3/5] END ..........C=1, gamma=1, kernel=rbf;, score=0.392 total time=  37.0s
[CV 4/5] END ..........C=1, 

Вывод лучших гиперпараметров и оценка производительности модели на тестовом наборе

In [7]:
print("Лучшие гиперпараметры:", grid.best_params_)
best_svc = grid.best_estimator_
y_pred = best_svc.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy}")

# Получение отчета о классификации с предупреждениями
report = classification_report(y_test, y_pred, zero_division=1)
print(f'Отчет о классификации:\n{report}')

Лучшие гиперпараметры: {'C': 1, 'gamma': 0.1, 'kernel': 'rbf'}
Точность модели: 0.7906042963260389
Отчет о классификации:
              precision    recall  f1-score   support

       Movie       0.73      0.82      0.77       867
       Music       0.92      0.95      0.94       517
         ONA       0.64      0.63      0.63       683
         OVA       0.75      0.76      0.76       817
     Special       0.50      0.34      0.41       506
          TV       0.93      0.96      0.94      1576
     UNKNOWN       0.75      0.20      0.32        15

    accuracy                           0.79      4981
   macro avg       0.75      0.67      0.68      4981
weighted avg       0.78      0.79      0.78      4981

