Студент: Вичев Александр

Для выполнения задачи с использованием различных методов классификации, я приведу инструкции по каждому из пяти упомянутых подходов, а также пример кода на Python с использованием библиотеки scikit-learn. В конце будут приведены примеры оценки точности модели с использованием метрик, таких как precision, recall, f1-score и confusion matrix.

1. Классификатор на основе критерия Байеса — Наивный Байес

Основная идея:
Модель строится на основе теоремы Байеса: P(C∣X)=P(X)P(X∣C)⋅P(C).

Она выбирает класс C, который имеет максимальную вероятность при условии наблюдаемых данных X.
Пример кода:

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report, confusion_matrix

# Загрузка данных
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)

# Обучение модели Наивного Байеса
nb = GaussianNB()
nb.fit(X_train, y_train)

# Предсказания
y_pred = nb.predict(X_test)

# Оценка производительности
print("Отчет Наивного Байеса:\n", classification_report(y_test, y_pred))
print("Матрица неточностей:\n", confusion_matrix(y_test, y_pred))


Отчет Наивного Байеса:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      0.92      0.96        13
           2       0.93      1.00      0.96        13

    accuracy                           0.98        45
   macro avg       0.98      0.97      0.97        45
weighted avg       0.98      0.98      0.98        45

Матрица неточностей:
 [[19  0  0]
 [ 0 12  1]
 [ 0  0 13]]


2. Классификатор на основе функций — Метод опорных векторов (SVM)

SVM (Support Vector Machine) — это метод классификации, который находит гиперплоскость, разделяющую классы данных, с максимальным отступом между точками.

Основная идея:
Модель оптимизирует гиперплоскость, которая максимально разделяет классы данных.
Для нелинейных данных могут использоваться ядра, такие как полиномиальные или радиальные базисные функции (RBF).
Пример кода:

In [2]:
from sklearn.svm import SVC

# Обучение модели SVM
svm = SVC(kernel='linear')
svm.fit(X_train, y_train)

# Предсказания
y_pred = svm.predict(X_test)

# Оценка производительности
print("Отчет SVM:\n", classification_report(y_test, y_pred))
print("Матрица неточностей:\n", confusion_matrix(y_test, y_pred))


Отчет SVM:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

Матрица неточностей:
 [[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


3. Классификатор на основе правил — Решающее дерево

Решающее дерево использует набор правил «если-то», которые позволяют делить пространство признаков на подмножества, относящиеся к определенным классам.

Основная идея:
Дерево решений строится путем рекурсивного разбиения данных по признакам.
Каждый узел представляет признак, ветви — возможные значения признака, а листья — классы.
Пример кода:

In [3]:
from sklearn.tree import DecisionTreeClassifier

# Обучение дерева решений
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)

# Предсказания
y_pred = tree.predict(X_test)

# Оценка производительности
print("Отчет Дерева решений:\n", classification_report(y_test, y_pred))
print("Матрица неточностей:\n", confusion_matrix(y_test, y_pred))


Отчет Дерева решений:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

Матрица неточностей:
 [[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


4. Классификатор на основе деревьев — Случайный лес

Случайный лес — это ансамблевый метод, который использует множество деревьев решений. Он повышает точность, комбинируя предсказания отдельных деревьев.

Основная идея:
Генерируется множество деревьев решений, и итоговое предсказание делается на основе голосования этих деревьев.
Каждое дерево обучается на случайной подвыборке признаков.
Пример кода:

In [4]:
from sklearn.ensemble import RandomForestClassifier

# Обучение модели случайного леса
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)

# Предсказания
y_pred = rf.predict(X_test)

# Оценка производительности
print("Отчет Случайного леса:\n", classification_report(y_test, y_pred))
print("Матрица неточностей:\n", confusion_matrix(y_test, y_pred))


Отчет Случайного леса:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

Матрица неточностей:
 [[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


5. Мета-методы — AdaBoost

AdaBoost — это алгоритм, который объединяет множество «слабых» классификаторов для создания более точной модели. Каждый новый классификатор концентрируется на ошибках предыдущего.

Основная идея:
Алгоритм поочередно добавляет слабые классификаторы, которые обучаются на ошибках предыдущих.
Финальное предсказание делается на основе взвешенного голосования.
Пример кода:

In [5]:
from sklearn.ensemble import AdaBoostClassifier

# Обучение модели AdaBoost
adaboost = AdaBoostClassifier(n_estimators=50)
adaboost.fit(X_train, y_train)

# Предсказания
y_pred = adaboost.predict(X_test)

# Оценка производительности
print("Отчет AdaBoost:\n", classification_report(y_test, y_pred))
print("Матрица неточностей:\n", confusion_matrix(y_test, y_pred))


Отчет AdaBoost:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

Матрица неточностей:
 [[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]




<b>Оценка моделей:</b>


После того как каждая модель обучена и сделаны предсказания, используем метрики для оценки качества:

Precision — доля правильных положительных предсказаний среди всех предсказанных положительных.

Recall — доля правильно предсказанных положительных среди всех истинных положительных.

F1-score — гармоническое среднее между Precision и Recall.

Confusion matrix — таблица, которая показывает истинные и предсказанные классы.


<b>Заключение:</b>


Каждая из этих моделей имеет свои плюсы и минусы, которые зависят от характера данных. Например:

Наивный Байес работает лучше при условии независимости признаков.

SVM хорош при разделении классов, особенно при сложных разделительных гиперплоскостях.

Решающее дерево легко интерпретировать, но оно может переобучаться.

Случайный лес более устойчив к переобучению.

AdaBoost фокусируется на сложных для классификации точках данных, но может быть чувствителен к шуму в данных.


Выбор модели должен основываться на характеристиках данных и требованиях к точности, скорости и интерпретируемости.