1. Классификатор на основе критерия Байеса: Наивный Байес

Концепция: Классификатор Наивный Байес использует теорему Байеса для вычисления вероятности каждого класса, предполагая независимость признаков (наивное предположение). Класс с наибольшей вероятностью назначается как результат классификации.


Шаги реализации:

1. Импортируем GaussianNB из sklearn.naive_bayes.
2. Обучаем модель на тренировочных данных.
3. Выполняем предсказание и оцениваем результаты.


Код:

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

# Загрузка данных
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучение модели
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)
y_pred = nb_model.predict(X_test)

# Оценка
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print("Точность:", accuracy_score(y_test, y_pred))

# Визуализация: Матрица ошибок
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=load_iris().target_names, yticklabels=load_iris().target_names)
plt.title("Матрица ошибок: Наивный Байес")
plt.xlabel('Предсказанные метки')
plt.ylabel('Истинные метки')
plt.show()


2. Классификатор на основе функций: Метод опорных векторов (SVM)

Концепция: Метод опорных векторов (SVM) строит гиперплоскость, разделяющую данные на разные классы, оптимизируя разделительную границу между классами и минимизируя ошибки классификации.

Шаги реализации:

1. Импортируем SVC из sklearn.svm.
2. Обучаем модель с помощью тренировочных данных.
3. Выполняем предсказание и оцениваем результаты.

Код:

In [None]:
from sklearn.svm import SVC
import numpy as np

# Используем только первые два признака для визуализации
X_2D = X[:, :2]
X_train, X_test, y_train, y_test = train_test_split(X_2D, y, test_size=0.3, random_state=42)

# Обучение модели
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

# Оценка
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print("Точность:", accuracy_score(y_test, y_pred))

# Визуализация: Граница принятия решений
h = .02  # шаг для сетки
x_min, x_max = X_2D[:, 0].min() - 1, X_2D[:, 0].max() + 1
y_min, y_max = X_2D[:, 1].min() - 1, X_2D[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

Z = svm_model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.75)
plt.scatter(X_2D[:, 0], X_2D[:, 1], c=y, edgecolors='k', marker='o', s=50)
plt.title("Граница принятия решений: Метод опорных векторов")
plt.xlabel('Признак 1')
plt.ylabel('Признак 2')
plt.show()


3. Классификатор на основе правил принятия решений: Дерево решений

Концепция: Классификаторы на основе дерева решений используют правила «если-то» для разбиения набора данных на подмножества. Дерево представляет собой иерархическую структуру, в которой каждый узел соответствует признаку, а листья - классам.

Шаги реализации:

1. Импортируем DecisionTreeClassifier из sklearn.tree.
2. Обучаем модель на тренировочных данных.
3. Выполняем предсказание и оцениваем результаты.

Код:

In [None]:
from sklearn.tree import DecisionTreeClassifier, plot_tree

# Обучение модели
dt_model = DecisionTreeClassifier()
dt_model.fit(X_train, y_train)
y_pred = dt_model.predict(X_test)

# Оценка
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print("Точность:", accuracy_score(y_test, y_pred))

# Визуализация: Дерево решений
plt.figure(figsize=(12, 8))
plot_tree(dt_model, filled=True, feature_names=load_iris().feature_names, class_names=load_iris().target_names, rounded=True)
plt.title("Дерево решений")
plt.show()

# Визуализация: Матрица ошибок
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=load_iris().target_names, yticklabels=load_iris().target_names)
plt.title("Матрица ошибок: Дерево решений")
plt.xlabel('Предсказанные метки')
plt.ylabel('Истинные метки')
plt.show()


4. Классификатор на основе деревьев: Случайный лес

Концепция: Случайный лес строит множество деревьев решений, а затем объединяет их результаты для улучшения точности. Итоговая классификация определяется большинством голосов среди всех деревьев.

Шаги реализации:

1. Импортируем RandomForestClassifier из sklearn.ensemble.
2. Обучаем модель на тренировочных данных.
3. Выполняем предсказание и оцениваем результаты.

Код:

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Обучение модели
rf_model = RandomForestClassifier()
rf_model.fit(X_train, y_train)
y_pred = rf_model.predict(X_test)

# Оценка
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print("Точность:", accuracy_score(y_test, y_pred))

# Визуализация: Важность признаков
feature_importances = rf_model.feature_importances_
plt.barh(load_iris().feature_names, feature_importances)
plt.title("Важность признаков: Случайный лес")
plt.xlabel('Важность')
plt.show()

# Визуализация: Матрица ошибок
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=load_iris().target_names, yticklabels=load_iris().target_names)
plt.title("Матрица ошибок: Случайный лес")
plt.xlabel('Предсказанные метки')
plt.ylabel('Истинные метки')
plt.show()


5. Классификатор мета-метод: AdaBoost

Концепция: AdaBoost комбинирует слабые классификаторы (обычно деревья решений небольшой глубины) и на каждой итерации перераспределяет вес данных, чтобы сосредоточиться на ошибочно классифицированных элементах.

Шаги реализации:

1. Импортируем AdaBoostClassifier из sklearn.ensemble.
2. Обучаем модель на тренировочных данных.
3. Выполняем предсказание и оцениваем результаты.

Код:

In [None]:
from sklearn.ensemble import AdaBoostClassifier

# Обучение модели
ada_model = AdaBoostClassifier(n_estimators=50)
ada_model.fit(X_train, y_train)
y_pred = ada_model.predict(X_test)

# Оценка
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
print("Точность:", accuracy_score(y_test, y_pred))

# Визуализация: Ошибочные предсказания
incorrect = (y_pred != y_test)
plt.scatter(X_test[incorrect, 0], X_test[incorrect, 1], color='red', label="Ошибочные предсказания")
plt.scatter(X_test[~incorrect, 0], X_test[~incorrect, 1], color='blue', label="Правильные предсказания")
plt.title("Ошибочные предсказания: AdaBoost")
plt.legend()
plt.show()

# Визуализация: Матрица ошибок
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=load_iris().target_names, yticklabels=load_iris().target_names)
plt.title("Матрица ошибок: AdaBoost")
plt.xlabel('Предсказанные метки')
plt.ylabel('Истинные метки')
plt.show()


Оценка результатов

Каждый алгоритм генерирует набор метрик, который позволяет оценить его производительность:

1. Точность: процент верных предсказаний.
2. Precision: точность для каждого класса, отражающая, насколько часто модель правильно идентифицирует класс.
3. Recall: способность модели верно идентифицировать элементы класса.
4. F1-Score: гармоническое среднее между precision и recall.
5. Матрица ошибок: отображает, как классификатор справился с каждым классом.

Заключение

Финальные комментарии будут зависеть от производительности каждого алгоритма на определенном наборе данных. В целом:

1. Классификаторы, основанные на деревьях и мета-методы, показывают высокую точность, благодаря их устойчивости к шуму и способности объединять несколько классификаторов.
2. Наивный Байес работает хорошо с независимыми признаками, но его эффективность снижается при наличии коррелированных признаков.
3. SVM эффективен на хорошо разделяемых данных, но может быть медленным на больших наборах данных.