# Цель занятия
На этом занятии мы рассмотрим принципы и базовые модели классификации.

**Задача классификации** заключается в предсказании дискретных значений целевой переменной или вероятностей классов на основе входных признаков. То есть, мы строим модель, которая может предсказывать, например, является ли электронное письмо спамом или не спамом, какой класс имеет изображение, какое слово было произнесено на записи и т.д. Методы, используемые для решения задач классификации, включают метод k ближайших соседей, логистическую регрессию, метод опорных векторов, решающие деревья, случайный лес, градиентный бустинг и нейронные сети.

**Бинарная классификация** - это задача машинного обучения, в которой требуется отнести объекты к одному из двух классов на основе набора признаков.

$$
y = \begin{cases}
        1 & \text{если } w \cdot x + b \geq \text{threshold} \\
        0 \text{ или } -1 & \text{иначе}
        \end{cases}
$$

![Разделяющая гиперплоскость](images04/huberplane_normal_vector_with_objects.png)


Для создания простого линейного классификатора по знаку с использованием библиотеки scikit-learn (sklearn) и скалярного произведения нам понадобятся следующие шаги:

In [1]:
"""
Импорт необходимых библиотек:

"""
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score

In [2]:
"""
Загрузка набора данных, который будет использоваться для обучения классификатора. 
Например, можно загрузить набор данных load_breast_cancer:
"""

cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

In [3]:
"""
Разделение набора данных на обучающую и тестовую выборки:

"""

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

In [4]:
"""
Создание объекта классификатора и обучение его на обучающей выборке:
"""
classifier = Perceptron()
classifier.fit(X_train, y_train)

In [6]:
"""
Получение прогнозов на тестовой выборке и оценка точности классификатора:
"""
y_pred = classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.9473684210526315


Для создания линейного классификатора Ridge (гребневой регрессии) по знаку скалярного произведения понадобятся следующие шаги:

In [7]:
"""
Импорт необходимыx библиотек:
"""

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import accuracy_score

In [8]:
"""
Загрузка набора данных, который будет использоваться для обучения классификатора. 
Например, можно загрузить набор данных load_breast_cancer:
"""

cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

In [9]:
"""
Разделение набора данных на обучающую и тестовую выборки:

"""

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

In [10]:
"""
Создание объекта классификатора и обучение его на обучающей выборке:

"""
classifier = RidgeClassifier(alpha=1.0)
classifier.fit(X_train, y_train)

In [11]:
"""
Получение прогнозов на тестовой выборке и оценка точности классификатора:

"""
y_pred = classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.956140350877193


Обратите внимание на параметр alpha, который является коэффициентом регуляризации в модели Ridge. Это позволяет управлять уровнем штрафа за большие значения коэффициентов признаков и предотвращать переобучение модели. Также, как и в случае с классификатором Perceptron, это только один из многих доступных методов классификации, и его эффективность может сильно зависеть от конкретной задачи и набора данных.

Для обучения перцептрона (Perceptron) в scikit-learn на многоклассовых данных с помощью стратегии "one-vs-all" (один против всех), вы можете выполнить следующие шаги:

In [12]:
"""
Импорт необходимых библиотек:
"""

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score

In [13]:
"""
Загрузка набора данных, который будет использован для обучения классификатора. 
Например, можно загрузить набор данных iris:

"""

iris = load_iris()
X = iris.data
y = iris.target

In [14]:
"""
Разделение набора данных на обучающую и тестовую выборки:
"""

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

In [15]:
"""
Создание объекта классификатора и обучение его на обучающей выборке:
"""
classifier = Perceptron()
classifier.fit(X_train, y_train)

In [16]:
"""
Получение прогнозов на тестовой выборке и оценка точности классификатора:
"""
y_pred = classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.8


One-vs-one (OvO) - это стратегия многоклассовой классификации, в которой для каждой пары классов обучается отдельный бинарный классификатор. В результате получается N*(N-1)/2 классификаторов для N классов.

Для использования OvO в библиотеке sklearn можно воспользоваться классом OneVsOneClassifier. Например, для обучения логистической регрессии с OvO стратегией классификации на наборе данных iris можно использовать следующий код:

In [17]:
from sklearn.linear_model import LogisticRegression
from sklearn.multiclass import OneVsOneClassifier

# Создание классификатора логистической регрессии с OvO стратегией
clf = OneVsOneClassifier(LogisticRegression())

# Обучение классификатора
clf.fit(X_train, y_train)

# Оценка качества классификатора на тестовой выборке
score = clf.score(X_test, y_test)

print("Accuracy: {:.2f}%".format(score * 100))

Accuracy: 100.00%
