# **Линейная Классификация**

## **<span style='color:#F1A424'>Метрики качества классификации</span>**

- После того, как мы обучили классификатор, необходимо оценить его качество.
- Для этого у нас есть несколько метрик
- Самая простая и понятная метрика **Accuracy** - доля объектов, которые алгоритм отнес к верному классу

Существуют и другие метрики

#### **Точность**

**Точность** классификации — это доля объектов, **действительно принадлежащих данному классу** относительно всех объектов, которые алгоритм отнес к этому классу (TP/(TP+FP))

#### **Полнота**

**Полнота** — это доля найденных классификатором объектов, **принадлежащих классу** относительно всех объектов, которые принадлежат этому классу (TP/(TP+FN)

> Например, мы пытаемся найти больных в группе людей, которые пришли на диспансеризацию. Тогда точность классификации — это доля действительно больных среди всех, кого на диспансеризации определили как больных. А полнота классификации — это доля найденных больных среди всех больных

Конечно, идеальный случай — когда и точность, и полнота классификации достаточно высоки. Однако в реальности часто не получается достигнуть высоких значений для обеих метрик и приходится искать баланс

#### **F-мера**

Чтобы найти оптимальное соотношение этих показателей, существует метрика, которая объединяет в себе сразу и точность и полноту — F-мера.
F-мера является **средним гармоническим** между точностью и полнотой

<br>

### **Предсказания опухолях груди**

Теперь попробуем реализовать классификацию и вычислить разобранные метрики

### **Импортируем библиотеки**

In [6]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_breast_cancer
import numpy as np
import pandas as pd

### **Загружаем данные**

Воспользуемся встроенным датасетом, который содержит информацию об опухолях груди

In [3]:
breast_cancer = load_breast_cancer()
breast_cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [10]:
pd.DataFrame(breast_cancer.data,columns=breast_cancer.feature_names).head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


### **Определяем зависимые и независимые переменные**

Зададим зависимые (Y) и независимые переменные (X)

In [None]:
Y = breast_cancer.target   # Наша целевая переменная, 0 — если рака нет, 1 — если есть
X = breast_cancer.data     # X - признаки, по которым мы будем предсказывать рак

### **Разбиваем выборку и на train/test**

Разбиваем выборку на обучающую и тестовую и обучаем нашу модель

In [None]:
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size = 0.3)
model = LogisticRegression(max_iter=5000)
model.fit(X_train, Y_train)

LogisticRegression(max_iter=5000)

### **Оценка Модели**

И оценим качество модели; оценив корректность, точность, полноту и f1 меру

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

Y_predicted = model.predict(X_val)
print('корректность',accuracy_score(Y_val,Y_predicted))
print('точность',precision_score(Y_val,Y_predicted))
print('полнота',recall_score(Y_val,Y_predicted))
print('f1 мера',f1_score(Y_val,Y_predicted))

корректность 0.9415204678362573
точность 0.9646017699115044
полнота 0.9478260869565217
f1 мера 0.956140350877193


### **Задание**

#### **Задание 3B2.1**

Вы создали классификатор, который разделяет экономические и политические новости на два разных Telegram-канала, и хотите проверить его качество.
- За день вышло 15 политических новостей и 20 экономических.
- Ваш алгоритм из 15 политических новостей отметил 9 как экономические, а из 20 экономических — 6 как политические.

In [None]:
# 15 political, 20 economic (TP+TN+FP+FN = 35)
# 15 political (6 political 9 econimic)
# 20 economic (6 political, 15 economic)

TP = 6; FP = 9
TN = 14; FN = 6

acc = (TP + TN)/(TP+TN+FP+FN)
print(acc)

0.5714285714285714


#### **Задание 3B2.2**

- Загрузите встроенный в библиотеку sklearn датасет про ирисы с помощью **функции load_iris** (задача multiclass classification)
- Обучите модель логистической регрессии (random_state=50, размер тестовой выборки 0.3) и укажите полученное значение метрики Accuracy

In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

iris = load_iris()
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [4]:
Y = iris.target
X = iris.data

In [5]:
X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size = 0.3, random_state=50)
model = LogisticRegression(max_iter=5000)
model.fit(X_train, Y_train)

In [11]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

Y_predicted = model.predict(X_val)
print('корректность',round(accuracy_score(Y_val,Y_predicted),3))

# Для задач много классовой классификации у нас есть выбор между micro,macro

# The difference between macro and micro averaging is that macro averaging gives equal 
# weight to each category while micro averaging gives equal weight to each sample. 
# If we have the same number of samples for each class, both macro and micro will provide the same score.

print('точность',precision_score(Y_val,Y_predicted,average='macro'))
print('полнота',recall_score(Y_val,Y_predicted,average='macro'))
print('f1 мера',f1_score(Y_val,Y_predicted,average='macro'))

корректность 0.978
точность 0.9777777777777779
полнота 0.9803921568627452
f1 мера 0.9784047370254267
