# Лекция 2. Введение в нейронные сети

1. Биологические нейронные сети.
2. Математическая модель нейрона.
3. Нейронная сеть. Алгоритмы обучения.
4. Метрики качества классификации
5. Примеры работы с нейросетями

## 1. Биологические нейронные сети

Идея построения искусственных нейронных сетей базируется на моделировании работы человеческого мозга. Элементом клеточной структуры мозга является особая биологическая клетка - **нейрон**.

Нейрон состоит из тела клетки или *сомы* (soma), и двух внешних древоподобных ветвей. Это *аксон* (axon), представляющий собой выходной отросток нейрона и *дендриты* (dendrites) - входные элементы.

Тело клетки включает *ядро* (nucleus), которое содержит информацию о наследственных свойствах, и *плазму*, обладающую молекулярными средствами для производства необходимых нейрону материалов.

Нервная клетка существенно отличается от других биологических клеток по своему функциональному назначению. Нейрон выполняет прием, элементарное преобразование и дальнейшую передачу информации другим нейронам. Информация переносится в виде импульсов нервной активности, имеющей электро-химическую природу.

Нейрон воспринимает сигналы (импульсы) от других нейронов через дендриты (приемники) и передает сигналы, сгенерированные телом клетки, вдоль аксона (передатчика), который в конце разветвляется на *волокна* (strands).  На окончании этих волокон находятся *синапсы* (synapses). Синапс соединяет волокно аксона одного нейрона и дендрит другого, обеспечивая передачу электрических импульсов между ними. 

Когда импульс достигает синаптического окончания нейрона-передатчика, высвобождаются определенные химические вещества, называемые *нейромедиаторами*. В зависимосчти от типа вырабатываемого вещества синапс может обладать возбуждающим или тормозящим действием. Нейромедиаторы проникают через синаптическое соединение, возбуждая или затормаживая способность нейрона-приемника генерировать электрические импульсы. Биологические синапсы могут настраиваться в зависимости от сигналов, проходящих через них. Таким образом, синапсы могут обучаться в зависимости от сигналов, проходящих через них. Эта зависимость от предыстории действует как память.

*Биологическая нейронная сеть* представляет собой совокупность нейронов, соединенных между собой связями и образующими сетевую структуру.

Кора головного мозга содержит около $10^{11}$ нейронов, каждый нейрон связан с $10^{3} - 10^{4}$ другими нейронами. В целом мозг человека содержит приблизительно от $10^{14}$ до $10^{15}$ взаимосвязей.

![image](ris1.png)

Нейроны взаимодействуют посредством короткой серии импульсов, как правило, продолжительностью несколько миллисекунд. Частота импульсов может изменяться от нескольких единицдо сотен герц, что в миллион раз медленнее, чем самые быстрые электронные схемы.

Однако скорость работы мозга определяет не столько частота импульсов, сколько возможность параллельной обработки информации. 

Также биологическая нейронная сеть способна к самоорганизации, самообучению, адаптации. 

Биологическая нейронная сеть обладает способностью к обобщению, классификации, абстрагированию, асоциации и т.д. Это позволяет решать практически все известные задачи.

Также биологические нейронные сети обладают высокой надежностью: выход из строя даже 1-% нейроной в нервной системе не прерывает его работы.

# 2. Математическая модель нейрона

Искусственный нейрон имитирует в первом приближении свойства биологического нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, каждый из которых является выходом другого нейрона. Каждый вход умножается на соответствующий вес, аналогичный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона. 

На рисунке представлена модель, реализующая эту идею. 

![image](ris2.png)

Хотя сетевые парадигмы весьма разнообразны, в основе почти всех их лежит эта конфигурация. Здесь множество входных сигналов, обозначенных $x_1, x_2, \ldots, x_n$, поступает на искусственный нейрон. Эти входные сигналы, в совокупности обозначаемые вектором X, соответствуют сигналам, приходящим в синапсы биологического нейрона. Каждый сигнал умножается на соответствующий вес $w_1, w_2,\ldots, w_n$, и поступает на суммирующий блок, обозначенный $\Sigma$. Каждый вес соответствует «силе» одной биологической синаптической связи. (Множество весов в совокупности обозначается вектором $W$.) Суммирующий блок, соответствующий телу биологического элемента, складывает взвешенные входы алгебраически, создавая выход, который мы будем называть NET:
$$\text{NET}=w_1x_1+w_2x_2+\ldots+w_nx_n=\sum_{i=1}^nw_ix_i$$

В векторных обозначениях это может быть компактно записано следующим образом:
$$\text{NET} = X\cdot W$$

Но на этом работа в нейроне не заканчивается, выход с сумматора $\text{NET}$ подается на вход так называемой *активационной функции $F$*.

![image](ris3.png)

На рисунке блок, обозначенный F, принимает сигнал NET и выдает сигнал OUT. Если блок F сужает диапазон изменения величины NET так, что при любых значениях NET значения OUT принадлежат некоторому конечному интервалу, то $F4$ называется «сжимающей» функцией. В качестве «сжимающей» функции часто используется логистическая или «сигмоидальная» (S-образная) функция. Эта функция математически выражается как $F(x) = \frac{1}{1 + e^{-x}}$. Таким образом,
$$\text{OUT}=\frac{1}{1+e^{\text{-NET}}}$$

[WolframAlpha](https://www.wolframalpha.com/input?i=1%2F%281%2Be%5E%28-x%29%29).

Диапазон выходных значений сигмоиды $\text{OUT}\in (0,1)$, рабочая область (в которой нейронная сеть может обучаться): $\text{NET}\in[-\sqrt{3}, \sqrt{3}]$. 
                                              

В качестве других наиболее часто используемых активационных функций можно рассмотреть следующие:
 - гиперболический тангенс $\text{OUT(x)}=tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$ [WolframAlpha](https://www.wolframalpha.com/input?i=tanh%28x%29), диапазон выходных значений: $x\in[-1;1]$, рабочая область $x\in [-2, 2]$;
- функция ReLu (Rectified linear unit) $ReLu(x)=\max(0,x)$, диапазон выходных значений и рабочая область: $[0, \infty)$.

Большой перечень активационных функций приведен по [ссылке](https://ru.wikipedia.org/wiki/%D0%A4%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F_%D0%B0%D0%BA%D1%82%D0%B8%D0%B2%D0%B0%D1%86%D0%B8%D0%B8).

В последнее время наиболее часто используется именно активационная функция $ReLu$, т.к. она позволяет решить *проблему исчезающего градиента*, которая и опредедляет рабочую область активационных функций - дело в том, что в области насыщения активационной функции обучение нейронной сети становится очень медленным. Функция $ReLu$ не имеет насыщения и является наилучшим выбором для более глубоких архитектур (нейронных сетей, состоящих из большого количества слоев). 

Кроме рассмотренных активационных функций, для нейронов последнего слоя используют специальные активационные функции. Это  требуется для того, чтобы  преобразовать полученные сигналы в заданный условиями задачи диапазон (обычно это вероятность принадлежности к классу).

Такая функция активации получила название *функция мягкого максимума для классификации*. Данная функция будет преобразовывать выход предыдущего слоя в вероятностные значения, чтобы выполнить итоговое предсказание класса:
$$\text{softmax}(k,x_1,x_2,\ldots,x_n)=\frac{e^{x_k}}{\sum_{i=1}^ne^{x_i}}$$

Данная функция будет принимать значение близкое к единице для такого $k$, при котором $x_k=\max\{x_1, x_2, \ldots\}$, для других же $k$ она будет принимать значение, близкое к нулю.

Рассмотренная простая модель искусственного нейрона игнорирует многие свойства своего биологического двойника. Например, она не принимает во внимание задержки во времени, которые воздействуют на динамику системы. Входные сигналы сразу же порождают выходной сигнал. И, что более важно, она не учитывает воздействий функции частотной модуляции или синхронизирующей функции биологического нейрона, которые ряд исследователей считают решающими.

Несмотря на эти ограничения, сети, построенные из этих нейронов, обнаруживают свойства, сильно напоминающие биологическую систему. Только время и исследования смогут ответить на вопрос, являются ли подобные совпадения случайными или следствием того, что в модели верно схвачены важнейшие черты биологического нейрона.

Реализуем класс для создания нейрона. При физической реализации нейрона среди входных сигналов выделяют специальный вход  порогового значения (bias - на него не подаются внешние сигналы, это настраиваемый параметр самого нейрона), который служит для формирования возможного ненулевого выхода нейрона при нулевых входах.  

In [72]:
#Построение нейрона

import numpy as np

#Функции активации
def sigma(x):
  return 1 / (1 + np.exp(-x))

def tanh(x):
  return np.tanh(x)

def relu(x):
    return max(0,x)
    
def softmax(k,x):
    return np.exp(x[k])/np.exp(x).sum()

#Класс нейрона
class Neuron:
  def __init__(self, weights, bias, f):
    self.weights = weights
    self.bias = bias
    self.f_active = f

  def evaluate(self, inputs):
    return self.f_active(np.dot(self.weights, inputs) + self.bias)

In [73]:
n1 = Neuron(np.array([0.4,0.7,0.1]),-1,sigma)
n2 = Neuron(np.array([0.4,0.7,0.1]),-1,tanh)
n3 = Neuron(np.array([0.4,0.7,0.1]),-1,relu)

In [74]:
print(n1.evaluate(np.array([0.3,0.2,0])))
print(n2.evaluate(np.array([0.3,0.2,0])))
print(n3.evaluate(np.array([0.3,0.2,0])))

0.323004143761477
-0.6291451614140355
0


## 3. Нейронная сеть. Алгоритмы обучения.

Сам по себе нейрон пока еще бесполезен без адекватных алгоритмов обучения.

Рассмотрим для начала простейшие случаи.

**Персептрон (perceptron)** - одна из простейших архитектур, придуманная Фрэнком Розенблаттом в 1957 году. Она основана на несколько отличающемся искусственном нейроне, который называется линейным пороговым элементом (Linear Threshold Unit - LTU). Отличия в использовании в качестве активационной функции - ступенчатой функции Хевисайда:

$$f(x)=0, x<0$$
$$f(x)=1, x\geq 0$$

Персептрон состоит из единственного слоя элементов, причем каждый нейрон соединяется со всеми входами. Такие связи часто представляются с использованием специальных сквозных нейронов, называемых входными нейронами (input neuron): они просто передают на выход все, что получают на входе. Кроме того, как правило, добавляется дополнительный признак смещения (bias=1).

![image](ris4.png)

Итак, каким же образом обучается персептрон? Алгоритм обучения персептрона, предложенный Фрэнком Розенблаттом, был в значительной степени навеян правилом Хебба (Hebb's rule). В своей книге "The Organization of Behavior" ("Организация поведения"), опубликованной в 1949 году, Дональд Хебб предположил, что когда биологический нейрон часто вызывает срабатывание другого нейрона, то связь между этими двумя нейронами усиливается.
Позже идея была резюмирована Зигридом Левелем в его легко запоминающейся фразе: "Клетки, которые срабатывают вместе, связаны вместе" ("Cells that fire together, wire together"). Впоследствии правило стало известным под
названием правило Хебба (или обучение по Хеббу (Hebhian learning)). Правило описано в уравнении:
$$w_{ij}=w_{ij}+\eta(y_j-\bar{y}_j)x_i$$
$w_{ij}$ - вес связи между $i$-м входным нейроном и $j$-м выходным нейроном,

$x_i$ - $i$-е входное значение текущего обучающего образца,

$\bar{y}_j$ - выход $j$-го выходного нейрона для текущего обучающего образца,

$y_j$ - целевой выход $j$-го выходного нейрона для текущего обучающего образца,

$\eta$ - скорость обучения.

Граница решений каждого выходного нейрона линейна, так что персептроны неспособны к обучению на сложных паттернах. Тем не менее, если обучающие образцы являются линейно разделяемыми, то алгоритм будет сходиться в решение. Это называется теоремой о сходимости персептрона (perceptron convergence theorem).

Попробуем использовать встроенный класс в библиотеке sklearn.

In [89]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
iris = load_iris()

X = iris.data[:,(2, 3)] # длина лепестка , ширина лепестка
Y = (iris.target == 0 ).astype(np.int) # ирис щетинистый?
per_clf = Perceptron(random_state=42)
per_clf.fit(X, Y)

y_pred = per_clf.predict([[7, 0.5]])
print(X)
print(Y)
print(y_pred)

[[1.4 0.2]
 [1.4 0.2]
 [1.3 0.2]
 [1.5 0.2]
 [1.4 0.2]
 [1.7 0.4]
 [1.4 0.3]
 [1.5 0.2]
 [1.4 0.2]
 [1.5 0.1]
 [1.5 0.2]
 [1.6 0.2]
 [1.4 0.1]
 [1.1 0.1]
 [1.2 0.2]
 [1.5 0.4]
 [1.3 0.4]
 [1.4 0.3]
 [1.7 0.3]
 [1.5 0.3]
 [1.7 0.2]
 [1.5 0.4]
 [1.  0.2]
 [1.7 0.5]
 [1.9 0.2]
 [1.6 0.2]
 [1.6 0.4]
 [1.5 0.2]
 [1.4 0.2]
 [1.6 0.2]
 [1.6 0.2]
 [1.5 0.4]
 [1.5 0.1]
 [1.4 0.2]
 [1.5 0.2]
 [1.2 0.2]
 [1.3 0.2]
 [1.4 0.1]
 [1.3 0.2]
 [1.5 0.2]
 [1.3 0.3]
 [1.3 0.3]
 [1.3 0.2]
 [1.6 0.6]
 [1.9 0.4]
 [1.4 0.3]
 [1.6 0.2]
 [1.4 0.2]
 [1.5 0.2]
 [1.4 0.2]
 [4.7 1.4]
 [4.5 1.5]
 [4.9 1.5]
 [4.  1.3]
 [4.6 1.5]
 [4.5 1.3]
 [4.7 1.6]
 [3.3 1. ]
 [4.6 1.3]
 [3.9 1.4]
 [3.5 1. ]
 [4.2 1.5]
 [4.  1. ]
 [4.7 1.4]
 [3.6 1.3]
 [4.4 1.4]
 [4.5 1.5]
 [4.1 1. ]
 [4.5 1.5]
 [3.9 1.1]
 [4.8 1.8]
 [4.  1.3]
 [4.9 1.5]
 [4.7 1.2]
 [4.3 1.3]
 [4.4 1.4]
 [4.8 1.4]
 [5.  1.7]
 [4.5 1.5]
 [3.5 1. ]
 [3.8 1.1]
 [3.7 1. ]
 [3.9 1.2]
 [5.1 1.6]
 [4.5 1.5]
 [4.5 1.6]
 [4.7 1.5]
 [4.4 1.3]
 [4.1 1.3]
 [4.  1.3]
 [4.4 1.2]

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  Y = (iris.target == 0 ).astype(np.int) # ирис щетинистый?


Рассмотрим простейший алгоритм обучения перцептрона для реализации функции логического или.

|$x_1$|$x_2$|y|
|-----|-----|-|
|0|0|0|
|0|1|1|
|1|0|1|
|1|1|1|

In [97]:
#Логическое или
X = np.array([[0,0],[0,1],[1,0],[1,1]]) 
Y = np.array([0,1,1,1])
per_clf = Perceptron(random_state=42)
per_clf.fit(X, Y)

print(per_clf.predict([[0,0]]))
print(per_clf.predict([[1,0]]))
print(per_clf.predict([[0,1]]))
print(per_clf.predict([[1,1]]))

[0]
[1]
[1]
[1]


In [99]:
#Исключающее логическое или
X = np.array([[0,0],[0,1],[1,0],[1,1]]) 
Y = np.array([0,1,1,0])
per_clf = Perceptron(random_state=42)
per_clf.fit(X, Y)

print(per_clf.predict([[0,0]]))
print(per_clf.predict([[1,0]]))
print(per_clf.predict([[0,1]]))
print(per_clf.predict([[1,1]]))

[0]
[0]
[0]
[0]


Конечно, современные нейронные сети отличаются от простейшей модели перцептрона. Во первых они, как правило, многослойны, во-вторых, требуют огромного количества вычислений. Но к счастью все расчеты проводятся с помощью векторных вычислений.

Выполним простое **прямое прохождение сигнала** по нейронной сети с двумя скрытыми слоями, воспользовавшись библиотекой numpy, и применим к конечному результату функцию мягкого максимума softmax.

In [105]:
import numpy as np

b1 = 0 # узел смещения 1
b2 = 0 # узел смещения 2

def sigmoid(x):
    return 1 / (1 + np.exp(-x))
def softmax(x):
    l_exp = np.exp(x)
    sm = l_exp/np.sum(l_exp,axis=0)
    return sm

#Входной набор с тремя признаками
X = np.array([[0.35, 0.21, 0.33],
              [0.2, 0.4, 0.3],
              [0.4, 0.34, 0.5],
              [0.18, 0.21, 16]])
len_X = len(X) #размер тренировочного набора
input_dim = 3 #размер входного слоя
output_dim = 1 #размер выходного слоя
hidden_units = 4
np.random.seed(22)

# создаем векторы случайных весовых коэффициентов
w0 = 2 * np.random.random((input_dim, hidden_units))
w1 = 2 * np.random.random((hidden_units, output_dim))

# Проход с прямым распространением сигнала
d1 = X.dot(w0)+b1
l1 = sigmoid(d1)
l2 = l1.dot(w1)+b2

#Применяем функцию softmax к выходу из конечного слоя
output = softmax(l2)

In [106]:
output

array([[0.1635402 ],
       [0.15942338],
       [0.19455826],
       [0.48247816]])

Рассмотрим теперь **алгоритм обратного распространения ошибки**, который положен в основу обучения нейронных сетей.

В алгоритме обратного распространения ошибки можно выделить следующие шаги:

1. Прямое прохождение: случайным образом инициализировать весовые векторы и перемножить вход с последующими весовыми векторами вплоть до конечного результата.
2. Вычисление ошибки: вычислить меру ошибки на выходе из этапа прямого прохождения. Для этого проще всего использовать так называемую функцию потерь loss. В качестве такой функции часто используют среднюю квадратическую ошибку (MSE - Mean squared error):

$$MSE = L(W,B)= \frac{\sum_{i=1}^n (y^{predict}_i-y^{true}_i)^2}{n}$$

$y^{predict}_i$  - значение выхода нейронной сети для $i$-й входной точки,

$y^{true}_i$ - истинное значение на выходе для $i$-й входной точки.

3. Обратное распространение вплоть до последнего вкрытого слоя (относительно выхода). Вычислить грардиент этой ошибки и изменить веса по направлению градиента. Это делается путем перемножения весового вектора $w_j$ с полученными градиентами.
4. Обновление весов, пока не будет достигнут критерий останова (минимальная ошибка или число раундов тренировки (эпох)):
$$w_{ij} = w_{ij}-\eta\cdot \frac{\partial L(W,B)}{\partial w_{ij}}$$

Попробуем реализовать данный подход с использованием активационной функции сигмоида.

In [1]:
import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))
def softmax(x):
    l_exp = np.exp(x)
    sm = l_exp/np.sum(l_exp,axis=0)
    return sm
def deriv_sigmoid(y):
    return y * (1.0 - y)

eta = 0.1

#Входной набор с тремя признаками
X = np.array([[0.35, 0.21, 0.33],
              [0.2, 0.4, 0.3],
              [0.4, 0.34, 0.5],
              [0.18, 0.21, 16]])
Y = np.array([[0],[1],[1],[0]])

np.random.seed(1)

# создаем векторы случайных весовых коэффициентов
w0 = 2 * np.random.random((3,4)) - 1
w1 = 2 * np.random.random((4,1)) - 1

for epoch in range(200000):
    #Идем вперед
    l1 = sigmoid(X.dot(w0))
    l2 = sigmoid(l1.dot(w1))
    #Считаем ошибку
    l2_error = Y-l2
    if (epoch % 1000) == 0:
        print("Точность сети: " + str(np.mean(1-(np.abs(l2_error)))))
    l2_delta = eta * l2_error * deriv_sigmoid(l2)
    l1_error = l2_delta.dot(w1.T)
    l1_delta = eta * l1_error *deriv_sigmoid(l1)
    w1 += l1.T.dot(l2_delta)
    w0 += X.T.dot(l1_delta)

Точность сети: 0.44647534287546486
Точность сети: 0.6253180460223495
Точность сети: 0.6392735698278696
Точность сети: 0.646973337655459
Точность сети: 0.653551004459721
Точность сети: 0.6600110603269453
Точность сети: 0.6667981323756436
Точность сети: 0.6744988603735986
Точность сети: 0.6840284753132683
Точность сети: 0.6962997389283025
Точность сети: 0.7117467993865515
Точность сети: 0.730046564032792
Точность сети: 0.7500905930592756
Точность сети: 0.770419774119299
Точность сети: 0.7899718607807951
Точность сети: 0.8082630921890804
Точность сети: 0.8245660587281408
Точность сети: 0.8387375311669389
Точность сети: 0.8510261120667642
Точность сети: 0.86169131496511
Точность сети: 0.8709670698433893
Точность сети: 0.8790652813098027
Точность сети: 0.8861722933478937
Точность сети: 0.8924457761143711
Точность сети: 0.8980162262318607
Точность сети: 0.9029907766760406
Точность сети: 0.9074573181627793
Точность сети: 0.9114881651999217
Точность сети: 0.915143094557943
Точность сети: 0.918

Известная проблема с нейронными сетями состоит в том, что во авремя оптимизации с обратным распространением ошибки градиент может застревать в локальным минимумах. Это происходит, когда процесс минимизации ошибки попал в ловушку и видит минимум там, где это в действительности просто локальная неровность на пути.

![image](ris5.png)

Еще одна типичная проблема появляется, когда градиентный спуск не попадает по глобальному минимому, что может приводить к плохо работающим моделям. Данная проблема называется *промахом*.

Обе проблемы можно решить путем выбора более низкого темпа обучения, когда модель промахивается, лтибо выбора более высокого темпа обучения, когда при застревании в локальным минимумах.

# 4. Метрики качества классификации

Рассмотрим такие метрики, как точность (presicion), специфичность (specificity, true negative rate, TNR), F1-мера (F1-score).


## Обозначения:   
* $\mathbf{y} = (y_1, ..., y_n)$ — правильные ответы
* В задаче бинарной классификации считаем, что $y_i \in \{0, 1\}$ для любого $i \in [1, n]$
* $\hat{\mathbf{y}} = (\hat{y}_1, ..., \hat{y}_n)$ — предсказания меток классов
* $\mathbf{p_i} = (p_1, ..., p_K)$ — предсказания вероятностей принадлежности к классам $\{ C_1, \ldots, C_K\}$ для любого $i \in [1, n]$
* В задаче бинарной классификации считаем, что 
$$p_1 = p \text{ – вероятность принадлежности к классу } 1$$
$$p_0 = 1 - p \text{ – вероятность принадлежности к классу } 0$$


## Точность, доля правильных ответов (accuracy)

Формула расчета **доли правильных ответов** выглядит одинаково и в случае бинарной, и в случае многоклассовой классификации (единственное, в многоклассовом случае ее можно считать как для всех классов в целом, так и для каждого класса по отдельности, а потом усреднить полученные значения): 

$$\text{accuracy} = \frac{1}{n} \sum_{i = 1}^{n}{1(\hat{y}_i == y_i)}, $$
где $1(x)$ — **индикаторная функция**. 



---
Пусть $A ⊆ X$ — выбранное подмножество произвольного множества $X$. Функция $1_A: X → \{0, 1\}$, определенная следующим образом: 

\begin{equation*}
1_A(x) = 
 \begin{cases}
   1, &\text{$x \in A$}\\
   0, &\text{$x \notin A$},
 \end{cases}
\end{equation*}  

называется **индикатором** множества $A$. 

---

$+$ Простая в понимании и интерпретации метрика.  
$-$ Неприменима, когда выборка несбалансированная (если в выборке будет очень мало объектов, представляющих какой-то класс, то даже константная модель (предсказания которой являются константой) покажет достаточно большую долю правильных ответов.

[Реализация в `sklearn`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html)

## Точность (presicion) и специфичность (specificity/true negative rate, TNR)


### Бинарная классификация

Перед тем как переходить к формулам непосредственно точности и специфичности, введем следующие обозначения, которые лучше всего записать в виде таблицы: 

|| $y = 0$ | $y = 1$ |
| :-----------: | :-----------: | :-----------: |
| $\hat{y} = 0$ | True negative (TN) | False negative (FN) |
| $\hat{y} = 1$ | False positive (FP) | True positive (TP) |

В данной таблице приняты следующие обозначения для объектов, попавших в каждую из ячеек:  
* TN — модель правильно классифицировала объект, и он принадлежит классу $0$
* FN — модель неправильно классифицировала объект, присвоила ему класс $0$, хотя он принадлежит классу $1$
* FP — модель неправильно классифицировала объект, присвоила ему класс $1$, хотя он принадлежит классу $0$
* TP — модель правильно классифицировала объект, и он принадлежит классу $1$

В терминах, введенных выше, **точность (precision)** и **специфичность (specificity/TNR)** выглядят следующим образом:

$$ \text{precision} = \frac{TP}{TP + FP} – \text{доля объектов, названных классификатором положительными и при этом действительно являющиеся положительными.}$$ 
$$ \text{TNR} = \frac{TN}{TN + FP}  
 – \text{показывает, какую долю объектов класса $0$ из всех объектов класса $0$ нашел алгоритм.}$$ 

Также весьма распространена метрика **полнота (recall)**, которая является «братом-близнецом» специфичности:
$$ \text{recall} = \frac{TP}{TP + FN}  
 – \text{показывает, какую долю объектов класса $1$ из всех объектов класса $1$ нашел алгоритм.}$$  

Визуализировать различие между точностью и полнотой можно следующим образом: 

![image.png](https://habrastorage.org/web/38e/9d4/892/38e9d4892d9241ea95e1f56e3ef9124c.png)  
[Рис. 1. Визуальное сравнение точности и полноты](https://en.wikipedia.org/wiki/Precision_and_recall)

**Точность (precision)** демонстрирует способность отличать класс $1$ от других классов, а **полнота (recall)** — способность алгоритма обнаруживать класс $1$ вообще (**специфичность** делает то же самое, что и полнота, только для класса $0$).

Аналогичным образом, через TN, FN, FP и TP, можно ввести и понятие **доли правильных ответов**: $\text{accuracy} = \frac{TP + TN}{TP + FP + TN + FN}.$



$+$ Как точность, так и специфичность и полнота не зависят, в отличие от доли правильных ответов, от соотношения классов, поэтому они применимы и для несбалансированных выборок.  
$-$ На практике обычно не стоит задача оптимизировать какую-то одну из этих метрик, а необходимо найти баланс между ними. 

### Многоклассовая классификация

Как и в случае доли правильных ответов, существуют два типа агрегации этих метрик в многоклассовом случае:  
* **Микро-** — необходимые значения вычисляются глобально, целиком по всей выборке, рассматривая каждый элемент матрицы показателей метки как метку  
* **Макро-** — метрика считается отдельно для каждого класса, и в качестве ответа берется их среднее значение



## $F_1$-мера

Как упоминалось ранее, обычно важна не только точность или полнота, но и баланс между ними. Наиболее распространенной метрикой такого баланса является **$F_1$-мера** — среднее гармоническое точности и полноты:  
$$F_1 = \frac{2 \cdot \text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}$$  

**$F_1$-мера** достигает максимума при полноте и точности, равных единице, и близка к нулю, если один из аргументов близок к нулю.  


Как в случае точности, специфичности и полноты, формула верна и для бинарной, и для многоклассовой классификации, однако в многоклассовом случае необходимо уточнить вид агрегации: микро- (когда показатели считаются глобально для всей выборки) или макро- (точность и полнота считаются отдельно для каждого класса, а в качестве ответа берется среднее).   
[Реализация в `sklearn`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)

Существуют и другие варианты соотношений точности и полноты. В целом **$F_1$-мера** — частный случай **$F_\beta-$меры**:  

$$F_\beta = (1 + \beta^2) \frac{\text{precision} \cdot \text{recall}}{\beta^2 \cdot \text{precision} + \text{recall}}$$  

* $\beta > 1$ — больше важна точность
* $\beta < 1$ — больше важна полнота

$+$ $F_1$-мера учитывает распределение классов (т. е. хорошо работает даже в случае несбалансированных выборок).   
$+$ Это одно число, а не два, как с точностью и полнотой.   
$-$ Сложно интерпретируемая. 

## 5. Примеры работы с нейросетями

Рассмотрим использование библиотеки neurolab.

Настроим несколько архитектур, чтобы увидеть различия в качестве.

In [115]:
!pip3 install neurolab

Collecting neurolab
  Downloading neurolab-0.3.5.tar.gz (645 kB)
[K     |████████████████████████████████| 645 kB 1.1 MB/s eta 0:00:01
[?25hBuilding wheels for collected packages: neurolab
  Building wheel for neurolab (setup.py) ... [?25ldone
[?25h  Created wheel for neurolab: filename=neurolab-0.3.5-py3-none-any.whl size=22179 sha256=4f581fa1caf9933c22577638b19908003bd2037fed19e92004979b3f972c0fdc
  Stored in directory: /home/juna/.cache/pip/wheels/9a/86/fe/9a885ba792ded332e3c7316b612944d3875a5ea932c386fa9f
Successfully built neurolab
Installing collected packages: neurolab
Successfully installed neurolab-0.3.5


In [None]:
target = np.array([[1,2,3,4],[4,5,7,8],[3,4,5,6]])
labels = np.array([[1],[2],[1]])

In [7]:
import numpy as np
import neurolab as nl
# Create train samples
#input = np.random.uniform(-0.5, 0.5, (10, 2))
#target = (input[:, 0] + input[:, 1]).reshape(10, 1)
# Create network with 2 inputs, 5 neurons in input layer and 1 in output layer
net.trainf = nl.train.train_gd
net = nl.net.newff([[0, 7], [0, 7], [0,7], [0,7]], [5, 1])
# Train process
err = net.train(input, target, show=15)

Epoch: 15; Error: 0.10699182650368955;
The goal of learning is reached


In [9]:
input

array([[-0.14033229, -0.26697043],
       [-0.32664498,  0.11151116],
       [ 0.29773168, -0.48087788],
       [ 0.46583186, -0.09057417],
       [-0.4771744 ,  0.25621615],
       [-0.33820466, -0.46610012],
       [ 0.27495483,  0.18434175],
       [-0.48486676,  0.47682594],
       [-0.43101645, -0.44472421],
       [ 0.11672825,  0.09822935]])

In [6]:
target

array([[-0.25664295],
       [ 0.51729302],
       [-0.55646973],
       [-0.17066756],
       [ 0.53854489],
       [ 0.31431491],
       [ 0.25153476],
       [-0.47967915],
       [-0.14883781],
       [-0.29769465]])

In [127]:
err

[0.7079777290221153,
 0.23139046622201553,
 0.11020513523612915,
 0.061511339711487416,
 0.04316782926294021,
 0.030616025363742513,
 0.025976310461819616,
 0.020469349158126485,
 0.018208580621741723,
 0.015643103942090595,
 0.011611504846030562,
 0.007787167650966865]

In [132]:
# Test
net.sim([[0.5, 0.4]])

array([[0.86680265]])

In [129]:
input

array([[-0.0826952 ,  0.05868983],
       [-0.35961306, -0.30189851],
       [ 0.30074457,  0.46826158],
       [-0.18657582,  0.19232262],
       [ 0.37638915,  0.39460666],
       [-0.41495579, -0.46094522],
       [-0.33016958,  0.3781425 ],
       [-0.40165317, -0.07889237],
       [ 0.45788953,  0.03316528],
       [ 0.19187711, -0.18448437]])

In [130]:
target

array([[-0.02400537],
       [-0.66151157],
       [ 0.76900614],
       [ 0.00574679],
       [ 0.77099582],
       [-0.87590101],
       [ 0.04797292],
       [-0.48054554],
       [ 0.49105482],
       [ 0.00739274]])