# Раздел 7. Машинное обучение

## Тема 7.1 Задачи, решаемые методами машинного обучения, многомерные базы данных NoSQL

### Лекция 

Вопросы: 
1. Задачи, решаемые методами машинного обучения. 
2. Особенности работы слабоструктурированных СУБД.

**Машинное обучение: понятийный аппарат**

Машинное обучение представляет собой науку (и искусство) программирования
компьютеров для того, чтобы они могли обучаться на основе данных.

Говорят, что компьютерная программа обучается на основе опыта *Е* по отношению
к некоторой задаче *Т* и некоторой оценке производительности *Р*,
если ее производительность на *Т*, измеренная посредством *Р*, улучшается
с опытом *Е*.

Три компонента машинного обучения:
- данные –-- собираются всевозможными способами. Чем больше данных, тем эффективней машинное обучение и точнее будущий результат;
- признаки –-- определяют, на каких параметрах строится машинное обучение;
- алгоритм –-- выбор метода машинного обучения (при условии наличия хороших данных) будет влиять на точность, скорость работы и размер готовой модели.

** Задача обучения**

Пусть 
- $X$ -- множество объектов, причем любой объект $X_i \in X$ описывается единым набором $m$ признаков 
$$
x_i = (x_{i1}, x_{i2}, \ldots, x_{im} )
$$ 
- $Y$ -- множество меток классов;
- $y : X \to Y$ -- неизвестная зависимость;
- $X_1, X_2, \ldots, X_n \in X$ -- некоторые известные объекты, составляющие обучающее множество;
- $Y_1, Y_2, \ldots, Y_n \in Y$ --- известные метки классов для объектов $X_1, X_2, \ldots, X_n \in X$; 

Найти $y : X \to Y$ -- алгоритм, правило, решающую функцию для всех объектов из множества $X$.

**Типы задач**

Классификация:
- $Y=\{−1,+1\}$ — классификация на 2 класса;
- $Y=\{1,...,M\}$ — на $M$ непересекающихся классов;
- цель: научиться определять, к какому классу принадлежит объект;
- примеры: распознавание текста по рукописному вводу; определение того, находится на фотографии человек или кот; определение, является ли письмо спамом;
- методы: метод ближайших соседей, дерево решений, логистическая регрессия, метод опорных векторов, байесовский классификатор, cверточные нейронные сети.

Восстановление регрессии:
- $Y=\mathbb{R}$;
- цель: получать прогноз на основе выборки объектов;
- примеры: предсказание стоимости акции через полгода; предсказание прибыли магазина в следующем месяце;
- методы: линейная регрессия, дерево решений, метод опорных векторов.

Кластеризация:
- цель: разбить множество объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию;
- примеры: сегментация клиентов;  подбор рекомендаций для пользователя; определение аномалий;
- методы: иерархическая кластеризация, эволюционные алгоритмы кластеризации, EM-алгоритм.

Уменьшение размерности:
- цель: научиться описывать данные не $N$ признаками, а меньшим числом для повышения точности модели или последующей визуализации;
- примеры: визуализация в двумерном или трехмерном пространстве; сжатие данных;
- методы: метод главных компонент, метод факторного анализа.

Выявление аномалий:
- цель: научиться выявлять аномалии в данных. Отличительная особенность задачи от классификации — примеров аномалий для тренировки модели очень мало, либо нет совсем; поэтому для ее решения необходимы специальные методы;
- примеры: определение мошеннических транзакций по банковской карте; обнаружение событий, предвещающих землетрясение;
- методы: экстремальный анализ данных, аппроксимирующий метод, проецирующие методы.

Типы задач машинного обучения принято разделять на три категории:
- обучение с учителем (supervised learning):
данные, подготовленные для анализа, изначально содержат правильный ответ, поэтому цель алгоритма –выявить взаимосвязи между данными и правильным ответом, оптимальные в некотором смысле (критерий);  
- обучение без учителя (unsupervised learning):
алгоритм, обрабатывая массивы данных, должен самостоятельно выявлять закономерности, структуры;
- обучение с подкреплением (reinforcement learning):
алгоритм пытается найти оптимальные действия, которые будет предпринимать, находясь в наборе различных сценариев.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=166knuSlIW2hZsJQQiFo0fgwytI3MTxeX' width="600" height="500" />
<figcaption>Классификация типов задач ML</figcaption></center>
</figure>


**Этапы машинного обучения**

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=160ZRTT83CYvwjF09tok5lOcHeNf7J2qU' width="400" height="500" />
<figcaption>Этапы машинного обучения</figcaption></center>
</figure>


**Многомерные базы данных NoSQL**

NoSQL (от англ. not only SQL — не только SQL) --- обозначение широкого класса разнородных систем управления базами данных, появившихся в конце 2000-х — начале 2010-х годов и существенно отличающихся от традиционных реляционных СУБД с доступом к данным средствами языка SQL. Применяется к системам, в которых делается попытка решить проблемы масштабируемости и доступности за счет полного или частичного отказа от требований атомарности и согласованности данных.

ACID: базовые принципы реляционных баз данных

- атомарность -- никакая транзакция не будет зафиксирована в системе частично. Будут либо выполнены все ее подоперации, либо не выполнено ни одной. Поскольку на практике невозможно одновременно и атомарно выполнить всю последовательность операций внутри транзакции, вводится понятие <<отката>>: если транзакцию не удается полностью завершить, результаты всех ее до сих пор произведенных действий будут отменены и система вернется во <<внешне исходное>> состояние --  со стороны будет казаться, что транзакции и не было;
- согласованность -- транзакция, достигающая своего нормального завершения и тем самым фиксирующая свои результаты, сохраняет согласованность базы данных. Другими словами, каждая успешная транзакция по определению фиксирует только допустимые результаты;
- изолированность -- во время выполнения транзакции параллельные транзакции не должны оказывать влияния на её результат;
- устойчивость -- независимо от проблем на нижних уровнях (к примеру, обесточивание системы или сбои в оборудовании) изменения, сделанные успешно завершенной транзакцией, должны остаться сохранёнными после возвращения системы в работу.

Принципы BASE баз данных NoSQL


С середины 2000-х годов для построения распределенных СУБД предполагается отказ от части требований `ACID` (для обоснования чего используются теорема `CAP`, теорема `PACELC`) или снижение строгости требований (`BASE`).

Во второй половине 2000-х годов сформулирован подход к построению распределенных систем, в которых требования целостности и доступности выполнены не в полной мере, названый акронимом BASE (от англ. Basically Available, Soft-state, Eventually consistent — базовая доступность, неустойчивое состояние, согласованность в конечном счете), при этом такой подход напрямую противопоставляется ACID. Под базовой доступностью подразумевается такой подход к проектированию приложения, чтобы сбой в некоторых узлах приводил к отказу в обслуживании только для незначительной части сессий при сохранении доступности в большинстве случаев. Неустойчивое состояние подразумевает возможность жертвовать долговременным хранением состояния сессий (таких как промежуточные результаты выборок, информация о навигации, контексте), при этом концентрируясь на фиксации обновлений только критичных операций. Согласованности в конечном счете, трактующейся как возможность противоречивости данных в некоторых случаях, но при обеспечении согласования в практически обозримое время.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=169L9e8Y1KXjF5vhbF_J55Nw6X8i5ks2V' width="600" height="500" />
<figcaption>Базы данных NoSQL</figcaption></center>
</figure>




## Тема 7.2 Деревья решений: лекция

Задача классификации

Содержательная постановка задачи классификации 

Пусть имеется множество объектов и ассоциированное с ним конечное
множество классов. Пусть также для некоторого конечного подмножества множества объектов, называемого выборкой или обучающим множеством, известно к каким классам принадлежат его элементы. Тогда под задачей классификации будем понимать задачу построения по обучающему множеству такого **решающего правила**, которое будет относить произвольный объект к одному и только одному из заданных классов.

Формальная постановка задачи классификации 

Пусть $X=\{x_1,x_2,\ldots \}$ --- множество исследуемых объектов,
каждый из которых характеризуется набором признаков $Z_1, Z_2,
\ldots, Z_p$. Для каждого признака $Z_r$ известно множество
значений $Z_r=\{z_{r1}, z_{r2}, \ldots, z_{rm}\}$,
$r=\overline{1,p}$. Тогда каждый объект $x_l$, $l=1,2,\ldots$,
можно представить как множество значений признаков, т.е.
$x_l=\{z_{rh}\}$, где $z_{rh} \in Z_r$, $r=\overline{1,p}$,
$h=\overline{1,m}$. Пусть также $Y=\{y_1,y_2,\ldots, y_k\}$ ---
заданное множество классов. Обозначим через $S=\{(x_i,y_j)\,|\,
x_i \in X, y_j \in Y, i=\overline{1,n},j=\overline{1,k}\}$ ---
обучающее множество, в котором каждому объекту $x_i \in X$
поставлен в соответствие класс $y_j \in Y$. Требуется на основании
обучающей выборки построить **решающее правило** для классификации
произвольного объект из множества $X$.

**Правило** называется **решающим**, если оно позволяет отделить объекты, принадлежащие одному классу, от остальных.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=16LC7XKiNLmQ1-jmNbNcM3KHmtz37YEY4' width="500" height="450" />
<figcaption>Пример задачи классификации</figcaption></center>
</figure>

**Деревья решений**

Дерево решений --- метод представления **решающих правил** в виде древовидной иерархической структуры, включающей в себя элементы двух типов -- узлы (node) и листья (leaf).

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=16NhCkhCCqYbQ8UL-jThbEceboUu2iTdT' width="600" height="450" />
<figcaption>Пример дерева решений</figcaption></center>
</figure>

В узлах расположены решающие правила и подмножества наблюдений, которые им удовлетворяют. В листьях содержатся классифицированные деревом наблюдения: каждый лист ассоциируется с одним из классов, и объекту, который распределяется в лист, присваивается соответствующая метка класса.

Если класс, присвоенный деревом, совпадает с целевым классом, то объект является распознанным, в противном случае -- нераспознанным. Самый верхний узел дерева называется корневым. 

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=16RL6_EUqr5XyKo-_Y8z5BUNtXbKyxW6a' width="450" height="200" />
<figcaption>Корневой узел дерева решений</figcaption></center>
</figure>

Теоретически, алгоритм может генерировать новые разбиения до тех пор, пока все примеры не будут распознаны правильно, т.е. пока подмножества, ассоциированные с листьями, не станут однородными по классовому составу. Однако это приводит к усложнению дерева: большое число ветвлений, узлов и листьев усложняет его структуру и ухудшает его интерпретируемость. Поэтому на практике размер дерева ограничивают даже за счет некоторой потери точности. Данный процесс называется упрощением деревьев решений и может быть реализован с помощью методов ранней остановки и отсечения ветвей.

Процесс построения дерева решений состоит в последовательном рекурсивном разбиении обучающего множество на подмножества с применением решающих правил в узлах. Этот процесс продолжают до того, пока все узлы в конце ветвей не станут листами.

Узел становится листом в двух случаях:
- естественным образом -- когда он содержит единственный объект или объект только одного класса;
- после достижения заданного условия остановки алгоритм -- например, минимально допустимое число примеров в узле или максимальная глубина дерева.

Построение осуществляется в 4 этапа:
- выбрать атрибут для осуществления разбиения в данном узле;
- определить критерий остановки обучения;
- выбрать метод отсечения ветвей;
- оценить точность построенного дерева.

Выбор атрибута разбиения

Разбиение должно осуществляться по определенному правилу, для которого и выбирают атрибут. Причем выбранный атрибут должен разбить множество наблюдений в узле так, чтобы результирующие подмножества содержали примеры с одинаковыми метками класса или были максимально приближены к этому.

Выделяют следующие критерии для выбора признака разбиения:
- информационный выигрыш -- энтропийный коэффициент;
- примесь (критерий) Джини;
- понижение дисперсии.

Информационный выигрыш, который основывается на понятии энтропии и объема информации из теории информации.

Пусть имеется множество сообщений $M=\{m_1, m_2, \ldots, m_n\}$ и
соответствующее ему множество $P=\{p(m_1), p(m_2), \ldots,
p(m_n)\}$ --- значений вероятностей возникновения их сообщений.
Тогда в качестве оценки информативности этих сообщений можно
воспользоваться мерой энтропии множества $P$, рассчитываемой по
формуле
$$
I(P)=\sum\limits_{i=1}^{n}-p(m_i)\log_2p(m_i)=E\left(-\log_2p(m_i)\right).
$$
Количество информации в сообщении измеряется в битах.

Пусть $S$ --- исходное обучающее множество примеров. Выбрав в
качестве узла дерева некоторый признак $Z_r$, принимающий~$m$
значений, получим разбиение множества $S$ на $m$ попарно
непересекающихся подмножеств $S_1$, $S_2$,$\ldots$, $S_m$. Тогда
информация, необходимая для завершения построения дерева решений,
составляет
$$
E(Z_r)=\sum\limits_{i=1}^{m}\dfrac{|S_i|}{|S|}I(S_i),
$$
где $|S_i|$, $|S|$ --- мощности отдельного подмножества и
обучающего множества в целом; $I(S_i)$ --- информативность
отдельного подмножества согласно формуле энтропии.

Количество информации, полученное при выборе признака $Z_r$,
вычисляется как разность общей информативности дерева и объема
информации, необходимого для завершения построения дерева
$$
Gain(Z_r,S)=I(S)-E(Z_r).
$$
Признак $Z_r$ с наибольшим значением $Gain(Z_r,S)$ считается
наиболее информативным.


Отсечение ветвей

Без ограничения <<роста>> дерево решений станет слишком большим и сложным, что сделает невозможной дальнейшую интерпретацию. На практике часто пользуются следующим приемом -- построить все возможные деревья, а потом выбрать те, которые при разумной глубине обеспечивают приемлемый уровень ошибки распознавания. Основная задача в такой ситуации -- поиск наиболее выгодного баланса между сложностью и точностью дерева.

Метод отсечения ветвей реализуется в 3 шага:
- строительство полного дерева, в котором листья содержат примеры одного класса;
- определение двух показателей: относительную точность модели (отношение числа правильно распознанных примеров к общему числу примеров) и абсолютную ошибку (число неправильно классифицированных примеров);
- удаление листов и узлов, потеря которых минимально скажется на точности модели и увеличении ошибки.

Отсечение ветвей проводят противоположно росту дерева, то есть снизу вверх, путем последовательного преобразования узлов в листья.

Критерии останова процесса построения дерева
- Ограничение максимальной глубины дерева (max_depth)
- Ограничение минимального числа объектов в листе (min_samples_leaf)
- Ограничение максимального количества листьев в дереве.
- Останов в случае, если все объекты в листе относятся к одному классу.
- Требование, что функционал качества при дроблении улучшался как минимум на s
процентов.

Преимущества деревьев решений:
- четкие правила классификации;
- хорошо интерпретируются;
- быстро обучаются и выдают прогноз;
- малое число параметров.

Недостатки деревьев решений:
- очень чувствительнык шумам в данных, модель сильно меняется при небольшом
изменении обучающей выборки;
- разделяющая граница имеет свои ограничения;
- необходимость борьбы с переобучением;
- проблема поиска оптимального дерева NP-полная задача, поэтому на практике
используется жадное построение дерева.


**Случайные леса** 

[Случайный лес](https://www.mql5.com/ru/articles/3856) (random forest) --- это множество решающих деревьев. 

Случайный лес строится путем простого голосования деревьев решений по алгоритму Bagging (бэггинг). Bagging -- это искусственное слово, образованное от английского словосочетания bootstrap aggregating.

Bootstrap в статистике -- это такой способ формирования выборки, когда выбирается ровно столько же объектов, сколько их исходно и было. Но объекты эти выбираются с повторениями. Иными словами, выбранный случайный объект возвращается обратно и может быть выбран повторно. При этом число объектов, которое будет выбрано, составит примерно 63% от исходной выборки, а оставшаяся доля объектов (примерно 37%) ни разу не попадет в обучающую выборку. По этой сформированной сэмплированной выборке обучаются базовые алгоритмы (в нашем случае деревья решений). Это тоже происходит случайным образом: берутся случайные подмножества (сэмплы) заданной длины и обучаются на выбранном случайном подмножестве признаков (атрибутов). Оставшиеся 37% выборки используются для проверки обобщающей способности построенной модели.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=16d99BidGYEcP-nixOHedTdxnFJyrl_Zn' width="800" height="600" />
<figcaption>Алгоритм случайного леса</figcaption></center>
</figure>

Затем все обученные деревья объединяются в композицию при помощи простого голосования, с использованием усредненной ошибки для всех сэмплов. В результате применения bootstrap aggregating уменьшается средний квадрат ошибки, снижается дисперсия обучаемого классификатора. На разных выборках ошибка будет отличаться не так сильно. 

Эффективность бэггинга заключается в том, что базовые алгоритмы (деревья решений) обучаются по различным случайным подвыборкам и их результаты могут сильно отличаться, но их ошибки взаимно компенсируются при голосовании.

Можно сказать, что Random forest — это специальный случай бэггинга, когда в качестве базового семейства используются решающие деревья. При этом, в отличие от обычного способа построения решающих деревьев, не используется усечение дерева (pruning). Метод настроен на то, чтобы можно было построить композицию как можно быстрее по большим выборкам данных. Каждое дерево строится специфическим образом. Признак (атрибут) для построения узла дерева выбирается не из общего числа признаков, а из их случайного подмножества. В задаче классификации число признаков равно $\sqrt{n}$. Все это является эмпирическими рекомендациями и называется декорреляцией: в разные деревья попадают разные наборы признаков, и деревья обучаются на разных выборках.

**Оценки качества классификации**

Матрица ошибок

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=16eVHRWPexiqIIitzCW6lX_Kbb40C5XpX' width="750" height="100" />
<figcaption>Матрица ошибок</figcaption></center>
</figure>


Здесь $a(x)$ — это ответ алгоритма на объекте, а $y$ — истинная метка класса на этом объекте. Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP). P означает что классификатор определяет класс объекта как положительный (N — отрицательный). T значит что класс предсказан правильно (соответственно F — неправильно). Каждая строка в матрице ошибок представляет спрогнозированный класс, а каждый столбец — фактический класс.

Метрики
- `accuracy` (аккуратность) -- доля правильных ответов алгоритма
$$
accuracy = \dfrac{TP+TN}{TP+TN+FP+FN}
$$
- `precision` (точность) -- доля правильных ответов модели в пределах класса
$$
precision = \dfrac{TP}{TP+FP}
$$
- `recall` (полнота) -- это доля истинно положительных классификаций
$$
recall = \dfrac{TP}{TP+FN}.
$$

## Тема 7.2 Деревья решений: практика

Напомним содержательную постановку задачи классификации.  

Пусть имеется множество объектов и ассоциированное с ним конечное
множество классов. Пусть также для некоторого конечного подмножества множества объектов, называемого выборкой или **обучающим множеством**, известно к каким классам принадлежат его элементы. Тогда под задачей классификации будем понимать задачу построения по обучающему множеству такого **решающего правила**, которое будет относить произвольный объект к одному и только одному из заданных классов.

Терминология:
- Обучающая выборка (training sample) -- выборка, по которой производится настройка (оптимизация параметров) модели зависимости.
- Тестовая (или контрольная) выборка (test sample) -- выборка, по которой оценивается качество построенной модели.
- Проверочная выборка (validation sample) — выборка, по которой осуществляется выбор наилучшей модели из множества моделей, построенных по обучающей выборке.

Вопрос выбора оптимального соотношения разделения на текущий момент является открытым. На практике исследователи прибегают к процентному разделению выборки, например в соотношении 50 %–25 %–25 %, или 50 %–30 %–20 %, или 33.(3) %33.(3) %–33.(3) %. 
Разделение всей совокупности данных необходимо для того, чтобы получить независимые выборки для разных этапов построения моделей.

- Масштабирование -- процесс изменения диапазона признака. 

Масштабирование необходимо в том случае, если признаки измеряются в разных единицах, а значит покрывают разные диапазоны. Это сильно искажает результаты алгоритмов, учитывающих расстояние между измерениями.

Распространенными способами масштабирования являются: 
- масштабирование по минимаксу:
$$
\dfrac{x - x_{\min}}{x_{\max} - x_{\min}}*N
$$
- стандартизация:
$$
\dfrac{x - \mu_x}{\sigma_x}
$$

1. Dobbin K. K. Optimally splitting cases for training and testing high dimensional classifiers / K. K. Dobbin, R. M. Simon – BMC Med Genomics – 2011. – Vol. 4 (31). 
2. Afendras G. Optimality of training/test size and resampling effectiveness in cross-validation / G. Afendras, M. Markatou. – Journal of Statistical Planning and Inference. – 2019. – Vol. 199. – P. 286–301.

Для решения задачи классификации используются инструменты библиотеки [scikit-learn](https://scikit-learn.org/stable/).

В библиотеке `scikit-learn` деревья решений реализованы в классе 
`DecisionTreeClassifier`. Классификатор `DecisionTreeClassifier` принимает в качестве входных данных два массива: массив $X$, содержащий значения независимых признаков из обучающие выборки, и массив соответствующих значений целевой переменной $Y$ (метки классов для объектов из $X$).

Применительно к процессу построения модели машинного обучения в библиотеке **scikit-learn** реализованы следующие группы методов:
- оценщики (estimator): любой объект, который способен проводить оценку параметров на основе набора данных, называется **оценщиком**. Сама оценка производится методом `.fit()`, принимающего в качестве параметра набор аргументов (один или два в зависимости от задачи). Любой другой параметр(ы), необходимый для управления процессом оценки, считается гиперпараметром (например, `max_depth` -- максимальная глубина, до которой будет построено каждое дерево) и указывается как аргумент соответствующего конструктора:
```python
dt = DecisionTreeClassifier(random_state = 0, 
                            max_depth = 3)
```   
- трансформаторы (transformer): некоторые оценщики могут трансформировать набор данных: они называются **трансформаторами**. Трансформация выполняется методом `.transform()`, которому в параметре передается набор данных, подлежащий трансформации. Он возвращает трансформированный набор данных. Трансформация обучно использует параметры, полученный в методе `.fit()`. Все трансформаторы имеют удобный метод `.fit_transform()`, который представляет собой эквивалент последовательного вызова методов `.fit()` и `.transform()`:
```python
X_train_std = scaler.transform(X_train)
```  
- прогнозаторы (predictor): некоторые оценщики способны вырабатывать прогнозы, имея набор данных; они называются **прогнозаторами**. Прогнозатор располагает методом `.predict()`, который принимает набор методов с **новыми образцами** и возвращает набор данных с соответствующими прогнозами. В некоторых прогнозаторах есть также метод `.predict_proba()`, возвращающий распределение объекта на заданном множестве классов.  

Прогнозатор также имеет метод `.score()`, измеряющий качество прогнозов.
```python
X_train_std = scaler.transform(X_train)
dt.score(X_test, y_test)
``` 

Построение модели, которая слишком сложна для имеющегося объема информации называется переобучением (overfitting). Переобучение происходит, когда модель слишком точно подстраивается под особенности обучающего набора и получается модель, которая хорошо работает на обучающем наборе, но не умеет обобщать результат на новые данные.

Если модель слишком проста, то возможно она не охватила все многообразие и изменчивость данных, и модель будет плохо работать даже на обучающем наборе. Выбор слишком простой модели называется недообучением (underfitting).

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split, GridSearchCV

#загрузка классификаторов 
from sklearn.tree import DecisionTreeClassifier, plot_tree # дерево решений
from sklearn.ensemble import RandomForestClassifier #случайный лес
from sklearn.linear_model import LogisticRegression # логистическая регресси
from sklearn.svm import SVC # метод опорных векторов
from sklearn.linear_model import SGDClassifier # стохастический градиентный спуск

#метрики
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score 
from sklearn.metrics import classification_report  




In [None]:
df = pd.read_excel('/content/med_set_clear_azot.xlsx')
df.head()

Unnamed: 0,болезнь,пол,Возраст,Лейкоциты,Общий белок,Холестерин общий,Коэффициент атерогенности,ЛПНП,ЛПОНП,КДО,КСО,ИМТ,Глюкоза,β-катенин,Склеростин,WIF-1,DVL-1,GSK-3β,GSK-3α,Азот
0,0,жен,57,8.9,64.62,4.97,3.43,3.42,0.43,105,45,26.545,6.4,462,270,1930,1852,245,120,10.8
1,0,муж,60,6.2,69.0,5.69,3.405,3.445,0.55,105,45,26.545,5.56,432,232,2170,574,500,105,9.2
2,0,муж,50,7.6,66.55,6.64,4.05,4.61,0.71,119,45,26.545,5.2,402,250,2170,625,340,110,9.2
3,0,муж,54,6.6,68.25,5.69,3.405,3.445,0.55,134,55,26.545,4.5,790,160,2175,1852,430,110,8.95
4,0,жен,49,6.3,64.62,5.69,3.405,2.05,0.55,105,45,26.545,5.2,585,160,1450,185,500,110,9.15


In [None]:
X = df.drop(columns = ['болезнь', 'пол'])
y = df.болезнь

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y,  
                                                    test_size = 0.3,
                                                    random_state = 42)

In [None]:
scaler = StandardScaler()

In [None]:
scaler.fit(X_train)

StandardScaler()

In [None]:
X_train_std = scaler.transform(X_train)
X_test_std = scaler.transform(X_test)

In [None]:
X_train_std = scaler.fit_transform(X_train)
X_test_std = scaler.transform(X_test)

In [None]:
dt = DecisionTreeClassifier()
dt.fit(X_train_std, y_train)
dt.score(X_test_std, y_test)
#plot_tree(dt)


1.0

In [None]:
dt.predict(X_test_std[0:2])

array([0, 1])

In [None]:
y_test

13    0
45    1
47    1
44    1
17    0
27    1
26    1
25    1
31    1
19    0
12    0
4     0
34    1
8     0
3     0
Name: болезнь, dtype: int64

In [None]:
X_train_std

array([[ 1.06597666e-01, -1.02348173e+00, -7.38289223e-01,
         1.66715312e+00,  1.00687462e+00,  1.63360709e+00,
         1.21711828e+00, -1.97868316e+00, -1.19542802e+00,
        -3.36193438e-01, -9.30396233e-01,  5.65297390e-01,
         7.89544024e-01, -5.39649484e-01,  1.78757461e+00,
        -7.06507577e-01, -2.25539267e-01,  3.75443138e-01],
       [ 1.31470455e+00,  1.80788243e+00,  1.42443938e+00,
        -1.41083343e+00, -2.05503857e+00, -1.44954215e+00,
        -2.17130508e+00, -1.28690704e+00, -8.83577231e-01,
        -3.36193438e-01,  1.17756502e+00, -6.55695439e-01,
        -1.04827153e+00,  7.11810259e-01, -1.22484413e+00,
        -9.20093152e-01, -2.25539267e-01, -9.17933662e-01],
       [-1.35023711e-01,  1.63864529e-01, -3.48288984e-01,
        -1.36696664e+00, -1.29232373e+00, -1.14039168e+00,
        -1.95502274e+00,  5.29005265e-01,  2.33888091e+00,
         2.07463699e+00,  4.74911271e-01, -1.51354816e+00,
         6.44996733e-01, -2.29695136e+00, -1.24213700e

In [None]:
df.болезнь.value_counts()

1    25
0    24
Name: болезнь, dtype: int64

У класса `DecisionTreeClassifier` достаточно [много параметров](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier). Перечислим наиболее важные из них:

|Параметр|Комментарий|
|--:|:--|
|`criterion`|задается метод разделения в узле (критерий Джини, энтропия)|
|`max_depth`|максимальная глубина разбиения|
|`min_samples_split`|минимальное число образцов, которые должны присутствовать в узле, прежде чем, его можно будет расщепить|
|`max_features`|максимальное число признаков, которые оцениваются при расщеплении|

Сказать про важность признаков.

Литература:
1. Харрисон М. Машинное обучение: карманный справочник. Краткое руководство по методам структурированного машинного обучения на Python/ - СПб.: ООО "Диалектика", 2020. -- 320 с. 

В библиотеке sklearn есть и другие классификаторы: 
- SGD Classifier (SGD) - линейный классификатор с SGD-обучением (stochastic gradient descent - стохастический градиентный спуск);
- Support Vector Machines (SVM) - метод опорных векторов (kernel = 'linear');
- Random Forest Classifier (RF) - случайный лес (используются деревья решений);
- Gaussian process classification (GP) - гауссовская классификация (основана на аппроксимации Лапласа);
- AdaBoost (Adaptive Boosting) Classifier (AB) - адаптивное усиление;
- Decision tree classifier (DT) - дерево решений;
- Logistic Regression (LR) - логистическая регрессия;
- Gaussian Naive Bayes (NB) - гауссовский наивный байесовский классификатор;
- K-Nearest Neighbors (KNN) - метод K-ближайших соседей.

Рассмотрим наиболее распространенные из них.

**Random Forest Classifier (RF)** -- случайный лес, совокупность деревьев
решений.

В библиотеке `scikit-learn` есть такая [реализация RF](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html):

```python
class sklearn.ensemble.RandomForestClassifier(n_estimators=100, 
criterion='gini', max_depth=None, min_samples_split=2, 
min_samples_leaf=1, min_weight_fraction_leaf=0.0, 
max_features='sqrt', max_leaf_nodes=None, min_impurity_decrease=0.0, 
bootstrap=True, oob_score=False, n_jobs=None, random_state=None, 
verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, 
max_samples=None)
```
Стандартная схема применения 
```python
from sklearn.ensemble import RandomForestClassifier 
from sklearn.metrics import classification_report 
# далее - (X, y) - обучение, (X2, y2) - контроль
model =  RandomForestRegressor(n_estimators = 5,
                               max_depth = 4, 
                               random_state = 0)
model.fit(X, y) # обучение
a = model.predict(X2) # предсказание

print('Метрики качества для RandomForestClassifier', '\n', classification_report(y2, a))

```


Ключевые параметры метода

|Параметр|Комментарий|
|--:|:--|
|`n_estimators`|число деревьев в лесе|
|`max_features`|максимальное число признаков, которые оцениваются при расщеплении -- по умолчанию $\sqrt{n}$. Больше лучше|
|`criterion`|задается метод разделения в узле (критерий Джини, энтропия)|
|`max_depth`|максимальная глубина разбиения. Больше лучше|
|`min_samples_split`|минимальное число образцов, которые должны присутствовать в узле, прежде чем, его можно будет расщепить|


Рекомендации по использованию классификатора: 
- Добавьте больше деревьев (`n_еstimatоrs`);
- Используйте меньшую глубину обучения `max_depth`.


In [None]:
rnd = RandomForestClassifier(random_state=0 )
rnd.fit(X_train_std, y_train)

RandomForestClassifier(random_state=0)

In [None]:
rnd.score(X_test_std, y_test)
y_pred = rnd.predict(X_test_std) 

In [None]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00         8

    accuracy                           1.00        15
   macro avg       1.00      1.00      1.00        15
weighted avg       1.00      1.00      1.00        15



[**Логистическая регрессия**](https://medium.com/nuances-of-programming/%D0%BF%D0%BE%D1%88%D0%B0%D0%B3%D0%BE%D0%B2%D0%BE%D0%B5-%D0%BF%D0%BE%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%B8%D0%B5-%D0%BB%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9-%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%B8-%D0%B2-python-a7c650ae77c2) -- статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путем его сравнения с логистической кривой. 

В библиотеке `scikit-learn` есть такая реализация [логистической регрессии](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html):

```python
class sklearn.linear_model.LogisticRegression(penalty='l2', 
dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, 
class_weight=None, random_state=None, solver='lbfgs', max_iter=100, 
multi_class='auto', verbose=0, warm_start=False, n_jobs=None, 
l1_ratio=None)
```

Ключевые параметры метода

|Параметр|Комментарий|
|--:|:--|
|`C`|параметр, контролирующий регуляризацию|
|`penalty`|норма штрафа|
|`max_iter`|максимальное количество итераций|



In [None]:
lr = LogisticRegression(random_state=0)
lr.fit(X_train_std, y_train)
print(lr.score(X_test_std, y_test))
y_pred = lr.predict(X_test_std)

0.9333333333333333


array([[-4.26678759e-01,  6.21795146e-01, -2.38719944e-01,
        -4.80192605e-04, -2.21845245e-01, -3.24244753e-02,
        -7.94273625e-02, -8.18787108e-01,  7.77383207e-01,
         4.67843164e-01,  7.53913579e-02,  7.16634234e-01,
        -2.03038347e-01,  3.81772207e-02, -3.48327474e-01,
         3.74416880e-02,  7.72616972e-02, -1.73226420e+00]])

**Метод опорных векторов** -- классификатор, в рамках которого строится линия (плоскость, гиперплоскость) между разными классами такая, что максимизируется расстояние от линии до точек классов.

Реализация в Python

```python
class sklearn.svm.SVC(*, C=1.0, kernel='rbf', degree=3, gamma='scale', 
coef0=0.0, shrinking=True, probability=False, tol=0.001, 
cache_size=200, class_weight=None, verbose=False, max_iter=-1, 
decision_function_shape='ovr', break_ties=False, random_state=None)
```

Ключевые параметры метода

|Параметр|Комментарий|
|--:|:--|
|`C`|параметр, контролирующий регуляризацию|
|`kernel`|тип ядра, который будет использоваться в алгоритме|
|`degree`|степень полиномиальной функции ядра|
|`gamma`|коэффициент ядра для «rbf», «poly» и «sigmoid»|


In [None]:
svc = SVC(random_state=42)
svc.fit(X_train_std, y_train)
svc.score(X_test_std, y_test)

0.8

Поиск значений гиперпараметров по сетке `GridSearchCV()`

```python
class sklearn.model_selection.GridSearchCV(estimator, param_grid,  
scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, 
pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)
```

Изменение параметров модели может принципиально повлиять на ее качество. Например, модель может переобучиться. Перебор этих параметров вручную может занять значительное количество времени. Для автоматического подбора параметров используется класс [`GridSearchCV()`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).

Процесс отбора параметров и оценки модели с помощью `GridSearchCV`.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=16s-bNVZrdFA_PGSu8dty1AdIk1llms3-' width="450" height="300" />
<figcaption>Процесс отбора параметров и оценки модели</figcaption></center>
</figure>

Для того, чтобы воспользоваться классом `GridSearchCV`, сначала необходимо указать искомые параметры с помощью словаря. Ключами словаря являются имена настраиваемых параметров, а значениями – тестируемые настройки параметров. `GridSearchCV` построит все необходимые модели.

Процесс подгонки объекта `GridSearchCV` включает в себя не только
поиск лучших параметров, но и автоматическое построение новой модели
на всем обучающем наборе данных. Для ее построения используются
параметры, которые дают наилучшее значение правильности
перекрестной проверки. Построение и контроль новой модели осуществляется с использованием методов `.fit()`, `.predict()` и `.score()`.

Перекрестная проверка (кросс-проверка, кроссвалидация) - метод оценки аналитической модели и её поведения на независимых данных. При оценке модели имеющиеся в наличии данные разбиваются на $k$ частей. Затем на $k−1$ частях данных производится обучение модели, а оставшаяся часть данных используется для тестирования. Процедура повторяется $k$ раз; в итоге каждая из $k$ частей данных используется для тестирования. В результате получается оценка эффективности выбранной модели с наиболее равномерным использованием имеющихся данных.

Лучше оценку качества и соответствующие параметры можно вывести так   
```python
print ('best_score -- {}'.format(grid_searcher.best_score_))
print ('best_params -- {}'.format(grid_searcher.best_params_))
```

In [None]:
svc_grid_search = GridSearchCV(
    SVC(),
    param_grid={
        'kernel' : ['linear', 'rbf'],
        'C' : [1, 3, 5, 10], #
        'degree' : [3, 5],
        'gamma' : [1, 3, 5, 10]
    },
    cv=5,
    scoring='accuracy')

In [None]:
svc_grid_search.fit(X_train_std, y_train)

GridSearchCV(cv=5, estimator=SVC(),
             param_grid={'C': [1, 3, 5, 10], 'degree': [3, 5],
                         'gamma': [1, 3, 5, 10], 'kernel': ['linear', 'rbf']},
             scoring='accuracy')

In [None]:
svc_grid_search.score(X_test_std, y_test)
y_pred = svc_grid_search.predict(X_test_std)

In [None]:
svc_grid_search.best_score_

0.880952380952381

[Метрики и оценка классификации](https://habr.com/ru/company/ods/blog/328372/)

Матрица ошибок

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=16eVHRWPexiqIIitzCW6lX_Kbb40C5XpX' width="750" height="100" />
<figcaption>Матрица ошибок</figcaption></center>
</figure>


Здесь $a(x)$ — это ответ алгоритма на объекте, а $y$ — истинная метка класса на этом объекте. Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP). P означает что классификатор определяет класс объекта как положительный (N — отрицательный). T значит что класс предсказан правильно (соответственно F — неправильно). Каждая строка в матрице ошибок представляет спрогнозированный класс, а каждый столбец — фактический класс.

Метрики
- `accuracy` (аккуратность) -- доля правильных ответов алгоритма
$$
accuracy = \dfrac{TP+TN}{TP+TN+FP+FN}
$$
- `precision` (точность) -- доля правильных ответов модели в пределах класса
$$
precision = \dfrac{TP}{TP+FP}
$$
- `recall` (полнота) -- это доля истинно положительных классификаций
$$
recall = \dfrac{TP}{TP+FN}
$$
- `F-мера` -- гармоническое среднее точности и полноты
$$
F = 2\cdot  \dfrac{точность \cdot полноста}{точность + полноста}.
$$

In [None]:
pd.DataFrame(confusion_matrix(y_test, y_pred), 
             columns = ['прогноз для класса 0','прогноз для класса 1'], 
             index = ['истинный класс 0','истинный класс 1'])

Unnamed: 0,прогноз для класса 0,прогноз для класса 1
истинный класс 0,5,2
истинный класс 1,1,7


In [None]:
dict_to_df = {'y_test': y_test, 
              'y_pred': y_pred}

pd.DataFrame(dict_to_df)

Unnamed: 0,y_test,y_pred
13,0,0
45,1,1
47,1,1
44,1,1
17,0,0
27,1,0
26,1,1
25,1,1
31,1,1
19,0,0


In [None]:
print("Аккуратность (accuracy) = {}".format(accuracy_score(y_test, y_pred)))
print("Точность (precision) = {}".format(precision_score(y_test, y_pred)))
print("Полнота (recall) = {}".format(recall_score(y_test, y_pred)))
print("F-мера (f-score) = {}".format(f1_score(y_test, y_pred)))

Аккуратность (accuracy) = 0.8
Точность (precision) = 0.7777777777777778
Полнота (recall) = 0.875
F-мера (f-score) = 0.823529411764706


In [None]:
print('Отчет о классификации', '\n', classification_report(y_test, y_pred))


Отчет о классификации 
               precision    recall  f1-score   support

           0       0.83      0.71      0.77         7
           1       0.78      0.88      0.82         8

    accuracy                           0.80        15
   macro avg       0.81      0.79      0.80        15
weighted avg       0.80      0.80      0.80        15



## Тема 7.3 Кластеризация: теория

Содержательная постановка задачи кластеризации

Задача кластеризации состоит в построении разбиения исследуемого множества объектов на группы, называемые кластерами, таким образом, чтобы в смысле установленной меры близости объекты одного кластера были весьма схожими друг с другом, а объекты разных кластеров существенно различались.

Формальная постановка задачи кластеризации

Пусть $O=\{O_1,O_2,\ldots, O_n\}$ --- множество объектов, для
каждого из которых $O_i\in O$, $i=\overline{1,n}$\,, известна
вектор-строка вида $x_i=(x_{i1},x_{i2},\ldots, x_{ip})$, где
$x_{ij}$ --- значение $j$-ого признака данного объекта,
$j=\overline{1,p}$. Пусть также задана функция $d(x_i,x_l)$,
отражающая меру близости между объектами.



Тогда для множества $O$ исследуемых объектов задача кластеризации
состоит в построении множества
$$
\mathcal{C}=\{C_1,C_2,\ldots, C_h\},
$$
где $C_k$ --- кластер, содержащий близкие, в смысле заданной
функции расстояния, объекты, т.е.
$$
C_k=\{x_i,x_l\,|\,  d(x_i,x_l)<\varepsilon; \, i,l
=\overline{1,n}\,\}, \quad k=\overline{1,h}\,.
$$
Здесь $\varepsilon$ --- величина, характеризующая степень близости
между двумя объектами. Если для двух любых объектов $O_i$ и $O_l$
величина $d(x_i, x_l)$ меньше некоторого значения $\varepsilon$,
то говорят, что эти объекты близки в смысле заданной функции
расстояния и их помещают в один кластер. В противном случае
говорят, что объекты не схожи друг с другом и их помещают в разные
кластеры.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=17Do8Jvj77cjieVcJxPlZPrm4aNN9OpBJ' width="500" height="300" />
<figcaption>Исходное множество объектов</figcaption></center>
</figure>

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=17Dc3KD7XK3N2-LPnjjHZsBT0_bbq_IEL' width="500" height="300" />
<figcaption>Кластеризация исходного множества объектов </figcaption></center>
</figure>

Меры схожести

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=17EYvhQURMLEDERuH927L3wUT8FvRjXVE' width="650" height="250" />
<figcaption>Меры схожести</figcaption></center>
</figure>

Функционалы качества кластеризации

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=17N4tTgbmWkHUx-W_fm469DWR_UPxUUp6' width="600" height="200" />
<figcaption>Функционалы качества</figcaption></center>
</figure>

Типология алгоритмов кластеризации

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=17NmfQbcrDStH-kvP_6cpuMFfDrRFVFaW' width="600" height="350" />
<figcaption>Алгоритмы кластеризации</figcaption></center>
</figure>



## Тема 7.3 Кластеризация: практика



## Подключение библиотек

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_table('mobile.txt', 
                   encoding='1251', 
                   sep='\t')
df.head(2)

In [None]:
df.info()

### Отбор признаков

In [None]:
df_to_cluster = df.drop(columns = 'Код')
df_to_cluster

### Нормализация данных


[**Нормализацией**](https://wiki.loginom.ru/articles/data-normalization.html) называют метод предобработки числовых признаков в обучающих наборах данных с целью приведения их к некоторой общей шкале без потери информации о различии диапазонов.

Необходимость нормализации вызвана тем, что разные признаки обучающего набора данных могут быть представлены в разных масштабах и изменяться в разных диапазонах. Например, возраст, который изменяется от 0 до 100, и доход, изменяющийся от нескольких тысяч до нескольких миллионов. То есть диапазоны изменения признаков «Возраст» и «Доход» различаются в тысячи раз.

В этом случае возникает нарушение баланса между влиянием входных переменных, представленных в разных масштабах, на выходную переменную. Т.е. это влияние обусловлено не реальной зависимостью, а изменением масштаба. В результате, обучаемая модель может выявить [некорректные зависимости](https://habr.com/ru/company/ods/blog/325422/).

Существует несколько основных методов нормализации.
- минимаксная нормализация:
$$
x' = \dfrac{x-x_{min}}{x_{max}-x_{min}}, \quad x' \in [0,1];
$$

$$
x' = a+\dfrac{x-x_{min}}{x_{max}-x_{min}} \times (b-a), \quad x' \in [a,b].
$$

- максиминная нормализация: 
$$
x' = \dfrac{x_{max}-x}{x_{max}-x_{min}}, \quad x' \in [0,1];
$$

$$
x' = a+\dfrac{x_{max}-x}{x_{max}-x_{min}} \times (b-a), \quad x' \in [a,b].
$$

- нормализация средним ($Z$-нормализация):
$$
x' = \dfrac{x-\mu_x}{\sigma_x}.
$$
где $\mu_x$ $\sigma_x$ -- выборочное среднее и среднеквадратическое  отклонение, соответственно. 

Методы для нормализации реализованы в модуле [sklearn.preprocessing](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing): 

|Метод|Комментарий|
|--:|:--|
|`MaxAbsScaler()`|Преобразует данные по максимальному абсолютному значению|
|`MinMaxScaler()`|Минимаксная нормализация|
|`StandardScaler()`|Нормализация средним|




Ресурсы по теме:
1. [Data Preparation: полет нормальный – что такое нормализация данных и зачем она нужна](https://www.bigdataschool.ru/blog/%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F-feature-transformation-data-preparation.html)
2. [Масштабирование признаков](http://sebastianraschka.com/Articles/2014_about_feature_scaling.html)     

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [None]:
scaler = StandardScaler()
scaler.fit(df_to_cluster)
df_to_fit = scaler.transform(df_to_cluster)

In [None]:
df_to_fit

## Иерархическая кластеризация: агломеративный алгоритм

Существует два варианта иерархической кластеризации:

1. Агломеративная, в которой алгоритм на каждой итерации объединяет два меньших кластера в один
2. Дивизивная, в которой алгоритм на каждой итерации разбивает один кластер на два более мелких

Мы рассмотрим аггломеративный подход к кластеризации.

Опишем схематически алгоритм аггломеративной иерархической кластеризации:

- Инициализируем наше множество кластеров, каждая точка считается свои кластером. То есть для выборки размера $N$ у нас на первой итерации будет $N$ кластеров. Также входным параметром алгоритму подается метрика расстояния между двумя кластерами. Самой популярной метрикой является расстояние Уорда.

- На каждой итерации  мы объединяем два кластера в один. Объединяющиеся кластера выбираются в соответствии с наименьшим расстоянием Уорда. То есть в соответствии с выбранным нами расстоянием эти два кластера будут наиболее похожи и поэтому объединяются

- Предыдущий шаг повторяется вплоть до объединения всех точек один кластер.

В результате в данном подходе мы можем выбрать любое количество кластеров после завершения процедуры, просто остановив на нужном нам шаге. К тому же данный алгоритм гораздо менее чувствителен к выбору метрики между точками, тогда как другие алгоритмы сильно зависят от этого.

Для визуализации иерархической кластеризации удобно строить дендрограммы, в которых разница между уровнями равна выбранному расстоянию объединяющихся на данном этапе кластеров.

Посмотрим на иерархическую кластеризацию.

Для изучания материала рекомендуется воспользоваться [ресурсом](https://joernhees.de/blog/2015/08/26/scipy-hierarchical-clustering-and-dendrogram-tutorial/).    
Иерархическая кластеризация реализована в модуле `scipy.cluster.hierarchy`.    
Импортируем из этого модуля методы:    
- `.linkage()` -- выполняет иерархическую (агломеративную) кластеризацию; 
- `.fcluster()` -- выполняет некоторое разбиение объектов на кластеры;
- `.dendrogram()` -- строит дендрограмму.  

Метод `.linkage()` имеет следующую спецификацию `linkage(y[, method, metric, optimal_ordering])`:    
- y -- матрица попарных расстояний или исходных данных (в матрице не должно быть пробелов или категориальных значений)
- method -- правило, по которому будут рассчитываться расстояния между кластерами:    
    - `single`
    - `complete`
    - `average`
    - `weighted`
    - `centroid`
    - `median`
    - `ward`
- metric -- метрика: `braycurtis`, `canberra`, `chebyshev`, `cityblock`, `correlation`, `cosine`, `dice`, `euclidean`, `hamming`, `jaccard`, `jensenshannon`, `kulsinski`, `mahalanobis`, `matching`, `minkowsk`, `rogerstanimoto`, `russellrao`, `seuclidean`, `sokalmichener`, `sokalsneath`, `sqeuclidean`, `yule`.

In [None]:
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
import matplotlib.pyplot as plt
import numpy as np

In [None]:
mergings = linkage(df_to_fit, 
                   method='ward')

In [None]:
len(df_to_fit)

In [None]:
np.set_printoptions(formatter={'float': '{: 0.3f}'.format})
mergings[:2]

Дадим интерпретацию элементам массив связей кластера `Z`. В первом и втором столбцах массива `Z` указаны индексы кластеров (в том числе синглетонов), объединяющих на текущей итерации. В третьем столбце находится расстояние между кластерами. В четвертом столбце -- количество элементов в новом кластере. Например, строка Z[0] содержит следующее `[3419.000,  3697.000,  0.016,  2.000]`. Элементы этой строки показывают, что на первой (напомним, что индексация массивов начинается с 0) итерации алгоритма объединяются кластеры (здесь синглетоны -- кластер, состоящий из одного элемента) с номерами 3419 и 3697, расстояние между кластерами равно 0.016, количество элементов в кластере равно 2.     
Напомним, что в исходном массиве число объектов 4492, проиндексированных от 0 до 4491. Если имеем индексы такие, что $idx \geqslant len(X)$ соответствуют кластерам, которые объединились ранее и находятся в массиве связей кластера в строке $Z[idx-len(X)]$, где $len(X)=4491$.

Визуализация: дендрограмма

In [None]:
plt.figure(figsize=(24,7))
dendrogram(mergings, 
            p = 7,
            truncate_mode = 'lastp',
           leaf_rotation = 0,
           leaf_font_size = 12)
plt.title('Иерархическая кластеризация: агломеративный алгоритм')
plt.ylabel('Расстояние')
plt.xlabel('Номера объектов')
plt.show()

Качество кластеризации

[Кофенетическая корреляция](https://ranalytics.github.io/data-mining/103-Clustering-Quality.html)

Ресурсы по теме:
1. Ким Д.О. Факторный, дискриминантный и кластерный анализ /  Д.О. Ким, Ч.У. Мьюллер, У.Р. Клекка и др. --- М.: Финансы и статистика, 1989. --- 215 с.

In [None]:
from scipy.cluster.hierarchy import cophenet
from scipy.spatial.distance import pdist

In [None]:
c, coph_dists = cophenet(mergings, pdist(df_to_fit))
c

Оптимальная структура разбиения: метод локтя

In [None]:
last = mergings[-15:, 2] # в матрице связей берем последние 20 значений расстояний между кластерами 
last_rev = last[::-1] #переписываем в обратном порядке  
idxs = np.arange(1, len(last) + 1,1) #генерируем список начальное значение 1, конечное --- число элементов массива, шаг 1
plt.xlabel('Число кластеров')
plt.ylabel('Расстояние')
plt.title('Метод локтя')
plt.plot(idxs, last_rev) #отображение графика 

#далее идет расчет вторых разностей  
acceleration = np.diff(last, 2) #расчет вторых разностей 
acceleration_rev = acceleration[::-1] #переписываем в обратном порядке
plt.plot(idxs[:-2] + 1, acceleration_rev)
plt.show()
k = acceleration_rev.argmax() + 2   
print("clusters:", k)

На данном графике показана зависимость расстояния между кластерами от номера шага итерации, на котором два ближайших кластера объединяются в новый --- синия линия.Оранжевая линия показывает, как меняется ускорение --- быстрота изменения расстояния между объединяемыми кластерами. В данном случае оптимальным числом кластеров может считаться 2 или 7. Ориентируясь на поведение функции расстояния, примем в качестве оптимальное разбиения --- разбиение на 7 кластеров. 

Некоторая кластериазация: метод `fcluster()` 

Для выделения некоторого разбиения объектов на кластеры воспользуемся функцией `fcluster()`, которая на основе построенной матрицы связей выделяет некоторое разбиение на кластеры, исходя из задаваемых пользователем критериев. В качестве критерия можно указать либо максимальное количество кластеров `criterion='maxclust'`, либо расстоние `criterion='distance'`.

В первом случае мы указываем требуемое (желаемое) максимальное число кластеров, т.е. используем критерий `criterion='maxclust'`. На выходе имеем массив с указанием номера кластера, которому принадлежит соответствующий исходный объект

In [None]:
label=fcluster(mergings, 7, criterion='maxclust')
len(label)

Анализ результатов кластеризации

Для анализа каждого из выделенных кластеров реализуем следующие действия:    
1) добавим в исходный датафрейм новый столбец `Номер кластера`;    
2) с использоанием механизма группировки датафрейма `groupby` выведем объекты кластеров

In [None]:
df_to_cluster.loc[:,'Номер кластера'] = label # добавление нового столбца с метками 
df_to_cluster.head(10)


In [None]:
df_to_cluster['Номер кластера'].value_counts()

In [None]:
df_to_cluster.groupby('Номер кластера')\
  .agg(Размерность_кластера = ('Номер кластера', 'count'))\
  .reset_index()\
  .sort_values(by = 'Размерность_кластера', ascending=False)



In [None]:
from scipy.cluster.hierarchy import dendrogram
from sklearn.cluster import AgglomerativeClustering

In [None]:
model = AgglomerativeClustering(n_clusters=7)
model = model.fit(df_to_fit)

In [None]:
len(model.labels_)

## Неиерархическая кластеризация: алгоритм  $к$-средних

Алгоритм можно схематически представить в виде следующих шагов:

1. Инициализируем центры кластеров случайно (должно быть задано количество кластеров).
2. Относим точки к соответствующим кластерам (с минимальным расстоянием до их центра).
3. Производится пересчет центров кластеров по формуле центра масс всех точек принадлежащих кластеру.
4. Пункты 2-3 повторяются до тех пор пока центры кластеров перестанут меняться (сильно).


Модуль `scipy.cluster.vq` предоставляет следующие возможности по реализации метода `k-средних`.
- whiten(X[, check_finite]) #проводит нормализацию признаков по стандартному отклонению каждого столбца. Каждый элемент столбца делится на стандартное отклонение по этому столбцу. 
- vq(X, code_book[, check_finite])
- kmeans(X, k_or_guess[, iter, thresh, …]) #
- kmeans2(X, k[, iter, thresh, minit, …]) 

С помощью этих методов кластеризацию можно реализовать двумя сценариями.     
- 1 Сценарий    
     1.1 Исходные данные, предствленные матрицей "объект-свойство" $X$ нормализуются методом `whiten(X)`. В результате имеем нормализованный массив исходных данных X_norm;    
     1.2 Нормализованный массив исходных данных X_norm разделяется на заданное число кластеров `k` с использованием метода `kmeans(X_norm, k)`. В результате имеем массив центроидов и минимальное значение функционала качества кластеризации;     
     1.3 Нормализованный массив данных X_norm распределяется по найденным центроидам. Для этого используется метод `vq()`.

- 2 сценарий
    
Итак, начнем с того, что импортируем методы `whiten()`, `vq()`,  `kmeans()` и `kmeans2` из модуля `scipy.cluster.vq`.

In [None]:
from scipy.cluster.vq import vq, kmeans, whiten, kmeans2

In [None]:
centroid, opt = kmeans(df_to_fit, 8)

In [None]:
print(centroid, '\n', 'Минимальное значение целевой функции: ', opt)

In [None]:
label_claster, dist = vq(df_to_fit, centroid)
print('Массив меток кластеров: ', label_claster)
print('Массив расстояний от элементов до центроидов: ', dist)

In [None]:
counts_elem_in_cluster = np.bincount(label_claster)
counts_elem_in_cluster


In [None]:
df_to_cluster.loc[:,'Номер кластера по к-средним']=label_claster
df_to_cluster.head()

In [None]:
from sklearn.cluster import KMeans
import numpy as np

#init='kmeans++' -- Метод инициализации.
#n init=10 -- Количество запусков алгоритма с разными центроидами. Победит наилучший результат.

In [None]:
km = KMeans(7, random_state = 42)
clusters = KMeans(7, random_state = 42).fit(df_to_fit)
clusters.pr

In [None]:
km.transform(df_to_fit)

In [None]:
import matplotlib.pyplot as plt

In [None]:
inertias = []
sizes = range(2, 20)
for k in sizes:
  k2 = KMeans(random_state=42, n_clusters=k)
  k2.fit(df_to_fit)
  inertias.append(k2.inertia_)
fig, ax= plt.subplots(figsize=(6, 4))
pd.Series(inertias, index=sizes).plot()
ax.set_xlabel("Количество кластеров")
ax.set_ylabel("Функционал")
plt.show()

Качество кластеризации

- Коэффициент силуэта (silhouette coefficient) - это значение от -1 до 1. Чем выше оценка, тем лучше.
- Индекс Калинского-Харабаза (Calinski-Harabasz Index) представляет
собой отношение дисперсии между кластерами и внутри кластера. Чем выше оценка, тем лучше;
- Индекс Дэвиса-Болдина (Davis-Bouldin Index) -- это среднее сходство между каждым кластером и ближайшим кластером. Оценки варьируются от 0 и выше. 0 указывает на лучшую кластеризацию.

In [None]:
from sklearn import metrics
inertias = []
sils = []
chs = []
dbs = []
sizes = range(2, 12)
for k in sizes:
  k2 = KMeans(random_state=42, n_clusters=k)
  k2.fit(df_to_fit)
  inertias.append(k2.inertia_)
  sils.append(metrics.silhouette_score(df_to_fit, k2.labels_))
  chs.append(metrics.calinski_harabasz_score(df_to_fit, k2.labels_))
  dbs.append(metrics.davies_bouldin_score(df_to_fit, k2.labels_))

fig, ax = plt.subplots(figsize=(12, 6))
(pd.DataFrame({
    "inertia": inertias,
    "silhouette": sils,
    "calinski": chs,
    "davis": dbs,
    "k": sizes})
.set_index("k").plot(ax=ax, subplots=True, layout=(2, 2))
)
plt.show()


### DBSCAN

Это алгоритм, основанный на плотности — если дан набор объектов в некотором пространстве, алгоритм группирует вместе объекты, которые расположены близко и помечает как выбросы объекты, которые находятся в областях с малой плотностью (ближайшие соседи которых лежат далеко).

Алгоритм имеет два основных гиперпараметра:
1. `eps` &mdash; радиус рассматриваемой окрестности
2. `min_samples` &mdash; число соседей в окрестности

Для выполнения кластеризации DBSCAN точки делятся на основные точки, достижимые по плотности точки и выпадающие следующим образом:

- Точка p является основной точкой, если по меньшей мере `min_samples` точек находятся на расстоянии, не превосходящем 
`eps` до неё. Говорят, что эти точки достижимы прямо из p.

-  Точка q прямо достижима из p, если точка q находится на расстоянии, не большем 
ϵ , от точки p и p должна быть основной точкой.
Точка A q достижима из p, если имеется путь 
$p_1,…,p_n$ где $p_1=p$ и $p_n=q$ , а каждая точка $p_{i+1}$ достижима прямо из $p_i$ (все точки на пути должны быть основными, за исключением $q$).

Все точки, не достижимые из основных точек, считаются выбросами.

Теперь, если $p$ является основной точкой, то она формирует кластер вместе со всеми точками (основными или неосновными), достижимые из этой точки. Каждый кластер содержит по меньшей мере одну основную точку. Неосновные точки могут быть частью кластера, но они формируют его «край», поскольку не могут быть использованы для достижения других точек.


Рассмотрим диаграму

<p><a href="https://commons.wikimedia.org/wiki/File:DBSCAN-Illustration.svg#/media/Файл:DBSCAN-Illustration.svg"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/a/af/DBSCAN-Illustration.svg/1200px-DBSCAN-Illustration.svg.png" alt="DBSCAN-Illustration.svg" width="450" height="450"> </a><br>Автор: <a href="//commons.wikimedia.org/wiki/User:Chire" title="User:Chire">Chire</a> &mdash; <span class="int-own-work" lang="ru">собственная работа</span>, <a href="https://creativecommons.org/licenses/by-sa/3.0" title="Creative Commons Attribution-Share Alike 3.0">CC BY-SA 3.0</a>

На этой диаграмме `min_samples`=4

Точка $A$ и другие красные точки являются основными точками, поскольку область с радиусом 
`eps` , окружающая эти точки, содержит по меньшей мере 4 точки (включая саму точку). Поскольку все они достижимы друг из друга, точки образуют один кластер. Точки $B$ и $C$ основными не являются, но достижимы из $A$ (через другие основные точки), и также принадлежат кластеру. Точка $N$ является точкой шума, она не является ни основной точкой, ни доступной прямо.

In [None]:
from sklearn.cluster import DBSCAN
samples = 5
eps = 0.2
dbscan = DBSCAN(eps=eps, min_samples=samples)
clusters = dbscan.fit(df_to_fit)       

In [None]:
clusters.labels_[clusters.labels_ > -1]

In [None]:
df = pd.read_excel('med_set_clear_azot.xlsx') 
df

In [None]:
df.head(20)

### Работа с категориальными переменными

Некоторые алгоритмы машинного обучения не могут работать с категориальными переменными, значения которых являются не являются количественными.

В этом случае применяются различные схема кодирования значений категориальных переменных:
- присвоение значениям переменной в лексикографическом порядке целочисленных значений -- LabelEncoder;
- дамми-кодирование -- `.get_dummies()`;

- cоздание переменной, у которой каждое значение -- частота наблюдений в категории переменных (Frequency Encoding).

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
l_e =  LabelEncoder()
l_e.fit(df['пол'])
df['пол_чис'] = l_e.transform(df['пол'])

In [None]:
df

In [None]:
pd.get_dummies(df)

In [None]:
ad = df['пол'].value_counts()/len(df)
print(df['пол'].map(ad))

## Тема 7.4 Нейронная сеть

### История развития искусственного интеллекта

Ключевые даты и события:
- 1956 г. дартмунтский семинар;
- 1958 г. персептрон Розенблатта;
- 1969 — Марвин Минский и Сеймур Пейперт опубликовали книгу «Персептроны»;
- Две длительные «зимы» относят к периодам 1974—1980 годов и 1987—1993 годов;
- 2005-2006 — группы Хинтона и Бенджи научились обучать глубокие нейронные сети.

Важные тренды:
- точность растет;
- сложность растет;
- объемы данных растут;
- вычислительные мощности растут.

Литература:
- Хайкин С. Нейронные сети: полный курс. --- 2-е изд. --- М.: Вильямс, 2006. --- 1104 с.
- Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. — СПб.: Питер, 2018. — 480 с.
- Шолле Ф. Глубокое обучение на Python. — СПб.: Питер, 2018. — 400 с.
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / пер. с анг. А. А. Слинкина. – 2-е изд., испр. – М.: ДМК Пресс, 2018. – 652 с.

### Модель нейрона

Нейрон представляет собой единицу обработки информации в нейронной сети. 
<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=184W_sirUmQXq2Bj-Zj2otGMO7zU0a5zg' width="650" height="400" />
<figcaption>Модель нейрона</figcaption></center>
</figure>

В этой модели можно выделить три основных элемента:
- **Набор синапсов или связей**, каждый из которых характеризуется своим весом. В частности, сигнал $x_j$ на входе синапса $j$, связанного с нейроном $k$, умножается на вес $w_{kj}$. Первый индекс веса относится к рассматриваемому нейрону, а второй --- ко входу. Вес искусственного нейрона может иметь как положительные, так и отрицательные значения.
- **Сумматор** складывает входные сигналы, взвешенные относительно со- 
ответствующих синапсов нейрона. Эту операцию можно описать как линейную 
комбинацию.
- **Функция активации** ограничивает амплитуду выходного сигнала нейрона. Эта функция также называется функцией сжатия. Обычно нормализованный диапазон амплитуд выхода нейрона лежит в интервале [0,1] или [-1,1]. 

В математическом представлении функционирование нейрона к можно описать 
следующей парой уравнений: 
$$
u_k = \sum\limits_{j=1}^{m}w_{kj}x_j,
y_k = \varphi(u_k+b_k).
$$
Здесь $x_1, x_2, \ldots, x_m$ -- входные сигналы; $w_{k1}, w_{k2}, \ldots, w_{km}$ --синаптические веса нейрона $k$; $u_k$ -- линейная комбинация входных воздействий; $b_k$ -- порог; $\varphi(\cdot)$ -- функция активации; $y_k$ -- выходной сигнал нейрона. 
 
### Перцептрон Розенблатта

Основной компонент нейронной сети – перцептрон.

Перцептрон – это линейная модель, применяемая для бинарной классификации.

В нейронных сетях перцептрон рассматривается как искусственный нейрон со
ступенчатой функцией Хевисайда в качестве функции активации.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=183sc8eCs-HGXi6wvQcOy_-8HT_-xxUTH' width="650" height="400" />
<figcaption>Однослойный перцептрон</figcaption></center>
</figure>

### Многослойные нейронные сети

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=189JgWo9yuPhd6G-xI7oKb8g0rKAH8PWo' width="650" height="400" />
<figcaption>Архитектура многослойной сети</figcaption></center>
</figure>

В многослойной нейронной сети имеются:
- один входной слой;
- один или несколько полносвязных скрытых слоев;
- один выходной слой.

У всех нейронов одного слоя одна и та же функция активации (как правило).

**Входной слой** -- через этот слой в сеть поступают входные данные (векторы).
Количество нейронов во входном слое обычно совпадает с количеством входных
признаков.

**Скрытый слой**. В нейронной сети прямого распространения имеется один или
несколько скрытых слоев. Благодаря скрытым слоям сеть способна моделировать нелинейные функции.

**Выходной слой** -- прогноз модели от выходного слоя.

**Связи между слоями** -- в полносвязной сети прямого распространения каждый нейрон предыдущего слоя связан со всеми нейронами следующего слоя. Веса
связей изменяются по мере того, как алгоритм обратного распространения ищет
оптимальное решение.

### Функции активации

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=18H2O-Wx88LGQsQZv2ZC5wPAfLpxgCG1k' width="600" height="400" />
<figcaption>Функции активации</figcaption></center>
</figure>

Ресурсы:
- Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. — СПб.: Питер, 2018. — 480 с.
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / пер. с анг. А. А. Слинкина. – 2-е изд., испр. – М.: ДМК Пресс, 2018. – 652 с.

### Архитектуры нейронных сетей
Ресурсы: 
1. [Зоопарк нейронных сетей. Часть 1](https://habr.com/ru/company/wunderfund/blog/313696/) 
2. [Зоопарк архитектур нейронных сетей. Часть 2](https://habr.com/ru/company/wunderfund/blog/313906/)

### Обучение нейронных сетей
Пусть $X$ - множество входов нейронной сети, $Y$ -- соответствующие им истинные значения зависимой переменной, $W$ -- матрица весов; $\varphi()$ -- функция активации. Пусть также $\widehat{Y} = \varphi(X,W)$ -- прогнозные значения, найденные с помощью нейронной сети. Тогда функцию вида
$$
L = \Lambda(\widehat{Y}, Y) 
$$
будем называть функцией потерь.


Обучение сети сводится к решению оптимизационной задачи
$$
L(X,W) \to \min\limits_{W}
$$


<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=18Q964KHy_9y0866w2QUsLBq4PF7DvTbh' width="700" height="600" />
<figcaption>Алгоритм обратного распространения ошибки</figcaption></center>
</figure>

### Глубокое обучение

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=18MjkBIwuzhMHkC0tMIY0-I0e3qyetS4j' width="700" height="600" />
<figcaption>Идея глубокого обучения</figcaption></center>
</figure>

Глубокое обучение -- это наука о моделях, в которых уровень композиции обученных функций или обученных концепций выше, чем в традиционном машинном обучении.

Значимые успехи моделей глубокого обучения:
- классификация изображений на уровне человека;
- распознавание речи на уровне человека;
- распознавание рукописного текста на уровне человека;
- улучшение качества машинного перевода с одного языка на другой;
- улучшение качества машинного чтения текста вслух;
- появление цифровых помощников, таких как Google Now и Amazon Alexa;
- управление автомобилем на уровне человека;
- повышение точности целевой рекламы;
- повышение релевантности поиска в интернете;
- появление возможности отвечать на вопросы, заданные вслух;
- игра в Go сильнее человека.


In [None]:
ad = df['пол'].value_counts()/len(df)
print(df['пол'].map(ad))

0     0.163265
1     0.836735
2     0.836735
3     0.836735
4     0.163265
5     0.836735
6     0.163265
7     0.836735
8     0.836735
9     0.836735
10    0.163265
11    0.836735
12    0.836735
13    0.836735
14    0.163265
15    0.163265
16    0.836735
17    0.836735
18    0.836735
19    0.836735
20    0.163265
21    0.163265
22    0.836735
23    0.836735
24    0.836735
25    0.836735
26    0.836735
27    0.836735
28    0.836735
29    0.836735
30    0.836735
31    0.836735
32    0.836735
33    0.836735
34    0.836735
35    0.836735
36    0.836735
37    0.836735
38    0.836735
39    0.836735
40    0.836735
41    0.836735
42    0.836735
43    0.836735
44    0.836735
45    0.836735
46    0.836735
47    0.836735
48    0.836735
Name: пол, dtype: float64


## Тема 7.4 Нейронная сеть

### История развития искусственного интеллекта

Ключевые даты и события:
- 1956 г. дартмунтский семинар;
- 1958 г. персептрон Розенблатта;
- 1969 — Марвин Минский и Сеймур Пейперт опубликовали книгу «Персептроны»;
- Две длительные «зимы» относят к периодам 1974—1980 годов и 1987—1993 годов;
- 2005-2006 — группы Хинтона и Бенджи научились обучать глубокие нейронные сети.

Важные тренды:
- точность растет;
- сложность растет;
- объемы данных растут;
- вычислительные мощности растут.

Литература:
- Хайкин С. Нейронные сети: полный курс. --- 2-е изд. --- М.: Вильямс, 2006. --- 1104 с.
- Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. — СПб.: Питер, 2018. — 480 с.
- Шолле Ф. Глубокое обучение на Python. — СПб.: Питер, 2018. — 400 с.
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / пер. с анг. А. А. Слинкина. – 2-е изд., испр. – М.: ДМК Пресс, 2018. – 652 с.

### Модель нейрона

Нейрон представляет собой единицу обработки информации в нейронной сети. 
<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=184W_sirUmQXq2Bj-Zj2otGMO7zU0a5zg' width="650" height="400" />
<figcaption>Модель нейрона</figcaption></center>
</figure>

В этой модели можно выделить три основных элемента:
- **Набор синапсов или связей**, каждый из которых характеризуется своим весом. В частности, сигнал $x_j$ на входе синапса $j$, связанного с нейроном $k$, умножается на вес $w_{kj}$. Первый индекс веса относится к рассматриваемому нейрону, а второй --- ко входу. Вес искусственного нейрона может иметь как положительные, так и отрицательные значения.
- **Сумматор** складывает входные сигналы, взвешенные относительно со- 
ответствующих синапсов нейрона. Эту операцию можно описать как линейную 
комбинацию.
- **Функция активации** ограничивает амплитуду выходного сигнала нейрона. Эта функция также называется функцией сжатия. Обычно нормализованный диапазон амплитуд выхода нейрона лежит в интервале [0,1] или [-1,1]. 

В математическом представлении функционирование нейрона к можно описать 
следующей парой уравнений: 
$$
u_k = \sum\limits_{j=1}^{m}w_{kj}x_j,
y_k = \varphi(u_k+b_k).
$$
Здесь $x_1, x_2, \ldots, x_m$ -- входные сигналы; $w_{k1}, w_{k2}, \ldots, w_{km}$ --синаптические веса нейрона $k$; $u_k$ -- линейная комбинация входных воздействий; $b_k$ -- порог; $\varphi(\cdot)$ -- функция активации; $y_k$ -- выходной сигнал нейрона. 
 
### Перцептрон Розенблатта

Основной компонент нейронной сети – перцептрон.

Перцептрон – это линейная модель, применяемая для бинарной классификации.

В нейронных сетях перцептрон рассматривается как искусственный нейрон со
ступенчатой функцией Хевисайда в качестве функции активации.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=183sc8eCs-HGXi6wvQcOy_-8HT_-xxUTH' width="650" height="400" />
<figcaption>Однослойный перцептрон</figcaption></center>
</figure>

### Многослойные нейронные сети

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=189JgWo9yuPhd6G-xI7oKb8g0rKAH8PWo' width="650" height="400" />
<figcaption>Архитектура многослойной сети</figcaption></center>
</figure>

В многослойной нейронной сети имеются:
- один входной слой;
- один или несколько полносвязных скрытых слоев;
- один выходной слой.

У всех нейронов одного слоя одна и та же функция активации (как правило).

**Входной слой** -- через этот слой в сеть поступают входные данные (векторы).
Количество нейронов во входном слое обычно совпадает с количеством входных
признаков.

**Скрытый слой**. В нейронной сети прямого распространения имеется один или
несколько скрытых слоев. Благодаря скрытым слоям сеть способна моделировать нелинейные функции.

**Выходной слой** -- прогноз модели от выходного слоя.

**Связи между слоями** -- в полносвязной сети прямого распространения каждый нейрон предыдущего слоя связан со всеми нейронами следующего слоя. Веса
связей изменяются по мере того, как алгоритм обратного распространения ищет
оптимальное решение.

### Функции активации

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=18H2O-Wx88LGQsQZv2ZC5wPAfLpxgCG1k' width="600" height="400" />
<figcaption>Функции активации</figcaption></center>
</figure>

Ресурсы:
- Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. — СПб.: Питер, 2018. — 480 с.
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение / пер. с анг. А. А. Слинкина. – 2-е изд., испр. – М.: ДМК Пресс, 2018. – 652 с.

### Архитектуры нейронных сетей
Ресурсы: 
1. [Зоопарк нейронных сетей. Часть 1](https://habr.com/ru/company/wunderfund/blog/313696/) 
2. [Зоопарк архитектур нейронных сетей. Часть 2](https://habr.com/ru/company/wunderfund/blog/313906/)

### Обучение нейронных сетей
Пусть $X$ - множество входов нейронной сети, $Y$ -- соответствующие им истинные значения зависимой переменной, $W$ -- матрица весов; $\varphi()$ -- функция активации. Пусть также $\widehat{Y} = \varphi(X,W)$ -- прогнозные значения, найденные с помощью нейронной сети. Тогда функцию вида
$$
L = \Lambda(\widehat{Y}, Y) 
$$
будем называть функцией потерь.


Обучение сети сводится к решению оптимизационной задачи
$$
L(X,W) \to \min\limits_{W}
$$


<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=18Q964KHy_9y0866w2QUsLBq4PF7DvTbh' width="700" height="600" />
<figcaption>Алгоритм обратного распространения ошибки</figcaption></center>
</figure>

### Глубокое обучение

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=18MjkBIwuzhMHkC0tMIY0-I0e3qyetS4j' width="700" height="600" />
<figcaption>Идея глубокого обучения</figcaption></center>
</figure>

Глубокое обучение -- это наука о моделях, в которых уровень композиции обученных функций или обученных концепций выше, чем в традиционном машинном обучении.

Значимые успехи моделей глубокого обучения:
- классификация изображений на уровне человека;
- распознавание речи на уровне человека;
- распознавание рукописного текста на уровне человека;
- улучшение качества машинного перевода с одного языка на другой;
- улучшение качества машинного чтения текста вслух;
- появление цифровых помощников, таких как Google Now и Amazon Alexa;
- управление автомобилем на уровне человека;
- повышение точности целевой рекламы;
- повышение релевантности поиска в интернете;
- появление возможности отвечать на вопросы, заданные вслух;
- игра в Go сильнее человека.
