<font size="6">Введение в машинное обучение</font> 

# Задача курса

##  AI, ML, DL

**Место глубокого обучения и нейронных сетей в ИИ**

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/ai_ml_dl.png" width="600">

**Искусственный интеллект (AI/ИИ)**  — область IT/Computer science, связанная с моделированием интеллектуальных или творческих видов человеческой деятельности.

**Машинное обучение (ML)** — подраздел ИИ, связанный с разработкой алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения задач без явных инструкций. 

**Глубокое обучение (Deep Learning, DL)** — совокупность методов машинного обучения, основанных на искуственных нейронных сетях и обучении представлениям (**feature/representation learning**). Данный класс методов автоматически выделяет из необработанных данных необходимые признаки (представления), в отличие от методов ML, в которых признаки создают люди вручную (**feature engineering**).

Существует множество определений сильного и слабого ИИ, рассуждений о появлении искусственного сознания и восстании машин.

Всё намного **приземлённее**. Есть набор **объектов $X$**, набор **ответов $Y$**. Пары "объект-ответ" составляют **обучающую выборку**.

Мы будем заниматься **восстановлением решающей функции $F$**, которая переводит признаки, описывающие объекты $X$, в ответы $Y$.

$$ F: X \xrightarrow\ Y $$



Позже мы уточним постановку задачи, увидим, что мы на самом деле восстанавливаем приближённую функцию ${\hat F}$ с какой-то погрешностью, в каких-то задачах нет ответов $Y$, а где-то мы создаём новые объекты ${\hat X}$ на основе исходных объектов $X$. 

## Области применения

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/ai_ml_dl_cv_nlp_sr.png" width="600">

В последнее время именно такого рода модели показывают высокую эффективность в тех областях, с которыми ранее могли справиться только люди. В частности:
* **человеко-компьютерное зрение** (Computer Vision, CV), 
* **распознавание и анализ речи** (NLP, извлечение смысла, Speech recognition, машинный перевод).


## Связь с наукой

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/ai_ml_dl_cv_nlp_sr_science.png" width="600">

Успехи происходят в тех областях, где производится моделирование человеческой деятельности. Но ведь мы ещё и думаем! Давайте попробуем добавить это в ИИ. 

Научные исследования таковы, что результаты у них в известной степени непредсказуемы. Одна из задач нашего курса — **научиться применять нейросети к решению новых задач**, в том числе в областях, где ранее такие технологии активно не использовались.

В первую очередь для нас важны задачи слушателей курса, а успешным прохождением мы считаем **решённую научную задачу** и написанную по этому поводу **статью**. 

В течении 15 лекций мы будем рассказывать теорию и практиковаться, далее плотно займёмся научной работой. Хотя, в целом, её можно начинать уже прямо сейчас.

Преподаватели будут выступать в качестве менторов и помогать вам с выбором подходящих моделей, проверкой гипотез, поиском ошибок. По ходу курса будет несколько воркшопов, где мы всем коллективом будем давать советы по вашим задачам. 

# Обзор курса

## Лекция 1 Intro

Первая лекция посвящена базовым понятиям, описанию процессов загрузки и валидации данных, основным инструментам, оценке и валидации результатов. 

## Лекция 2 Линейный классификатор

**Базовые алгоритмы**:

*   Линейная регрессия
*   Логистическая регрессия
*   Полиномиальная регрессия

**Работа с моделями**:

*  Батчи, стохастикое обучение
*  Регуляризация
*  Кросс-энтропия

Примерно так будет выглядеть исследование по решению регрессионной задачи с помощью полиномов различной степени. На код сейчас не обращайте внимание, мы будем разбирать подобные вещи позже.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import make_pipeline

x = np.linspace(0, 2*np.pi, 10)
y = np.sin(x) + np.random.normal(scale=0.25, size=len(x))

x_true = np.linspace(0, 2*np.pi, 200)
y_true = np.sin(x_true)

x_train = x.reshape(-1,1)

fig = plt.figure(figsize=(12,6))

for i, degree in enumerate([0,1,3,9]):

    model = make_pipeline(PolynomialFeatures(degree), LinearRegression())

    model.fit(x_train, y)
    y_plot = model.predict(x_true.reshape(-1,1))

    fig.add_subplot(2,2,i+1)
    plt.plot(x_true, y_plot, c='red', label=f'M={degree}')
    plt.scatter(x, y, s=50, facecolors='none', edgecolors='b')
    plt.plot(x_true, y_true, c='lime')
    plt.legend()
plt.show()

## Лекция 3 Классическое машинное обучение

Погружаемся в машинное обучение:

*   Деревья решений
*   Леса деревьев
*   Градиентный бустинг
*   Оценка важности признаков
*   Метрики для оценки качества модели

Больше узнаем об алгоритмах на основе деревьев решений. Научимся строить ансамбли моделей. Узнаем, что такое бустинг.

Начнём анализировать работу "чёрных ящиков" и понимать, какие признаки важнее.




<img src ="https://edunet.kea.su/repo/EduNet-content/L03/out/random_forest.png" width="900">

## Лекция 4 Генерация и отбор признаков

Посмотрим внимательнее на данные:

*  Отбор признаков
*  Методы понижения размерности
*  Визуализация многомерных данных

Поговорим о том, как не только посмотреть на красивые картинки с нашими данными, но и улучшить качество работы алгоритмов, выкидывая лишние признаки.


<img src="https://edunet.kea.su/repo/EduNet-web_dependencies/L04/pca_tsne_umap_on_mnist.jpg" width="850"/>

## Лекция 5 Нейронные сети

В леции будет подробно рассказано о том, как учатся нейронные сети. Посмотрим на:

*  Автоматический подсчёт градиентов в PyTorch
*  Функции активации
*  Визуализацию процесса обучения
*  Критерии прекращения обучения
*  Подбор оптимальных парамеров моделей

Так, например, вы научитесь понимать вот такие вот графики функций активации и поймёте, зачем вообще они нужны:


<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/activation-function.png" width="600" ></center>

<center><em>CS231n: Deep Learning for Computer Vision</em></center>

## Лекция 6 Свёрточные нейронные сети

Научимся работать с двухмерными данными на примере изображений:

*  Свёртки
*  Свёрточные слои в нейросети, их параметры
*  Построение свёрточных нейросетей (CNN)
*  1D и 3D свёртки

Посмотрим, как решать реальные задачи с помощью CNN, создавать эмбеддинги. 
А ещё на то, как понижать размерность данных и делать кластеризацию.

**Поиск болезней у растений**

Классический пример — автоматизация поиска болезней у растений. Более 40% урожая теряется из-за несвоевременного нахождения больного растения — приходится уничтожать изрядную часть урожая.

Кроме того, отслеживание корректного роста маржинальных растений (например, грибов ресторанного типа) позволяет добиться контролируемого результата в аграрном хозяйстве.

Своевременное определение болезни на ранней стадии позволяет купировать проблему.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/gentelmens.jpg" width="700" ></center>
<center><em>Кадр из к/ф Джентельмены</em></center>


[J.A.R.V.I.S. и помидорки](https://habr.com/ru/post/679218/) 

[A Review of Machine Learning Approaches in Plant Leaf Disease Detection and Classification](https://ieeexplore.ieee.org/document/9388488)

## Лекция 7 Улучшение сходимости нейросетей и борьба с переобучением

Научимся учить сети эффективно. Затронем:

* Регуляризацию весов и её эффект
* Как правильно нормализовать данные на входе?
* Как заставить отдельные нейроны учить простые паттерны?
* Как правильно инициализировать начальные веса?
* Как их оптимизировать в процессе?
* Как учить глубокую сеть?

Поговорим о практических приёмах обучения, о доверии к предсказанию модели.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/batchnorm.jpg" width="700" ></center>
<center><em>Ayoosh Kathuria. blog.paperspace.com/</em></center>


## Лекция 8 Реккурентные нейронные сети

Познакомимся с новым типом нейронных сетей, который умеет учитывать зависимости в последовательностях данных. В таких, как котировки акций или видеоряды. А ещё с помощью них можно переводить тексты! И не только.

Узнаете, что означают такие слова, как:

* RNN
* LSTM
* GRU

А ещё поговорим о том, как анализировать работу таких сетей применительно к текстам и сигналам.

Seq2Seq

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/nlp_speech_recognition.png" width="700" >

Область применения DL не ограничивается только изображениями. 

Они также весьма эффективны для распознавания голоса и машинного перевода.
В отличие от изображений, входные данные имеют другую структуру: это последовательность, длина которой заранее неизвестна.

Для работы с такого рода данными используются сети другого типа — рекуррентные (RNN — **Recurrent Neural Networks**).

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/rnn_architecture.png" width="700">








Данные подаются последовательно.
Каждый элемент данных может оказывать влияние на выход модели и менять ее состояние. 

Выход модели — это тоже последовательность (например, вход — это предложение на английском языке, выход — на русском). Преобразование одной последовательности в другую — это задача трансформации (**seq2seq**).


Дальше в курсе вы узнаете о развитии идей RNN, об архитектуре под названием **Transformer**, котрая практически вытеснила RNN.

## Лекция 8 Трансформеры

Узнаем, что у рекуррентных сетей есть ряд проблем, которые решаются с помощью архитеутур под названием "Трансформеры". Раскроем понятие механизма внимания - тем, на основе чего зиждется эта архитектура.

* Трансформеры для текста
* Трансформеры для изображений
* Трансформеры для других задач

А как можно научить свой трансформер в Colab? А как использовать уже готовый для своей задачи? А как анализировать его работу?

С помощью Трансформеров решаются задачи в совершенно разных доменов. Например, детектировать землетрясения.

[Earthquake transformer—an attentive deep-learning model for simultaneous earthquake
detection and phase picking](https://www.nature.com/articles/s41467-020-17591-w)

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/bert0.png" width="700" ></center>
<center><em>chernobrovov.ru</em></center>

## Лекция 9 Архитектуры CNN

Узнаем, что у рекуррентных сетей есть ряд проблем, которые решаются с помощью архитеутур под названием "Трансформеры". Раскроем понятие механизма внимания — того, на основе чего зиждется эта архитектура.

* Трансформеры для текста
* Трансформеры для изображений
* Трансформеры для других задач

А как можно научить свой трансформер в Colab? А как использовать уже готовый для своей задачи? А как анализировать его работу?

<center><img src ="https://edunet.kea.su/repo/EduNet-content/L09/out/senet_architecture.png"  width="1000"></center>


## Лекция 10 Explainability

Детально рассмотрим фишки, которые могут помочь вам в исследованиях.

Изучим методы Explainability для методов ML и DL, включающие такие методики, как визуализация весов и карт активаций нейросети, вывод отдельных частей изображения, соответствующих различным классам, и многое другое.

*  SHAP
*  LIME
*  Grad-Cam

Например, изучим, как именно нейросети определяют то, что изображено на картинке.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/lime.png" width="800" ></center>

<center><p><em>Source: <a href="https://homes.cs.washington.edu/~marcotcr/blog/lime/">LIME — Local Interpretable Model-Agnostic Explanations
</a></p> </em></center>

## Лекция 11 Обучение на реальных данных

Столкнёмся с жестоким реальным миром:

* Несбалансированные данные и методы работы с ними
* Как быть, если данных мало?
* Как быть, если данных совсем-совсем мало?
* Как обрабатывать данные с разной модальностью?


**Классификация сложных трёхмерных объектов**

В реальных задачах могут возникнуть такие специфические данные, как, например, 3D CAD модели. Данные крайне несбалансированы! Болтиков сотни различных вариантов, тогда как специфичных агрегатов единицы.

Для решения проблемы с классификацией таких разнородных объектов можно делать массу вещей:
* искать похожие данные
* использовать специальные предобученные сети
* генерировать новые данные
* специальные метрики и штрафы при обучении
* специальные стратегрии обучения

Это и многое другое мы и будем обсуждать на лекции.

<center><img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/transferlearning.png" width="700" ></center>


<center><em>medium.com/nerd-for-tech/domain-adaptation-problems-in-machine-learning-ddfdff1f227c</em></center>

## Лекция 12 Сегментация и детектирование

Научимся решать новые задачи: выделять отдельные сегменты в данных и детектировать объекты.

* Варианты постановки задач
* Наборы данных и структуры датасетов
* Специальные метрики для этих задач
* Типичные архитектуры
* А что делать, если несколько объектов разом на картинке? 
* А как оценить качество?


**Детектирование**

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/object_detection.jpg" width="500" >

[КЛАССИФИКАЦИЯ](https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B8) + [РЕГРЕССИЯ](https://proglib.io/p/ml-regression) ~= [ДЕТЕКТИРОВАНИЕ](https://robocraft.ru/blog/computervision/3640.html/)

[Nvidia example: How Does a Self-Driving Car See?](https://blogs.nvidia.com/blog/2019/04/15/how-does-a-self-driving-car-see/)


Задача поиска местоположения объекта в кадре —  задача **детектирования**. Она тесно связана с задачей классификации:

* Сначала обучается сеть, которая **классифицирует** изображения. То есть определяет, что на изображении присутствует человек. 

* Затем к такой сети добавляются несколько слоев, которые предсказывают координаты объектов. То есть решают задачу **регрессии**.

Знание координат объектов вокруг позволяет решать различные более сложные задачи: 

• Трекинг (отслеживание перемещения);

• Предсказание действий;

• SLAM (*simultaneous localization and mapping* — одновременная локализация и построение карты);

• Оценка расстояний до объектов.

<img src ="https://www.researchgate.net/profile/Udo-Frese/publication/220633576/figure/fig1/AS:671529876598789@1537116607128/What-is-Simultaneous-Localization-and-Mapping-SLAM-A-robot-observes-the-environment.png" width="600" >
<center><em>SLAM. Робот наблюдает за окружающей средой относительно своей собственной неизвестной позы. Также измеряется относительное движение робота. На основе этих входных данных алгоритм SLAM вычисляет оценки позы робота и геометрии окружающей среды. Камера робота измеряет относительное положение искусственных элементов на полу (желтые линии). Результат: положение робота в пространстве и его поза относительно кружков на полу. </em></center>



**Сегментация**

Порой недостаточно знать, что на изображении есть объект определенного класса. Важно, где именно расположен объект. В ряде случаев нужно знать еще и точные границы объекта. Например, если речь идет о рентгеновском снимке или изображении клеток ткани, полученном с микроскопа.

**Сегментация — определение того, какие фрагменты изображения принадлежат объектам определенных классов**.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/segmentation.png" width="700">

[U-Net: нейросеть для сегментации изображений](https://neurohive.io/ru/vidy-nejrosetej/u-net-image-segmentation/)

Задача: поиск аномалий (опухолей) и определение их четких границ.

Эта задача очень похожа на детектирование. Нужно найти, где находится объект. Но в данном случае нужно найти четкие границы. Желательно с точностью до пикселя. То есть **для каждого пикселя нужно предсказать, к какому объекту он относится**. 

**Получается попиксельный классификатор.**

Но проблема состоит в том, что пикселей много, и решать её в лоб — неэффективно.

Поэтому при сегментации используется подход, подобный тому, что при **кластеризации лиц:**

• Часть нейросети **сжимает изображение** — получается **карта признаков** (карта, потому что структура сохраняется);

• На этой карте **предсказываются границы** объектов;

• Вторая часть сети (симметрично первой) **восстанавливает размеры**.

## Лекция 13 Автоэнкодеры

Рассмотрим архитектуры автокодировщика и где их применяют:

* Очистка данных от шумов
* Понижение размерности данных
* Извлечение зависимостей из данных

Коснёмся проблем при их обучении, развитием архитектур для решения разнообразных задач.

**Поиск аномалий**

Все технологии, о корых мы упомянули, подразумевали наличие **размеченных данных**.
Но как быть, если требуется **обнаружить что-то** абсолютно **новое**? Например, инопланетный космический корабль, которго никто никогда раньше не видел?


**Supervised learning**

<img src="https://edunet.kea.su/repo/EduNet-content/L14/out/supervised_learning.png" alt="alttext" width="550">

**Unsupervised learning**

<img src="https://edunet.kea.su/repo/EduNet-content/L14/out/unsupervised_learning.png" alt="alttext" width="550">

Для этой задачи так же используется энкодер-декодер подход.

**Автоэнкодер**

<img src="https://edunet.kea.su/repo/EduNet-content/L14/out/nn_encoder_nn_decoder.png" alt="alttext" width="700">

Размерность входных данных понижается. Фактически изображение превращется в embedding. Затем из него восстанавливаеется исходное изображение.

Такую модель можно учить на имеющихся снимках, без необходимости их размечать.


И модель научится восстанавливать звезды, планеты галлактики - все объекты которые обычно поподают в поле зрения телескопа. Однако НЛО она восстановить не соможет. И сравнив исходное изображение с восстановленным мы сможем обнаружить редкий объект.

**Очистка данных**

Ту же технику можно применять для удаления шума из данных

Очистка снимков полученных с крипто-электронного микроскопа **cryo-EM** при помощи каскада автоэнкодеров.

<img src ="https://www.frontiersin.org/files/Articles/627746/fgene-11-627746-HTML/image_m/fgene-11-627746-g004.jpg" width="700" >

В первом ряду находятся исходные изображения. Во 2-м ряду показаны проекции структуры, в 3-м ряду показаны изображения с шумоподавлением, а в последнем ряду показаны изображения с шумоподавлением.

[2021 CDAE: A Cascade of Denoising Autoencoders for Noise Reduction in the Clustering of Single-Particle Cryo-EM Images](https://www.frontiersin.org/articles/10.3389/fgene.2020.627746/full)

## Лекция 14 Генеративные сети

Эта лекция будет сильно связана с предыдущей.

* Что нам сделать, чтобы создать новые данные, которых ранее не существовало?
* Или перенести стиль с одной картинки на другую? 
* А если мы хотим генерировать объекты с заданными свойствами?

Также мы рассмотрим альтернативные генераторы данных.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/face_generation_gan.png" width="1000" >

На базе концепции энкодер-декодер появились **генеративно-состязательные сети**.
**Сжатое представление**, которое получается на внутреннем слое сети, содержит **ключевые признаки** изображения, по которым декодер восстанавливает изображение.

Но сжатое представление содержит не всю информацию об изображении. А в зависимости от того, как будет идти процедура восстановления, мы можем получить **разные вариации** изображения.

*Почему состязательные?*

Поскольку сеть генерирует совершенно новое изображение, у нас нет шаблона, с которым мы могли бы его сравнить и дать оценку работы модели.
Поэтому для оценки качества работы первой сети (генератора) обучается вторая (дискриминатор), которая дает ответ на вопрос: похоже ли полученное изображение на настоящее или нет.

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/style_transfer_gan.jpg" >

С результатами работы таких моделей вы все хорошо знакомы по соцсетям и мобильным приложениям.
Помимо использования в развлекательных целях, эта технология широко используется и в научных работах.

**Очистка изображений галактик**

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/delete_noise_gan.png" width="700" >

##### $\color{brown}{\text{Подробнее}}$

Изображения, полученные при помощи телескопов, оказываются зашумленными по причинам:
- атмосферных помех;
- шумам, которые даёт сенсор телескопа.

Классический способ борьбы с этой проблемой состоит в подборе сигнала, похожего на суммарный шум (point spread function (PSF)), и последующей сверке изображения с этим сигналом.

[В данной работе](https://academic.oup.com/mnrasl/article/467/1/L110/2931732) для решения той же проблемы авторы статьи обучили GAN.
В качестве входных данных использовались изображения галактик.

*4550 galaxies from the Sloan Digital Sky Survey Data Release 12 (York et al. 2000; Alam et al. 2015)*

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/galaxys_after_gan.png" width="700" >

Изображения преобразовывались в RGB формат. И к ним искусственно добавлялись искажения, имитирующие шум от сенсора и размытие, возникающее за счёт потоков воздуха в атмосфере (PSF).
Датасет состоял из пар зашумленных и чистых изображений.

Генератор обучался на основе изображения с шумом генерировать чистое изображение, а дискриминатор отличал зашумленные изображения от чистых.

На первый взгляд результат впечатляет. Однако авторы признают, что на фотографиях, где присутствуют объекты, редко появляющиеся в датасете, результат хуже.

## Лекция 15 Обучение с подкреплением

К этой лекции мы уже подробно познакомимся с различными видами обучения. Данная лекция будет ещё об одном, сильно отличающемся типе обучения, основывающемся на понятиях **среда** и **субъект**, который в ней действует, получая награды.

Например, в эту область входит такая задача: какую статегию нужно выбрать студенту МГУ в этом семестре? Пойти ли на курс по нейросетям в науке или пойти работать в криптостартап? А может быть лучше посвятить этот семестр медитациям и чтению Капитала? А что будет эффективнее на промежутке в 5 лет?

Рассмотрим стандартные модельные задачи вроде балансировки маятника на тележке, посмотрим на программные пакеты, которые помогают решать подобные задачи, а также научимся писать своё решение с нуля.

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/gangnam.gif" width="900" ></center>

<center><em>Learning Acrobatics by Watching YouTube.
Xue Bin (Jason) Peng and Angjoo Kanazawa  </em></center>


[Исследования в Беркли по обучению роботов двигаться](https://bair.berkeley.edu/blog/2018/10/09/sfv/)

# Комбинированные задачи

Стоит отметить, что существуют работы, которые комбинируют в себе несколько задач разом. 

Зная структуру белка, можно рационально подойти к созданию лекарственного препарата, который должен с ним взаимодействовать. Или скорректировать крутой существующий белок из животных так, чтобы он не вызывал иммунного ответа у человека, и лечить человека им. А если обладать возможностью по последовательности строить структуру белка, то можно даже сделать свой искусственный белок, который будет выполнять функцию, для которой не существует белка природного — например, расщеплять пластик. В общем, пространство для маневра не ограничено, а горизонты широки.

Именно поэтому над проблемой получения структуры белка бьются многие научные (и не только) группы. Авторы AlphaFold2 обучают нейросеть, которая предсказывает расстояния и углы между атомами аминокислот в конечном белке, а также предсказывает структуру белка в 3D-виде.

AlphaFold появился на свет благодаря тому, что члены его команды обладали компетенциями в области биологии, физики, математики, алгоритмов глубокого обучения и оптимизации — то есть в области вычислительной биологии. 

### AlphaFold

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/alphafold.png" width="1000" >

##### $\color{brown}{\text{Подробнее про AlphaFold}}$

На данный момент существует важная задача — фолдинг белка. Белок синтезируются в клетке в виде соединённых последовательно аминокислот. Эта последовательность обычно известна и кодируется в геноме.

Однако после цепочка будет складываться в сложные пространственные структуры и от того, как эта структура будет выглядеть, зависит то, как белок будет себя вести в дальнейшем. Соответственно, понимание его особенностей служит ключом для производства лекарств и интерпретации генетических аномалий. 

В геноме человека могут происходить мутации — ошибки, которые могут приводить к изменению аминокислотной последовательности белка. 

Далеко не все мутации, которые есть в геноме, приведут к проблемам в конечной структуре, и если мы заранее будем знать, что одна мутация белка с дефектом, а другая безопасная, мы сможем предсказать вероятность развития болезни. 

Поскольку эти связи обусловлены достаточно сложными внутримолекулярными взаимодействиями, просчитать заранее, как будет выглядеть молекула, достаточно трудозатратно. На каждом этапе формирования действуют разные связи между аминокислотами (водородные связи, гидрофобные взаимодействия и пр.), тем самым образуя сложную структуру.

Рассчитать аналитически структуру, которая образуется в ходе этих взаимодействий, сложно, но можно применить для этого нейросеть, подав ей аминокислотную последовательность белка. 

Авторы AlphaFold2 обучают нейросеть, которая предсказывает расстояния и углы между атомами аминокислот в конечном белке, причем делает это итеративно, улучшая предсказание с предыдущего шага. Далее, специальный алгоритм преобразует это в набор координат атомов, что и является пространственной структурой белка. 
Этот трехмерный массив координат атомов можно визуализировать, и дальше структурные биологи могут делать вывод о том, получится конкретный белок дефектным или нет. 


А эти знания уже применяются в области производства лекарств. Например, есть база веществ и известно, какая у них структура. Имея структуру белка, можно предсказать, в каком месте и с какой формой белка они могут и должны соединяться. Соответственно, по базе данных можно найти вещества, которые будут с этим белком связаны и уже подобрать из имеющихся “претендентов” тот, который наилучшим образом будет работать. 

Про мутации. Есть базы данных нормальных и мутагенных белков, и мы можем сравнить то, что получилось у нас в результате фолдинга с эталоном и посмотреть, насколько большая разница в структурах (опять же, для этого нужны структурные биологи, так как не все части структуры белка равнозначны). И на основе этого уже предсказать, насколько опасна будет та или иная мутация. 



[Заявление от deepmind](https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery)

[Мнение структурных биологов](https://yakovlev.me/para-slov-za-alphafold2/?fbclid=IwAR23L8XigP7byPcx10o-4y5L3VTLRzDmuioqw99iKZ0SkPrauezrJJJayiM)



<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/alphafold_nn.png" width="900" >

[Improved protein structure prediction](https://www.nature.com/articles/s41586-019-1923-7)


# Базовые задачи

### Классификация

В общем случае **задача классификация выглядит следующим образом**.

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/classification_task.png" width="700" >


Классификация — **отнесение образца к одному из нескольких попарно не пересекающихся множеств**.

В качестве образцов могут выступать различные по своей природе объекты, например: 
* символы текста, 
* изображения, 
* звуки. 

При обучении сети предлагаются **пары образец - класс**. Образец, как правило, представляется как **вектор значений признаков**. При этом совокупность всех признаков должна однозначно определять класс, к которому относится образец. В случае, если признаков недостаточно, сеть может соотнести один и тот же образец с несколькими классами, что неверно. По окончании обучения сети ей можно предъявлять неизвестные ранее образы и получать ответ об их принадлежности к определённому классу.

### Регрессия

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/regression_task.png" width="700" >

Способности нейронной сети к прогнозированию напрямую следуют из её **способности к обобщению** и **выделению скрытых зависимостей** между входными и выходными данными. После обучения сеть способна **предсказать будущее значение** некой последовательности на основе нескольких предыдущих значений и (или) каких-то существующих в настоящий момент факторов. 

Прогнозирование возможно только тогда, когда предыдущие изменения действительно в какой-то степени предопределяют будущие. Например, прогнозирование котировок акций на основе котировок за прошлую неделю может оказаться успешным (а может и не оказаться), тогда как прогнозирование результатов завтрашней лотереи на основе данных за последние 50 лет почти наверняка не даст никаких результатов.

### Кластеризация

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/clustering_task.png" width="700" >



Кластеризация — **разбиение множества входных сигналов на классы, при том, что ни количество, ни признаки классов заранее не известны**. После обучения модель способна определять, к какому классу относится входной сигнал. Модель также может сигнализировать о том, что входной сигнал не относится ни к одному из выделенных классов — это является признаком новых, отсутствующих в обучающей выборке, данных. Таким образом, подобная модель может выявлять новые, неизвестные ранее классы сигналов. Соответствие между классами, выделенными сетью, и классами, существующими в предметной области, устанавливается человеком.

Относится к задачам **обучения без учителя**.

# План исследования

## Сбор и подготовка данных

Где можно добыть данные?

* Эксперименты в вашей лаборатории
* [Соревнования Kaggle](https://www.kaggle.com/)
* [Google Datasets](https://datasetsearch.research.google.com/)
* [Сайт Papers with Code](https://paperswithcode.com/)

Пройдитесь по соседним лабораториям. Напишите письма авторам статей.

По [ссылке](https://msu.ai/tpost/m6zdyji4l1-opublikovana-statya-na-habre) представлен гайд о том, какие типичные ошибки совершают исследователи. Изучите его подробно, когда будете обрабатывать данные. Особенно, если они собраны из нескольких источников.

Если вы используете данные, скачанные из сети, проверьте, откуда они. Описаны ли они в статье? Если да, посмотрите на документ; убедитесь, что он был опубликован в авторитетном месте, и проверьте, упоминают ли авторы какие-либо ограничения используемых датасетов.

Если данные использовались в ряде работ, это не гарантирует его высокое качество. **Иногда данные используются только потому, что их легко достать**.

Даже широко распорстранённые датасеты могут иметь ошибки или какую-то странную специфику. Например, при исследовании **ImageNet** были обнаружены миллионы изображений темнокожих, которые были помечены как "преступник". В итоге большая часть набора данных ImageNet была удалена.

<center><img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/imagenet_bugs.png" width="700" ></center>

Существуют [исследования](https://arxiv.org/abs/2211.01866), которые связывают странное поведение современных нейронных сетей и ошибки в разметке.

Если вы обучаете свою модель на плохих данных, то, скорее всего, у вас получится плохое решение задачи. Существует соответствующий термин **garbage in garbage out**. Всегда начинайте с проверки данных.

Проведите **разведывательный анализ данных**. Ищите недостающие или непоследовательные записи. Гораздо проще сделать это сейчас, до обучения модели, чем потом, когда вы будете пытаться объяснить рецензентам, почему вы использовали плохие данные.

Анализ важно провести независимо от того, используете ли вы существующие наборы данных или генерируете новые данные в рамках своего исследования (в этом случае учитывайте, что разведывательный анализ может быть ценен сам по себе, а результаты этого анализа могут стать важной частью вашей статьи).

Отдельным пунктом необходимо отметить, что помимо "содержания", важна и "форма" данных. Формат хранения ваших данных повлияет на скорость, с которой вы сможете завершить свое исследование. Например, у вас есть массив, который называется `ID` и в нем хранятся следующие данные `[1,30,111,221,234]` в формате `float64`. Проверьте, а точно ли тут нужен `float64`, возможно, ваши данные представлены целыми положительными числами, и для их хранения будет достаточно формата `uint32` или даже uint16 (подробный обзор форматов данных в [Understanding Data Types](https://jakevdp.github.io/PythonDataScienceHandbook/02.01-understanding-data-types.html)).

**Разберем на конкретном примере**
Скачаем датасет: **"Когда и где кого-то покусала собака в NYC**" и загрузим его в pandas. Подробно посмотрим только на 2 признака. Подробный анализ смотри [тут](https://habr.com/ru/post/664102/).

In [None]:
# Download dataset

#!wget https://data.cityofnewyork.us/api/views/rsgh-akpg/rows.csv?accessType=DOWNLOAD -O dogs.csv
!wget https://edunet.kea.su/repo/EduNet-web_dependencies/L01/dogs.csv -O dogs.csv

# Load into pandas and display a sample
import pandas as pd
dataset = pd.read_csv('dogs.csv')

Посмотрим на содержание.

In [None]:
dataset.head(3)

Проверим, есть ли дубликаты:

In [None]:
if len(dataset) == len(dataset.drop_duplicates()):
    print('Очевидных дупликатов нет')
else:
    print('%.2f процентов данных являются дубликатами' % len(dataset.drop_duplicates())/len(dataset) * 100)

**UniqueID**

Мы ожидаем, что в этой колонке каждому объявлению был присвоен уникальный `ID`. Судя по сэмплу, это просто порядковый номер, начинающийся с 1. Можем визуализировать эту колонку, что бы убедиться что там никаких сюрпризов.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.arange(len(dataset))
plt.xlabel('Index')
plt.ylabel('UniqueID')
plt.scatter(x, dataset['UniqueID'], s=0.1)
plt.show()

Можно заметить, что уникальных идентификаторов меньше чем строк в датафрейме. Давайте убедимся:

In [None]:
dataset['UniqueID'].max(), len(dataset['UniqueID'])

То есть ID повторяются? Судя по всему, в какой-то момент времени нумерация была запущена заново. А значит ID совсем даже не unique => использовать эту колонку как уникальный идентификатор мы не можем.

В каком формате хранятся данные в этой колонке?

In [None]:
dataset['UniqueID'].dtype

В int64 можно записывать целые числа в диапазоне **от -9223372036854775808 до 9223372036854775807**. Мы уже по графику видим, что знак нам не нужен, и что наше максимальное значение явно меньше. Определим какой у нас максимум.

In [None]:
dataset['UniqueID'].min(), dataset['UniqueID'].max()

Значит, нам подойдет **uint16** целое число без знака в диапазоне от 0 до 65535.

In [None]:
dataset_filtered = dataset.copy()
dataset_filtered['UniqueID'] = dataset['UniqueID'].astype('uint16')

Сколько памяти мы выиграли?

In [None]:
def resources_gain(column = 'UniqueID', orig_dataset=dataset, filtered_dataset=dataset_filtered):
    original_memory = orig_dataset[column].memory_usage(deep=True)
    memory_after_conversion = filtered_dataset[column].memory_usage(deep=True)
    gain = original_memory/memory_after_conversion
    print(f'Gain: {round(gain, 2)}')

resources_gain(column='UniqueID', orig_dataset=dataset, filtered_dataset=dataset_filtered)

Теперь колонка UniqueID занимает в 4 раза меньше места (а значит, и обрабатывается быстрее).

**DateOfBite**

В **DateOfBite**, судя по всему, записано время укуса, но в формате `str`. Нам было бы удобнее работать с timestamps.

In [None]:
dataset_filtered['DateOfBite'] = pd.to_datetime(dataset['DateOfBite'])

Оценим выигрыш в ресурсах

In [None]:
resources_gain(column='DateOfBite', orig_dataset=dataset, filtered_dataset=dataset_filtered)

Теперь проверим нет ли каких-то странных дат.

In [None]:
dataset_filtered['DateOfBite'].hist()
plt.show()

С датами все в порядке. Кстати можно заметить, что во время Ковида собакам было меньше кого кусать =)

## Извлечение закономерностей

Извлечение закономерностей — закон Ньютона 

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/newtons_law.png" width="700" >

На основе наблюдений люди выявляют закономерности и делают обобщение, наблюдая за реальным миром.
Результатом такой умственной деятельности является модель, описывающая некоторые процессы реального мира.

Она может быть описана при помощи математических формул или алгоритмического языка.

Сейчас появилась технология, которая может это делать вместо человека.

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/newtons_law_and_nn.png" width="700" >

**Это ML**

**ML** — это технология, которая позволяет выявлять закономерности в данных и обобщать их. 

Вы можете использовать её для поиска закономерностей, которые люди ещё не обнаружили и таким образом совершить открытие.
Правда, результатом обучения такой модели будет не компактная формула, а набор весов. 
По сути это набор коэффициентов для некоторого математического выражения.

Для этого нужно две вещи: **данные** и **валидация результата.**


<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/predictions_by_nn.png" width="600" >

Как человеку, так и алгоритму машинного обучения требуется подготовка данных.

Законы Ньютоны **не** сформулированы для яблок. Для описания закономерностей в науке используются абстракции: *сила, масса, ускорение.*

Данные для **ML** моделей тоже должны быть подготовлены. Типичная форма такой абстракции — вектор или n-мерный массив чисел.

Именно с такой формой представления данных работает большинство современных моделей.

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/nn_predict_patterns.png" width="700" >

## Валидация результата

Второй элемент, который потребуется для процесса обучения —  разработка способа оценки результата (*валидации*).

Вне зависимости от того, какой метод обучения используется — с учителем или без, требуется некий критерий, по которому будет оцениваться выход модели и впоследствии корректироваться веса.

В базовом варианте: полученный результат сравнивают с эталонным и если разница велика — корректируют модель.

## Пример ML задачи 


Поясним эту идею на конкретном примере. Допустим, у нас есть наручный шагомер, который фиксирует перемещения в пространстве. Скорее всего, в нем встроен акселерометр, который способен фиксировать перемещения по трем осям. На выходе мы получаем сигнал с трёх датчиков.

Если задача состоит в том, чтобы подсчитать количество шагов, то к её решению можно подойти двумя способами.




<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/accelerometer_task.jpg" width="700" >

#### Вариант №1

Классический: напишем программу. 
Если появилось ускорение по одной из осей, которое больше определенного порога, то мы создаем то условие, которое срабатывает. Позже мы выясним, что подобные сигнатурные сигналы с датчика могут поступить и при других определенных движениях, не связанных с шагами, например, во время плавания.
Добавляется дополнительное условие, которое фильтрует подобные ситуации. 

Находятся всё новые и новые исключения из общего правила, программа и ее алгоритмическая сложность будет расти.

Программу будет сложнее поддерживать из-за большого объема кода в ней. 
Изменение в одной из частей потребует внесение правок в другой код  и т.п.

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/accelerometr_solution_standart.png" width="700" >

#### Вариант №2

С появлением машинного обучения мы можем применить принципиально другой подход. 
Не задумываясь о том, что значат показания каждого из акселерометров, мы можем просто собрать некоторый архив данных за определенное время (возможно разбив на более короткие промежутки времени). Всё, что нам потребуется помимо этих данных — это информация о том, сколько было сделано реальных шагов. После этого данные загружаются в модель, и она на этих данных учится. При достаточном количестве данных и адекватно подобранной модели (чем мы и будем заниматься) мы сможем научить ее решать конкретные задачи (в данном случае — считать шаги). 

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/accelerometr_solution_nn.png" width="700" >

Стоит отметить, что по сути модели всё равно, что считать: шаги, сердечный ритм, количество калорий, ударов по клавиатуре и пр. Нет необходимости писать под каждый пример отдельную программу, достаточно собрать данные и мы сможем решить множество абсолютно разных задач. 

Важно лишь понимать, какую модель предпочтительнее выбрать. С этим мы и будем разбираться в ходе курса.

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/different_type_of_tasks.png" width="700" >

# Метрики

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/how_compute_model_accuracy.png" >

Невозможно создать хорошее решение, не определив меру "хорошести". Нужно определиться с тем, как оценивать результат.
Очень часто приходится слышать от заказчика вопрос со слайда.
Чаще всего ответ “99%” их более чем устраивает. 

В большинстве случаев такой ответ приводит к проблемам. Почему?

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/accuracy_problem_example.png" width="700" >

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/important_accuracy_factors.png" width="700">

1. Скорость перемещения  машины зависит от дороги: на дорогах бывают пробки, ограничивающие знаки, наконец, дороги бывают очень разного качества.

Всё это влияет на скорость перемещения и порой радикально.

Также и точность наших моделей в первую очередь зависит от данных, на которых мы будем их оценивать. Модель, которая отлично работает на одном датасете, может намного хуже работать на другом или не работать вовсе.

2. Машина может быть подвергнута тюнингу. Например, внедорожный тюнинг поможет преодолеть участок бездорожья, на котором неподготовленный автомобиль застрянет. Но при этом скорость на дорогах общего пользования может снизиться. Также и модель, как правило, имеет ряд параметров (гиперпараметров), от которых зависит её работа. Они могут подбираться в зависимости от задачи (ошибки первого и второго рода) и качества данных.

3. Само понятие скорости допускает вариации: речь идет о средней или максимальной скорости? Аналогично и для оценки моделей существует несколько метрик, применение которых, опять же, зависит от целей заказчика и особенностей данных.

**«На датасете X модель Y по метрике Z показала 99%».**


## Accuracy

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/simple_way_to_compute_accuracy.png" width="700" >

Интуитивно понятной, очевидной и почти неиспользуемой метрикой является accuracy — доля правильных ответов алгоритма.

**Какие есть недостатки у такого способа?**


<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/problem_of_simple_way_to_compute_accuracy.png" width="700" >

Accuracy нельзя использовать, если **данные не сбалансированы**. То есть в одном из классов больше представителей, чем в другом.

Также она не подойдет для задач сегментации и детектирования, если требуется не только определить наличие объекта на изображении, но и найти место, где он находится, то весьма желательно учитывать разницу в координатах.

## Precision, Recall

Для избегания этих проблем вводятся метрики "точность" и "полнота"

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/precision-recall.png" width="800" >

Для численного описания этих метрик необходимо ввести важную концепцию для описания в терминах ошибок классификации — **confusion matrix** (матрица ошибок).
Допустим, что у нас есть два класса и алгоритм, предсказывающий принадлежность каждого объекта одному из классов, тогда матрица ошибок классификации будет выглядеть следующим образом:


|      |$\large y=1$  |$\large y=0$   |
| ---  |---  |---   |
| $\large \widehat{y}=1$    |$\large True Positive (TP) $   | $\large False Positive (FP)   $  |
| $\large \widehat{y}=0$    |$\large False Negative (FN)$   | $\large True Negative (TN)     $ |




**Precision, recall**

Для оценки качества работы алгоритма на каждом из классов по отдельности введем метрики **precision (точность)** и **recall (полнота)**.


$\large precision = \frac{TP}{TP + FP}$


$\large recall = \frac{TP}{TP + FN}$

**Именно** введение **precision** не позволяет нам записывать все объекты в один класс, так как в этом случае мы получаем рост уровня False Positive. **Recall демонстрирует способность алгоритма обнаруживать данный класс вообще, а precision — способность отличать этот класс от других классов.**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn import metrics

fig, ax = plt.subplots(1,2, figsize=(15,6))
fig.tight_layout(pad=3.0)
plt.rcParams.update({'font.size': 16})
#font = {'size':'21'}
ax[0].set_title("Balanced data")
ax[1].set_title("Unbalanced data")

labels = ['Airplane', 'Auto', 'Bird']

#Balanced data
air, auto, bird = 150, 150,150
actual_b = np.array([0]*air + [1]*auto + [2]*bird)
predicted_b = np.array([0]*(air-10) + [1]*(auto+20) + [2]*(bird-10))

#Unbalanced data
air, auto, bird = 430, 10, 10
actual_ub = np.array([0]*air + [1]*auto + [2]*bird)
predicted_ub = np.array([0]*(air+20) + [1]*(auto-10) + [2]*(bird-10))

metrics.ConfusionMatrixDisplay(
confusion_matrix = metrics.confusion_matrix(actual_b, predicted_b), display_labels = labels).plot(ax=ax[0])

metrics.ConfusionMatrixDisplay(
confusion_matrix = metrics.confusion_matrix(actual_ub, predicted_ub), display_labels = labels).plot(ax=ax[1])

label_font = {'size':'15'}  # Adjust to fit
ax[0].set_xlabel('Predicted labels', fontdict=label_font);
ax[0].set_ylabel('True labels', fontdict=label_font);
ax[1].set_xlabel('Predicted labels', fontdict=label_font);
ax[1].set_ylabel('True labels', fontdict=label_font);

plt.show()

print('Accuracy Balanced  :', round(metrics.accuracy_score(actual_b, predicted_b), 2))
print('Accuracy Unbalanced:', round(metrics.accuracy_score(actual_ub, predicted_ub), 2))


**Accuracy**

Accuracy также можно посчитать через матрицу ошибок.

$\large accuracy = \frac{TP + TN}{TP + TN + FP + FN}$

 В случае многоклассовой классификации термины TP, FP, TN, FN считаются для каждого класса:


<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/confmatrix.png" width="600" >\

$\large Multiclass Accuracy = \frac{1}{n}\sum_{i=1}^{n} [actual_{i}==predicted_{i}]  =   \frac{\sum_{k=1}^{N} TP_{Ck} }{\sum_{k=1}^{N} (TP_{Ck} + TN_{Ck} + FP_{Ck} + FN_{Ck})}$

**Balanced accuracy**

В случае дисбаланса классов есть специальный аналог точности – сбалансированная точность. 

$\ BA = \frac{R_1 + R_0}{2} = \frac{1}{2} (\frac{TP}{TP + FN} + \frac{TN}{TN + FP})$

Для сбалансированного и несбалансированного случая она будет равна $0. 96$ и $0.33$ соответственно.

In [None]:
print('Banalced accuracy for Balanced data  :', round(metrics.balanced_accuracy_score (actual_b, predicted_b), 2))
print('Banalced accuracy for Unalanced data :', round(metrics.balanced_accuracy_score(actual_ub, predicted_ub), 2))

Для простоты запоминания – это среднее полноты всех классов.

## F-мера

Ошибки классификации бывают двух видов: **False Positive** и **False Negative**. Первый вид ошибок называют **ошибкой I-го рода**, второй — **ошибкой II-го рода**. Пусть студент приходит на экзамен. Если он учил и знает, то принадлежит классу с меткой 1, иначе — имеет метку 0 (знающего студента называем «положительным»). Пусть экзаменатор выполняет роль классификатора: ставит зачёт (т.е. метку 1) или отправляет на пересдачу (метку 0). Самое желаемое для студента «не учил, но сдал» соответствует ошибке 1 рода, вторая возможная ошибка «учил, но не сдал» – 2 рода.




<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/1_2_errors.png" width="600" >

Часто в реальной практике стоит задача найти **оптимальный** **баланс** между **Presicion и Recall**. Классическим примером является задача определения оттока клиентов.

**F-мера** (в общем случае $\ F_\beta$) — среднее гармоническое precision и recall :

$\large \ F_\beta = (1 + \beta^2) \cdot \frac{precision \cdot recall}{(\beta^2 \cdot precision) + recall}$


$\beta$ в данном случае определяет вес точности в метрике, и при $\beta = 1$ это среднее гармоническое (с множителем 2, чтобы в случае precision = 1 и recall = 1 иметь $\ F_1 = 1$).
F-мера достигает максимума при полноте и точности, равными единице, и близка к нулю, если один из аргументов близок к нулю.



Сбалансированная F-мера, β=1:

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/f1_balanced.png" width="500" >

При перекосе в точность ($β=1/4$):

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/f1_unbalanced.png" width="500" >

Более наглядно: низкие значения точности не позволяют метрике F вырасти.


<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/f1_lines.png" width="600" >

<center><em>Зависимость F1-меры от полноты при фиксированной точности. При точности 10% F1-мера не может быть больше 20%.</em></center>


В sklearn есть удобная функция **sklearn.metrics.classification_report**, возвращающая recall, precision и F-меру для каждого из классов, а также количество экземпляров каждого класса.

In [None]:
from sklearn.metrics import classification_report
y_true = [0, 1, 2, 2, 2]
y_pred = [0, 0, 2, 2, 1]
target_names = ['class 0', 'class 1', 'class 2']
print(classification_report(y_true, y_pred, target_names=target_names))

## AUC-ROC

Пусть решается задача бинарной классификации, и необходимо оценить важность признака $j$ для решения именно этой задачи. В этом случае можно попробовать построить классификатор, который использует лишь этот один признак $j$, и оценить его качество. Например, можно рассмотреть очень простой классификатор, который берёт значение признака $j$ на объекте, сравнивает его с порогом $t$, и если значение меньше этого порога, то он относит объект к первому классу, если же меньше порога — то к другому, нулевому или минус первому, в зависимости от того, как мы его обозначили. Далее, поскольку этот классификатор зависит от порога $t$, то его качество можно измерить с помощью таких метрик, как площадь под ROC-кривой или Precision-Recall кривой, а затем по данной площади отсортировать все признаки и выбирать лучшие.

Но вначале разберёмся, что такое **AUC-ROC**.

### Построение

ROC-кривой (ROC, receiver operating characteristic, кривой ошибок) традиционно называют график кривой, которая характеризует качество предсказаний бинарного классификатора на некоторой фиксированной выборке при всех значениях порога классификации. Площадь под графиком ROC кривой AUC (area under the curve) является численной характеристикой качества классификатора. Определим, как именно строится ROC-кривая через рассмотрение примера.

Вывод некоторого бинарного классификатора представлен в табл. 1. Упорядочим строки данной таблицы по убыванию значения вывода нашего бинарного классификатора и запишем результат в табл. 2. Если наш алгоритм справился с задачей классификации, то мы увидим в последней колонке также упорядоченные по убыванию значения (или случайное распределение меток 0 и 1 в противном случае).

<center><img src="https://edunet.kea.su/repo/EduNet-content/L04/out/roc_auc_data_example.png" alt="alttext" width=600/></center>

Приступим непосредственно к изображению графика ROC-кривой. Начнём с квадрата единичной площади и изобразим на нём прямоугольную координатную сетку, равномерно нанеся $m$ горизонтальных линий и $n$ - вертикальных. Число горизонтальных линий $m$ соответствует количеству объектов класса $1$ из рассматриваемой выборки, а число $n$ -- количеству объектов класса $0$. В нашем примере $m=3$ и $n=4$. Таким образом, квадрат единичной площади разбился на $m \times n$ прямоугольных блоков (на $12$ штук согласно нашему примеру).

Начиная из точки $(0, 0)$ построим ломанную линию в точку $(1, 1)$ по узлам получившейся решетке по следующему алгоритму: 
- рассмотрим последовательно все строки табл. 2
- оценка алгоритма для объекта из текущей строки не равна оценке для объекта из следующей:
- - если в строке содержится объект с меткой класса $1$, рисуем линию до следующего узла вертикально вверх
- - если в строке содержится объект с меткой класса $0$, рисуем линию до следующего узла горизонтально направо
- оценки для объектов в нескольких последующих строках совпадают:
- - нарисовать линию из текущего узла в узел, располагающийся на $k$ углов вертикально выше и на $l$ узлов левее. $k$ и $l$ соответственно равны количеству объектов класса $1$ и $0$ среди группы повторяющихся значений оценок классификатора

(всего потребуется не более $n + m$ шагов — столько же, сколько строк в нашей таблице)

<center><img src="https://edunet.kea.su/repo/EduNet-content/L04/out/make_roc_curve.png" alt="alttext" width=500/></center>

<center><em>Рис.1. Построение ROC-кривой.</em></center>

Справа на рис. 1 показана полученная для нашего примера кривая – эта изображенная на единичном квадрате ломанная линия и называется ROC-кривой. 

Вычислим площадь под получившийся кривой -- **AUC-ROC**. В нашем примере AUC-ROC $= 9.5 / 12 ~ 0.79$ и именно это значение является искомой метрикой качества работы нашего бинарного классификатора.
(Так как мы начали свое построение с квадрата единичной площади, то AUC-ROC может принимать значения в $[0,1]$) 


1. ROC-кривая абсолютно точного бинарного классификатора имеет вид $(0,0) \rightarrow (1,0) \rightarrow (1,1)$. ROC-AUC для такого идеального классификатора равен площади всего единичного квадрата.
2. ROC-кривая для всегда ошибающегося бинарного классификатора имеет вид $(0,0) \rightarrow (0,1) \rightarrow (1,1)$. ROC-AUC в этом случае равен нулю.
3. Если наш бинарный классификатор для всех объектов предскажет одно и то же значение, то его ROC-кривая будет иметь вид $(0,0) \rightarrow (1,1)$


<center><img src="https://edunet.kea.su/repo/EduNet-content/L04/out/various_roc_curves.png" alt="alttext" width=500/></center>

<center><em>Рис. 2. ROC-кривые для наилучшего (AUC=1), константного (AUC=0.5) и наихудшего (AUC=0) алгоритма.</em></center>


### Смысл метрики

Как можно заметить на рис. 3, координатная сетка, описанная в нашем алгоритме построения ROC кривой, разбила единичный квадрат на столько прямоугольников, сколько существовало в пар объектов класс-$0$ -- класс-$1$ в исследуемой выборке данных. Если теперь посчитать количество оказавшихся под ROC-кривой прямоугольников, то можно заметить что оно в точности равно числу верно классифицированных алгоритмом пар объектов -- то есть таких пар объектов противоположных классов, для которых алгоритм поставил большую по величине оценку для объекта класса $1$.

<center><img src="https://edunet.kea.su/repo/EduNet-content/L04/out/roc_auc_pairs_descripton.png" alt="alttext" width=200/></center>

<center><em>Рис. 3. Каждый блок соответствует паре объектов.</em></center>

Таким образом, **ROC-AUC равен части верно упорядоченных оценкой классификатора пар объектов противоположных классов (в которой объект класса $0$ получил оценку исследуемым классификатором ниже, чем объект класса $1$)**. Это явно записывается формулой:


$$\text{ROC-AUC} = \frac{\sum_{i=1}^{N} \sum_{j=1}^{N} I[y_{i} < y_{j}]I'[a_{i} < a_{j}] } {\sum_{i=1}^{N} \sum_{j=1}^{N} I[y_{i} < y_{j}]} $$


\begin{equation*}
I'[a_{i}< a_{j}] =
 \begin{cases}
   0, & \quad a_{i} > a_{j}, 
   \\
   0.5, & \quad a_{i} = a_{j},
   \\
   1, & \quad a_{i} < a_{j}.
 \end{cases}
\end{equation*}

\begin{equation*}
I[y_{i}< y_{j}] =
 \begin{cases}
   0, & \quad y_{i} \geq y_{j}, 
   \\
   1, & \quad y_{i} < y_{j}.
 \end{cases}
\end{equation*}

$ a_{i} $ — выходное значение классификатора на $i$-м  объекте, $ y_{i} $ — априорно верная метка класса для того же объекта, $N$ — полное число объектов.

Данное определение можно обобщить на задачу классификации непрерывного множества объектов. Пусть мы взяли два случайных объекта разных классов: $x_i$ класса $0$ и $x_j$, принадлежащий классу $1$. Тогда метрика ROC-AUC равна вероятности того, что в такой паре объектов объект класса $1$ получил оценку выше, нежели объект класса $0$:

$$\text{ROC-AUC}(a) = P(a(x_i) < a(x_j) | y_i=0, y_j=1)$$

# Инструменты

Рассмотрим примеры решения задач классификации на различных типах данных.

Будем использовать библиотеки:

* [NumPy](https://numpy.org/) — поддержка больших многомерных массивов и быстрых математических функций для операций с этими массивами.
* [scikit-learn](https://scikit-learn.org/stable/) — ML алгоритмы, "toy" — датасеты;
* [pandas](https://pandas.pydata.org/) — Удобная работа с табличными данными.

* [**PyTorch**](https://pytorch.org/) — Основной фреймворк машинного обучения, который будет использоваться на протяжении всего курса.

* [Matplotlib](https://matplotlib.org/) - Основная библиотека для визуализации. Вывод различных графиков.

* [Seaborn](https://seaborn.pydata.org/) - Удобная библиотека для визуализации статистик. Прямо из коробки вызываются и гистограммы, и тепловые карты, и визуализация статистик по датасету, и многое другое.

<img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/sns.png" width="1100" >

# Данные

## Связность данных

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/types_of_data.png" width="700" >

Большинство процессов и объектов, с которыми научились работать ML/DL модели, можно отнести к одному из перечисленных типов. Наша задача будет состоять в том, как данные из вашей предметной области свести к одному из них и представить в виде набора чисел. 

Для работы с различными типами данных используют разные типы моделей:

**Табличный**  — классические ML модели либо полносвязанные NN;

 **Последовательности** — рекуррентные сети + свёртка;
 
 **Изображения/видео** — 2,3 .. ND свёрточные сети.
 


В разных типах данных количество связей между элементами разное и зависит только от типа этих данных. Важно НЕ количество элементов, а СВЯЗИ между ними.


<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/connectivity_of_data_types.png" width="700" >

Данные мы можем условно делить по степени связанности. Это степень взаимного влияния между соседними элементами. 
Например, в таблице, в которой есть определенные параметры (например: рост, вес) данные между собой связаны, но порядок столбцов значения не имеет.
Если мы поменяем столбцы местами, то не потеряем никакой важной информации. 

Такие данные можно представить в виде вектора, но порядок элементов в нем не важен.

При работе с изображениями нам становится важно, как связаны между собой пиксели и по горизонтали, и по вертикали. 
При добавлении цвета появляются 3 RGB канала, и значения в каждом канале также связаны между собой. Эту связь нельзя терять, если мы хотим корректно извлечь максимум информации из данных. Соответственно, если дано цветное изображение, то у нас уже есть три измерения, в которых мы должны эти связи учитывать.

## Контейнеры

Мы будем работать с массивами 3 типов, которые переходят друг в друга:

* list — стандартный тип в Python
* numpy — массив
* torch.tensor

Где используются:

*   **ML**: list, numpy 
*   **DL**: torch.tensor 

### List

In [None]:
python_list = [[1,2,3],[4,5,6]]
python_list_various = ['a',15,123.8,[99,"I love you"],[True,True,False]]

print(python_list_various)
print(python_list)

В списке могут быть данные различных типов, в том числе подтипов произвольной длины.

### Numpy

* Массив может содержать данные только одного типа;   
* Размер данных во всех измерениям кроме 0-го должен совпадать

In [None]:
import numpy as np

numpy_arr = np.array(python_list, dtype = float)
print(numpy_arr)

# This code will cause an error
# invalid_numpy_arr = np.array([[1,2,3],[4,5]],dtype = float)

Благодаря этому над numpy-массивами можно выполнять различные математические операции.

In [None]:
vector = np.array([1,0,0])
row_diff = numpy_arr - vector
print("Substract row from array", row_diff)

scalar_product = numpy_arr.dot(vector)
print("Scalar product", scalar_product)

### Torch.Tensor

        'is a multi-dimensional matrix containing elements of a single data type.'

С точки зрения ограничений и функционала [torch.Tensor](https://pytorch.org/docs/stable/tensors.html) эквивалентен numpy-массиву.
Но дополнительно этот объект поддерживает две важных операции:

* Перенос данных на видеокарту (`my_tensor.to('cuda:0')`)
* Автоматический расчет градиентов  (`my_tensor.backward()`)

Эти возможности понадобятся нам в дальнейшем. Поэтому надо разобраться, как  работать с данными в этом формате. Тем более, что torch.Tensor легко преобразуется в numpy-массив и обратно.

In [None]:
import torch

my_tensor = torch.tensor(numpy_arr)
print("torch.Tensor\n",my_tensor,"\nshape =", my_tensor.shape)

squared_numpy = my_tensor.pow(2).numpy()
print("Numpy\n",squared_numpy,"\nshape =", squared_numpy.shape)

## Загрузка и визуализация данных

### Табличные данные

Пример работы с табличными данными. 
Классифицируем вина из [датасета](https://archive.ics.uci.edu/ml/machine-learning-databases/wine/) 

Задача будет состоять в том, чтобы по химическому составу определить производителя вина.

Количество экземпляров, полученных на тест от каждого из трех производителей, не одинаково.

Производитель №1 (class_1) 59 бутылок  
Производитель №2 (class_2) 71 бутылка  
Производитель №3 (class_3) 48 бутылок  

Этот датасет можно загрузить, используя модуль sklearn.datasets библиотеки [sklearn](https://scikit-learn.org/stable/), чем мы и воспользуемся.

In [None]:
import sklearn 
from sklearn.datasets import load_wine
#https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine

# Download dataset
dataset = load_wine(return_X_y = True) # also we can get data in Bunch (dictionary) or pandas DataFrame

features = dataset[0] # array 178x13 (178 bottles each with 13 features)
class_labels = dataset[1] # array of 178 elements, each element is a number the class: 0,1 2  
print("features shape:",features.shape)
print("class_labels shape:",class_labels.shape)

In [None]:
dataset

**Визуализация данных**


Если параметр 
    
    return_X_y == False

то данные вернутся не в виде массива, а в объекте [Bunch](https://scikit-learn.org/stable/modules/generated/sklearn.utils.Bunch.html#sklearn.utils.Bunch).

Обращаться к нему можно, как к обычному словарю в Python. Кроме того, у него есть свойство, соответствующее каждому полю данных.

Чтобы отобразить данные в виде таблицы, преобразуем их в формат pandas.DataFrame.


In [None]:
# Import library to work with tabular data: https://pandas.pydata.org/
import pandas as pd 

dataset_bunch = load_wine(return_X_y = False)
print(dataset_bunch.keys())

df = pd.DataFrame(dataset_bunch.data, columns=dataset_bunch.feature_names)
df.head()

Каждая строка в таблице может быть интерпретирована как вектор из 13 элементов. Можно интерпретировать такой вектор как координаты точки в 13-мерном пространстве. Именно с таким представлением работает большинство алгоритмов машинного обучения. 

### Изображения

**Загрузка**

Загрузим датасет CIFAR-10. Он состоит из 60000 цветных изображений размером 32x32. На картинках объекты 10 классов.

Для его загрузки используем библиотеку torchvision.

Пакет torchvision входит в число предустановленных в colab.

Датасеты из torcvision изначально поддерживают механизм transforms 
и разбивку на тестовые и проверочные подмножества. Нам не придется добавлять их вручную.


In [None]:
from torchvision import datasets

train_set = datasets.CIFAR10("content", train = True,  download = True)
val_set = datasets.CIFAR10("content", train = False, download = True)

Выведем несколько картинок вместе с метками. 

In [None]:
import pickle
plt.rcParams["figure.figsize"] = (20,10)

# load labels names for visualization
with open("content/cifar-10-batches-py/batches.meta",'rb') as infile:
  cifar_meta = pickle.load(infile)
labels_name = cifar_meta['label_names']

for j in range(10):
  img, label = train_set[j]
  plt.subplot(1, 10 ,j+1)
  plt.imshow(img)
  plt.axis('off')  
  plt.title(labels_name[label])

Посмотрим, в каком виде хранятся картинки в памяти:

In [None]:
train_set[0]

Оказывается, в формате [PIL](https://pillow.readthedocs.io/en/stable/reference/Image.html).

Чтобы обучать модель, нам придётся преобразовать их в тензоры. 
Используем для этого transforms и Dataloder.

Выведем размеры получившихся тензоров:

In [None]:
from torch.utils.data import DataLoader
from torchvision import transforms

val_set.transform = transforms.Compose([ transforms.ToTensor() ]) # PIL Image to Pytorch tensor
val_loader = DataLoader(val_set, batch_size=8, shuffle=False)

for batch in val_loader:
  imgs, labels = batch
  print(len(batch))
  print("Images: ",imgs.shape)
  print("Labels: ",labels.shape)
  print(labels)
  break

**Разберемся с размерностями:**

На каждой итерации dataloader возвращает кортеж из двух элементов.
* Первый элемент — это изображения;
* Второй — метки классов.

Количество элементов в каждом равно batch_size, в данном примере — 8.

Изображение:  
3 — C, каналы (в отличие от PIL и OpenCV они идут сначала);  
32 — H, высота;  
32 — W, ширина. 

Метки: числа от 0 до 9 по количеству классов.

**Создадим модель-заглушку**

Она не будет ничего предсказывать, только возвращать случайный номер класса.

В методе fit данные просто запоминаются. Этот фрагмент кода можно будет использовать при выполнении практического задания.


In [None]:
class FakeModel(torch.nn.Module):
  def __init__(self):
    super().__init__()
    self.train_data = None
    self.train_labels = None

  def fit(self,x,y):
    # Simple store all data
    self.train_data = torch.vstack((self.train_data,x)) if self.train_data != None else x
    self.train_labels = torch.hstack((self.train_labels,y)) if self.train_labels != None else y
   
  def forward(self,x):
    # x is a batch, not a single sample!
    # Return random number instead of predictions
    class_count = torch.unique(self.train_labels).shape[0]
    # https://pytorch.org/docs/stable/generated/torch.randint.html#torch-randint
    # size is shape of output tensor
    label = torch.randint(low = 0, high = class_count-1, size = (x.shape[0],)) 
    return label

**Запустим процесс "обучения"**

In [None]:
train_set.transform = transforms.Compose([ transforms.ToTensor(),  ]) # PIL Image to Pytorch tensor
train_loader = DataLoader(train_set, batch_size=1024, shuffle=True)

model = FakeModel()

for img_batch, labels_batch in train_loader:
  model.fit(img_batch, labels_batch)

Проверим работу модели на нескольких изображениях из тестового набора данных:

In [None]:
img_batch, label_batch = next(iter(val_loader))
predicted_labels = model(img_batch)

for i, predicted_label in enumerate(predicted_labels):
  img = img_batch[i].permute(1,2,0).numpy()*255  
  plt.subplot(1, len(predicted_labels),i+1)
  plt.imshow(img.astype(int))
  plt.axis('off')
  plt.title(labels_name[int(predicted_label)])

Посчитаем точность:

In [None]:
from sklearn.metrics import accuracy_score

accuracy = []
for img_batch, labels_batch in val_loader:
  predicted = model(img_batch)
  batch_accuracy = accuracy_score(labels_batch, predicted)
  accuracy.append(batch_accuracy)

print("Accuracy",torch.tensor(accuracy).mean())

Будем повышать точность. В ходе выполнения практического задания заменим заглушку в методе predict реальным алгоритмом. Используем алгоритм [K- Nearest Neighbor](https://colab.research.google.com/drive/1_5tGxAoxrWulPmwK2Ht9BHGsS-EpxVo0?usp=sharing)



### Временные ряды

<center><img src ="https://edunet.kea.su/repo/EduNet-web_dependencies/L01/timeseries.png" width="850"></center>
<center><i>Типичный пример временного ряда</center></i>

Особенно хотелось бы поговорить о временных рядах. Особенностью таких данных является связность, наличие "настоящего", "прошедшего" и "будущего".

<center><img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/ts_split.png" width="850"></center>
<center><i>Разбиение данных временных рядов на подвыборки</center></i>

[Статья на хабре об анализе временных рядов на Python](https://habr.com/ru/company/ods/blog/327242/)

# Оценка результата

## Разделение train-validation-test 

#### Переобучение

Давайте ограничим пространство гипотез только линейными функциями от $m + 1$ аргумента, будем считать, что нулевой признак для всех объектов равен единице $x_0 = 1$:

$\Large \begin{array}{rcl} \forall h \in \mathcal{H}, h\left(\vec{x}\right) &=& w_0 x_0 + w_1 x_1 + w_2 x_2 + \cdots + w_m x_m \\ &=& \sum_{i=0}^m w_i x_i \\ &=& \vec{x}^T \vec{w} \end{array}$


Эмпирический риск (функция стоимости) принимает форму среднеквадратичной ошибки:

$\Large \begin{array}{rcl}\mathcal{L}\left(X, \vec{y}, \vec{w} \right) &=& \frac{1}{2n} \sum_{i=1}^n \left(y_i - \vec{x}_i^T \vec{w}_i\right)^2 \\ &=& \frac{1}{2n} \left\| \vec{y} - X \vec{w} \right\|_2^2 \\ &=& \frac{1}{2n} \left(\vec{y} - X \vec{w}\right)^T \left(\vec{y} - X \vec{w}\right) \end{array}$

Строки матрицы $X$ — это признаковые описания наблюдаемых объектов. Один из алгоритмов обучения $\mathcal{M}$ такой модели — это метод наименьших квадратов. Вычислим производную функции стоимости:
$\Large \begin{array}{rcl} \frac{\partial \mathcal{L}}{\partial \vec{w}} &=& \frac{\partial}{\partial \vec{w}} \frac{1}{2n} \left( \vec{y}^T \vec{y} -2\vec{y}^T X \vec{w} + \vec{w}^T X^T X \vec{w}\right) \\ &=& \frac{1}{2n} \left(-2 X^T \vec{y} + 2X^T X \vec{w}\right) \end{array}$

Приравняем к нулю и найдем решение в явном виде:

$\Large \begin{array}{rcl} \frac{\partial \mathcal{L}}{\partial \vec{w}} = 0 &\Leftrightarrow& \frac{1}{2n} \left(-2 X^T \vec{y} + 2X^T X \vec{w}\right) = 0 \\ &\Leftrightarrow& -X^T \vec{y} + X^T X \vec{w} = 0 \\ &\Leftrightarrow& X^T X \vec{w} = X^T \vec{y} \\ &\Leftrightarrow& \vec{w} = \left(X^T X\right)^{-1} X^T \vec{y} \end{array}$

Поздравляю, дамы и господа, мы только что с вами вывели алгоритм машинного обучения. Реализуем же этот алгоритм.

Начнем с датасета, состоящего всего из одного признака. Будем брать случайную точку на синусе и добавлять к ней шум — таким образом получим целевую переменную; признаком в этом случае будет координата $x$:


In [None]:
def generate_wave_set(n_support=1000, n_train=25, std=0.3):
    data = {}
    # выберем некоторое количество точек из промежутка от 0 до 2*pi
    data['support'] = np.linspace(0, 2*np.pi, num=n_support)
    # для каждой посчитаем значение sin(x) + 1
    # это будет ground truth
    data['values'] = np.sin(data['support']) + 1
    # из support посемплируем некоторое количество точек с возвратом, это будут признаки
    data['x_train'] = np.sort(np.random.choice(data['support'], size=n_train, replace=True))
    # опять посчитаем sin(x) + 1 и добавим шум, получим целевую переменную
    data['y_train'] = np.sin(data['x_train']) + 1 + np.random.normal(0, std, size=data['x_train'].shape[0])
    return data

data = generate_wave_set(1000, 250)

In [None]:
from matplotlib import pyplot as plt
from matplotlib.pyplot import figure

figure(figsize=(8, 6), dpi=80)

print ('Shape of X is', data['x_train'].shape)
print ('Head of X is', data['x_train'][:10])

margin = 0.3
plt.plot(data['support'], data['values'], 'b--', alpha=0.5, label='manifold')
plt.scatter(data['x_train'], data['y_train'], 40, 'g', 'o', alpha=0.8, label='data')
plt.xlim(data['x_train'].min() - margin, data['x_train'].max() + margin)
plt.ylim(data['y_train'].min() - margin, data['y_train'].max() + margin)
plt.legend(loc='upper right', prop={'size': 20})
plt.title('True manifold and noised data')
plt.xlabel('x')
plt.ylabel('y')
plt.show()

А теперь реализуем алгоритм обучения, используя магию NumPy:

In [None]:
# добавим колонку единиц к единственному столбцу признаков
X = np.array([np.ones(data['x_train'].shape[0]), data['x_train']]).T
# перепишем, полученную выше формулу, используя numpy
# шаг обучения - в этом шаге мы ищем лучшую гипотезу h
w = np.dot(np.dot(np.linalg.inv(np.dot(X.T, X)), X.T), data['y_train'])
# шаг применения: посчитаем прогноз
y_hat = np.dot(w, X.T)

In [None]:
margin = 0.3
figure(figsize=(8, 6), dpi=80)
plt.plot(data['support'], data['values'], 'b--', alpha=0.5, label='manifold')
plt.scatter(data['x_train'], data['y_train'], 40, 'g', 'o', alpha=0.8, label='data')

plt.plot(data['x_train'], y_hat, 'r', alpha=0.8, label='fitted')

plt.xlim(data['x_train'].min() - margin, data['x_train'].max() + margin)
plt.ylim(data['y_train'].min() - margin, data['y_train'].max() + margin)
plt.legend(loc='upper right', prop={'size': 20})
plt.title('Fitted linear regression')
plt.xlabel('x')
plt.ylabel('y')
plt.show()

Как мы видим, линия не очень-то совпадает с настоящей кривой. Среднеквадратичная ошибка равна 0.26704 условных единиц. Очевидно, что если бы вместо линии мы использовали кривую третьего порядка, то результат был бы куда лучше. И, на самом деле, с помощью линейной регрессии мы можем обучать нелинейные модели.


В линейной регрессии мы ограничивали пространство гипотез только линейными функциями от признаков. Давайте теперь расширим пространство гипотез до всех полиномов степени $p$. Тогда в нашем случае, когда количество признаков равно одному $m=1$, пространство гипотез будет выглядеть следующим образом:

$\Large \begin{array}{rcl} \forall h \in \mathcal{H}, h\left(x\right) &=& w_0 + w_1 x + w_1 x^2 + \cdots + w_n x^p \\ &=& \sum_{i=0}^p w_i x^i \end{array}$


Если заранее предрассчитать все степени признаков, то задача опять сводится к описанному выше алгоритму — методу наименьших квадратов. Попробуем отрисовать графики нескольких полиномов разных степеней.


In [None]:
# список степеней p полиномов, который мы протестируем
degree_list = [1, 2, 3, 5, 7, 10, 13]

cmap = plt.get_cmap('jet')
colors = [cmap(i) for i in np.linspace(0, 1, len(degree_list))]

margin = 0.3
figure(figsize=(10, 8), dpi=80)
plt.plot(data['support'], data['values'], 'b--', alpha=0.5, label='manifold')
plt.scatter(data['x_train'], data['y_train'], 40, 'g', 'o', alpha=0.8, label='data')

w_list = []
err = []

for ix, degree in enumerate(degree_list):
    # список с предрасчитанными степенями признака
    dlist = [np.ones(data['x_train'].shape[0])] + \
                list(map(lambda n: data['x_train']**n, range(1, degree + 1)))
    X = np.array(dlist).T
    w = np.dot(np.dot(np.linalg.inv(np.dot(X.T, X)), X.T), data['y_train'])
    w_list.append((degree, w))
    y_hat = np.dot(w, X.T)
    err.append(np.mean((data['y_train'] - y_hat)**2))
    plt.plot(data['x_train'], y_hat, color=colors[ix], label='poly degree: %i' % degree)

plt.legend()
plt.show()

####   Разбиение данных на обучающую и тестовую выборки 

Самым простым способом научиться чему-либо является "запомнить всё".

Вспомним "Таблицу умножения". Если мы хотим проверить умение умножать, то проверки примерами из таблицы умножения будет недостаточно, ведь она может быть полностью запомнена. Нужно давать новые примеры, которых не было в таблице умножения (обучающей выборке).

Если модель "запомнит всё", то она будет идеально работать на данных, которые мы ей показали, но может вообще не работать на любых других данных.

С практической точки зрения важно, как модель будет вести себя именно на незнакомых для неё данных. То есть насколько хорошо она научилась обобщать закономерности, которые в данных присутствовали (если они вообще существуют).

Для оценки этой способности набор данных разделяют на две, а иногда даже на три части:

* train — Данные, на которых модель учится;
* validation/test — Данные, на которых идет проверка.

В `sklearn.model_selection` есть модель для разделения массива данных на тренировочную и тестовую часть. 

In [None]:
# Split data
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(data['x_train'], data['y_train'], test_size=0.2) # 80% training and 20% test

print("X_train shape",X_train.shape)
print("X_test shape",X_test.shape)

А мы в дальнейшем будем пользоваться аналогичными инструментами библиотеки PyTorch.

## Примеры ошибок в данных и при разбиении

Машинное обучение не только об алгоритмах, **но и о данных**. В этой части лекции мы разберем ряд ошибок, допускаемых при работе с данными и их разбиением.

### Утечка данных

Утечкой данных называется ситуация, когда в процессе обучения модели используется информация, которая не будет доступна при ее последующем использовании. Это приводит к **завышению** оценки **качества** модели.

Самый простой пример утечки данных — это **дублирование** одних и тех же объектов в **train** и **test** выборках. 

 #### Дублирование данных 

Дублирование данных часто случается при сборе данных из различных источников. Посмотрим, чем оно опасно. 

Для **примера** возьмем 10 картинок из CIFAR-10. Будем считать это train данными.

In [None]:
import numpy as np

from torchvision import datasets
from sklearn.model_selection import train_test_split


np.random.seed(42)

dataset = datasets.CIFAR10("content", train=True, download=True)

data, _, labels, _ = train_test_split(dataset.data / 255,   # normalize
                                      np.array(dataset.targets),
                                      train_size=10,        # get only 10 imgs
                                      random_state=42,
                                      stratify=dataset.targets)
print(data.shape)

In [None]:
import matplotlib.pyplot as plt
fig, axs = plt.subplots(nrows=2, ncols=5, figsize=(10, 5))
for i in range(10):
    axs[i//5][i%5].imshow(data[i])
    axs[i//5][i%5].set_title(labels[i])
plt.show()

Предположим, картинка из train оказалась в test. Выберем картинку из этих 10 и применим алгоритм k-nearest neighbors (k-NN, k=1).

In [None]:
x_test = data[3]

# L1 distance
def compute_L1(a, b):
    return np.sum(np.abs(a - b))

# distance calculation
distances = []
for i in range(10):
    l1 = compute_L1(x_test, data[i])
    distances.append(l1)

distances = np.array(distances)
print(distances)

In [None]:
indx = np.argmin(distances)
print(indx)

In [None]:
data_test, _, labels_test, _ = train_test_split(dataset.data / 255,   # normalize
                                      np.array(dataset.targets),
                                      train_size=10,        # get only 10 imgs
                                      random_state=24,
                                      stratify=dataset.targets)

Ближайшим соседом для картинки, просочившейся в test, стала эта же картинка.

Если все данные из test будут присутствовать в train, то мы просто будем искать эту же картинку в train с чем алгоритм k-nearest neighbors с $k=1$ справляется идеально. Итогом станет $accuracy = 1$ на выходе. Но с применением на незнакомой картинке результат будет хуже. 

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=5, figsize=(10, 5))
for i in range(10):
    axs[i//5][i%5].imshow(data_test[i])
    axs[i//5][i%5].set_title(labels_test[i])
plt.show()

In [None]:
x_test = data_test[1]

# distance calculation
distances = []
for i in range(10):
    l1 = compute_L1(x_test, data[i])
    distances.append(l1)

distances = np.array(distances)
print(distances)

indx = np.argmin(distances)
print(labels[indx])

Смотрим картинки с train. Ближайшим соседом для кота стала лягушка. 

**Если вы получили $accuracy = 1$, то, скорее всего, вы что-то делаете не так!**

#### Утечка, спрятанная в признаках 

Данные, используемые для обучения могут содержать “подсказки” для модели, которых не будет в реальных данных.

Самый простой **пример**: таблица со столбцом - порядковым номером строки `row_number`, в которую сначала записали все данные, принадлежащие классу -1, а потом все данные, принадлежащие классу +1. Если не удалить этот столбец из данных, то вместо выделения сложных закономерностей модель будет искать решение в виде `if row_number > N`. В реальных данных записи не будут упорядочены. 


**Примером** датасета, в котором нумерация строк может “все испортить”, является  [Iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris). Посмотрим на значения target этого набора данных. 

In [None]:
import sklearn.datasets

iris = sklearn.datasets.load_iris()
print(iris.target)

Утечка часто может прятаться в метаданных записи: столбец id, название файла, время записи/загрузки и т.д.

Иногда “подсказки” спрятаны внутри признаков, поэтому важно понимать с какими данными вы работаете и какую задачу решаете. 

**Пример:** у вас есть истории болезней пациентов с подозрением на онкологию. Необходимо решить задачу постановки диагнозов для новых пациентов. Вы обучаете модель и получаете подозрительно хороший результат. Начинаете разбираться и понимаете, что в данных, на которых обучалась модель присутствует отметка о назначении пациенту химиотерапии, которая назначается только после определения диагноза. 

### Shortcut learning и репрезентативность данных 

Shortcut learning — это термин, которым обозначается ситуация, когда модель принимает правильное решение по неправильной причине: “right for the wrong reasons". 

**Пример:** необходимо было обучить нейросеть отличать хаски от волка. Для обучения были выбраны фотографии хаски на фоне зелени и волков на фоне снега, вместо того, чтобы учиться отличать мордочки нейросеть научилась делать предсказание по фону. 

<center><img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/husky.png" width="850"></center>
<center><i>Первая строка — обучающие данные (обратите внимания, что все хаски были сфотографированы летом, а волки зимой). Вторая строка — тестовые данные (нейросеть выучила, что лето — это признак хасок, поэтому она неправильно предсказывает класс волков).</center></i>

Очень важно, чтобы данные, на которых происходит обучение были **репрезентативными**.

**Пример**: рассмотрим датасет фотографий объектов, где изображения в обучающем и тестовом наборе были получены на открытом воздухе в солнечный день. Нет гарантии что модель, обученная на таких данных, будет хорошо работать в любую погоду, а значит при оценке на тесте мы получим завышенный результат. 

**Пример:** для обучения вы используете томограф из одного госпиталя, а оценку качества модели проводите на томографе из другого госпиталя. Если модель не учитывает характеристики оборудования, она, скорее всего, не будет обобщаться на томограф из второй больницы, но на датасете из первого госпиталя, эту ошибку не отловить.

### Разделение на train и test

#### Перемешивание данных


Как мы уже упоминали, метки классов в датасете могут быть распределены неравномерно. Для того, чтобы сохранить соотношение классов при разделении на train и test, необходимо указать параметр `stratify` при разбиении.

Еще одним параметром, используемым при разбиении, является `shuffle` (значение по умолчанию `True`). При `shuffle = True` датасет перед разбиением перемешивается.

Посмотрим на разбиение датасета Iris. Для наглядности будем делить датасет 
пополам. 

In [None]:
def count_lables(lables):
    lable_count = {}
    for item in lables:
        if item not in lable_count:
            lable_count[item] = 0
        lable_count[item] += 1
    return lable_count

def print_split_stat(X_train, X_test, y_train, y_test):
    print("Train labels: ", y_train)
    print("Test labels:  ", y_test)
    print("Train statistics: ", count_lables(y_train))
    print("Test statistics:  ", count_lables(y_test))

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

data, labels = load_iris(return_X_y=True)
print("DataSet labels: ", labels)
print("DataSet statistics: ", count_lables(labels))

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data, labels, train_size=0.5,
                                                    shuffle = False, 
                                                    random_state=42)

print_split_stat(X_train, X_test, y_train, y_test)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data, labels, train_size=0.5, 
                                                    random_state=42)

print_split_stat(X_train, X_test, y_train, y_test)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data, labels, train_size=0.5, 
                                                    random_state=42, stratify=labels)

print_split_stat(X_train, X_test, y_train, y_test)

В некоторых случаях данные нельзя перемешивать. Это касается задач в которых мы пытаемся предсказать будущее. В таких задачах train должен предшествовать test по времени. Более подробно об этом будет рассказано в лекции про рекуррентные нейронные сети. 


#### Данные из различных источников

При использовании данных из различных источников нужно учитывать это при разбиении. 

**Пример:** вы анализируете данные ЭКГ на предмет патологий. У вас есть три источника данных:
* аппарат ЭКГ в кардиологическом отделении (много патологий),
* аппарат ЭКГ, который используют на медосмотрах (мало патологий),
* аппарат ЭКГ из приемного покоя больницы (среднее число патологий). 

Каждый прибор имеет свои особенности: характерные шумы, точность измерения и т.п. Если модель научится определять с какого прибора пришли данные она получит “подсказку”, которой не будет при поступлении данных с “незнакомого” прибора. Хорошим решением будет оставить данные с аппарата ЭКГ из приемного покоя больницы для test, а обучаться только на данных с аппарата ЭКГ в кардиологическом отделении и аппарата ЭКГ, который используют на медосмотрах. Это позволит оценить, как обученная модель работает с “незнакомым" прибором.


## Подбор гиперпараметров на тестовой выборке

### Гиперпараметры модели

В домашнем задании вы будете решать задачу классификации изображений CIFAR-10 (набор фотографий разделенных на 10 классов) метдом ближайших соседей k-NN. С использованием расстояний L1 (*Manhatten distance* — сумма абсолютных разностей между пикселями) и L2 (*Euclidian distance*).


<img src ="https://edunet.kea.su/repo/EduNet-content/L02/out/l1_manhattan_and_l2_euclidian_distance.png" width="600">

С метриками L1 и L2 мы будем сталкиваться часто: и в качестве loss функции (функции ошибки, которую мы будем пытаться минимизировать при обучении), и в качестве регуляризации (для ограничения величины весовых коэффициентов в линейных слоях с целью сокращения переобучения). Более подробно о применении L1 и L2 вы узнаете позже, в этой и последующих лекциях.

Другим параметром модели, который вы будете варьировать, будет количество ближайших соседей k.

Итого, у нас есть два параметра модели (будем называть их гиперпараметрами), которые мы можем настраивать:
* метрика расстояния,
* количество ближайших соседей k.

В дальнейшем мы столкнемся с другими гиперпараметрами. Например, мы 
можем попробовать использовать другую модель и выбор модели тоже станет гиперпараметром решаемой задачи. 

### Проблема подбора гиперпараметров 


Как решать проблему подбора гиперпараметров? Первое, что приходит в голову: давайте посчитаем accuracy для тестовой выборки для множества гиперпараметров и выберем лучший. Каждый раз, когда мы заглядываем в test чтобы изменить параметры мы подстраиваемся под test, и это плохо!

Интуицию о том, что это плохо можно получить сравнив Public и Private Score в Leaderbord соревнования на [Kaggle](https://www.kaggle.com/). Kaggle - это платформа для соревнований по анализу данных и машинному обучению. Чаще всего соревнование проводится следующим образом: участникам предоставляются датасеты, разделенные на train с целевой разметкой target и test, для которого необходимо сделать предсказание predict в нужном формате. Отправленное предсказание predict делится на две части: Public и Private. По этим частям считаются очки Score, характеризующие качество результата и формируются таблицы лидеров Leaderboard. Public Leaderboard - доступен всем желающим в любое время. Private Leaderboard - доступен только по окончанию соревнования и именно по нему раздают призы. Частая ошибка новичка - начать подстраивать модель по Public Leaderboard.
Часто в Private Leaderboard можно видеть участника, который сдвинулся на десятки строчек вниз.

[Leaderbord соревнования](https://www.kaggle.com/competitions/allstate-purchase-prediction-challenge/leaderboard)

Чтобы понять, что происходит, попробуем смоделировать ситуацию, когда мы просто пытаемся угадать predict, не анализируя данные, но ориентируясь на Public Score.
Предположим, у нас есть соревнование по бинарной классификации (два класса 1 и 0), со следующим target.

In [None]:
import random

random.seed = 42
target = [random.randint(0, 1) for _ in range(200)]

Разделим на Public и Private.

In [None]:
target_public = target[:100]
target_private = target[100:]

Для подбора ответа будем использовать следующий алгоритм:
1. Генерируем случайный вектор.
2. Считаем Public accuracy
3. Если это Public accuracy лучше предыдущего, сохраняем вектор, как predict.

In [None]:
from sklearn.metrics import accuracy_score

public_accuracy_list = []
private_accuracy_list  = []
best_public_accuracy = 0

for _ in range(1000):
    ans = [random.randint(0, 1) for _ in range(200)]

    public_accuracy = accuracy_score(target_public, ans[:100])
    private_accuracy = accuracy_score(target_private, ans[100:])

    if public_accuracy > best_public_accuracy:
        predict = ans
        best_public_accuracy = public_accuracy
        best_private_accuracy = private_accuracy

    public_accuracy_list.append(best_public_accuracy)
    private_accuracy_list.append(best_private_accuracy)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6)) 
plt.plot(range(1000), public_accuracy_list, label='Public accuracy')
plt.plot(range(1000), private_accuracy_list, label='Private accuracy')
plt.legend()
plt.show()

Таким образом мы можем случайным образом подстроиться под Public, завысив оценку целевой метрики (что видно на Private).  

# Алгоритм k-NN

## Описание модели

[Метод k-ближайших соседей](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm) (англ. k-nearest neighbors algorithm, k-NN) — метрический алгоритм для классификации или регрессии. В случае классификации алгоритм сводится к следующему:

1. Рассматриваются объекты из обучающей выборки, для которых известно к какому классу они принадлежат.
1. Между подлежащими классификации объектами и объектами тренировочной выборки вычисляется матрица попарных расстояний согласно выбранной метрике.
1. На основе полученной матрицы расстояний для каждого из подлежащих классификации объектов определяется k ближайших объектов тренировочной выборки -- k ближайших соседей.
1. Подлежащим классификации объектам приписывается тот класс, который чаще всего встречается у их k ближайших соседей.


<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/knn_idea.png" width="700" >

В качестве примера работы с алгоритмом k-NN классифицируем изображение корабля из тестовой выборки CIFAR 10 с использованием [реализации алгоритма в scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier.kneighbors_graph).

#### Описание данных

Предположим, что мы работаем с тренировочным датасетом CIFAR-10 и хотим решить хрестоматийную задачу классификации: определить те картинки и тестового набора данных, которые относятся к классу cat. Эта задача является частным примером общей задачи классификации данных CIFAR-10, разные подходы к решению которой мы ещё неоднократно рассмотрим в ходе первых лекций.

Датасет CIFAR-10 содержит, как следует из названия, 10 различных классов изображений:

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/knn_on_cifar10.png" width="700" >

Все изображения представляют собой матрицы чисел, которые кодируют цвета отдельных пикселей. Для изображений высоты $H$, ширины $W$ с $C$ цветовыми каналами получаем упорядоченный набор  $H \times W \times C$ чисел. В данном разделе пока не будем учитывать, что значения соседних пикселей изображения могут быть значительно связаны и будем решать задачу классификации для наивного представления изображения в виде точки в  $H \times W \times C$-мерном вещественном пространстве.

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/img_to_array.png" width="700" >

Датасет CIFAR-10 содержит цветные (трехцветные) изображения размером $32 \times 32$ пикселя. Таким образом, каждое изображение из датасета является точкой в $3072$-мерном ($32 \times 32 \times 3 = 3072$) вещественном пространстве.

#### Близость данных согласно метрике

Пара изображений будет выглядеть практически идентично, если значения цветов соответствующих пикселей будут похожи по величине. Другими словами, практически идентичным изображениям будут соответствовать **близкие** точки нашего многомерного вещественного пространства. Для численной характеристики **близости**, можно определить функцию подсчета расстояния между парой точек — метрику.

Известны различные способы задания [функции расстояния между парой точек](https://en.wikipedia.org/wiki/Metric_(mathematics)). Простейшим примером является широкого известная **Евклидова** ($L_2$) метрика:
$$L_2 (X, Y) = \sum_i (X_i - Y_i)^2,$$

Но, кроме неё, величина расстояния между парой точек может быть выражена рядом других функций.

$L_1$-расстояние (манхэттенская метрика):
$$L_1 (X, Y) = \sum_i |X_i - Y_i|,$$

угловое расстояние:
$$ang (X, Y) = \frac{1}{\pi} \arccos \frac{\sum_i X_i Y_i}{\sqrt{\sum_i X_i^2} \sqrt{\sum_i Y_i^2}} ,$$

и многие другие. От выбора конкретной функции расстояния между точками будет явно зависеть представление о **близости** точек --- объекты, близкие по одной из метрик, вовсе не обязаны оказаться близкими по согласно другой. 

Давайте попробуем вычислить $L_1$ расстояние между несколькими первыми изображениями из тестового набора данных CIFAR-10 с использованием реализованного в пакете [sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.DistanceMetric.html#sklearn.metrics.DistanceMetric.get_metric) класса `sklearn.metrics.DistanceMetric`

<img src ="https://edunet.kea.su/repo/EduNet-content/L01/out/metric_to_compare_train_and_test_imgs.png" >

Загрузим данные:

In [None]:
# Load dataset from torchvision.datasets
from torchvision import datasets

train_set = datasets.CIFAR10("content", train=True,  download=True)
val_set = datasets.CIFAR10("content", train=False, download=True)
labels_names = train_set.classes

Выберем три изображения из тестового набора данных:

In [None]:
import matplotlib.pyplot as plt

img_1 = train_set.data[0]
img_2 = train_set.data[1]
img_3 = train_set.data[2]

fix, ax = plt.subplots(1, 3, figsize=(18, 6))
ax[0].set_title('First image in CIFAR10 train data')
ax[0].imshow(img_1)
ax[1].set_title('Second image in CIFAR10 train data')
ax[1].imshow(img_2)
ax[2].set_title('Third image in CIFAR10 train data')
ax[2].imshow(img_3)
plt.show()

In [None]:
sample_ship_img = val_set.data[18]
plt.figure(figsize=(6, 6))
plt.imshow(sample_ship_img)
plt.show()

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# in order to limit computational time
index_limiter = 5000
X = train_set.data.reshape(train_set.data.shape[0], -1)[:index_limiter]
y = train_set.targets[:index_limiter]

for metric_type in ['euclidean', 'manhattan', 'chebyshev']:
    print()
    for k in range(3, 7, 1):
        knn = KNeighborsClassifier(n_neighbors=k, metric=metric_type)
        knn.fit(X, y)
        result_class_id = knn.predict([sample_ship_img.flatten()])[0]
        result_class = train_set.classes[result_class_id]
        print(f'{k}-NN with {metric_type} metric\npredicted class is: {result_class}\n' )

## Нормализация данных

Загрузим датасет с образцами здоровой и раковой ткани. Датасет состоит из 569 примеров, где каждой строчке из 30 признаков соответствует класс `1` злокачественной (*malignant*) или `0` доброкачественной (*benign*) ткани. Задача состоит в том, чтобы по 30 признакам обучить модель определять тип ткани (злокачественная или доброкачественная).

Можно иметь сколь угодно хороший алгоритм для классификации - но до тех пор, пока данные на входе - мусор, на выходе из нашего чудесного классификатора мы тоже будем получать мусор **(*garbage in - garbage out*)**. Давайте разберемся, что конкретно надо сделать, чтобы k-NN реально заработал.


In [None]:
import sklearn.datasets

cancer = sklearn.datasets.load_breast_cancer() # load data

x = cancer.data # features
y = cancer.target # labels(classes)
print(f'x shape: {x.shape}, y shape: {y.shape}') 
print(f'x[0]: \n {x[0]}') 
print(f'y[0]: \n {y[0]}') 

Посмотрим сколько данных в классе `0` и сколько данных в классе `1`

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8,5)) # set fig size 
plt.bar(1,y[y==1].shape, label=cancer.target_names[0]) # 1 label 
plt.bar(0,y[y==0].shape, label=cancer.target_names[1]) # 0 label
plt.title('Class balance')
plt.ylabel('Num examples')
plt.xticks(ticks=[1,0], labels=['1','0']) 
plt.legend(loc='upper left') 
plt.show() 

Теперь давайте посмотрим на сами данные. У нас есть 569 строк в каждой, из которой, по 30 колонок. Такие колонки называют признаками или *features*. Попробуем математически описать все эти признаки (mean, std, min и тд)

In [None]:
import pandas as pd
pd.DataFrame(x).describe()

То же самое, но в виде графика. Видно, что у фич совершенно разные значения.

In [None]:
import seaborn as sns

plt.figure(figsize=(16, 8))
ax = sns.boxenplot(data=pd.DataFrame(x), orient="h", palette="Set2")
ax.set(xscale='log', xlim=(1e-4, 1e4), xlabel='Values', ylabel='Features')
plt.show()

Чтобы адекватно сравнить данные между собой нам следует использовать нормализацию.

**Нормализация, выбор Scaler**

Нормализацией называется процедура приведения входных данных к единому масштабу (диапазону) значений. Фактически, это означает построение взаимно однозначного соответствия между некоторыми размерными величинами (которые измеряются в метрах, килограммах, годах и т. п.) и их безразмерными аналогами, принимающими значение в строго определенном числовом диапазоне (скажем, на отрезке $[0,1]$). Преобразование данных к единому числовому диапазону (иногда говорят *домену*) позволяет считать их равноправными признаками и единообразно передавать их на вход модели. В некоторых источниках данная процедура явно называется *масштабирование*.

$$\text{scaling map} \; : \text{some arbitrary feature domain} \rightarrow \text{definite domain} $$

Иногда под нормализацией данных понимают процедуру *стандартизации*, то есть приведение множеств значений всех признаков к стандартному нормальному распределению -- распределению с нулевым среднем значением и единичной дисперсией.

$$\text{standartization map} : f_i \rightarrow (f_i - \text{mean} (\{f_i\})) \cdot \frac{1}{\text{std} (\{f_i\})}$$

Рассмотрим небольшой пример. Пусть у нас есть данные о некоторой группе людей, содержащие два признака: *возраст* (в годах) и *размер дохода* (в рублях). Возраст может измениться в диапазоне от 18 до 70 ( интервал 70-18 = 52). А доход от 30 000 р до 500 000 р (интервал 500 000 - 30 000 = 470 000). В таком варианте разница в возрасте имеет меньшее влияние, чем разница в доходе. Получается, что доход становится более важным признаком, изменения в котором влияют больше при сравнении схожести двух людей.

Должно быть так, чтобы максимальные изменения любого признака в «основной массе объектов» были одинаковы. Тогда потенциально все признаки будут равноценны.

Осталось определиться с выбором инструмента, часто используют следующие варианты: `MinMaxScaler`, `StandardScaler`, `RobustScaler`.

Сравним `MinMaxScaler`, `StandardScaler`, `RobustScaler` для признака `data[:,0]`. **Обратите внимание на ось X**

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
import numpy as np

np.random.seed(42)  # setting the initialization parameter for random values

# generate random values from 1 to 255, shape (30,1)
test = x[:,0].reshape(-1,1)

plt.figure(1, figsize=(24, 5))  
plt.subplot(141)  # set location
plt.scatter(test, range(len(test)), c=y)  
plt.ylabel("Num examples", fontsize=15)  
plt.xticks(fontsize=15)  
plt.yticks(fontsize=15)  
plt.title("Non scaled data", fontsize=18)  

# scale data with MinMaxScaler
test_scaled = MinMaxScaler().fit_transform(test)  
plt.subplot(142)
plt.scatter(test_scaled, range(len(test)), c=y)
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.title("MinMaxScaler", fontsize=18)

# scale data  with StandardScaler
test_scaled = StandardScaler().fit_transform(test)  
plt.subplot(143)
plt.scatter(test_scaled, range(len(test)), c=y)
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.title("StandardScaler", fontsize=18)

# scale data  with RobustScaler
test_scaled = RobustScaler().fit_transform(test)  
plt.subplot(144)
plt.scatter(test_scaled, range(len(test)), c=y)
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.title("RobustScaler", fontsize=18)
plt.show()

Идея **`MinMaxScaler`** заключается в том, что он преобразует данные в диапазоне от 0 до 1. Может быть полезно, если нужно выполнить преобразование, в котором отрицательные значения не допускаются (e.g., масштабирование RGB пикселей)


$$z=\frac{X_i-X_{min}}{X_{max}-X_{min}}$$

$X_{min}$ и $X_{max}$ задаются как минимальное и максимальное допустимое значение, по умолчанию:  $X_{min}=0$  и $X_{max}=1$

Идея **`StandardScaler`** заключается в том, что он преобразует данные таким образом, что распределение будет иметь среднее значение 0 и стандартное отклонение 1. Большинство значений будет в  диапазоне от -1 до 1. Это стандартная трансформация, и она применима во многих ситуациях.

$$z=\frac{X-u}{s}$$

$u$ — среднее значение (или 0 при `with_mean=False`) и $s$ — стандартное отклонение (или 0 при `with_std=False`)

И StandardScaler и MinMaxScaler очень чувствительны к наличию выбросов. **`RobustScaler`** использует медиану и основан на *процентилях*. k-й процентиль – это величина, равная или не превосходящая k процентов чисел во всем имеющемся распределении. Например, 50-й процентиль (медиана) распределения таково, что 50% чисел из распределения не меньше данного числа. Соответственно, RobustScaler не зависит от небольшого числа очень больших предельных выбросов (outliers). Следовательно, результирующий диапазон преобразованных значений признаков больше, чем для предыдущих скэйлеров и, что более важно, примерно одинаков.

$$z=\frac{X-X_{median}}{IQR}$$

$X_{median}$ — значение медианы, $IQR$ — межквартильный диапазон равный разнице между 75-ым и 25-ым процентилями

In [None]:
X_norm = StandardScaler().fit_transform(x)  # scaled data

In [None]:
pd.DataFrame(X_norm).describe()

In [None]:
plt.figure(figsize=(16, 8))
ax = sns.boxenplot(data=pd.DataFrame(X_norm), 
                   orient="h", 
                   palette="Set2")
ax.set(xlabel='Values', ylabel='Features')
plt.show()

Обучим модель на данных без нормировки и с нормировкой для 10-ти соседей.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier


# split data to train/test
X_train, X_test, Y_train, Y_test = train_test_split(x, y, random_state=25)

knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_train, Y_train)

print("Without normalization")
accuracy_train = accuracy_score(y_pred=knn.predict(X_train), y_true=Y_train)
print('accuracy_train', accuracy_train)
accuracy_test = accuracy_score(y_pred=knn.predict(X_test), y_true=Y_test)
print('accuracy_test', accuracy_test)

scaler = StandardScaler()  
scaler.fit(X_train)  
X_train_norm = scaler.transform(X_train)  # scaling data
X_test_norm = scaler.transform(X_test)  # scaling data

knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_train_norm, Y_train)

print("With normalization")
accuracy_train = accuracy_score(y_pred=knn.predict(X_train_norm), y_true=Y_train)
print('accuracy_train', accuracy_train)
accuracy_test = accuracy_score(y_pred=knn.predict(X_test_norm), y_true=Y_test)
print('accuracy_test', accuracy_test)

## Параметры и гиперпараметры модели

Продолжим с классификацией методом ближайших соседей (k-NN). 

### k-NN для классификации

На практике, метод ближайших соседей для классификации используется крайне редко.
Проблема заключается в следующем: предположим, что точность классификации нас устраивает. Теперь давайте применим k-NN на больших данных (e.g. миллион картинок). Для определения класса каждой из картинок, нам нужно сравнить ее со всеми другими картинками в базе данных, а такие расчеты, даже в существенно оптимизированном виде, занимают много времени. Мы же хотим, чтобы обученная модель работала быстро.

Тем не менее, метод ближайших соседей используется в других задачах, где без него обойтись сложно. Например, в задаче распознавания лиц. Представим, что у нас у нас есть большая база данных с фотографиями лиц (например, по 5 разных фотографий всех сотрудников, которые работают в офисном здании, как на примере выше) и есть камера, установленная на входе в это здание. Мы хотим узнать, кто и во сколько пришел на работу. Для того чтобы понять кто прошел перед камерой, нам нужно зафиксировать лицо этого человека и сравнить его со всеми фотографиями лиц в базе. В такой формулировке мы не пытаемся определить конкретный класс фотографии, а всего лишь определяем “похож-не похож”. Мы смотрим на k ближайших соседей и, например, если из k соседей, 5 — это фотографии Джеки Чана, то, скорее всего, под камерой прошел именно он. В таких случаях k-NN метод вполне полезен. Похожим образом работает и поиск дубликатов в базах данных.

Примеры эффективной реализации метода на основе k-NN:
* [Facebook AI Research Similarity Search](https://github.com/facebookresearch/faiss) – разработка команды Facebook AI Research для быстрого поиска ближайших соседей и кластеризации в векторном пространстве. Высокая скорость поиска позволяет работать с очень большими данными – до нескольких миллиардов векторов.
* Алгоритм поиска ближайших соседей [Hierarchical Navigable Small World](https://arxiv.org/abs/1603.09320). 

### Переобучение k-NN

Теперь обучим k-NN для общей выборки данных, при разном значении количества соседей.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

n_nei_rng = np.arange(1, 31)  # array of the number of neighbors

quality = np.zeros(
    n_nei_rng.shape[0]
)  

for ind in range(n_nei_rng.shape[0]):  # for all elements
    # create knn for all num neighbors 
    knn = KNeighborsClassifier(
        n_neighbors=n_nei_rng[ind]
    )  
    knn.fit(X_train_norm, Y_train)  
    q = accuracy_score(y_pred=knn.predict(X_test_norm), y_true=Y_test)  # accuracy
    quality[ind] = q  # fill quality

plt.figure(figsize=(12, 5))  
plt.title("KNN on train", size=20)  
plt.xlabel("Neighbors", size=10)  
plt.ylabel("Accuracy", size=10)  
plt.plot(n_nei_rng, quality)  
plt.xticks(n_nei_rng) 
plt.show()  

Видим, что качество на 1 соседе - самое лучшее. Но это и понятно - ближайшим соседом элемента из обучающей выборки будет сам объект. Мы просто **запомнили** все объекты.

Если теперь мы попробуем взять какой-то новый образец опухоли и классифицировать его - у нас скорее всего ничего не получится. В таких случаях мы говорим, что наша модель не умеет обобщать (*generalization*).

Для того, чтобы знать заранее обобщает ли наша модель или нет, мы можем разбить все имеющиеся у нас данныe на 2 части. Но одной части мы будем обучать классификатор (*train set*), а на другой тестировать насколько хорошо он работает (*test set*).

In [None]:
n_nei_rng = np.arange(1, 31)  
train_quality = np.zeros(n_nei_rng.shape[0])  # quality on train data
test_quality = np.zeros(n_nei_rng.shape[0])  # quality on test data

for ind in range(n_nei_rng.shape[0]):  
    knn = KNeighborsClassifier(n_neighbors=n_nei_rng[ind])  
    knn.fit(X_train_norm, Y_train)  
    
    # accuracy on train data
    trq = accuracy_score(y_pred=knn.predict(X_train_norm), y_true=Y_train)  
    train_quality[ind] = trq  

    # accuracy on test data
    teq = accuracy_score(y_pred=knn.predict(X_test_norm), y_true=Y_test)  
    test_quality[ind] = teq  

# accuracy plot  on train and test data
plt.figure(figsize=(12, 5))
plt.title("KNN on train vs test", size=20)
plt.plot(n_nei_rng, train_quality, label="train")
plt.plot(n_nei_rng, test_quality, label="test")
plt.legend()
plt.xticks(n_nei_rng)
plt.xlabel("Neighbors", size=12)
plt.ylabel("Accuracy", size=12)
plt.show()

Вот, теперь мы видим, что 1 сосед был "ложной тревогой". Такие случаи мы называем *переобучением*. Чтобы действительно предсказывать что-то полезное, нам надо выбирать число соседей, начиная минимум с 3

# Кросс-валидация

##Алгоритм кросс-валидации

Давайте все-таки разберемся, как подобрать гиперпараметры.

Результат работы модели будет зависеть от разбиения. Поэкспериментируем с k-NN и датасетом Iris и посмотрим, как результат работы модели зависит от `random_state` для `train_test_split`

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split


dataset = sklearn.datasets.load_iris() # load data
X = dataset.data   # features
Y = dataset.target # labels(classes)

np.random.seed(42)

def split_and_train(X, Y, random_state):
    X_train, X_val, Y_train, Y_val = train_test_split(
        X, Y, train_size=0.8, stratify=Y, random_state=random_state)
    
    max_neighbors_cnt = 30 
    k_neighbors_numb = np.arange(1, max_neighbors_cnt+1)  # array of the number of neighbors

    train_accurecy = np.zeros(max_neighbors_cnt)
    val_accurecy = np.zeros(max_neighbors_cnt)

    for k in k_neighbors_numb:

        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(X_train, Y_train)

        train_accurecy[k-1] = accuracy_score(y_pred=knn.predict(X_train), y_true=Y_train) 
        val_accurecy[k-1] = accuracy_score(y_pred=knn.predict(X_val), y_true=Y_val)
    
    # accuracy plot on train and test data
    plt.figure(figsize=(12, 5))
    plt.title("KNN on train vs val", size=20)
    plt.plot(k_neighbors_numb, train_accurecy, label="train")
    plt.plot(k_neighbors_numb, val_accurecy, label="val")
    plt.legend()
    plt.xticks(k_neighbors_numb)
    plt.xlabel("Neighbors", size=12)
    plt.ylabel("Accuracy", size=12)
    plt.show()

In [None]:
split_and_train(X, Y, random_state=42)

In [None]:
split_and_train(X, Y, random_state=4)

Результат зависит от того, как нам повезло или не повезло с разбиением данных на обучение и тест. Для одного разбиения хорошо выбрать k=3, а для другого — k=13. Кроме того, опять же - фактически, мы сами выступаем в роли модели, которая учит гиперпараметры (а не параметры) под видимую ей выборку.




Получается, что если подбирать гиперпараметры модели на *train set*, то:
1. Можно переобучитьcя, просто на более "высоком" уровне. Особенно если гиперпараметров у модели много и все они разнообразны
2. Нельзя быть уверенным, что выбор параметров не зависит от разбиения на обучение и тест 

Поэтому мы:

1. Подбираем гиперпараметры моделей на отдельном датасете, называемым валидационным. Получаем мы его разбиением обучающего датасета на собственно обучающий и валидационный 

<img src ="https://edunet.kea.su/repo/EduNet-content/L02/out/split_dataset_for_train_val_test.png" width="700">

2. Чаще всего делаем несколько таких разбиений по какой-то схеме, чтобы получить уверенность оценок качества для моделей с разными гиперпараметрами - **кросс-валидация**

<img src ="https://edunet.kea.su/repo/EduNet-content/L02/out/cross_validation_on_train_data.png" width="500"> 

Часто применяется следующий подход, называемый [K-Fold кросс-валидацией](https://scikit-learn.org/stable/modules/cross_validation.html):

Берется тренировочная часть датасета, разбивается на части — блоки. Дальше мы будем использовать для проверки первую часть (Fold 1), а на остальных учиться. И так последовательно для всех частей. В результате у нас будут информация о точности для разных фрагментов данных и уже на основании этого можно понять, насколько значение этого параметра, который мы проверяем, зависит или не зависит от данных. То есть если у нас от разбиения точность при одном и том же К меняться не будет, значит мы подобрали правильное К. Если она будет сильно меняться в зависимости от того, на каком куске данных мы проводим тестирование, значит, надо попробовать другое К и если ни при каком не получилось - то это такие данные. 

Посмотрим как работает k-Fold. Обратите внимание, что по умолчанию `shuffle = False`. Для упорядоченных данных это проблема.

In [None]:
import numpy as np
from sklearn.model_selection import KFold

X = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
y = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

print('index without shuffle')
kf = KFold(n_splits=3)
for train_index, test_index in kf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)

print('index with shuffle')
kf = KFold(n_splits=3, random_state=42, shuffle=True)
for train_index, test_index in kf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)

Для получения стратифицированного разбиения (соотношение классов в частях разбиения сохраняется) нужно использовать [`StratifiedKFold`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html#sklearn.model_selection.StratifiedKFold)

##Оценка результата кросс-валидации

 Посмотрим на результат кросс-валидации для k-NN.

In [None]:
import numpy as np
import sklearn.datasets
from sklearn.model_selection import cross_val_score, train_test_split, StratifiedKFold 
from sklearn.neighbors import KNeighborsClassifier

np.random.seed(42)

dataset = sklearn.datasets.load_iris() # load data
X = dataset.data   # features
Y = dataset.target # labels(classes)

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, train_size=0.8, 
    stratify=Y, random_state=42)

cv = StratifiedKFold(n_splits=5)
knn = KNeighborsClassifier(n_neighbors=3)
accuracy = cross_val_score(knn, X_train, Y_train, cv=cv, scoring='accuracy')
print('3NN accuracy: ', accuracy)
print("%0.2f accuracy with a standard deviation of %0.2f" % 
      (accuracy.mean(), accuracy.std()))

knn = KNeighborsClassifier(n_neighbors=5)
accuracy = cross_val_score(knn, X_train, Y_train, cv=cv, scoring='accuracy')
print('5NN accuracy: ', accuracy)
print("%0.2f accuracy with a standard deviation of %0.2f" % 
      (accuracy.mean(), accuracy.std()))

В идеальном случае выбираются гиперпараметры, для которых матожидание метрик качества выше, а дисперсия меньше. 

##Типичные ошибки при кросс-валидации

**Можно ли делать только кросс-валидацию (без теста)?**

Нет, нельзя. Кросс-валидация не до конца спасает от подгона параметров модели под выборку, на которой она проводится. Оценка конечного качества модели должно производиться на отложенной тестовой выборке. Если у вас очень мало данных, можно рассмотреть [вложенную кросс-валидацию](https://weina.me/nested-cross-validation/), Речь об этом пойдет позже, в последующих лекциях. Но даже в этом случае придется анализировать поведение модели, чтобы показать, что она учит что-то разумное. Кстати, вложенную кросс-валидацию можно использовать, чтобы просто получить более устойчивую оценку поведения модели на тесте.

## Кросс-валидация для научных исследований: на что обратить внимание

При кросс-валидации, чтобы получить адекватную оценку метрик, следует соблюдать те же правила, что и при разбиении на train и test, а именно:
* избегать дублирования данных,
* перемешивать упорядоченные данные и сохранять баланс классов,
* разделять данные из различных источников. 

##GridSearch

Для подбора параметров модели используется **GridSearchCV**.

GridSearchCV – это инструмент для автоматического подбора параметров моделей машинного обучения. GridSearchCV находит наилучшие параметры путем обычного перебора: он создает модель для каждой возможной комбинации параметров из заданной сетки.

Датасет Iris маловат для подбора параметров, поэтому создадим свой датасет:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons

X, Y = make_moons(n_samples=1000, noise=0.3, random_state=42)

plt.figure(figsize=(14, 7))
plt.scatter(X[:,0], X[:,1], c=Y)
plt.show()

Отложим test

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, train_size=0.8, 
    stratify=Y, random_state=42)

Попробуем подобрать параметры модели

In [None]:
from sklearn.model_selection import GridSearchCV, KFold
from IPython.display import clear_output
from sklearn.neighbors import KNeighborsClassifier

"""
Parameters for GridSearchCV:
estimator — model
cv — num of fold to cross-validation splitting 
param_grid — parameters names
scoring — metrics 
n_jobs - number of jobs to run in parallel, -1 means using all processors.
"""

model = GridSearchCV(
    estimator=KNeighborsClassifier(),
    cv=KFold(5, shuffle=True, random_state=42),
    param_grid={
        "n_neighbors": np.arange(1, 31),
        "metric": ["euclidean", "manhattan"],
        "weights": ["uniform", "distance"],
    },
    scoring="accuracy",
    n_jobs=-1,
)
model.fit(X_train, Y_train)
clear_output()

Выведем лучшие гиперпараметры для модели, которые подобрали:

In [None]:
print("Metric:", model.best_params_["metric"])
print("Num neighbors:", model.best_params_["n_neighbors"])
print("Weigths:", model.best_params_["weights"])


Объект GridSearchCV можно использовать как обычную модель

In [None]:
from sklearn.metrics import accuracy_score, balanced_accuracy_score

Y_pred = model.predict(X_test)
print(f"Percent correct predictions {np.round(accuracy_score(y_pred=Y_pred, y_true=Y_test)*100,2)} %")
print(f"Percent correct predictions(balanced classes) {np.round(balanced_accuracy_score(y_pred=Y_pred, y_true=Y_test)*100,2)} %")

Мы можем извлечь дополнительные данные о кросс-валидации и по ключу обратиться к результатам всех моделей

In [None]:
list(model.cv_results_.keys())

Выведем для примера mean_test_score:

In [None]:
plt.figure(figsize=(12, 5))
plt.plot(model.cv_results_["mean_test_score"])
plt.title("mean_test_score", size=20)
plt.xlabel("Num of experiment", size=15)
plt.ylabel("Accuracy", size=15)
plt.show()

Построим, например, при фиксированных остальных параметрах (равных лучшим параметрам), качество модели на валидации в зависимости от числа соседей

In [None]:
selected_means = []
selected_std = []
n_nei = []
for ind, params in enumerate(model.cv_results_["params"]):
    if (
        params["metric"] == model.best_params_["metric"]
        and params["weights"] == model.best_params_["weights"]
    ):
        n_nei.append(params["n_neighbors"])
        selected_means.append(model.cv_results_["mean_test_score"][ind])
        selected_std.append(model.cv_results_["std_test_score"][ind])

Построим error bar, для сравнения разброса ошибки при разном количестве соседей Neighbors. 

Видим, что на самом деле большой разницы в числе соседей, начиная с 11, и нет. 

In [None]:
plt.figure(figsize=(12, 5))
plt.title(f"KNN CV, {params['metric']}, {params['weights']}", size=20)
plt.errorbar(n_nei, selected_means, yerr=selected_std, linestyle="None", fmt="-o")
plt.xticks(n_nei)
plt.ylabel("Mean_test_score", size=15)
plt.xlabel("Neighbors", size=15)

plt.show()

##RandomizedSearch

Альтернативой GridSearch является [RandomizedSearch](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html). Если в GridSearch поиск параметров происходит по фиксированному списку значений, то RandomizedSearch умеет работать с непрерывными значениями, случайно выбирая тестируемые значения, что может привести к более точной настройке гиперпараметров.