 # Введение в машинное обучение

![](images/walli.jpg)

На этом семинаре:

* Познакомимся с задачами машинного обучения.
* Разберем основные инструменты для работы с данными.

## Что мы будем изучать?

Вдохновляющий видос: https://youtu.be/l95h4alXfAA

**Машинное обучение** — это раздел математики, изучающий способы извлечения закономерностей из ограниченного числа примеров.

### Примеры задач машинного обучения

Рассмотрим несколько примеров задач, которые решаются с помощью машинного обучения.

##### - Кредитный скоринг

    Задача: выяснить, какие заявки на кредит можно одобрить.

![](images/credit.jpg)
   
##### - Лента Facebook/Дзен по интересности (вместо сортировки по времени)
     
     Задача: показать посты, наиболее интересные для конкретного человека.

![](https://www.dropbox.com/s/1oclybrw3gwbnpo/dzen.png?raw=1)

##### - Детектирование некорректной работы 

     Предположим, что у нас есть завод, на котором происходят некоторые процессы (стоят какие-то котлы, станки, работают сотрудники). На предприятии может произойти поломка, например, сломается датчик уровня жидкости в баке, из-за чего насос не остановится при достижении нужного уровня и нефть начнёт разливаться по полу, что может привести к неизвестным последствиям. Или же сотрудники объявят забастовку и вся работа остановится. Мы хотим, чтобы завод работал исправно, а обо всех проблемах узнавать как можно раньше.
     Задача: предсказать поломки/нештатные ситуации на заводе.

![](images/minions.jpeg)


##### - Вопросно-ответная система (как Siri)
    
    Задача: ответить голосом на вопрос, заданный голосом.
![](images/alice.jpg)


##### - Self-driving cars
     
    Задача: доехать из точки А в точку В.

![](images/self-drive.jpg)


##### - Перенос стиля изображения
   
    Задача: перенести стиль одного изображения на другое (смешать стиль одного с контекстом другого).
     
![](images/style.jpeg)

Как видим, задачи очень разнообразны. Мы начнем наш путь со следующей классической постановки (к которой, кстати, сводятся многие вышеперечисленные задачи): по имеющемуся признаковому описанию объекта $x \in \mathbb{R}^m$ предсказать значение целевой переменной $y \in \mathbb{R}^k$ для данного объекта. Обычно $k=1$.

Например, в случае кредитного скоринга $x$-ом являются все известные о клиенте данные (доход, пол, возраст, кредитная история и т.д.), а $y$-ом одобрение или неодобрение заявки на кредит.

### Наши инструменты

#### Python

У всех датасайентистов свои привычки и вкусы. Часто требования к используемым инструментам выставляются на работе, особенно если она происходит в команде с другими аналитиками и разработчиками. Чаще всего (по опросам на 2018 год) аналитики данных используют язык программирования Python (его мы и будем использовать в этом курсе) по нескольким причинам:
   
- Популярность языка в целом (в первой тройке по различным критериям на Github и в десятке самых популярных по различным точкам зрения других рейтингов) — много разработчиков, много различных инструментов.
- Простота изучения — многие аналитики данных не являются программистами как таковыми, а при обучении стремятся как можно быстрее изучить необходимый им инструмент. 
- Простота использования. Python — интерпретируемый язык (не требует компиляции кода) с динамической типизацией и многими прочими особенностями, позволяющими как можно меньше думать о программировании и больше концентрироваться на решении конкретной задачи.
   
Нельзя сказать, что можно обойтись на практике одним лишь языком Python. Большинство реальных систем предъявляет требования к скорости работы, а Python в этом обычно уступает классическим компилируемым языкам вроде C++ или Java, поэтому на практике часто подготовленные на Python решения переписываются или встраиваются с минимальными потерями в другие языки.

Кроме Python, аналитики данных часто используют язык R, который так же достаточно прост и удобен, однако почти не используется в кругах разработчиков. Реже и в некоторых специфичных задачах применяются Matlab и SAS.

#### Библиотеки

Но одним лишь языком программирования не обойтись — используются различные инструменты и библиотеки (мы рассматриваем лишь Python):
   
- Среда разработки.  На семинарах и в домашках мы будем использовать [Jupyter Notebook](https://jupyter.org). Он позволяет как писать код и запускать его отдельными фрагментами, так и оформлять всё в виде отчёта с markdown разметкой и формулами LaTex. И даже [вставлять видосы с YouTube](https://gist.github.com/christopherlovell/e3e70880c0b0ad666e7b5fe311320a62)! 
- Библиотеки для обработки данных: [NumPy](https://numpy.org) и [Pandas](https://pandas.pydata.org).
- Библиотеки для визуализации данных: [Matplotlib](https://matplotlib.org) и [Seaborn](https://seaborn.pydata.org/#).
- Библиотеки с алгоритмами машинного обучения: [scikit-learn](http://scikit-learn.github.io/stable), [XGBoost](https://xgboost.readthedocs.io/en/latest/) и [pytorch](https://pytorch.org).