# Майнор Анализ данных (Высшая Школа Экономики), вводный семинар
### Надежда Чиркова


## Концепция машинного обучения


__Машинное обучение__ - раздел на стыке _статистики_, _методов оптимизации_ и _алгоритмов_. 

### Статистика.
* __Объект изучения__: данные, представленные выборкой объектов из некоторой генеральной совокупности.
* __Инструмент__: модель данных, построенная на основе некоторых предположений о данных.
* __Цель__: отличить значимые закономерности от случайного шума. Параметры модели настраиваются таким образом, чтобы как можно лучше описать данные.

_Пример задачи_: по одномерной выборке в предположении, что объекты пришли из нормального распределения, с помощью метода моментов определить параметры нормального распределения. 

### Машинное обучение
* __Объект изучения__: данные, представленные выборкой объектов, и некоторый вопрос об этих объектах. 
* __Инструмент__: модель, построенная на основе некоторых предположений.
* __Цель__: научиться как можно лучше (по некоторому критерию) научиться отвечать на вопрос по новым данным. Параметры модели настраиваются с помощью _оптимизации_ этого критерия.

_Примеры задач_: 
* по списку покупок, сделанным клиентом супермаркета, определить его пол;
* разделить абонентов мобильного оператора на несколько крупных групп;
* рекомендовать посетителю онлайн-кинотеатра фильмы, которые могут ему понравиться.

(Можно предложить группе придумать другие задачи)

_Модели_ в машинном обучении могут быть разные; часто рассматриваются генеративная модель объектов выборки, модель зависимости ответа на вопрос от объекта. 

__Пример генеративной модели объектов выборки__ --- генерация из смеси распределений: сначала из дискретного распределения генерируется номер компоненты смеси, затем из выбранного распределения генерируется объект. 

__Пример модели зависимости ответа от объекта__ --- линейная модель: стоимость квартиры может складываться из величин разных факторов (площадь, расстояние до метро, номер этажа, число квартир в доме и т. д.), умноженных на некоторые коэффициенты. 


## Разные постановки задач машинного обучения
1. Входные данные представлены в виде __обучающей выборки (training set)__ --- конечного множества векторных представлений объектов. Элементы вектора называются __признаками (features)__ объекта. Таким образом, все объекты должны принадлежать _единому признаковому пространству_, его размерность будем обозначать $D$. 

  Виды признаков (группа приводит примеры):
  1. вещественные;
  1. категориальные (значения из некоторого множества);
  1.  номинальные (значения из некоторого упорядоченного множества);
  1.  бинарные;
  1. подмножества некоторого множества (set-valued)...
  
1. В зависимости от вопроса различают разные _постановки задачи_ (группа приводит примеры):
  1. Если требуется предсказать некоторый _категориальный_ признак объекта (будем называть его __целевым признаком__), то говорят о __задаче классификации (classification)__.
  1. Если требуется предсказать _вещественный_ целевой признак, говорят о __задаче регрессии (regression)__.
  1. Когда нужно восстановить порядок на некотором множестве объектов, говорят о __задаче ранжирования (learning to rank)__.
  
  Все вышеперчисленные задачи относятся к классу __обучения с учителем (supervised learning)__, когда _правильный ответ_ известен на обучающей выборке и не известен для новых объектов. Но можно рассматривать и задачи __обучения без учителя (unsupervised learning)__:
  1. В __задаче кластеризации (cluster analysis)__ нужно разделить объекты на группы, внутри которых все объекты будут похожи;
  1. __Задача понижения размерности__ предполагает построение нового признакового пространства меньшей размерности, в котором качество решения задачи будет не хуже или лучше исходного.


> Задача: как можно представить в виде признаков 
    * текст
    * изображения
    * категориальные признаки как вещественные?
> _Извлечение признаков из текстов_: "мешок слов" (удаление пунктуации, лемматизация, подсчет числа вхождений слова в текст), выделение мультиграмм (словосочетаний).

> _Изображения как признаки_: вытягивание в вектор. Что-то еще простое?

> _Категориальные признаки переводятся в вещественные бинаризацией_: для каждой категории создается отдельный признак, и единица ставится только в том признаке, который соответствует категории данного объекта.

#### Этапы решения задачи:
1. Введение предположений и задание модели
1. Выбор оптимизационного критерия
1. Выбор метода решения оптмиизационной задачи (точного или численного)
1. Написание эффективного алгоритма обучения модели на основе выбранного метода

Все методы решения одной и той же задачи машинного обучения отличаются этими пунктами.

### Переобучение
При обучении нам доступно только ограниченное количество обучающих примеров, в то время как предсказание мы хотим делать для любых представителей признакового пространства. Мы можем построить модель, дающую нулевую ошибку на обучающей выборке, но сильно ошибающуюся на новых данных. Это явление называется __переобучением__. Оно возникает, когда модель перестает настраиваться на _закономерность_ в данных и начинает настраиваться на _шум_. Иллюстрация:
![](goodfit_overfitting.png)

Чтобы контролировать модель, нужно делить обучающую выборку на две части: __train__ и __test__. На первой строится модель, а на второй делается предсказание и сравнивается с правильным ответом. 


>    ###  Игра
Делим группу на маленькие команды; каждая команда в первом такте играет заказчиков, в следующих --- аналитиков. 
    _Заказчики_ --- пока не очень популярная социальная сеть, которая хочет показывать пользователям релевантную рекламу. 
    _Аналитики_ работают в аутсорс-компании, занимающейся анализом данных.
    Ход игры:
    1. Заказчики придумывают задачу: какие данные (о чем или о ком) компания предоставит, что необходимо предсказывать, возможно придумывают метрику.
    2. Аналитики формализуют задачу: указывают тип задачи, решают, какие признаки использовать (каких типах), какой критерий оптимизировать.
    3. Аналитикам сообщают, что в пришедших от заказчика данных много пропусков. Что с ними можно делать?  
    
    >__Пример__:
    
    >_Заказчики_: мы хотим предсказывать возраст пользователей, дадим информацию об их анкете (пол, город, интересы, школа, вуз), 
    число друзей, названия сообществ, в которых они состоят, посты с их стены.
    
    >_Аналитики_: это задача регрессии; будем использовать бинарный признак пола, категориальный признак города, категориальный признак школы и вуза, вещественный признак числа друзей, из текстов интересов и названий сообществ сделаем мешок слов.
    
    >_Метод обработки с пропусками в данных_: рассматривать пол как категориальный признак (тогда пропуск будет соответствовать двум нулям), число друзей будем заменять средним по выборке.

### Методы обработки пропусков в данных
* Исключить объекты с пропущенными значениями (можно, если таких объектов мало)
* Заменить средним значением или медианой (для вещественных переменных)
* Сделать регрессию/классификацию по известным признакам
* Для категориальных переменных добавить отдельную категорию "пропуск"

...