# Раздел 7. Машинное обучение

## Тема 7.1 Задачи, решаемые методами машинного обучения, многомерные базы данных NoSQL

### Лекция 

Вопросы: 
1. Задачи, решаемые методами машинного обучения. 
2. Особенности работы слабоструктурированных СУБД.

**Машинное обучение: понятийный аппарат**

Машинное обучение представляет собой науку (и искусство) программирования
компьютеров для того, чтобы они могли обучаться на основе данных.

Говорят, что компьютерная программа обучается на основе опыта *Е* по отношению
к некоторой задаче *Т* и некоторой оценке производительности *Р*,
если ее производительность на *Т*, измеренная посредством *Р*, улучшается
с опытом *Е*.

Три компонента машинного обучения:
- данные –-- собираются всевозможными способами. Чем больше данных, тем эффективней машинное обучение и точнее будущий результат;
- признаки –-- определяют, на каких параметрах строится машинное обучение;
- алгоритм –-- выбор метода машинного обучения (при условии наличия хороших данных) будет влиять на точность, скорость работы и размер готовой модели.

** Задача обучения**

Пусть 
- $X$ -- множество объектов, причем любой объект $X_i \in X$ описывается единым набором $m$ признаков 
$$
x_i = (x_{i1}, x_{i2}, \ldots, x_{im} )
$$ 
- $Y$ -- множество меток классов;
- $y : X \to Y$ -- неизвестная зависимость;
- $X_1, X_2, \ldots, X_n \in X$ -- некоторые известные объекты, составляющие обучающее множество;
- $Y_1, Y_2, \ldots, Y_n \in Y$ --- известные метки классов для объектов $X_1, X_2, \ldots, X_n \in X$; 

Найти $y : X \to Y$ -- алгоритм, правило, решающую функцию для всех объектов из множества $X$.

**Типы задач**

Классификация:
- $Y=\{−1,+1\}$ — классификация на 2 класса;
- $Y=\{1,...,M\}$ — на $M$ непересекающихся классов;
- цель: научиться определять, к какому классу принадлежит объект;
- примеры: распознавание текста по рукописному вводу; определение того, находится на фотографии человек или кот; определение, является ли письмо спамом;
- методы: метод ближайших соседей, дерево решений, логистическая регрессия, метод опорных векторов, байесовский классификатор, cверточные нейронные сети.

Восстановление регрессии:
- $Y=\mathbb{R}$;
- цель: получать прогноз на основе выборки объектов;
- примеры: предсказание стоимости акции через полгода; предсказание прибыли магазина в следующем месяце;
- методы: линейная регрессия, дерево решений, метод опорных векторов.

Кластеризация:
- цель: разбить множество объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию;
- примеры: сегментация клиентов;  подбор рекомендаций для пользователя; определение аномалий;
- методы: иерархическая кластеризация, эволюционные алгоритмы кластеризации, EM-алгоритм.

Уменьшение размерности:
- цель: научиться описывать данные не $N$ признаками, а меньшим числом для повышения точности модели или последующей визуализации;
- примеры: визуализация в двумерном или трехмерном пространстве; сжатие данных;
- методы: метод главных компонент, метод факторного анализа.

Выявление аномалий:
- цель: научиться выявлять аномалии в данных. Отличительная особенность задачи от классификации — примеров аномалий для тренировки модели очень мало, либо нет совсем; поэтому для ее решения необходимы специальные методы;
- примеры: определение мошеннических транзакций по банковской карте; обнаружение событий, предвещающих землетрясение;
- методы: экстремальный анализ данных, аппроксимирующий метод, проецирующие методы.

Типы задач машинного обучения принято разделять на три категории:
- обучение с учителем (supervised learning):
данные, подготовленные для анализа, изначально содержат правильный ответ, поэтому цель алгоритма –выявить взаимосвязи между данными и правильным ответом, оптимальные в некотором смысле (критерий);  
- обучение без учителя (unsupervised learning):
алгоритм, обрабатывая массивы данных, должен самостоятельно выявлять закономерности, структуры;
- обучение с подкреплением (reinforcement learning):
алгоритм пытается найти оптимальные действия, которые будет предпринимать, находясь в наборе различных сценариев.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=166knuSlIW2hZsJQQiFo0fgwytI3MTxeX' width="600" height="500" />
<figcaption>Классификация типов задач ML</figcaption></center>
</figure>


**Этапы машинного обучения**

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=160ZRTT83CYvwjF09tok5lOcHeNf7J2qU' width="400" height="500" />
<figcaption>Этапы машинного обучения</figcaption></center>
</figure>


**Многомерные базы данных NoSQL**

NoSQL (от англ. not only SQL — не только SQL) --- обозначение широкого класса разнородных систем управления базами данных, появившихся в конце 2000-х — начале 2010-х годов и существенно отличающихся от традиционных реляционных СУБД с доступом к данным средствами языка SQL. Применяется к системам, в которых делается попытка решить проблемы масштабируемости и доступности за счет полного или частичного отказа от требований атомарности и согласованности данных.

ACID: базовые принципы реляционных баз данных

- атомарность -- никакая транзакция не будет зафиксирована в системе частично. Будут либо выполнены все ее подоперации, либо не выполнено ни одной. Поскольку на практике невозможно одновременно и атомарно выполнить всю последовательность операций внутри транзакции, вводится понятие <<отката>>: если транзакцию не удается полностью завершить, результаты всех ее до сих пор произведенных действий будут отменены и система вернется во <<внешне исходное>> состояние --  со стороны будет казаться, что транзакции и не было;
- согласованность -- транзакция, достигающая своего нормального завершения и тем самым фиксирующая свои результаты, сохраняет согласованность базы данных. Другими словами, каждая успешная транзакция по определению фиксирует только допустимые результаты;
- изолированность -- во время выполнения транзакции параллельные транзакции не должны оказывать влияния на её результат;
- устойчивость -- независимо от проблем на нижних уровнях (к примеру, обесточивание системы или сбои в оборудовании) изменения, сделанные успешно завершенной транзакцией, должны остаться сохранёнными после возвращения системы в работу.

Принципы BASE баз данных NoSQL


С середины 2000-х годов для построения распределенных СУБД предполагается отказ от части требований `ACID` (для обоснования чего используются теорема `CAP`, теорема `PACELC`) или снижение строгости требований (`BASE`).

Во второй половине 2000-х годов сформулирован подход к построению распределенных систем, в которых требования целостности и доступности выполнены не в полной мере, названый акронимом BASE (от англ. Basically Available, Soft-state, Eventually consistent — базовая доступность, неустойчивое состояние, согласованность в конечном счете), при этом такой подход напрямую противопоставляется ACID. Под базовой доступностью подразумевается такой подход к проектированию приложения, чтобы сбой в некоторых узлах приводил к отказу в обслуживании только для незначительной части сессий при сохранении доступности в большинстве случаев. Неустойчивое состояние подразумевает возможность жертвовать долговременным хранением состояния сессий (таких как промежуточные результаты выборок, информация о навигации, контексте), при этом концентрируясь на фиксации обновлений только критичных операций. Согласованности в конечном счете, трактующейся как возможность противоречивости данных в некоторых случаях, но при обеспечении согласования в практически обозримое время.

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=169L9e8Y1KXjF5vhbF_J55Nw6X8i5ks2V' width="600" height="500" />
<figcaption>Базы данных NoSQL</figcaption></center>
</figure>




## Тема 7.2 Деревья решений, ассоциативные правила     

## Тема 7.3 Классификация, кластеризация

## Тема 7.4 Нейронная сеть