# Lesson 1: Introduction to Machine Learning

<img src="https://www.mathworks.com/help/stats/machinelearningtypes.jpg" width="500"/>

## \> Основные понятия и определения

****Машинное обучение**** (Machine learning) — комплекс методов и инструментов, позволяющий компьютеру строить модели с сильной экспертизой на основе входящих из реального мира данных и накопленных человеком знаний и опыта.

Два основных блока, рассматриваемых в машинном обучении — ****классическое машинное обучение**** и ****глубокое обучение**** (Deep learning).

**Датасет** (Dataset) — структурированный набор данных, как правило, представленный в виде одной или нескольких  таблиц, где строкам соответствуют некие объекты (objects), а столбцам - их признаки (features).

**Признаки или фичи** (Features) — некоторые характеристики, на основе которых проводится обучение модели.

**Алгоритм** (Algorithm) — набор однозначных пошаговых инструкций, которые компьютер может выполнять для достижения определенной цели.

**Модель** (Model) — некая абстракция, с помощью данных обученная распознавать определенные типы закономерностей.

**Ответ или целевая переменная** (Target) — признак датасета, который предстоит предсказывать модели машинного обучения.

**Множество** — совокупность объектов (элементов множества). Запись вида U={q,w,r,t} означает, что множество U состоит из четырех элементов — q,w,r,t.

**`R`** — множество действительных чисел, числа, которые можно записать в виде конечной или бесконечной, периодической или непериодической десятичной дроби (`R=1;−1;−21​;0,12;π;2​;...`).

**`Z `** — множество целых чисел (Z = {...-3, -2, -1, 0, 1, 2, 3, ...}).

`⊂` — знак включения элемента как подмножества множества (`Z⊂R`).

**`∈`** — знак принадлежности отдельного элемента к множеству (`a∈Z`).

Подробней о множествах и их условных обозначениях [тут](http://mathprofi.ru/mnozhestva.html)

## \> Задачи машинного обучения

---

**Примеры задач, решаемых с помощью машинного обучения:**

- Максимизация прибыли от инвестиций за счет прогноза стоимости акций 
- Принятие стратегических управленческих решений на основе данных
- Определение кредитоспособности (скоринг) банковских клиентов
- Поиск аномалий в процессах (например, на опасном производстве)
- Минимизация расходов на рекламу за счет оптимизации рекламной кампании
- Ответы на другие сложные вопросы

---

**Главные преимущества моделей машинного обучения по сравнению с человеческой экспертизой:**

-  Высокая скорость ответа 
-  Масштабируемость и доступность
-  Решение сложных задач
-  Работа с большим объемом данных

## \> Основные типы задач машинного обучения

---

### Обучение с учителем (Supervised Learning)

Построение моделей, основанных на прецедентах (когда есть примеры правильных ответов, на которых обучается модель).

- **Регрессия** — предсказание некого числового значения (например, цена квартиры по ее площади и расположению или капитализация компании по ее характеристикам). Число это не ограничено.
- **Классификация** (бинарная/многоклассовая) — определение объекта в ту или иную заранее определенную группу, т.е. множество ответов ограничено и известно.

### Обучение без учителя (Unsupervised Learning)

- **Кластеризация** — объединение объектов в  группы, сходных по неким признакам (сегментация пользователей, группы генов с похожей экспрессией). При этом заренее не известно, какие это будут группы.
- **Рекомендательные системы** — подбор контента на основе предыдущего поведения пользователя (например подбор фильма на основе предыдущих оценок).
- **Поиск аномалий** — поиск объекта, сильно отличающегося от других.

### Обучение с подкреплением (Reinforcement Learning)

Ответ заранее неизвестен. Cистема обучается самостоятельно, взаимодействуя с некоторой средой, получая от нее негативные и позитивные сигналы, тем самым как бы сама выступая в роли учителя. Наглядный [пример](https://www.youtube.com/watch?v=pgRAhOBWby0) — нейросеть учится переходить дорогу. 

Подробнее с типами машинного обучения можно познакомиться [тут](https://vas3k.ru/blog/machine_learning/) и [тут](https://proglib.io/p/the-simplest-introduction-to-machine-learning).

![](https://storage.yandexcloud.net/klms-public/production/learning-content/48/626/5131/14960/66943/machine-learning.png)

## \> Компоненты классической ML задачи

-  **Выборка** 
-  **Ответ (target)** 
-  **Функция потерь** **и функционал качества**
-  **Метрики качества**
-  **Алгоритм\\семейство моделей**
-  **Оценка модели**

![](https://storage.yandexcloud.net/klms-public/production/learning-content/48/626/5131/14960/66999/ml-sagemaker-category.9589c219d4f0ce28f2b74b3b4d43ff5032c29c07.png)

[Портал](https://towardsdatascience.com/), посвященный машинному обучению со множеством статей и лучших практик (англоязычный)

Еще одна вводная [статья](https://medium.com/maria-machine/algorithmia-introduction-to-machine-learning-d955c74ba1e4) :)

## \> Выборка: объекты и признаки (objects and features)

---

**Выборка** — набор объектов и признаков, для которых мы хотим ответить на поставленный вопрос.

Объекты и признаки будем обозначать латинскими буквами - `x` и `d1​,d2​...dk​` соответственно.

Таким образом, объект **_`x`_** представляет собой совокупность признаков (_`d`_):

- `xi​​=(d1​​,d2​​,...,dk​​)`
- Например, объект-пользователь. Его признаки — пол, возраст, интересы и т.п.

Выборка (**_`X`_**) будет обозначать множество всех объектов с ответами (`y`), если они есть:

`X={(xi​,yi​)}`

То есть все пользователи, для которых у нас есть данные.

**Признаки или фичи (features)** — некоторые характеристики, на основе которых проводится обучение модели.

**Признаки бывают:**

-  Вещественные — значением признака является любое число на непрерывной числовой прямой (температура тела, рост, котировки акций)

dj​∈R

- Бинарные — когда признак может принимать одно из двух значений (М/Ж, болен/здоров, да/нет)

dj​∈{0,1}

- Категориальные — признаки из ограниченного множества, которые невозможно упорядочить (профессиональная деятельность, город)

dj​∈D

- Порядковые — признак принимает целое значение в некой ограниченной области (рейтинг компании)

dj​∈D⊂Z

- Множественные — признак может принимать сразу несколько значений, представлен набором чисел или слов (конкуренты компании)

dj​∈2D

## \> Ответ (Target)

---

**Ответ (таргет) или целевая переменная** — признак датасета, который предстоит предсказывать модели машинного обучения.

Множество всех ответов будем обозначать `Y`, а ответы к каждому конкретному объекту — `yi​.`

`Y={y}`

Как и признаки, ответ, полученный с помощью машинного обучения, может быть:

- Вещественным (цена акции через год)

`yi​∈R`

- Бинарным (цена акций вырастет/не вырастет через год)

`yi​∈{0,1}`

- Множественным (какая стратегия будет лучшей: a,b или с).

`yi​∈{0,1,2,3,...,d}`

- Задачи без явного таргета (какие акции добавить в портфель: {Apple, Microsoft, Google}).

`yi​∈ ∅`

![](https://storage.yandexcloud.net/klms-public/production/learning-content/66/953/7687/22646/92249/2022-03-22_174953.jpg)