# Что такое машинное обучение

1. Термины **машинное обучение** и **искусственный интеллект** — где вы их встречали? Как вы их понимаете?

  1.1. Машинное обучение — ...

  1.2. Искусственный интеллект — ...

2. Мы сталкиваемся с ними в современной жизни каждый день — приведите примеры.

  2.1. ...
  
  2.2. ...

# Выводы из данных

## Определяем категорию

Представим, что у нас есть записи, каким пациентам помогло лекарство, а каким — нет (1 в колонке result значит "помогло", 0 — "не помогло"):

|id | gender | age | temp | pressure | result |
|---|--------|-----|------|----------|--------|
|1  | M      | 20  | 37.2 | 120, 80  | 1      |
|2  | M      | 57  | 39   | 150, 100 | 0      |
|3  | F      | 18  | 37.5 | 90, 60   | 1      |
|4  | F      | 70  | 38.2 | 135, 95  | 0      |

1. Какие выводы можно сделать из этих данных?
2. Что ещё нам хотелось бы знать? (Каких данных не хватает?)

В больницу поступает пациент: мужчина, 32 года, температура 37.3, давление 140/90. Стоит ли дать ему это лекарство?

А если женщина, 20 лет, температура 39, давление 150/100?

Допустим, после дальнейших испытаний лекарства мы дополнили таблицу так:

|id | gender | age | temp | pressure | result |
|---|--------|-----|------|----------|--------|
|1  | M      | 20  | 37.2 | 120, 80  | 1      |
|2  | M      | 57  | 39   | 150, 100 | 0      |
|3  | F      | 18  | 37.5 | 90, 60   | 1      |
|4  | F      | 70  | 38.2 | 135, 95  | 0      |
|5  | .      | ..  | .... | .......  | .      |
|6  | .      | ..  | .... | ........ | .      |

Изменится ли теперь ваше решение относительно двух пациентов выше?

Фактически, машинное обучение — придумывание **алгоритма**, который делает "выводы" из имеющихся данных. Например, можем представить себе дерево условий:

```
if gender == "M":
    if age >= age_border:
        if temp >= temp_border:
         ...
    else:
        ...
else:
    ...
```

Другой подход: можем оценить **вклад каждого параметра** (пол, возраст, температура, давление) в результат (эффективность лекарства).

Если у нас очень много данных, мы можем подобрать такие **численные коэффициенты**, что взвешенная сумма параметров будет давать результат. Например, представим, что пол у нас определяется двумя параметрами: `is_male` (0, 1) и `is_female` (0, 1), а давление разобьем на `sys_pressure` (systolic pressure) и `dia_pressure` (diastolic pressure). Тогда:

$effectiveness = w_1 \cdot male + w_2 \cdot female + w_3 \cdot age + w_4 \cdot temp + w_5 \cdot sys + w_6 \cdot dia$

Далее мы можем, например, задать границы: если `effectiveness` получилось меньше, чем N, то лекарство скорее всего не поможет, а если больше или равно, то поможет

Обучение модели: 
    
![training](perceptron.gif "segment")

## Как оценить качество?

Ваши идеи?

| |Answer: 1 | Answer: 0 |
|---|--------|-----|
|Model: 1  | TP    | FP  | 
|Model: 0  |FN      | TN | 


$accuracy = \frac{TP+TN}{TP+TN+FN+FP}$

$precision = \frac{TP}{TP+FP}$

$recall = \frac{TP}{TP+FN}$

## Находим число

Например, цену квартиры. Мы знаем параметры: какая площадь, какой район, год постройки, количество магазинов рядом, количество школ... (что-нибудь еще?)

Некоторые квартиры стоят 3 млн, некоторые — 20 млн, некоторые — 200 млн. Мы уже знаем, что мы можем определять это значение **формулой**, зависящей от параметров и их степени важности.

Чем это отличается от предыдущей задачи?

## Оценка качества

Будем использовать тот же метод или другой?

$$MSE = \frac{1}{n} \sum_{i=1}^{n}(y_i-\hat{y}_i)^2$$

$$MAE = \frac{1}{n} \sum_{i=1}^{n}|y_i-\hat{y}_i|$$

![image.png](attachment:image.png)

Image from https://www.ml-science.com/mean-squared-error

# Задачи машинного обучения

Глобально, очень верхнеуровнево, можно разделить все задачи машинного обучения на две катгории: **классификация** и **регрессия**.

**Классификация** — определение, к какому классу принадлежит каждый объект. Количество классов *фиксированно*, а сами они *дискретны*. (Наш пример с лекарством)

**Регрессия** — определение, какому числу соответствует объект. Теоретически область значений *неограничена*, значения *непрерывны*. (Наш пример с ценой квартиры)

**Что из этого классификация, а что — регрессия?**

1. Предсказание оценки фильма на IMDB / Кинопоиске
2. Определение, кто изображен на фото: кошка или собака
3. Определение, есть ли кошка на фото
4. Предсказание объема продаж продукции
5. Оценка возраста человека по фотографии

**Немного сложнее:**

1. Оценка кредитоспособности клиента банка
2. Рекомендация музыки/видео на основе просмотренных
3. Оценка письменной части IELTS/ЕГЭ по английскому

**И наконец — лингвистические модели:**
1. Sentiment analysis
2. Разметка частей речи
3. Синтаксическая разметка
4. Генерация текста
