In [1]:
import numpy as np
import pandas as pd

# Обновление прогнозов

> Часть курса <a href=" https://docs.microsoft.com/ru-ru/learn/modules/introduction-probability/02-update-predictions">«Основы обработки и анализа данных»</a> от Microsoft. С переработанными примерами под библиотеку `pandas`.

Мы знаем, как использовать данные по обучению для классификации точки в одной из двух категорий. Наша классификация — это не более чем прогноз класса, исходя из того, какой класс наиболее распространен среди точек обучения, ближайших к нашей новой точке.

Допустим, впоследствии мы узнаем истинный класс новой точки. В этом случае мы сможем проверить свою классификацию. Кроме того, у нас будет новая точка, которую мы сможем добавить в свой набор обучающих данных, поскольку знаем ее класс. Наш набор обучающих данных обновится. Разумеется, мы захотим обновить и классификатор с учетом нового набора обучающих данных.

В этой главе рассматриваются несколько простых ситуаций, когда новые данные требуют обновления наших прогнозов. Несмотря на то что с точки зрения вычислений примеры в этой главе просты, представленный в ней метод обновления подходит и для более сложных условий и является одним из самых эффективных инструментов для машинного обучения.

## Бинарный классификатор «скорее всего»

Попробуем использовать данные для отнесения точки к одной из двух категорий, выбрав категорию, к которой она, по нашему мнению, скорее всего, относится. Для этого нам нужны не только данные, но и четкое описание соответствующих вероятностей.

Начнем с простой ситуации, просто чтобы сформулировать основной метод, а затем разберем что-то более замысловатое.

Возьмем для примера университетский класс со следующим составом:

  - 60 % студентов находятся на втором году обучения, а остальные 40 % — на третьем.
  - 50 % второкурсников уже выбрали специализацию
  - 80 % третьекурсников уже выбрали специализацию

Допустим, я __выбираю из этого класса случайного студента__. Сможете ли вы классифицировать его как второкурсника или третьекурсника, используя критерий "скорее всего"?

Да, поскольку студент был выбран случайно и вам известно, что вероятность того, что он будет второкурсником, составляет 60%. Это больше чем 40%-ная вероятность выбрать третьекурсника, поэтому вы классифицируете студента как второкурсника.

Информация о специализации здесь не имеет значения, а соотношение второкурсников и третьекурсников в классе нам известно.

Классификатор довольно прост. А теперь предположим, что я сообщу вам дополнительные сведения о выбранном студенте:

__Этот студент уже выбрал специализацию.__

Как эта информация повлияет на вашу классификацию?

## Обновление прогноза с учетом новых данных

Поскольку теперь мы знаем, что студент уже выбрал специализацию, нужно принять во внимание, сколько студентов на каждом году обучения уже выбрали специализацию. Второкурсников все еще больше, чем третьекурсников. При этом также верно, что третьекурсников, которые уже выбрали специализацию, намного больше, чем второкурсников. Наш классификатор должен принимать во внимание оба этих наблюдения.

Для визуализации составим таблицу `students`, включающую каждого из 100 студентов и отражающую указанные в исходных данных соотношения по году обучения и выбору специализации.

In [9]:
year = np.array(['Second'] * 60 + ['Third'] * 40)
major = np.array(['Undeclared'] * 30 + ['Declared'] * 30 \
                                     + ['Undeclared'] * 8 + ['Declared'] * 32)

students = pd.DataFrame(zip(year, major), columns=['Year', 'Major'])
students.head()

Unnamed: 0,Year,Major
0,Second,Undeclared
1,Second,Undeclared
2,Second,Undeclared
3,Second,Undeclared
4,Second,Undeclared


Чтобы проверить правильность этих соотношений, воспользуемся функцией `groupby` и выполним перекрестную классификацию всех студентов по двум переменным.

In [39]:
table = students.groupby(['Major','Year']).size().unstack(0)
table

Major,Declared,Undeclared
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
Second,30,30
Third,32,8


Всего у нас 100 студентов, из которых 60 второкурсников и 40 третьекурсников. Одна половина второкурсников выбрала специализацию, а другая нет. Из 40 третьекурсников 20 % еще не выбрали специализацию, а 80 % выбрали. Таким образом, эта популяция из 100 студентов имеет такие же соотношения, что и класс в нашей задаче, и можно предположить, что наш студент был выбран случайно из всех 100 учащихся.

Нам нужно понять, в какой строке, скорее всего, находится этот студент. Когда мы не знали о студенте ничего, это мог быть студент из любой из четырех ячеек, а значит, скорее всего, был выбран студент из самой верхней ячейки (Второкурсники), поскольку в ней больше всего студентов.

Однако теперь мы знаем, что этот студент уже выбрал специализацию, и пространство возможных результатов уменьшилось: теперь этот студент может быть только в одной из двух ячеек с теми, кто выбрал специализацию.

В этих ячейках 62 студента и 32 из 62 — третьекурсники. Это больше половины, хотя и ненамного.

Таким образом, в свете новой информации о специализации студента мы должны обновить свой прогноз и классифицировать выбранного студента как третьекурсника.

Какова вероятного того, что наша классификация верна? Мы будем правы в отношении 32 третьекурсников и неправы в отношении 30 второкурсников, которые уже выбрали специализацию. Вероятность того, что мы правы, составляет 0,516.

Другими словами, вероятность того, что мы правы, соответствует __доле третьекурсников из числа всех студентов, которые уже выбрали специализацию__.

In [27]:
32 / (30 + 32)

0.5161290322580645

### Древовидная схема
Мы рассчитали вероятность для класса из 100 студентов. Однако в классе с тем же успехом может быть, например, и 200 студентов при условии, что все пропорции в ячейках верны. Тогда расчет будет выглядеть как 64/(60 + 64) и мы получим 0,516, как указано выше.

Итак, расчет зависит только от соотношений различных категорий учащихся, а не от их количества. Соотношения можно визуализировать в виде древовидной схемы, которая для сравнения показана сразу под сводной таблицей.

In [40]:
table

Major,Declared,Undeclared
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
Second,30,30
Third,32,8


![alt text](./media/tree-students.png)

Как и в сводной таблице, студенты в этой схеме делятся на четыре отдельных группы, которые называются "ветвями". Обратите внимание на то, что ветвь "Третьекурсники, специализация есть" включает 0,4 x 0,8 = 0,32 студента, что соответствует 32 студентам в ячейке "Третьекурсники, специализация есть" сводной таблицы. Ветвь "Второкурсники, специализация есть" включает 0,6 x 0,5 = 0,3 студента, что соответствует 30 студентам в ячейке "Второкурсники, специализация есть" сводной таблицы.

Мы знаем, что выбранный студент относится к ветви "Специализация есть", а значит, входит либо в верхнюю ветвь, либо в третью сверху ветвь. Две эти ветви образуют уменьшенное пространство возможностей, и все вероятности нужно рассчитывать относительно общей вероятности этого уменьшенного пространства.

Итак, учитывая, что студент уже выбрал специализацию, вероятность того, что он является третьекурсником, можно рассчитать непосредственно из дерева. Ответом будет соотношение в ветви "Третьекурсники, специализация есть" относительно общего соотношения в двух ветвях "Специализация есть".

Это значит, что ответ будет соответствовать __доле третьекурсников из числа всех студентов, которые уже выбрали специализацию__, как и раньше.

In [47]:
(0.4 * 0.8) / (0.6 * 0.5 + 0.4 * 0.8)

0.5161290322580645

Правило Байеса
Метод, который мы использовали, получил свое название в честь преподобного Томаса Байеса (1701–1761). Его метод решает задачу так называемой "обратной вероятности": как уточнить определенную ранее вероятность с учетом новых данных. Байес жил три столетия назад, но его метод сейчас широко применяется в машинном обучении.

Сформулируем правило в контексте нашей популяции студентов. Дня начала несколько терминов.

Априорная вероятность. До того как мы узнали, что соответствующий студент уже выбрал специализацию, он мог оказаться второкурсником с вероятностью 60 % и третьекурсником с вероятностью 40 %. Это — априорные вероятности этих двух категорий.

Правдоподобная вероятность. Это — вероятность выбранной специализации с учетом категории студента. Можно узнать из древовидной схемы. Например, правдоподобная вероятность выбранной специализации для второкурсников составляет 0,5.

Апостериорная вероятность. Вероятность каждого года обучения после того, как мы учли информацию о том, что студент уже выбрал специализацию. Мы рассчитали одно из следующего.

Апостериорная вероятность того, что студент является третьекурсником, учитывая, что он уже выбрал специализацию, обозначается как *P(Третьекурсник ∣ Специализация есть)* и рассчитывается следующим образом:

![](./media/formula.png)

In [48]:
(0.6 * 0.5) / (0.6 * 0.5 +0.4 * 0.8)

0.4838709677419354

Она составляет около 0,484, что меньше половины и соответствует нашей классификации третьекурсника.

Обратите внимание на то, что обе апостериорные вероятности имеют одинаковый знаменатель — вероятность новой информации, т. е. выбрал ли студент специализацию.

Из-за этого метод Байеса иногда представляют в виде отношения:

$$posterior \propto prior \times plausible$$

Формулы — отличный способ описания вычислений. Однако в таких задачах, как наш пример со студентами, проще мыслить не формулами, а использовать древовидную схему.

# Принятие решений

Правило Байеса в основном применяется для принятия решений на основе неполной информации с учетом новых данных по мере их поступления. В этом разделе показано, как важно, принимая решения, держать в уме допущения.

Многие медицинские тесты на болезни дают положительный или отрицательный результат. Положительный результат означает, что, судя по тесту, болезнь у пациента есть. Отрицательный результат показывает, что болезни у пациента нет.

Медицинские тесты отличаются высокой точностью, однако лишь немногие из них всегда точны на 100 %. Почти все тесты допускают два вида ошибок.

  - __Ложноположительный результат__ — это ошибка, при которой тест дает положительный результат, но пациент не болен.

  - __Ложноотрицательный результат__ — это ошибка, при которой тест дает отрицательный результат, но пациент болен.

Эти ошибки могут влиять на наши решения. Ложноположительные результаты вызывают тревогу и могут привести к ненужному лечению (что в некоторых случаях чревато серьезными расходами или опасно для здоровья). Ложноотрицательные результаты могут иметь еще более серьезные последствия в случае, если пациент не получит лечения из-за отрицательного результата теста.

### Тест на редкое заболевание

Допустим, есть большая группа населения, очень маленький процент которой поразило некое заболевание. Информация об этой болезни и тесте на ее выявление представлена на древовидной диаграмме ниже.

![](./media/tree-disease-rare.png)

Общая заболеваемость составляет четыре человека из 1000. Тест довольно точный: доля ложноположительных результатов очень низкая, всего 5 из 1000, а доля ложноотрицательных результатов немного выше (хотя все еще невелика) и составляет 1 из 100.

Люди могут не знать, что они больны, и обычно проходят тесты, чтобы выяснить, есть ли у них заболевание.

Итак, допустим, из населения __случайным образом отбирают того или иного человека__ и делают тест. Если результат положительный, как вы классифицируете этого человека: "болен" или "не болен"?

На этот вопрос можно ответить, применив правило Байеса и используя классификатор "скорее всего". Поскольку тест показал положительный результат, вероятность наличия у этого человека болезни выражается пропорцией в верхней ветви относительно общей пропорции в ветвях положительных результатов теста.

In [51]:
(0.004 * 0.99) / (0.004 * 0.99 + 0.996 * 0.005)

0.44295302013422816

Учитывая, что результат положительный, вероятность того, что человек болен, составляет около 44 %. В итоге его можно классифицировать как "не болен".

Это странно. У нас есть довольно точный тест, который дал положительный результат, но по нашей классификации получается, что болезни у человека нет? Что-то здесь не то.

Получив сомнительный ответ, в первую очередь нужно проверить вычисления. Указанные выше арифметические действия верны. Давайте проверим, можно ли получить тот же самый ответ другим способом.

Функция population выдает таблицу результатов для 100 000 пациентов со столбцами `True Condition` и `Test Result`. Используется тот же тест, который описан в схеме.

In [70]:
0.99 * 400

396.0

In [93]:
def get_population(prop: float, pop=100_000) -> pd.DataFrame:
    dis = int(pop * prop)
    no_dis = pop - dis
    condition = np.array(['Disease'] * dis + ['No Disease'] * no_dis)
    
    result = np.array(['Negative'] * int(0.01 * dis) + \
                      ['Positive'] * int(0.99 * dis) + \
                      ['Negative'] * int(0.995 * no_dis) + \
                      ['Positive'] * int(0.005 * no_dis))
    return pd.DataFrame(zip(condition, result), 
                                     columns=['True Condition', 'Test Result'])

In [94]:
population = get_population(0.004)
population.head()

Unnamed: 0,True Condition,Test Result
0,Disease,Negative
1,Disease,Negative
2,Disease,Negative
3,Disease,Negative
4,Disease,Positive


In [95]:
population.groupby(['True Condition', 'Test Result']).size().unstack(1)

Test Result,Negative,Positive
True Condition,Unnamed: 1_level_1,Unnamed: 2_level_1
Disease,4,396
No Disease,99102,498


Ячейки таблицы содержат верные количества. Например, согласно описанию группы населения, больны четыре человека из 1000. В таблице 100 000 человек, а значит, 400 должны быть больны. Вот что показывает таблица: 4 + 396 = 400. Из этих 400 человек 99 % получили положительный результат теста: 0,99 x 400 = 396.

Из тех, кто получил положительный результат теста, доля заболевших составляет:

In [63]:
396 / (396 + 498)

0.4429530201342282

Это тот ответ, который мы получили по правилу Байеса. Числа в столбце положительных результатов показывают, почему он меньше 1/2. Среди тех, кто получил положительный результат, больше тех, кто не болен, чем тех, кто болен.

Причина в том, что подавляющее большинство населения __не болеет__. Крошечная доля тех, кто получил ложноположительный результат, все еще больше количества тех, у кого положительный результат был верным. Это легче представить в виде древовидной схемы:

![](./media/tree-disease-rare.png)

- Доля истинно положительных результатов составляет подавляющее большинство (0,99) от крошечной доли (0,004) населения.
- Доля ложноположительных результатов составляет крошечную долю (0,005) от подавляющего большинства (0,996) населения.

Эти доли можно сравнить, и вторая немного больше.

Таким образом, если тест человека, отобранного случайным образом, оказался положительным, мы имеем право сказать, что он, скорее всего, __не болен__.


## Субъективная априорная вероятность

Правота не всегда убедительна. Поскольку тест очень точный, кажется, что классифицировать положительных пациентов как не имеющих заболевание все же не верно. Но поскольку расчеты верны, вспомним, что мы производили расчет вероятности для случайно выборки.

Мы предположили, что случайно выбранный человек прошел тест и получил положительный результат. Однако в реальности так не бывает. Люди идут делать тесты потому, что думают, что могут быть больны, или потому что врач считает, что они больны. __Люди, которые делают тесты, не являются случайно выбранными членами популяции__.

Именно поэтому наше представление о людях, которые проходят тесты, не слишком совпадает с полученным ответом. Мы представили себе вполне реалистичную ситуацию, когда пациент идет делать тест, потому что у него есть для этого основания, в то время как расчет был основан на том, что тестируется случайно выбранный человек.

Давайте теперь повторим вычисления с тем более реалистичным предположением, что пациент делает тест, потому что он может быть болен по мнению лечащего врача.

Следует отметить, что фраза "может быть болен по мнению лечащего врача" указывает на вероятность по мнению врача, а не на долю популяции. Это называется _субъективная вероятность_. Когда речь идет о том, болен или не болен пациент, существует также _субъективная априорная вероятность_.

Некоторые исследователи утверждают, что любая вероятность должна отражать частотность, однако субъективные вероятности встречаются гораздо чаще. Шанс победы кандидата на следующих выборах, шанс того, что в следующее десятилетие район залива Сан-Франциско разрушит сильное землетрясение, или шанс того, что на следующем чемпионате мира по футболу победит определенная страна, нельзя представить как относительную частотность или частотность в долгосрочном выражении. Каждая из этих вероятностей включает элемент субъективности. И все связанные с ними расчеты тоже будут включать элемент субъективности.

Допустим, по субъективному мнению врача, существует 5%-ная вероятность того, что пациент болен. В этом случае предыдущие вероятности в древовидной схеме изменятся:

![](./media/tree-disease-subj.png)

Если результат положительный, вероятность того, что человек болен, определяется по правилу Байеса.


In [97]:
(0.05 * 0.99) / (0.05 * 0.99 + 0.95 * 0.005)

0.9124423963133641

Результат изменения впечатляет. Несмотря на то что врач указал довольно низкую априорную вероятность (5%) того, что пациент болен, при положительном результате теста апостериорная вероятность наличия болезни у этого пациента взлетает более чем до 91%.

Положительный результат дает врачу все основания действовать, исходя из того, что пациент действительно болен.

## Подтверждение ответа

Несмотря на субъективность мнения врача, мы можем создать искусственную популяцию, в которой 5% людей больны и проверяются с помощью того же самого теста. В этом случае мы можем посчитать людей в разных категориях и узнать, совпадают ли их количества с ответами, полученными по правилу Байеса.

Используя функцию `get_population(0.05)`, мы можем построить соответствующую популяцию и посмотреть данные в четырех ячейках.

In [99]:
get_population(0.05).groupby(['True Condition', 'Test Result']).size().unstack(1)

Test Result,Negative,Positive
True Condition,Unnamed: 1_level_1,Unnamed: 2_level_1
Disease,50,4950
No Disease,94525,475


В этой искусственно созданной популяции из 100 000 человек 5000 (5%) больны, из них 99% получили положительный результат теста, что означает 4950 истинно положительных результатов. Для сравнения ложноположительных результатов 475: доля тех пациентов, которые получили положительный результат и действительно больны, совпадает с результатом применения правила Байеса.

In [100]:
4950 / (4950 + 475)

0.9124423963133641

Поскольку мы можем создать популяцию с соответствующими пропорциями, мы также можем применить симуляцию для проверки обоснованности своего ответа. Таблица `pop_05` содержит популяцию из 100 000 человек, созданную с учетом указанной врачом вероятности наличия болезни в 5% и погрешностей теста. Возьмем простую случайную выборку из популяции в размере 10 000 человек и извлечем таблицу `positive`, содержащую только тех членов выборки, у которых результаты теста оказались положительными.

In [112]:
pop_05 = get_population(0.05)
sample = pop_05.sample(10000)
positive = sample[sample['Test Result'] == 'Positive']

In [104]:
sample

Unnamed: 0,True Condition,Test Result
11677,No Disease,Negative
18121,No Disease,Negative
98170,No Disease,Negative
11180,No Disease,Negative
13790,No Disease,Negative
...,...,...
70204,No Disease,Negative
37019,No Disease,Negative
49196,No Disease,Negative
97892,No Disease,Negative


Сколько их этих положительных результатов являются истинно положительными? Это будет доля положительных участников, которые больны:

In [124]:
positive[positive['True Condition'] == 'Disease'].__len__() / len(positive)

0.9151624548736462

Если мы воспроизведем эти две ячейки несколько раз, то увидим, что доля истинно положительных результатов примерно соответствует значению 0,912, которое мы рассчитали по правилу Байеса.

Функцию `get_population` можно использовать и с другим аргументом, чтобы изменить априорную вероятность наличия болезни и посмотреть, как это повлияет на апостериорную вероятность.