<a href="https://colab.research.google.com/github/antipovaya/probability-theory-and-mathematical-statistics/blob/main/%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%BD%D0%B0_%D0%BF%D0%BE%D0%BB%D0%BD%D1%83%D1%8E_%D0%B2%D0%B5%D1%80%D0%BE%D1%8F%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B8_%D1%84%D0%BE%D1%80%D0%BC%D1%83%D0%BB%D1%83_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Классическая задача: **Точность медицинского теста**

Условие:
Допустим, есть некая болезнь, которой в среднем болеет 1% населения (P(Болезнь) = 0.01).
Есть тест на эту болезнь. Он обладает следующими характеристиками:

Если человек болен, тест дает положительный результат с вероятностью 99% (P(+ | Болен) = 0.99).

Если человек здоров, тест ошибочно дает положительный результат с вероятностью 5% (P(+ | Здоров) = 0.05).

Вопрос:
Человек сделал тест, и он положительный. Какова вероятность, что он действительно болен? (P(Болен | +) = ?)\

In [2]:
def bayes_theorem(p_b_given_a, p_a, p_b):
    """
    Расчет по формуле Байеса.

    Параметры:
    p_a: Априорная вероятность гипотезы A (P(A))
    p_b_given_a: P(B|A) Вероятность наступления события В, при условии, что гипотеза А верна.
    p_b: Полная вероятность события В (P(B))
    """

    # Применение формулы Байеса
    p_a_given_b = (p_b_given_a * p_a) / p_b
    return p_a_given_b

In [3]:
def probability_b(*probabilities):
  # Вычисляем полную вероятность
  total = 0
  for i in range(0, len(probabilities), 2):
      p_hi = probabilities[i]      # P(H_i)
      p_e_given_hi = probabilities[i+1]  # P(E|H_i)
      total += p_hi * p_e_given_hi

  return total

P(Б) = вероятность болеть = 0,01  

Р(З) = вероятность быть здоровым = 1 - 0,01 = 0,99  

Р(+ | Б) = вероятность положительного теста, если болен = 0,99  

Р(- | Б) = вероятность отрицательного теста, если болен = 1 - 0,99 = 0,01  

Р(+ | З) = вероятность положительного теста, если здоров = 0,05  

Р(- | З) = вероятность отрицательного теста, если здоров = 0,95

Найти нужно Р(Б | - )


In [None]:
print(f"Вероятность того, что человек болен при положительном тесте равна {bayes_theorem(0.01, 0.99, probability_b(0.01, 0.99, 0.99, 0.05))}")

Вероятность того, что человек болен при положительном тесте равна 0.16666666666666669


Задача: **Спам-фильтр (самое известное применение)**
Условие:

80% всех входящих писем — спам (P(Спам)=0.8).

В 10% спам-писем встречается слово "акция" (P("акция" | Спам)=0.1).

В 1% настоящих писем (не спам) тоже встречается слово "акция" (P("акция" | Не спам)=0.01).

Вопрос: Пришло письмо, содержащее слово "акция". Какова вероятность, что это спам? (P(Спам | "акция"))

Решение:

P(Спам) = 0.8

P(Не спам) = 0.2

P("акция" | Спам) = 0.1

P("акция" | Не спам) = 0.01

Находим по Байесу:
P(Спам | "акция") = [ P("акция" | Спам) * P(Спам) ] / P("акция")

Нам известны все перемнные за исключением вероятности слова "акция" в письме (P("акция")). Найдем ее по формуле полной вероятности:  
P(A) = P(B1)*P(A | B1) + P(B2)*P(A | B2) + ... + P(Bn)*P(A | Bn) =  
= (P("акция")) = P(Спам)*P("акция" | Спам) + P(Не спам)*P("акция" | Не спам) =

In [None]:
print(f"Полная вероятность слова акция в письме (P('акция')) равна {probability_b(0.8, 0.1, 0.2, 0.01)}")

Полная вероятность слова акция в письме (P('акция')) равна 0.08200000000000002


In [None]:
result = bayes_theorem(0.1, 0.8, 0.082)

print(f"Вероятность того, что письмо, содержащее слово 'акция', является спамом равна {result:.4f}. То есть на {result * 100:.2f}% можно утверждать, что письмо со словом 'акция' является спамом.")

Вероятность того, что письмо, содержащее слово 'акция', является спамом равна 0.9756. То есть на 97.56% можно утверждать, что письмо со словом 'акция' является спамом.


Задача: **Надежность оборудования**  

Условие:
На заводе детали производит три станка.

Станок X делает 50% деталей, и его брак составляет 1%.

Станок Y делает 30% деталей, и его брак составляет 2%.

Станок Z делает 20% деталей, и его брак составляет 3%.

Вопрос: Взятая наугад деталь оказалась бракованной. Какова вероятность, что она была произведена на станке Y? (P(Y | Брак))

Решение:

Априорные вероятности (доли станков):

P(X) = 0.5

P(Y) = 0.3

P(Z) = 0.2

Правдоподобие (вероятность брака для каждого):

P(Брак | X) = 0.01

P(Брак | Y) = 0.02

P(Брак | Z) = 0.03

Нам нужно найти P(Y | Брак) = [ P(Брак | Y) * P(Y) ] / P(Брак)

Считаем полную вероятность брака:  
P(Брак) = P(Брак|X)*P(X) + P(Брак|Y)*P(Y) + P(Брак|Z)*P(Z)

In [None]:
print(f"Полная вероятность брака равна {probability_b(0.5, 0.01, 0.3, 0.02, 0.2, 0.03)}")

Полная вероятность брака равна 0.017


Подставляем в формулу Байеса:  

In [None]:
result = bayes_theorem(0.02, 0.3, 0.017)

print(f"Вероятность того, что брак был на оборудовании Y, равна {result * 100:.2f}%.")

Вероятность того, что брак был на оборудовании Y, равна 35.29%.


Задача: **Шарики из урны/корзины**  

Условие:
В одной урне 4 белых и 6 черных шаров. В другой — 3 белых и 7 черных. Выбирается урна случайным образом (с вероятностью 50/50), а из нее наугад вынимается один шар. Шар оказался белым.

Вопрос: Какова вероятность, что шар был вынут из первой урны?


Гипотезы: P(Урна1) = 0.5, P(Урна2) = 0.5

Правдоподобие: P(Белый | Урна1) = 4/10 = 0.4, P(Белый | Урна2) = 3/10 = 0.3

Найти: P(Урна1 | Белый)

Формула Байеса:
P(Урна1 | Белый) = [ P(Белый | Урна1) * P(Урна1) ] / P(Белый)  

Полная вероятность белого шарика:  

P(Белый) = P(Белый | Урна1)*P(Урна1) + P(Белый | Урна2)*P(Урна2)

In [None]:
print(f"Полная вероятность белого шарика {probability_b(0.5, 0.4, 0.5, 0.3)}")

Полная вероятность белого шарика 0.35


In [None]:
result = bayes_theorem(0.4, 0.5, 0.35)

print(f"Вероятность того, что шар был вынут из первой урны, равна {result * 100:.2f}%.")

Вероятность того, что шар был вынут из первой урны, равна 57.14%.


Задача: **Медицинская диагностика **

Условие: Болезнь встречается у 1% населения. Тест на болезнь имеет точность 95% для больных и 90% для здоровых. Человек получил положительный результат теста. Какова вероятность, что он действительно болен?  

P(болен) = 0.01

P(здоров) = 0.99

P(+|болен) = 0.95

P(+|здоров) = 0.10

Считаем полную вероятность положительного теста:  

P(+) = P(+|болен)*P(болен) + P(+|здоров)*P(здоров)

In [None]:
print(f"Полная вероятность + теста равна {probability_b(0.01, 0.95, 0.99, 0.1)}")

Полная вероятность + теста равна 0.1085


Подставляем все данные в формулу Байеса:  

P(болен|+) = (P(+|болен)*P(болен)) / P(+)

In [None]:
result = bayes_theorem(0.95, 0.01, 0.1085)

print(f"Вероятность того, что при + тесте человек болен составляет {result * 100:.2f}%.")

Вероятность того, что при + тесте человек болен составляет 8.76%.


Задача: **Контроль качества на производстве**  

Условие: На фабрике три цеха производят одинаковые изделия. Первый цех производит 30% продукции, второй - 45%, третий - 25%. Брак в продукции составляет: в первом цехе - 2%, во втором - 1%, в третьем - 3%. Случайно выбранное изделие оказалось бракованным. Какова вероятность, что оно произведено во втором цехе?  

P(1) = 0.30, P(брак|1) = 0.02  

P(2) = 0.45, P(брак|2) = 0.01  

P(3) = 0.25, P(брак|3) = 0.03  



In [None]:
print(f"Полная вероятность брака (P(брак)) равна {probability_b(0.3, 0.02, 0.45, 0.01, 0.25, 0.03):.4f}")

Полная вероятность брака (P(брак)) равна 0.0180


P(2|брак) = (P(брак|2)*P(2)) / P(брак)

In [None]:
result = bayes_theorem(0.01, 0.45, 0.0180)

print(f"Вероятность того, что бракованное изделие из 2го цеха составляет {result * 100:.2f}%.")

Вероятность того, что бракованное изделие из 2го цеха составляет 25.00%.


Задача: **Прогноз погоды**  

Условие: Метеорологическая станция предсказывает дождь с точностью 80%, когда он действительно идет, и с точностью 90%, когда его нет. В данной местности дождь идет в среднем 15 дней в месяце. Если прогноз предсказывает дождь, какова вероятность, что он действительно будет?

Решение:  

P(дождь) = 15/30 = 0.5

P(нет дождя) = 1 - 0.5 = 0.5

P(прогноз+|дождь) = 0.80

P(прогноз+|нет дождя) = 0.10


P(прогноз+) = P(прогноз+|дождь)*P(дождь) + P(прогноз+|нет дождя)*P(нет дождя)

P(дождь|прогноз+) = (P(прогноз+|дождь)*P(дождь)) / P(прогноз+)

In [4]:
print(f"Полная вероятность положительного прогноза {probability_b(0.8, 0.5, 0.1, 0.5):.4f}")

Полная вероятность положительного прогноза 0.4500


In [6]:
result = bayes_theorem(0.8, 0.5, 0.45)

print(f"Вероятность того, что будет дождь при положительном прогнозе составляет {result * 100:.2f}%.")

Вероятность того, что будет дождь при положительном прогнозе составляет 88.89%.


Задача: **Студенческая олимпиада**  

Условие: На олимпиаде по математике участвуют студенты из трех групп. Из первой группы - 5 человек, из второй - 4, из третьей - 6. Вероятность решить задачу для студента первой группы - 0.8, второй - 0.6, третьей - 0.7. Случайно выбранный студент решил задачу. Какова вероятность, что он из третьей группы?

Решение:

Всего студентов: 5+4+6 = 15  

P(1) = 5/15 ≈ 0.333, P(решил|1) = 0.8  

P(2) = 4/15 ≈ 0.267, P(решил|2) = 0.6  

P(3) = 6/15 = 0.4, P(решил|3) = 0.7  

P(3|решил) = (P(решил|3)*P(3)) / P(решил)  
Нам неизвестна общая веоятность решить задачу P(решил). Найдем ее:

In [9]:
print(f"Полная вероятность решить задачу равна {probability_b(0.333, 0.8, 0.267, 0.6, 0.4, 0.7):.4f}")

Полная вероятность решить задачу равна 0.7066


In [11]:
result = bayes_theorem(0.7, 0.4, 0.7066)

print(f"Вероятность того, задача решена студентом из 3-й группы составляет {result * 100:.2f}%.")

Вероятность того, задача решена студентом из 3-й группы составляет 39.63%.
