In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import scipy.stats as stats
import math
from statsmodels.graphics.mosaicplot import mosaic
import matplotlib.pyplot as plt

Если количество наблюдений в некоторых ячейках меньше 5, или наблюдения отсутствуют, Хи квадрат применять некорректно.

В подобных ситуациях применяется точный критерий Фишера.

In [5]:
# Есть 2 лекарства
pills = np.array(["A" for i in range(4)] + ["B" for i in range(4)])
# Есть несколько пациентов, каждому было дано либо лекарство "А", либо "В"
patients = np.array([i for i in range(len(pills))])
# 1 - это выздоровившие пациенты, 0 - это те, кто продолжил болеть
cured = np.array([1, 1, 1, 0, 0, 0, 0, 1])
data = {"pills": pills, "patients": patients, "cured": cured}
df = pd.DataFrame(data)
df

Unnamed: 0,pills,patients,cured
0,A,0,1
1,A,1,1
2,A,2,1
3,A,3,0
4,B,4,0
5,B,5,0
6,B,6,0
7,B,7,1


In [7]:
# Запишем наши данные в виде двумерной таблички (таблицы сопряженности). Увидим сколько человек поправилось
# от лекарства "А" и лекарства "В"
df.groupby(["pills", "cured"]).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,patients
pills,cured,Unnamed: 2_level_1
A,0,1
A,1,3
B,0,3
B,1,1


Н0: Нет никакой взаимосвязи между вероятностью выздоровления и типом лекарства.

Н1: Есть взаимосвязь между вероятностью выздоровления и типом лекарства.

В этой задаче мы расчитаем вероятность выбрать 4 человека, использовавших лекарство "А" и получить данные о том, что 3 поправились, 1 не поправился.
И выбрать 4 человека из использовавших лекарство "Б" и получить данные о том, что 1 поправился, а 3 не поправились, или получить еще более сильно выраженные различия (например 4 поправились, 0 не поправились). 

Математическая составляющая.

![image.png](attachment:7dc742f3-62bb-4f87-b798-2b4ecab9dfab.png)

Н0: р1(вероятность поправиться, используя лекарство А) = р2(вероятность поправиться, использую лекарство В) = р(некоторая вероятность, в нашем случае 0.5)

x - количество положительных исходов у пациентов, использовавших лекарство номер 1

y - количество положительных исходов у пациентов, использовавших лекарство  номер 2

Случайная величина х может быть описана с помощью биномиального распределения с а + b бросками с вероятностью положительного исхода p. binomial(a+b, p)

y ~ binomial(c+d, p)

x + y ~ binomial(n, p) - общее количество пложительных исходов в нашей выборке.

В нашем случае поставим вопрос: "Если мы знаем, что вероятность поправиться = 0.5, какова вероятность получить "a" людей с положительным исходом, если всего было "a + b" попыток?"

P(x = a)(вероятность того, что х примет значения равное а)(часть 2, урок 1.8, степ 4)
![image.png](attachment:061dd666-3eaa-4376-8bf3-e5b074ab1a8f.png)

Теперь расчитаем вероятность того, что x = a при условии, x + y = a + b:
![image.png](attachment:2432f2bd-9c7c-49d7-aed2-3e8553d3e229.png)

Подставим значения выше в нашу формулу, и получим:
![image.png](attachment:52825ce7-babe-4f01-961e-e480d737dfc3.png)

Теперь расчитаем вероятность таких данных для нашей задачи.
![image.png](attachment:cd2fa72c-2ffb-4b6f-a561-47f36cccc12f.png)
![image.png](attachment:23ef6ffb-8d79-4791-bbb1-6ab9edc751b8.png)

Также надо учесть вероятность получить еще более значимые различия:
![image.png](attachment:7862dcc2-e7c2-4cd0-b575-f446ce3d88fd.png)

Теперь надо расчитать вероятность получения зеркальных результатов, как мы понимаем, они будут равны этим.

Поэтому итоговая вероятность получить такие или еще более сильные различия = (0.229 + 0.014) * 2 = 0.49 это и есть P уровень значимости, для проверки гипотезы о том, что вероятность поправиться, как для людей, которые использую лекарство 1 и лекарство 2 одинакова.


In [13]:
res = stats.fisher_exact(np.array([[1, 3], [3, 1]]), alternative='two-sided')
print(res)

(0.1111111111111111, 0.48571428571428527)
