## Проверка гипотез о взаимосвязи двух номинативных переменных. Анализ таблиц сопряженности  

Требования к данным:  
* Все наблюдения должны быть независимые.
* Требования к минимальному ожидаемому значению частот:  
1. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10.  
В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9,  
критерий хи-квадрат должен рассчитываться с поправкой Йейтса.  
Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера.  
2. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.


### Задача
По таблице количесва юношей и девушек в группах биологии и информатики определить,  
отличается ли распределение числа юношей и девушек от равномерного.  

|  | Юноши | Девушки |
| --- | --- | --- |
| Биология | 15 | 9 |
| Информатика | 11 | 6 |


In [1]:
observed = [[15, 9], [11, 6]]

Расчет ожидаемых частот.

In [2]:
import numpy as np

sum_axis = [np.sum(observed, axis=0), np.sum(observed, axis=1)]
sum_total = np.sum(observed)

f11 = sum_axis[0][0] * sum_axis[1][0] / sum_total
expected = [[f11, sum_axis[0][1] * sum_axis[1][0] / sum_total],
            [sum_axis[0][0] * sum_axis[1][1] / sum_total, sum_axis[0][1]* sum_axis[1][1] / sum_total]]
print('expected:', expected)

expected: [[15.21951219512195, 8.78048780487805], [10.78048780487805, 6.219512195121951]]


In [3]:
from scipy.stats.contingency import expected_freq

print('expected:', expected_freq(observed))

expected: [[15.2195122  8.7804878]
 [10.7804878  6.2195122]]


Гипотезы:  
H0: Распределение не отличается от ожидаемого (нет взаимосвязи между переменными).  
H1: Распределение отличается (две переменные взаимосвязаны).

Вычисление Хи-квадрат с поправкой Йется. Поправка применяется, когда ожидаемые частоты меньше 10.

In [4]:
chi_2_Yates = sum([(abs(observed[i][j] - expected[i][j]) - 0.5) ** 2 / expected[i][j] for i in range(len(observed)) for j in range(len(observed[i]))])
print('chi_2_Yates:', chi_2_Yates)

chi_2_Yates: 0.0340764831573656


Число степеней свободы вычисляется по формуле:

In [5]:
df = (len(observed[0]) - 1) * (len(observed[1]) - 1)
print('df:', df)

df: 1


Определяем p-value:

In [6]:
import scipy.stats as st

p_value = 1 - st.chi2.cdf(chi_2_Yates, df)
print('p_value:', p_value)

alpha = 0.05
if p_value > alpha:
    print(f'p_value(X > {chi_2_Yates:.2f}) > alpha. Do not reject H0')
else:
    print(f'p_value(X > {chi_2_Yates:.2f}) < alpha. Reject H0')

p_value: 0.8535442239746989
p_value(X > 0.03) > alpha. Do not reject H0


In [7]:
chi_2_Yates, p_value, df, expected = st.chi2_contingency(observed)
print('expected:', expected)
print('chi_2_Yates:', chi_2_Yates)
print('df:', df)
print('p_value:', p_value)

expected: [[15.2195122  8.7804878]
 [10.7804878  6.2195122]]
chi_2_Yates: 0.0340764831573656
df: 1
p_value: 0.8535442239746989


### Задача  
Перед знаком стоп некоторые водители останавливаются полностью, другие лишь сбавляют скорость,  
но некоторые не останавливаются вообще. Важнейший вопрос, есть ли взаимосвязь между полом и  
стилем вождения автомобиля!  
Ниже представлена таблица сопряженности данных исследования, посвященного этому вопросу.

|  | Мужчины | Женщины |
| --- | --- | --- |
| Тормозят | 20 | 15 |
| Притормаживают | 11 | 12 |
| Не тормозят | 7 | 9 |

In [8]:
observed = [[20, 15], [11, 12], [7, 9]]

# H0: Нет взаимосвязи между переменными

chi_2, p_value, df, expected = st.chi2_contingency(observed)
print('expected:', expected)
print('chi_2:', chi_2)
print('df:', df)
print('p_value:', p_value)

if p_value > alpha:
    print(f'p_value(X > {chi_2:.2f}) > alpha. Do not reject H0')
else:
    print(f'p_value(X > {chi_2:.2f}) < alpha. Reject H0')

expected: [[17.97297297 17.02702703]
 [11.81081081 11.18918919]
 [ 8.21621622  7.78378378]]
chi_2: 0.9544070774762996
df: 2
p_value: 0.6205162173513055
p_value(X > 0.95) > alpha. Do not reject H0


### Задача  
Нельзя ли снизить риск тромбоза назначением небольших доз аспирина (160мг/сут)?

|  | Есть тромбоз | Нет тромбоза |
| --- | --- | --- |
| Плацебо | 18 | 7 |
| Аспирин | 6 | 13 |

In [9]:
observed = [[18, 7], [6, 13]]

# H0: Нет взаимосвязи между переменными
# H1: Есть взаимосвязь

chi_2, p_value, df, expected = st.chi2_contingency(observed)
print('expected:', expected)
print('chi_2:', chi_2)
print('df:', df)
print('p_value:', p_value)

if p_value > alpha:
    print(f'p_value(X > {chi_2:.2f}) > alpha. Do not reject H0')
else:
    print(f'p_value(X > {chi_2:.2f}) < alpha. Reject H0')

expected: [[13.63636364 11.36363636]
 [10.36363636  8.63636364]]
chi_2: 5.57719298245614
df: 1
p_value: 0.018195864430772903
p_value(X > 5.58) < alpha. Reject H0
