<a href="https://colab.research.google.com/github/unrebby/MR/blob/main/%D0%9A%D0%BE%D0%BF%D0%B8%D1%8F_%D0%B1%D0%BB%D0%BE%D0%BA%D0%BD%D0%BE%D1%82%D0%B0_%22%D0%A1%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80_10_%D1%82%D0%B5%D1%81%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Проверка гипотез: непараметрические критерии

План на сегодняшний семинар:

* Повторить суть непараметрического оценивания
* Таблица сопряженности и хи-квадрат

Непараметрические критерии могут быть применены для порядковых и номинальных признаков, а также они не нуждаются в предположениях о параметрах генеральной совокупности или форме ее распределения

In [None]:
#подгружаем все необходимые библиотеки
import numpy as np
import pandas as pd
import statsmodels as sm
from scipy import stats

## Критерий согласия хи-квадрат

При анализе данных у нас может возникать вопрос о том, как наши наблюдения распределены по каким-то категориям. Например, на сколько больше студентов на коммерции по сравнению с бюджетниками на двух разных факультетах? Или как соотносятся пропорции сдавших и несдавших экзамен по Python в разных группах?
При такой постановке вопроса нас не интересуют какие-то количественные характеристики для конкретного объекта или выборки в целом: нас интересует только принадлежность объекта к той или иной группе. И в таком случае, когда нас в первую очередь интересует соотношение пропорций в генеральной совокупности, мы будем использовать критерий согласия хи-квадрат.

Данный критерий реализован с помощью функции chisquare в модуле stats:
    
* **stats.chisquare(obs, exp)** 

В эту функцию мы передаем два аргумента:

* obs — фактическая частота попадания в ту или иную подгруппу
* exp — ожидаемая частота.

Возможно, вы знакомы с Менделем и его экспериментами с селекцией гороха: эта история отлично подойдет для иллюстрации применения критерия согласия хи-квадрат. 

Краткий экскурс в тему: Мендель вывел теоретический закон распределения частот видов семян, и в 20-м веке было огромное количество исследований, которые основывались на проверке близости этого закона к реальной жизни как раз с помощью критерия согласия хи-квадрата. История была столь популярна, что на ее тему написал статьи даже известный математик - академик Колмогоров.

Давайте и мы проверим, что там происходило с горохом!

В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей, определяемые в соответствии с законом Менделя, приведены в следующей таблице:

| Тип семян            | Частота | Вероятность |
|:-------------------- |:-------:| -----------:|
| Круглые и желтые     | 315/556 | 9/16        |
| Морщинистые и желтые | 101/556 | 3/16        |
| Круглые и зеленые    | 108/556 | 3/16        |
| Морщинистые и зеленые| 32/556  | 1/16        |

Необходимо проверить гипотезу $H_0$ о согласованности частот с теоретическими вероятностями при помощи критерия хи-квадрат.

In [None]:
# создаем массивы с реальными частотами (точнее, долями) и с теоретическими вероятностями
obs = np.array([315/556, 101/556, 108/556, 32/556]) #реальные доли - левый столбец в таблице
exp = np.array([9/16, 3/16, 3/16, 1/16]) #теоретические вероятности - правый столбец в таблице

Ранее мы посмотрели, что в функцию для реализации критерия согласия мы передаем фактические частоты, а у нас только доли. Чтобы получить из них частоты, мы умножим каждую долю на общее количество семян:

In [None]:
obs = obs*556 #рассчитали реальные частоты
exp = exp*556 #рассчитали ожидаемые частоты

In [None]:
# запускаем функцию для критерия хи-квадрат
stats.chisquare(obs, exp) 

Power_divergenceResult(statistic=0.4700239808153487, pvalue=0.9254258951036157)

Мы видим, что у нас получилось очень большое значение p-value: оно свидетельствует о том, что мы не отвергаем нулевую гипотезу. Значит, закон Менделя работает!

## Задача 1

У некоторого преподавателя НИУ ВШЭ есть предположение, что 25% студентов сдают ДЗ заранее, 60% в последний момент, а 15% вовсе забывают о домашнем задании. После первого ДЗ на курсе  было выявлено, что из 330 студентов 60 сдали ДЗ заранее, 200 в последний момент, а 70 - вовсе забыли о ДЗ. Проверьте гипотезу о том, что предположение преподавателя о теоретическом распределении вероятностей верное.

In [None]:
#YOUR CODE
obs = np.array([60, 200, 70])
exp = np.array([0.25*330, 0.6*330, 0.15*330])

stats.chisquare(obs, exp)

Power_divergenceResult(statistic=14.646464646464647, pvalue=0.0006600253442961802)

# Критерий независимости хи-квадрат Пирсона (критерий независимости номинальных признаков Пирсона)

Еще один критерий - критерий независимости хи-квадрат Пирсона - нужен нам для того, чтобы проверять наличие взаимосвязи между двумя признаками.

Пусть у нас есть пациенты, которых проверяли на предмет наличия сердечных заболеваний. И мы хотим проверить, есть ли взаимосвязь у пола пациента и наличия у него заболевания. Нулевая гипотеза заключается в том, что признаки независимы.
* Пол записан в признаке sex (1-мужчины, 0-женщины)
* Наличие заболевания записано в признаке target (1 - заболевание обнаружено, 0 - нет)

In [None]:
df = pd.read_csv('heart.csv')
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


В первую очередь построим таблицу сопряженности:

In [None]:
t = df.groupby('sex')['target'].value_counts().unstack()
t

target,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
0,24,72
1,114,93


Теперь рассчитаем суммарное количество здоровых и больных, а также общую сумму:

In [None]:
n_0 = t[0].sum()
n_1 = t[1].sum()
n_sum = n_0 + n_1
print(n_0, n_1, n_sum)

138 165 303


Рассчитаем доли:

In [None]:
p_0 = n_0 / n_sum
p_1 = n_1 / n_sum
print(p_0, p_1)

0.45544554455445546 0.5445544554455446


Рассчитаем суммарное количество мужчин и женщин:

In [None]:
n_w = t.iloc[0].sum()
n_m = t.iloc[1].sum()
print(n_w, n_m)

96 207


Рассчитываем ожидаемые в случае независимости признаков частоты для мужчин (здоровых и больных) и для женщин (здоровых и больных):

In [None]:
e0_women = n_w * p_0
e1_women = n_w * p_1
e0_men = n_m * p_0
e1_men = n_m * p_1

In [None]:
print(e0_women, e1_women, e0_men, e1_men)

43.722772277227726 52.27722772277228 94.27722772277228 112.72277227722773


Составим таблицу ожидаемых частот:

In [None]:
t_e = np.array([[e0_women, e1_women], [e0_men, e1_men]])
t_e

array([[ 43.72277228,  52.27722772],
       [ 94.27722772, 112.72277228]])

Рассчитываем значение статистики:

$
\chi^2 = \sum{\frac{(f_o - f_e)^2}{f_e}}
$

В данной формуле $f_o$ - это наблюдаемые частоты, а $f_e$ - ожидаемые частоты

In [None]:
chi_square = ((t - t_e)**2/t_e).sum().sum() #суммируем сначала по полу, потом в целом
print(chi_square)

23.914383914761984


Рассчитаем значение количества степей свободы:

$
dof = (R - 1)(C - 1)
$

В формуле R - количество строк нашей таблицы, а C - количество столбцов.

In [None]:
dof = (t.shape[0] - 1) * (t.shape[1] - 1)
dof

1

_Примечание: количество степеней свободы - это количество значений в итоговом вычислении статистики, способных варьироваться. Смысл в том, что при разном значении степеней свободы будет меняться форма распределения статистик хи-квадрат. А значит и значения критерия, отсекающие определенную пропорцию распределения, будут варьироваться.(с)_

In [None]:
pvalue = 1-stats.chi2.cdf(chi_square, df=1)
print(pvalue)

1.0071642033704364e-06


pvalue - вероятность получить значение статистики критерия равное наблюдаемому или более нетипичное по сравнению с наблюдаемым при условии, что нулевая гипотеза верна.

In [None]:
round(1.0071642033704364e-06, 4)

0.0

Можно было бы рассчитать и автоматически:

In [None]:
stats.chi2_contingency(t, correction=False)

(23.914383914761988,
 1.0071642033238865e-06,
 1,
 array([[ 43.72277228,  52.27722772],
        [ 94.27722772, 112.72277228]]))

Время решить задачу самостоятельно! (ну почти)

## Задача 2 (парадокс Симпсона)

Не забывайте, что мы должны не только уметь применять функции из библиотек, но еще надо понимать, какие действия с данными корректны, а какие нет.

Перед вами результаты медицинских исследований. Из 1650 мужчин, испытывающих лекарство, выздоровели 770, из 223 не принимавших выздоровели 88. Из 245 принимавших женщин — 165, из 750 не принимавших — 440.

Необходимо проверить следующее:
1. Влияет ли лекарство на мужчин?
2. Влияет ли лекарство на женщин? 
3. Влияет ли лекарство на людей обоих полов в целом?

Запишем данные в аккуратную табличку. Пусть $A$ — принимавшие лекарство, $\overline{A}$ — не принимавшие лекарство, $B$ — выздоровевшие, $\overline{B}$ — не выздоровевшие.

<!--<img width="60%" src="pics/pic2.png">-->
<table>
<tr><td>
    
|Мужчины| $B$ |  $\overline{B}$|
|--|--|--|
|$A$| 770 | 880 |
|$\overline{A}$| 88 | 135 |

</td><td>
    
|Женщины| $B$ |  $\overline{B}$|
|--|--|--|
|$A$| 165 | 80 |
|$\overline{A}$| 440 | 310 |

</td><td>

|Вместе| $B$ |  $\overline{B}$|
|--|--|--|
|$A$| 935 | 960 |
|$\overline{A}$| 528 | 445 |

</td></tr> </table>

### Есть ли эффект от лекарства у мужчин? 

Заметим, что среди принимавших лекарство мужчин доля выздоровевших больше, чем среди мужчин, не принимавших лекарство:

$$\frac{770}{770 + 880} \approx 0.467 \qquad > \qquad 0.395 \approx \frac{88}{88 + 135}.$$
  
Проверим, значимо ли это различие.

In [None]:
#создаем массивы для наших данных 

men = np.array([[770,880],[88,135]]) #частоты для мужчин
women = np.array([[165,80],[440,310]]) #частоты для женщин
both = men + women #складываем частоты для женщин и для мужчин, чтобы получить суммарные частоты

In [None]:
# можно реализовать критерий вручную 

n = np.sum(men) # количество испытуемых среди мужчин
n1,n2 = np.sum(men,axis=1) # количество испытуемых, принимавших и не принимавших лекарство среди мужчин
p = np.sum(men,axis=0)/n # вероятности попасть в (B) и (not B)
exmen = np.array([p*n1,p*n2]) # ожидаемые количества в каждой ячейке

statistic = np.sum((men - exmen)**2/exmen) #рассчитываем значение статистики
pvalue = 1-stats.chi2.cdf(statistic, df=1) #значение p-value

print("statistic = ", statistic)
print("p-value = ", pvalue)

statistic =  4.107854906463222
p-value =  0.04268446899604583


In [None]:
stats.chi2_contingency(men, correction=False)

### Есть ли эффект от лекарства у женщин? 

In [None]:
#YOUR CODE


Для женщин соответствующие доли равны $0.673>0.587$ - среди принимавших лекарство доля выздоровевших больше, чем среди не принимавших лекарство, различия значимы.

### Есть ли эффект от лекарства у мужчин и женщин вместе? 

In [None]:
# YOUR CODE


Как это ни странно, из таблицы с объединенными результатами следует, что доля выздоровевших больше среди тех людей, которые лекарство **не принимали**:

$$\frac{935}{935+960} \approx 0.493 \qquad < \qquad 0.542 \approx \frac{528}{528+445}.$$
  

Может произойти такая ситуация, что новое лекарство может оказаться эффективным в каждом из отдельных исследований, на каждой отдельной группе, но объединение результатов укажет на то, что это лекарство либо бесполезно, либо вредно. Проблема здесь в том, что объединять эти выборки просто слив данные вместе нельзя: контрольные группы (не принимавших лекарство) занимают разный объем от выборок -- примерно 12% в случае мужчин и 75% в случае женщин.