## 17. Таблицы сопряженности признаков. Критерий независимости хи-квадрат для проверки независимости двух переменных. Оценки максимального правдоподобия при нулевой гипотезе.

В данной задаче наблюдаются n объектов.

У каждого объекта фиксируются значения `двух` признаков. Каждый из этих признаков имеет конечное число значений `(k,l)`. 

Результаты заносятся в `таблицу абсолютных частот` размера `(k строк,l столбцов)`. 
* $A_1, ... , A_k$ - возможные значения `первого` признака
* $B_1, ... , B_l$ - возможные значения `второго` признака

Необходимо проверить, есть ли статистическая зависимость между признаками.

Для этого вводится гипотеза $H_0$ о независимости признаков:
* $H_0:$ для любых $i,j: p_{ij}=p_i q_j$
* $H_1:$ существует пара $i,j: p_{ij} \ne p_iq_j$ - сложная гипотеза, т.к. может быть несколько таких распределений

Разделяют три типа постановки данной задачи:
* `первый способ` - нет ограничений на суммарные частоты по столбцам и строкам, т.е. любой объект может попасть в любую клетку таблицы
* `второй способ` - фиксируем суммарные частоты по строкам
* `третий способ` - фиксируем суммарные частоты по строкам и столбцам

Для решения данных задач используют оценку максимального правдоподобия.

Если оценить вероятности $p_i,q_j$ с помощью оценки максимального правдоподобия и использовать эти оценки в сатистике `R` Пирсона, то при справедливой $H_0$ статистика будет сходиться к распределению $\chi^2_{(k-1)(l-1)}$

Это спрведливо для `первого` и `вторго` способов. Для третьего способа статистика будет иметь распределние `Фишера`.

### Пример 1.

(На первый способ)

Необходимо проверить зависимость между доходом и количеством детей.

Данные преведены в таблице:
* Строки - количество детей $(0, 1, 2, 3, \ge4)$
* Столбцы - доход $(0-1, 1-2, 2-3, \ge3)$

In [1]:
x = matrix(c(2161, 3577, 2184, 1636,
             2755, 5081, 2222, 1052,
             936,  1753,  640,  306,
             225,   419,   96,   38,
             39,     98,   31,   14), 
           ncol = 4, 
           byrow = TRUE)

In [17]:
chisq.test(x)


	Pearson's Chi-squared test

data:  x
X-squared = 568.57, df = 12, p-value < 2.2e-16


Отвергаем гипотезу, т.к. p-value слишком маленькое. Значит признаки не независимы.

### Пример 2.

(На второй способ)

Трем группам:
* только мужчины
* только женщины
* мужчины и женщины

давали лекарство и смотрели за их здоровьем.

    Строки - принимал / не принимал лекарство
    Столбцы - выздоровел / не выздоровел

In [18]:
men_group = matrix(c(700, 800,
                     80, 130), 
                   ncol = 2, 
                   byrow = TRUE)

In [19]:
chisq.test(men_group)


	Pearson's Chi-squared test with Yates' continuity correction

data:  men_group
X-squared = 5.1155, df = 1, p-value = 0.02371


In [20]:
women_group = matrix(c(150, 70,
                       400, 280), 
            ncol = 2, 
            byrow = TRUE)

In [21]:
chisq.test(women_group)


	Pearson's Chi-squared test with Yates' continuity correction

data:  women_group
X-squared = 5.738, df = 1, p-value = 0.0166


In [22]:
together = matrix(c(850, 870,
                    480, 410), 
                  ncol = 2, 
                  byrow = TRUE)

In [23]:
chisq.test(together)


	Pearson's Chi-squared test with Yates' continuity correction

data:  together
X-squared = 4.6032, df = 1, p-value = 0.03191


Видно, что данные из группы мужчин более независимы. Возможно в совместной выборке они оттягивают их в сторону независимости признаков.

### Пример 3.

(На третий способ)

In [12]:
fisher.test(matrix(c(3,1,1,3), nrow = 2))


	Fisher's Exact Test for Count Data

data:  matrix(c(3, 1, 1, 3), nrow = 2)
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
   0.2117329 621.9337505
sample estimates:
odds ratio 
  6.408309 
