# Тест по теме "Введение в тестирование гипотез. Непараметрические критерии".

In [2]:
import pandas as pd
import numpy as np
import scipy.stats

In [3]:
starwars = pd.read_csv('data/StarWars.csv', sep=';')

#### Описание данных
- respondentID — идентификационный номер респондента
- seen — ответ на вопрос, видел ли респондент хотя бы один фильм из серии «Звездных войн» (да/нет)
- fan — ответ на вопрос, считает ли респондент себя фанатом серии фильмов (да/нет)
- gender — пол респондента (М/Ж)
- age_group — возрастная группа, к которой принадлежит респондент (18-29, 30-44, 45-60, > 60)
- income — доход респондента в долларах США (0 - 24.999, 25.000 - 49.999, 50.000 - 99.999, 100.000 - 149.999, 150.000+)-– loc — регион проживания респондента (в США)
- yoda — отношение респондента к персонажу серии (Йоде)
- princess_leia_organa — отношение респондента к персонажу серии (принцессе Лее Органе)

#### 1. Обратим внимание на переменные gender и fan. Какую гипотезу мы можем протестировать, используя хи-квадрат? Выберите один верный ответ.

*Ответ: Распределение наблюдений по категориям выбранных переменных независимо.*

#### 2. Постройте таблицу сопряженности для переменных gender и fan. Укажите, верно ли следующее утверждение: 120 мужчин являются фанатами серии фильмов «Звездные войны».

*Ответ: утверждение ложно.*

In [4]:
starwars.groupby('gender')['fan'].value_counts().unstack()

fan,да,нет
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Ж,238,159
М,303,120


#### 3. Предположим, что мы тестируем гипотезу о том, что распределение наблюдений по категориям выбранных нами переменных независимо. Чему будет равно количество степеней свободы, рассчитанное по построенной в предыдущем задании таблице сопряженности? Выберите один верный ответ.

*Ответ: $df = (2-1)*(2-1) = 1$.*

#### 4. Что означает равенство уровня значимости пяти процентам? Выберите один верный ответ.

*Ответ: вероятность ошибки первого рода равна 5%.*

#### 5. Чему будет равно критическое значение критерия хи-квадрат для указанных выше параметров (уровня значимости 5% и верного числа степеней свободы), при котором мы сможем отвергнуть нулевую гипотезу? Выберите один верный ответ.
*Ответ: $\chi^2 = 3.84$.*

##### Таблица соответствия значение $\chi^2$ уровню статистической значимости и количеству степеней свободы. 
|df| $\alpha = 0.1$ | $\alpha = 0.05$ | $\alpha = 0.025$ | $\alpha = 0.01$ | $\alpha = 0.005$ |
|--|----------------|-----------------|------------------|-----------------|------------------|
| 1|2.71|3.84|5.02|6.63|7.88|
| 2|4.61|5.99|7.38|9.21|10.60|
| 3|6.25|7.81|9.35|11.34|12.84|
| 4|7.78|9.49|11.14|13.28|14.86|
| 5|9.24|11.07|12.83|15.09|16.75|
| 6|10.64|12.59|14.45|16.81|18.55|
| 7|12.02|14.07|16.01|18.48|20.28|
| 8|13.36|15.51|17.53|20.09|21.96|
| 9|14.68|16.92|19.02|21.67|23.59|

##### 6. Чему равна оценка вероятности того, что человек является фанатом серии фильмов? Введите ответ в виде десятичной дроби, округлите до двух знаков после запятой.

*Объяснение: точечная оценка вероятности по сути это частота появления события в наблюдаемых экспериментах.* 

*$P^*=\sum(X_i)/N$, где N - общее число независимых экспериментов, а X - величина, которая в каждом эксперименте принимает значение либо 1 (если событие произошло), либо 0 (если событие не произошло).*

*$P^* = 552/836 = 0,66$*

*Ответ: 0.66*

In [5]:
# Избавимся от строк, которые не несут информации для рассчёта оценки вероятности.
fan_or_not = starwars['fan'].dropna()
# Найдём сколько раз респонденты отвечали, что они фанаты и сколько раз всего задавался вопрос,
# частное этих значений и будет оценкой вероятности.
print(round(fan_or_not.value_counts()['да']/fan_or_not.count(), 2))

del fan_or_not

0.66


#### 7. Чему равна теоретическая частота для женщин, которые являются фанатами серии фильмов? В ответ запишите число, округлите до целого.

*Ответ: 262*

In [6]:
round(scipy.stats.chi2_contingency(starwars.groupby('gender')['fan'].value_counts().unstack())[3][0][0])

262

#### 8. Чему равна теоретическая частота для мужчин, которые не являются фанатами серии фильмов? В ответ запишите число, округлите до целого.

*Ответ: 144.*

In [7]:
round(scipy.stats.chi2_contingency(starwars.groupby('gender')['fan'].value_counts().unstack())[3][1][1])

144

#### 9. Чему равен критерий хи-квадрат? Введите ответ в виде десятичной дроби, округлите до двух знаков после запятой.

*Ответ: 11.93 с коррекцией, 12.45 без коррекции. Правильно использовать значение 11.93, так как в нашем случае только одна степень свободы.*

In [8]:
print(round(scipy.stats.chi2_contingency(starwars.groupby('gender')['fan'].value_counts().unstack())[0], 2))

11.93


#### 10. Укажите, верно ли следующее утверждение: согласно всем проведенным в предыдущих заданиях вычислениям, хи-квадрат получился больше критического значения, значит нулевую гипотезу отвергаем.

*Ответ: утверждение верно, в случае когда $\chi^2$ больше критического значения, мы отвергаем нулевую гипотезу.*

$\chi^2 = \sum(f_o - f_e)^2/f_e$

In [9]:
critical_value = 3.84

Способ I

In [10]:
f0 = starwars.groupby('gender')['fan'].value_counts().unstack().values
fe = scipy.stats.chi2_contingency(starwars.groupby('gender')['fan'].value_counts().unstack())[3]

chi2 = ((f0 - fe)**2 / fe).sum()
print(chi2 > critical_value)

del f0, fe, chi2

True


Способ II

In [11]:
chi2 = scipy.stats.chi2_contingency(starwars.groupby('gender')['fan'].value_counts().unstack())[0]
print(chi2 > critical_value)

del chi2, critical_value

True
