In [1]:
import pandas as pd
import numpy as np

**1.** Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на миллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Есть ли связь между жёсткостью воды и средней годовой смертностью? Посчитайте значение коэффициента корреляции Пирсона между этими признаками, округлите его до четырёх знаков после десятичной точки.

In [2]:
water = pd.read_csv('water.txt', sep = '\t', header = 0)

In [3]:
water.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [4]:
water.corr(method='pearson')

Unnamed: 0,mortality,hardness
mortality,1.0,-0.654849
hardness,-0.654849,1.0


**2.** В предыдущей задаче посчитайте значение коэффициента корреляции Спирмена между средней годовой смертностью и жёсткостью воды. Округлите до четырёх знаков после десятичной точки. 

In [5]:
water.corr(method='spearman')

Unnamed: 0,mortality,hardness
mortality,1.0,-0.631665
hardness,-0.631665,1.0


**3.** Сохраняется ли связь между признаками, если разбить выборку на северные и южные города? Посчитайте значения корреляции Пирсона между средней годовой смертностью и жёсткостью воды в каждой из двух подвыборок, введите наименьшее по модулю из двух значений, округлив его до четырёх знаков после десятичной точки.

In [6]:
water_south = water[water['location'] == 'South']
water_north = water[water['location'] == 'North']
water_north.head()

Unnamed: 0,location,town,mortality,hardness
1,North,Birkenhead,1668,17
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18
5,North,Bolton,1558,10
6,North,Bootle,1807,15


In [7]:
water_south.corr()

Unnamed: 0,mortality,hardness
mortality,1.0,-0.602153
hardness,-0.602153,1.0


In [8]:
water_north.corr()

Unnamed: 0,mortality,hardness
mortality,1.0,-0.368598
hardness,-0.368598,1.0


**4.** Среди респондентов General Social Survey 2014 года хотя бы раз в месяц проводят вечер в баре 203 женщины и 239 мужчин; реже, чем раз в месяц, это делают 718 женщин и 515 мужчин.

Посчитайте значение коэффициента корреляции Мэтьюса между полом и частотой похода в бары. Округлите значение до трёх знаков после десятичной точки.

In [9]:
def corr_met(a, b, c, d):
    return (a*d - b*c) / np.sqrt((a+b)*(a+c)*(b+d)*(c+d))

In [10]:
# Построим таблицу Мэтьюса (см. 3-2.Korrelyacii-Conspects.pdf)
# X1 - пол, X2 - частота похода в бар
a = 239
b = 515
c = 203
d = 718

corr_met(a, b, c, d)

0.10900237458678963

**5.** В предыдущей задаче проверьте, значимо ли коэффициент корреляции Мэтьюса отличается от нуля. Посчитайте достигаемый уровень значимости; используйте функцию scipy.stats.chi2_contingency. Введите номер первой значащей цифры (например, если вы получили 5.5×10−85.5\times10^{-8}5.5×10−8, нужно ввести 8).

In [11]:
from scipy.stats import chi2_contingency

In [12]:
chi2_contingency([[a,c],[b,d]])

(19.40753078854304,
 1.0558987006638725e-05,
 1,
 array([[198.96597015, 243.03402985],
        [555.03402985, 677.96597015]]))

**ответ: 5 (смотрим на строку 2)**

**6.** В предыдущей задаче давайте попробуем ответить на немного другой вопрос: отличаются ли доля мужчин и доля женщин, относительно часто проводящих вечера в баре? Постройте 95% доверительный интервал для разности долей, вычитая долю женщин из доли мужчин. Чему равна его нижняя граница? Округлите до четырёх знаков после десятичной точки.

In [13]:
# воспользуемся функцией для подсчета доли, рассматриваемой на 2 неделе в видео “Проверка гипотез о долях”. 
from statsmodels.stats.proportion import proportion_confint
import scipy

In [14]:
def proportions_diff_confint_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)

In [19]:
# 1 - доля часто ходящих в бар, 0-редко
fem = np.concatenate([np.ones(203), np.zeros(718)])
mal = np.concatenate([np.ones(239), np.zeros(515)])

proportions_diff_confint_ind(mal, fem)

(0.053905233215813156, 0.13922183141523897)

In [16]:
np.zeros(2, dtype='int')

array([0, 0])

**7.** Проверьте гипотезу о равенстве долей любителей часто проводить вечера в баре среди мужчин и женщин. Посчитайте достигаемый уровень значимости, используя двустороннюю альтернативу. Введите номер первой значащей цифры (например, если вы получили 5.5×10−85.5\times10^{-8}5.5×10−8, нужно ввести 8).

In [21]:
def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = len(sample1)
    n2 = len(sample2)
    
    p1 = float(sum(sample1)) / n1
    p2 = float(sum(sample2)) / n2 
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))

In [22]:
z_stat = proportions_diff_z_stat_ind(mal, fem)
2 * (1 - scipy.stats.norm.cdf(np.abs(z_stat)))

8.153453089576601e-06

**8.** Посмотрим на данные General Social Survey 2014 года и проанализируем, как связаны ответы на вопросы "Счастливы ли вы?" и "Довольны ли вы вашим финансовым положением?"

! |Не доволен |Более или менее|Доволен
------------- |------------- |------------- |------------- |
Не очень счастлив  |197    |    111|    33
Достаточно счастлив|	382|	685|	331
Очень счастлив     |	110|	342|	333

Чему равно значение статистики хи-квадрат для этой таблицы сопряжённости? Округлите ответ до четырёх знаков после десятичной точки.

In [30]:
# хи квадрат - первый аргумент
ll = [[197, 382, 110], [111, 685, 342], [33, 331, 333]]
xi2 = chi2_contingency(ll)
print xi2

(293.68311039689746, 2.4964299580093467e-62, 4, array([[ 93.08597464, 381.6251981 , 214.28882726],
       [153.74722662, 630.318542  , 353.93423138],
       [ 94.16679873, 386.0562599 , 216.77694136]]))


**9.** На данных из предыдущего вопроса посчитайте значение достигаемого уровня значимости. Введите номер первой значащей цифры (например, если вы получили 5.5×10−85.5\times10^{-8}5.5×10−8, нужно ввести 8).

In [None]:
# второй аргумент в chi2_contingency p-уровень значимости

**10.** Чему в предыдущей задаче равно значение коэффициента V Крамера для рассматриваемых признаков? Округлите ответ до четырёх знаков после десятичной точки. 

In [31]:
n = sum([sum(l) for l in ll])
v_cramer = np.sqrt(xi2[0]/(n*2))
round(v_cramer, 4)

0.2412