## Тест: Корреляционный анализ
### Вопрос 1.
Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на маллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Есть ли связь между жёсткостью воды и средней годовой смертностью? Посчитайте значение коэффициента корреляции Пирсона между этими признаками, округлите его до четырёх знаков после десятичной точки.

In [1]:
import pandas as pd

data = pd.read_csv('water.txt', sep='\t')
data.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [2]:
data[['hardness', 'mortality']].corr()

Unnamed: 0,hardness,mortality
hardness,1.0,-0.654849
mortality,-0.654849,1.0


### Вопрос 2. 
В предыдущей задаче посчитайте значение коэффициента корреляции Спирмена между средней годовой смертностью и жёсткостью воды. Округлите до четырёх знаков после десятичной точки.

In [3]:
data[['hardness', 'mortality']].corr(method='spearman')

Unnamed: 0,hardness,mortality
hardness,1.0,-0.631665
mortality,-0.631665,1.0


### Вопрос 3. 
Сохраняется ли связь между признаками, если разбить выборку на северные и южные города? Посчитайте значения корреляции Пирсона между средней годовой смертностью и жёсткостью воды в каждой из двух подвыборок, введите наименьшее по модулю из двух значений, округлив его до четырёх знаков после десятичной точки.

In [4]:
data_north = data[data.location == 'North']
data_south = data[data.location == 'South']

data_north[['hardness', 'mortality']].corr()

Unnamed: 0,hardness,mortality
hardness,1.0,-0.368598
mortality,-0.368598,1.0


In [5]:
data_south[['hardness', 'mortality']].corr()

Unnamed: 0,hardness,mortality
hardness,1.0,-0.602153
mortality,-0.602153,1.0


### Вопрос 4. 
Среди респондентов General Social Survey 2014 года хотя бы раз в месяц проводят вечер в баре 203 женщины и 239 мужчин; реже, чем раз в месяц, это делают 718 женщин и 515 мужчин.

Посчитайте значение коэффициента корреляции Мэтьюса между полом и частотой похода в бары. Округлите значение до трёх знаков после десятичной точки.
X_1 = женщины
X_2 = мужчины

|X_1/X_2 | 0 | 1 |
|--- | -- | -- |
|0 | 718 | 203 |
|1 | 515 | 239 |

In [6]:
import numpy as np
a = 718.
b = 203.
c = 515.
d = 239.
(a * d - b * c) / np.sqrt((a + b) * (a + c) * (b + d) * (c + d))

0.10900237458678963

### Вопрос 5. 
В предыдущей задаче проверьте, значимо ли коэффициент корреляции Мэтьюса отличается от нуля. Посчитайте достигаемый уровень значимости; используйте функцию scipy.stats.chi2_contingency. Введите номер первой значащей цифры (например, если вы получили 5.5×10−8, нужно ввести 8).

In [7]:
from scipy.stats import chi2_contingency
obs = np.array([[a, b], [c, d]])
chi2_contingency(obs)[1]

1.0558987006638725e-05

### Вопрос 6. 
В предыдущей задаче давайте попробуем ответить на немного другой вопрос: отличаются ли доля мужчин и доля женщин, относительно часто проводящих вечера в баре? Постройте 95% доверительный интервал для разности долей, вычитая долю женщин из доли мужчин. Чему равна его нижняя граница? Округлите до четырёх знаков после десятичной точки.

In [8]:
def proportions_diff_confint_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)
def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = len(sample1)
    n2 = len(sample2)
    
    p1 = float(sum(sample1)) / n1
    p2 = float(sum(sample2)) / n2 
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))
def proportions_diff_z_test(z_stat, alternative = 'two-sided'):
    if alternative not in ('two-sided', 'less', 'greater'):
        raise ValueError("alternative not recognized\n"
                         "should be 'two-sided', 'less' or 'greater'")
    
    if alternative == 'two-sided':
        return 2 * (1 - scipy.stats.norm.cdf(np.abs(z_stat)))
    
    if alternative == 'less':
        return scipy.stats.norm.cdf(z_stat)

    if alternative == 'greater':
        return 1 - scipy.stats.norm.cdf(z_stat)

In [9]:
import scipy
data1 = np.hstack((np.ones(718), np.zeros(203)))
data2 = np.hstack((np.ones(515), np.zeros(239)))
print "95%% confidence interval for a difference between proportions: [%f, %f]" %\
      proportions_diff_confint_ind(data1, data2)

95% confidence interval for a difference between proportions: [0.053905, 0.139222]


### Вопрос 7. 
Проверьте гипотезу о равенстве долей любителей часто проводить вечера в баре среди мужчин и женщин. Посчитайте достигаемый уровень значимости, используя двустороннюю альтернативу. Введите номер первой значащей цифры (например, если вы получили 5.5×10−8, нужно ввести 8).

In [10]:
print "p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_ind(data1, data2))

p-value: 0.000008


### Вопрос 8. 
Посмотрим на данные General Social Survey 2014 года и проанализируем, как связаны ответы на вопросы "Счастливы ли вы?" и "Довольны ли вы вашим финансовым положением?"

| | Не доволен | Более или менее | Доволен |
| -- | -- | -- | -- |
| Не очень счастлив | 197 | 111 | 33 |
| Достаточно счастлив |382 | 685 | 331 |
|Очень счастлив | 110 | 342 | 333 |

Чему равно значение статистики хи-квадрат для этой таблицы сопряжённости? Округлите ответ до четырёх знаков после десятичной точки.

In [11]:
happies = np.array([[197., 111., 33.],
                  [382., 685., 331.],
                  [110., 342., 333.]])
chi2_contingency(happies)[0]

293.68311039689746

### Вопрос 9. 
На данных из предыдущего вопроса посчитайте значение достигаемого уровня значимости. Введите номер первой значащей цифры (например, если вы получили 5.5×10−8, нужно ввести 8).

In [12]:
chi2_contingency(happies)[1]

2.4964299580093467e-62

## Вопрос 10. 
Чему в предыдущей задаче равно значение коэффициента V Крамера для рассматриваемых признаков? Округлите ответ до четырёх знаков после десятичной точки.

In [13]:
np.sqrt(293.68311039689746/(2*2524))

0.2412013934500338