In [28]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency, norm

Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на маллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Есть ли связь между жёсткостью воды и средней годовой смертностью? Посчитайте значение коэффициента корреляции Пирсона между этими признаками, округлите его до четырёх знаков после десятичной точки.

In [2]:
water = pd.read_csv('water.txt', sep='\t')
water.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [3]:
water.corr(method = 'pearson')

Unnamed: 0,mortality,hardness
mortality,1.0,-0.654849
hardness,-0.654849,1.0


В предыдущей задаче посчитайте значение коэффициента корреляции Спирмена между средней годовой смертностью и жёсткостью воды. Округлите до четырёх знаков после десятичной точки.

In [5]:
water.corr(method = 'spearman')

Unnamed: 0,mortality,hardness
mortality,1.0,-0.631665
hardness,-0.631665,1.0


Сохраняется ли связь между признаками, если разбить выборку на северные и южные города? Посчитайте значения корреляции Пирсона между средней годовой смертностью и жёсткостью воды в каждой из двух подвыборок, введите наименьшее по модулю из двух значений, округлив его до четырёх знаков после десятичной точки.

In [6]:
water.groupby('location').corr(method = 'spearman')

Unnamed: 0_level_0,Unnamed: 1_level_0,mortality,hardness
location,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
North,mortality,1.0,-0.404208
North,hardness,-0.404208,1.0
South,mortality,1.0,-0.595723
South,hardness,-0.595723,1.0


Среди респондентов General Social Survey 2014 года хотя бы раз в месяц проводят вечер в баре 203 женщины и 239 мужчин; реже, чем раз в месяц, это делают 718 женщин и 515 мужчин.

Посчитайте значение коэффициента корреляции Мэтьюса между полом и частотой похода в бары. Округлите значение до трёх знаков после десятичной точки.

In [23]:
bar_data = pd.DataFrame(columns = ["Ж","М"],
             index = ["Хотя бы 1 раз","Реже, чем 1 раз"],
            data = [[203,239],[718,515]])
bar_data

Unnamed: 0,Ж,М
Хотя бы 1 раз,203,239
"Реже, чем 1 раз",718,515


In [24]:
def MCC(matrix):
    a = matrix.iloc[0,0]
    b = matrix.iloc[0,1]
    c = matrix.iloc[1,0]
    d = matrix.iloc[1,1]
    return (a*d-b*c)/np.sqrt((a+b)*(a+c)*(b+d)*(c+d))

In [25]:
MCC(bar_data)

-0.10900237458678963

В предыдущей задаче проверьте, значимо ли коэффициент корреляции Мэтьюса отличается от нуля. Посчитайте достигаемый уровень значимости; используйте функцию scipy.stats.chi2_contingency. Введите номер первой значащей цифры.

In [18]:
chi2_contingency(bar_data)[1]

1.0558987006638725e-05

В предыдущей задаче давайте попробуем ответить на немного другой вопрос: отличаются ли доля мужчин и доля женщин, относительно часто проводящих вечера в баре? Постройте 95% доверительный интервал для разности долей, вычитая долю женщин из доли мужчин. Чему равна его нижняя граница? Округлите до четырёх знаков после десятичной точки.

In [40]:
def proportions_confint_diff_ind(sample1, sample2, alpha = 0.05):    
    z = norm.ppf(1 - alpha / 2.)   
    
    p1 = sample1[0] / np.sum(sample1)
    p2 = sample2[0] / np.sum(sample2)

    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ np.sum(sample1) + p2 * (1 - p2)/ np.sum(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ np.sum(sample1) + p2 * (1 - p2)/ np.sum(sample2))
    
    return (left_boundary, right_boundary)

In [39]:
proportions_confint_diff_ind(bar_data.iloc[:,1],bar_data.iloc[:,0], alpha = 0.05)

(0.053905233215813156, 0.13922183141523897)

Проверьте гипотезу о равенстве долей любителей часто проводить вечера в баре среди мужчин и женщин. Посчитайте достигаемый уровень значимости, используя двустороннюю альтернативу. Введите номер первой значащей цифры.

In [53]:
def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = sum(sample1)
    n2 = sum(sample2)
    
    p1 = sample1[0] / np.sum(sample1)
    p2 = sample2[0] / np.sum(sample2)
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))

def proportions_diff_z_test(z_stat, alternative = 'two-sided'):
    if alternative not in ('two-sided', 'less', 'greater'):
        raise ValueError("alternative not recognized\n"
                         "should be 'two-sided', 'less' or 'greater'")
    
    if alternative == 'two-sided':
        return 2 * (1 - norm.cdf(np.abs(z_stat)))
    
    if alternative == 'less':
        return norm.cdf(z_stat)

    if alternative == 'greater':
        return 1 - norm.cdf(z_stat)

In [54]:
z = proportions_diff_z_stat_ind(bar_data.iloc[:,1],bar_data.iloc[:,0])

In [55]:
proportions_diff_z_test(z, alternative = 'two-sided')

8.153453089576601e-06

Посмотрим на данные General Social Survey 2014 года и проанализируем, как связаны ответы на вопросы "Счастливы ли вы?" и "Довольны ли вы вашим финансовым положением?"

In [58]:
hap_data = pd.DataFrame(columns = ["Не доволен","Более или менее","Доволен"],
             index = ["Не очень счастлив","Достаточно счастлив","Очень счастлив"],
            data = [[197,111,33],[382,685,331],[110,342,333]])
hap_data

Unnamed: 0,Не доволен,Более или менее,Доволен
Не очень счастлив,197,111,33
Достаточно счастлив,382,685,331
Очень счастлив,110,342,333


Чему равно значение статистики хи-квадрат для этой таблицы сопряжённости? Округлите ответ до четырёх знаков после десятичной точки.

In [60]:
chi2_contingency(hap_data)[0]

293.68311039689746

На данных из предыдущего вопроса посчитайте значение достигаемого уровня значимости. Введите номер первой значащей цифры.

In [61]:
chi2_contingency(hap_data)[1]

2.4964299580093467e-62

Чему в предыдущей задаче равно значение коэффициента V Крамера для рассматриваемых признаков? Округлите ответ до четырёх знаков после десятичной точки.

In [74]:
def cramers_V(confusion_matrix):
    cm = confusion_matrix.values
    chi2 = chi2_contingency(cm)[0]
    n = cm.sum()
    return np.sqrt(chi2 / (n*(min(cm.shape)-1)))

In [75]:
cramers_V(hap_data)

0.2412013934500338