# Корреляционный анализ

In [1]:
import numpy as np
import pandas as pd

from scipy import stats
from statsmodels.stats.weightstats import *
from statsmodels.stats.proportion import proportion_confint

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на маллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Есть ли связь между жёсткостью воды и средней годовой смертностью? Посчитайте значение коэффициента корреляции Пирсона между этими признаками, округлите его до четырёх знаков после десятичной точки.

In [2]:
water = pd.read_table('water.txt')

In [3]:
water.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [4]:
water.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61 entries, 0 to 60
Data columns (total 4 columns):
location     61 non-null object
town         61 non-null object
mortality    61 non-null int64
hardness     61 non-null int64
dtypes: int64(2), object(2)
memory usage: 2.0+ KB


In [5]:
water.describe()

Unnamed: 0,mortality,hardness
count,61.0,61.0
mean,1524.147541,47.180328
std,187.668754,38.093966
min,1096.0,5.0
25%,1379.0,14.0
50%,1555.0,39.0
75%,1668.0,75.0
max,1987.0,138.0


In [6]:
water.columns = ['location', 'town', 'mortality', 'hardness']

In [7]:
print('Pearson correlation: %.4f' % water[['mortality', 'hardness']].corr().iloc[0,1])

Pearson correlation: -0.6548


В предыдущей задаче посчитайте значение коэффициента корреляции Спирмена между средней годовой смертностью и жёсткостью воды. Округлите до четырёх знаков после десятичной точки. 

In [8]:
print('Spearman correlation: %.4f' % water[['mortality', 'hardness']].corr(method='spearman').iloc[1,0])

Spearman correlation: -0.6317


Сохраняется ли связь между признаками, если разбить выборку на северные и южные города? Посчитайте значения корреляции Пирсона между средней годовой смертностью и жёсткостью воды в каждой из двух подвыборок, введите наименьшее по модулю из двух значений, округлив его до четырёх знаков после десятичной точки.

In [9]:
data_south = water[water['location'] == 'South'][['mortality', 'hardness']]
data_north = water[water['location'] == 'North'][['mortality', 'hardness']]

In [10]:
print('South pearson correlation : %.4f' % data_south.corr().iloc[1,0])
print('North pearson correlation : %.4f' % data_north.corr().iloc[1,0])

South pearson correlation : -0.6022
North pearson correlation : -0.3686


Среди респондентов General Social Survey 2014 года хотя бы раз в месяц проводят вечер в баре 203 женщины и 239 мужчин; реже, чем раз в месяц, это делают 718 женщин и 515 мужчин.

Посчитайте значение коэффициента корреляции Мэтьюса между полом и частотой похода в бары. Округлите значение до трёх знаков после десятичной точки.

In [11]:
bar = np.array([[203, 239], [718, 515]])

In [12]:
def matthewsr(a, b, c, d):
    return (a*d - b*c) / np.sqrt((a + b)*(a + c)*(b + d)*(c + d))

In [13]:
matthews_coeff = matthewsr(*bar.flatten())
print('Matthews correlation: %.3f' % matthews_coeff)

Matthews correlation: -0.109


В предыдущей задаче проверьте, значимо ли коэффициент корреляции Мэтьюса отличается от нуля. Посчитайте достигаемый уровень значимости; используйте функцию scipy.stats.chi2_contingency. Введите номер первой значащей цифры (например, если вы получили $ 5.5×10−85.5\times10^{-8}5.5×10−8 $, нужно ввести 8).

In [14]:
print(bar.shape)
print('Matthews significance p-value: %f' % stats.chi2_contingency(bar)[1])

(2, 2)
Matthews significance p-value: 0.000011


В предыдущей задаче давайте попробуем ответить на немного другой вопрос: отличаются ли доля мужчин и доля женщин, относительно часто проводящих вечера в баре? Постройте 95% доверительный интервал для разности долей, вычитая долю женщин из доли мужчин. Чему равна его нижняя граница? Округлите до четырёх знаков после десятичной точки.

In [15]:
def proportions_diff_confint_ind(sample1, sample2, alpha = 0.05):    
    z = stats.norm.ppf(1 - alpha / 2.)

    p1 = sample1[0] / np.sum(sample1)
    p2 = sample2[0] / np.sum(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ np.sum(sample1) + p2 * (1 - p2)/ np.sum(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ np.sum(sample1) + p2 * (1 - p2)/ np.sum(sample2))
    
    return (left_boundary, right_boundary)

In [16]:
print('95%% confidence interval for a difference: [%.4f, %.4f]' 
      % proportions_diff_confint_ind(bar[:,1], bar[:,0]))

95% confidence interval for a difference: [0.0539, 0.1392]


Проверьте гипотезу о равенстве долей любителей часто проводить вечера в баре среди мужчин и женщин. Посчитайте достигаемый уровень значимости, используя двустороннюю альтернативу. Введите номер первой значащей цифры (например, если вы получили 5.5×10−8, нужно ввести 8).

In [17]:
def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = np.sum(sample1)
    n2 = np.sum(sample2)
    
    p1 = sample1[0] / n1
    p2 = sample2[0] / n2 
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))

In [18]:
def proportions_diff_z_test(z_stat, alternative = 'two-sided'):
    if alternative not in ('two-sided', 'less', 'greater'):
        raise ValueError("alternative not recognized\n"
                         "should be 'two-sided', 'less' or 'greater'")
    
    if alternative == 'two-sided':
        return 2 * (1 - stats.norm.cdf(np.abs(z_stat)))
    
    if alternative == 'less':
        return stats.norm.cdf(z_stat)

    if alternative == 'greater':
        return 1 - stats.norm.cdf(z_stat)

In [19]:
print('p-value: %f' % proportions_diff_z_test(proportions_diff_z_stat_ind(bar[:,1], bar[:,0])))

p-value: 0.000008


Посмотрим на данные General Social Survey 2014 года и проанализируем, как связаны ответы на вопросы "Счастливы ли вы?" и "Довольны ли вы вашим финансовым положением?"

                                Не доволен	Более или менее	   Доволен
        Не очень счастлив	       197	         111	         33
        Достаточно счастлив	     382	         685	         331
        Очень счастлив	          110	         342	         333

Чему равно значение статистики хи-квадрат для этой таблицы сопряжённости? Округлите ответ до четырёх знаков после десятичной точки.

In [20]:
sample = np.array( [[197., 111., 33. ],
                    [382., 685., 331.],
                    [110., 342., 333.]] )

In [21]:
stats.chi2_contingency(sample)

(293.68311039689746,
 2.4964299580093467e-62,
 4,
 array([[ 93.08597464, 153.74722662,  94.16679873],
        [381.6251981 , 630.318542  , 386.0562599 ],
        [214.28882726, 353.93423138, 216.77694136]]))

In [22]:
print('Chi2: %.4f' % stats.chi2_contingency(sample)[0])

Chi2: 293.6831


На данных из предыдущего вопроса посчитайте значение достигаемого уровня значимости. Введите номер первой значащей цифры (например, если вы получили $ 5.5×10−85.5\times10^{-8}5.5×10−8 $, нужно ввести 8).

In [23]:
print('p-value: %.65f' % stats.chi2_contingency(sample)[1])

p-value: 0.00000000000000000000000000000000000000000000000000000000000002496


Чему в предыдущей задаче равно значение коэффициента V Крамера для рассматриваемых признаков? Округлите ответ до четырёх знаков после десятичной точки. 

In [24]:
def cramers_stat(confusion_matrix):
    chi2 = stats.chi2_contingency(confusion_matrix)[0]
    n = confusion_matrix.sum()
    return np.sqrt(chi2 / (n*(min(confusion_matrix.shape)-1)))

In [25]:
print('V Cramer coeff: %.4f' % cramers_stat(sample))

V Cramer coeff: 0.2412
