# Поиск закономерностей в данных

In [3]:
import pandas as pd
import numpy as np
import scipy

## Correlation. Practice

### Question 1

Есть ли связь между неграмотностью и рождаемостью? Для 94 стран, уровень неграмотности женщин в которых больше 5%, известны доля неграмотных среди женщин старше 15 (на 2003 год) и средняя рождаемость на одну женщину (на 2005 год).

Чему равен выборочный коэффициент корреляции Пирсона между этими двумя признаками? Округлите до четырёх знаков после десятичной точки.

In [2]:
illiteracy = pd.read_csv('illiteracy.txt', sep = '\t', index_col = 'Country')
illiteracy.head()

IOError: File illiteracy.txt does not exist

In [None]:
def corr_answer(df, method = 'pearson'):
    return round(float(df.corr(method = method).iloc[0,1]), 4)

In [None]:
print('Pearson Correlation =', corr_answer(illiteracy))

### Question 2

Чему равен выборочный коэффициент корреляции Спирмена признаков из предыдущего вопроса? Округлите до четырёх знаков после десятичной точки.

In [None]:
print('Spearman Correlation =', corr_answer(illiteracy, method = 'spearman'))

## Correlation. Quiz

### Question 1

Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на маллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Есть ли связь между жёсткостью воды и средней годовой смертностью? Посчитайте значение коэффициента корреляции Пирсона между этими признаками, округлите его до четырёх знаков после десятичной точки.

In [None]:
water = pd.read_csv('water.txt', sep = '\t')
water.head()

In [None]:
print('Pearson Correlation =', corr_answer(water[['mortality', 'hardness']]))

### Question 2

В предыдущей задаче посчитайте значение коэффициента корреляции Спирмена между средней годовой смертностью и жёсткостью воды. Округлите до четырёх знаков после десятичной точки.

In [None]:
print('Spearman Correlation =', corr_answer(water[['mortality', 'hardness']], method = 'spearman'))

### Question 3

Сохраняется ли связь между признаками, если разбить выборку на северные и южные города? Посчитайте значения корреляции Пирсона между средней годовой смертностью и жёсткостью воды в каждой из двух подвыборок, введите наименьшее по модулю из двух значений, округлив его до четырёх знаков после десятичной точки.

In [None]:
north_cor = np.abs(corr_answer(water[(water['location'] == 'North')][['mortality', 'hardness']]))
south_cor = np.abs(corr_answer(water[(water['location'] == 'South')][['mortality', 'hardness']]))

print('ABS Minimum Perason Correlation =', round(float(np.minimum(north_cor, south_cor)), 4))

### Question 4

Среди респондентов General Social Survey 2014 года хотя бы раз в месяц проводят вечер в баре 203 женщины и 239 мужчин; реже, чем раз в месяц, это делают 718 женщин и 515 мужчин.

Посчитайте значение коэффициента корреляции Мэтьюса между полом и частотой похода в бары. Округлите значение до трёх знаков после десятичной точки.

| 0 | 1  
------------- | -------------|
0  | a | b 
1  | c | d 

$$\text{Формула корреляции Мэтьюса:}$$
  
$$MCC_{X_1, X_2} =  \frac{ad-bc}{\sqrt{(a+b)(a+c)(b+d)(c+d)}}$$  

| 0 | 1  
------------- | -------------|
0  | 203 | 239 
1  | 718 | 515 

In [None]:
mcor = (203*515 - 718*239)/np.sqrt((203+239)*(203+718)*(515+239)*(515+718))

print('Matthew Correlation =', round(mcor,3))

### Question 5

В предыдущей задаче проверьте, значимо ли коэффициент корреляции Мэтьюса отличается от нуля. Посчитайте достигаемый уровень значимости; используйте функцию scipy.stats.chi2_contingency. Введите номер первой значащей цифры.

In [None]:
from scipy.stats import chi2_contingency

bar = np.array([[203, 239], [718, 515]])

print('p-value =', chi2_contingency(bar)[1])

### Question 6

В предыдущей задаче давайте попробуем ответить на немного другой вопрос: отличаются ли доля мужчин и доля женщин, относительно часто проводящих вечера в баре? Постройте 95% доверительный интервал для разности долей, вычитая долю женщин из доли мужчин. Чему равна его нижняя граница? Округлите до четырёх знаков после десятичной точки.

In [None]:
fem = np.append(np.ones(203), np.zeros(718))
mal = np.append(np.ones(239), np.zeros(515))

In [None]:
def proportions_diff_confint_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)

In [None]:
print("95%% confidence interval for a difference between proportions: [%f, %f]" %\
      proportions_diff_confint_ind(mal, fem))

print('Answer is', round(proportions_diff_confint_ind(mal, fem)[0], 4))

### Question 7

Проверьте гипотезу о равенстве долей любителей часто проводить вечера в баре среди мужчин и женщин. Посчитайте достигаемый уровень значимости, используя двустороннюю альтернативу. Введите номер первой значащей цифры.

In [None]:
def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = len(sample1)
    n2 = len(sample2)
    
    p1 = float(sum(sample1)) / n1
    p2 = float(sum(sample2)) / n2 
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))

In [None]:
def proportions_diff_z_test(z_stat, alternative = 'two-sided'):
    if alternative not in ('two-sided', 'less', 'greater'):
        raise ValueError("alternative not recognized\n"
                         "should be 'two-sided', 'less' or 'greater'")
    
    if alternative == 'two-sided':
        return 2 * (1 - scipy.stats.norm.cdf(np.abs(z_stat)))
    
    if alternative == 'less':
        return scipy.stats.norm.cdf(z_stat)

    if alternative == 'greater':
        return 1 - scipy.stats.norm.cdf(z_stat)

In [None]:
print("p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_ind(mal, fem)))
print('Answer is', 6)

### Question 8

Посмотрим на данные General Social Survey 2014 года и проанализируем, как связаны ответы на вопросы "Счастливы ли вы?" и "Довольны ли вы вашим финансовым положением?" Чему равно значение статистики хи-квадрат для этой таблицы сопряжённости? Округлите ответ до четырёх знаков после десятичной точки.

|Не доволен|Более или менее|Доволен
---|---|---
Не очень счастлив|197|111|33
Достаточно счастлив|382|685|331
Очень счастлив|110|	342|333


In [None]:
happy = np.array([[197, 111, 33], [382, 685, 331], [110, 342, 333]])

print('Chi2 Stats =', round(float(chi2_contingency(happy)[0]), 4))

### Question 9

На данных из предыдущего вопроса посчитайте значение достигаемого уровня значимости. Введите номер первой значащей цифры.

In [None]:
print('p-value =', chi2_contingency(happy)[1])

### Question 10

Чему в предыдущей задаче равно значение коэффициента V Крамера для рассматриваемых признаков? Округлите ответ до четырёх знаков после десятичной точки.

$$\phi_c(X^{n}_1, X^{n}_2) = \sqrt{\frac{ \chi^2(X^{n}_1, X^{n}_2)}{n(min(K_1, K_2) - 1)}}$$

In [None]:
cramer = np.sqrt(chi2_contingency(happy)[0]/(np.sum(happy) * 2))

print('Cramer Correlation =', round(cramer, 4))

## Множественная проверка гипотез. Quiz 

### Question 2

Классификатор C4.5 и три его модификации: с оптимизацией гиперпараметра m, гиперпараметра cf и с одновременной оптимизацией обоих гиперпараметров. Эти четыре классификатора сравнивались на 14 наборах данных. На каждом датасете был посчитан AUC каждого классификатора. 

Используя критерий знаковых рангов, проведите попарное сравнение каждого классификатора с каждым. Выберите два классификатора, различие между которыми наиболее статистически значимо.

In [None]:
aucs = pd.read_csv('AUCs.txt', sep = '\t', index_col = 0)

aucs.head()

In [None]:
from scipy import stats

In [None]:
%%time 
wilcox_data = []

for i, lhs_column in enumerate(aucs.columns):
    for j, rhs_column in enumerate(aucs.columns):
        if i >= j:
            continue
        
        stat, p = stats.wilcoxon(aucs[lhs_column], aucs[rhs_column])
        wilcox_data.append([lhs_column, rhs_column, stat, p])

In [None]:
#C4.5, C4.5+m
wilcox_data

### Question 3

Сколько статистически значимых на уровне 0.05 различий мы обнаружили? **4**

### Question 4

Судя по данным из предыдущего опроса, настройка какого из параметров классификатора даёт более значимое увеличение качества? **m**

### Question 5

Сравнивая 4 классификатора между собой, мы проверили 6 гипотез. Давайте сделаем поправку на множественную проверку. Начнём с метода Холма. Сколько гипотез можно отвергнуть на уровне значимости 0.05 после поправки этим методом? **0**

In [None]:
from statsmodels.sandbox.stats.multicomp import multipletests

In [None]:
models_wilcox = pd.DataFrame.from_records(wilcox_data)
models_wilcox.columns = ['model_A', 'model_B', 'wilcox_stats', 'p']

models_wilcox.head()

In [None]:
reject, p_corrected, a1, a2 = multipletests(models_wilcox.p, 
                                            alpha = 0.05, 
                                            method = 'holm') 

In [None]:
models_wilcox['p_corrected'] = p_corrected
models_wilcox['reject'] = reject

In [None]:
models_wilcox.reject.value_counts()

### Question 6

Сколько гипотез можно отвергнуть на уровне значимости 0.05 после поправки методом Бенджамини-Хохберга? **3**

In [None]:
reject, p_corrected, a1, a2 = multipletests(models_wilcox.p, 
                                            alpha = 0.05, 
                                            method = 'fdr_bh') 

In [None]:
models_wilcox['p_corrected'] = p_corrected
models_wilcox['reject'] = reject

In [None]:
models_wilcox.reject.value_counts()

## Практика построения регрессии. Quiz

### Question 1

Давайте проанализируем данные опроса 4361 женщин из Ботсваны:

О каждой из них мы знаем:

* сколько детей она родила (признак ceb)
* возраст (age)
* длительность получения образования (educ)
* религиозная принадлежность (religion)
* идеальное, по её мнению, количество детей в семье (idlnchld)
* была ли она когда-нибудь замужем (evermarr)
* возраст первого замужества (agefm)
* длительность получения образования мужем (heduc)
* знает ли она о методах контрацепции (knowmeth)
* использует ли она методы контрацепции (usemeth)
* живёт ли она в городе (urban)
* есть ли у неё электричество, радио, телевизор и велосипед (electric, radio, tv, bicycle)

Давайте научимся оценивать количество детей ceb по остальным признакам.

Загрузите данные и внимательно изучите их. Сколько разных значений принимает признак religion?

In [None]:
botswana = pd.read_csv('botswana.tsv', sep = '\t')

botswana.head()

In [None]:
#4
botswana.religion.value_counts()

### Question 2

Во многих признаках есть пропущенные значения. Сколько объектов из 4361 останется, если выбросить все, содержащие пропуски?

In [None]:
#1834
print('Shape: {}\nShape without NA: {}\nDifference = {}'.format(
    botswana.shape, botswana.dropna().shape, botswana.shape[0]-botswana.dropna().shape[0]))

### Question 3

В разных признаках пропуски возникают по разным причинам и должны обрабатываться по-разному.

Например, в признаке agefm пропуски стоят только там, где evermarr=0, то есть, они соответствуют женщинам, никогда не выходившим замуж. Таким образом, для этого признака NaN соответствует значению "не применимо".

1. Создайте признак nevermarr, равный единице там, где в agefm пропуски.
2. Удалите признак evermarr — в сумме с nevermarr он даёт константу, значит, в нашей матрице $X$ будет мультиколлинеарность.
3. Замените NaN в признаке agefm на $c_{agefm}=0$
4. У объектов, где nevermarr = 1, замените NaN в признаке heduc на $c_{heduc_1}=-1$ (ноль использовать нельзя, так как он уже встречается у некоторых объектов выборки).

Сколько осталось пропущенных значений в признаке heduc?

In [None]:
botswana['nevermarr'] = np.where(botswana['agefm'].isnull(), 1, 0)

In [None]:
botswana.drop(['evermarr'], axis = 1, inplace=True)

In [None]:
botswana['agefm'] = np.where(botswana['agefm'].isnull(), 0, botswana['agefm'])

In [None]:
botswana['heduc'] = np.where((botswana['heduc'].isnull()) & (botswana['nevermarr'] == 1), -1, botswana['heduc'])

In [None]:
botswana.head()

In [None]:
print('heduc NaNs left =', np.sum(botswana.heduc.isnull()))

### Question 4

Избавимся от оставшихся пропусков.

Для признаков idlnchld, heduc и usemeth проведите операцию, аналогичную предыдущей: создайте индикаторы пропусков по этим признакам (idlnchld_noans, heduc_noans, usemeth_noans), замените пропуски на нехарактерные значения ($c_{idlnchld}=-1$, $c_{heduc_2}=-2$ (значение -1 мы уже использовали), $c_{usemeth}=-1$).

Остались только пропуски в признаках knowmeth, electric, radio, tv и bicycle. Их очень мало, так что удалите объекты, на которых их значения пропущены.

Какого размера теперь наша матрица данных? Умножьте количество строк на количество всех столбцов (включая отклик ceb).

In [None]:
botswana['idlnchld_noans'] = np.where(botswana['idlnchld'].isnull(), 1, 0)
botswana['heduc_noans'] = np.where(botswana['heduc'].isnull(), 1, 0)
botswana['usemeth_noans'] = np.where(botswana['usemeth'].isnull(), 1, 0)

In [None]:
botswana['idlnchld'] = np.where(botswana['idlnchld'].isnull(), -1, botswana['idlnchld'])
botswana['heduc'] = np.where(botswana['heduc'].isnull(), -2, botswana['heduc'])
botswana['usemeth'] = np.where(botswana['usemeth'].isnull(), -1, botswana['usemeth'])

In [None]:
botswana.dropna(inplace = True)

In [None]:
print('New Shape =', botswana.shape[0]*botswana.shape[1])

### Question 5

Постройте регрессию количества детей ceb на все имеющиеся признаки методом smf.ols, как в разобранном до этого примере. Какой получился коэффициент детерминации $R^2$? Округлите до трёх знаков после десятичной точки.

In [None]:
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

In [None]:
botswana.columns

In [None]:
m1 = smf.ols('ceb ~ age + educ + religion + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + radio + tv + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m1.fit()
print(fitted.summary())

#0.644

### Question 7

Проверьте критерием Бройша-Пагана гомоскедастичность ошибки в построенной модели. Выполняется ли она?

Если ошибка гетероскедастична, перенастройте модель, сделав поправку Уайта типа HC1.

In [None]:
print('Breusch-Pagan test: p=%f' % sms.het_breuschpagan(fitted.resid, fitted.model.exog)[1])

In [None]:
m2 = smf.ols('ceb ~ age + educ + religion + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + radio + tv + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m2.fit(cov_type='HC1')
fitted.summary()

### Question 8

Удалите из модели незначимые признаки religion, radio и tv. Проверьте гомоскедастичность ошибки, при необходимости сделайте поправку Уайта.

Не произошло ли значимого ухудшения модели после удаления этой группы признаков? Проверьте с помощью критерия Фишера. Чему равен его достигаемый уровень значимости? Округлите до четырёх цифр после десятичной точки.

Если достигаемый уровень значимости получился маленький, верните все удалённые признаки; если он достаточно велик, оставьте модель без религии, тв и радио.

In [None]:
m3 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m3.fit()

In [None]:
print('Breusch-Pagan test: p=%f' % sms.het_breuschpagan(fitted.resid, fitted.model.exog)[1])

In [None]:
m4 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m4.fit(cov_type='HC1')

In [None]:
#0.4672 Модель не стала хуже
print("F=%f, p=%f, k1=%f" % m2.fit().compare_f_test(m4.fit()))

### Question 9

Признак usemeth_noans значим по критерию Стьюдента, то есть, при его удалении модель значимо ухудшится. Но вообще-то отдельно его удалять нельзя: из-за того, что мы перекодировали пропуски в usemeth произвольно выбранным значением $c_{usemeth }=-1$, удалять usemeth_noans и usemeth можно только вместе.

Удалите из текущей модели usemeth_noans и usemeth. Проверьте критерием Фишера гипотезу о том, что качество модели не ухудшилось. Введите номер первой значащей цифры в достигаемом уровне значимости.

Если достигаемый уровень значимости получился маленький, верните удалённые признаки; если он достаточно велик, оставьте модель без usemeth и usemeth_noans.

In [None]:
m5 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + agefm + heduc + urban + electric + bicycle + nevermarr + idlnchld_noans + heduc_noans', data = botswana)
fitted = m5.fit()

In [None]:
print("F=%f, p=%f, k1=%f" % m2.fit().compare_f_test(m4.fit()))

In [None]:
#40
m4.fit().compare_f_test(m5.fit())[1]

### Question 10

Посмотрите на доверительные интервалы для коэффициентов итоговой модели (не забудьте использовать поправку Уайта, если есть гетероскедастичность ошибки) и выберите правильные выводы.

In [None]:
m4 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m4.fit(cov_type='HC1')
fitted.summary()