# Поиск закономерностей в данных

In [82]:
import pandas as pd
import numpy as np
import scipy

## Correlation. Practice

### Question 1

Есть ли связь между неграмотностью и рождаемостью? Для 94 стран, уровень неграмотности женщин в которых больше 5%, известны доля неграмотных среди женщин старше 15 (на 2003 год) и средняя рождаемость на одну женщину (на 2005 год).

Чему равен выборочный коэффициент корреляции Пирсона между этими двумя признаками? Округлите до четырёх знаков после десятичной точки.

In [4]:
illiteracy = pd.read_csv('illiteracy.txt', sep = '\t', index_col = 'Country')
illiteracy.head()

Unnamed: 0_level_0,Illit,Births
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Albania,20.5,1.78
Algeria,39.1,2.44
Bahrain,15.0,2.34
Belize,5.9,2.97
Benin,73.5,5.6


In [30]:
def corr_answer(df, method = 'pearson'):
    return round(float(df.corr(method = method).iloc[0,1]), 4)

In [31]:
print('Pearson Correlation =', corr_answer(illiteracy))

Pearson Correlation = 0.7687


### Question 2

Чему равен выборочный коэффициент корреляции Спирмена признаков из предыдущего вопроса? Округлите до четырёх знаков после десятичной точки.

In [32]:
print('Spearman Correlation =', corr_answer(illiteracy, method = 'spearman'))

Spearman Correlation = 0.753


## Correlation. Quiz

### Question 1

Для 61 большого города в Англии и Уэльсе известны средняя годовая смертность на 100000 населения (по данным 1958–1964) и концентрация кальция в питьевой воде (в частях на маллион). Чем выше концентрация кальция, тем жёстче вода. Города дополнительно поделены на северные и южные.

Есть ли связь между жёсткостью воды и средней годовой смертностью? Посчитайте значение коэффициента корреляции Пирсона между этими признаками, округлите его до четырёх знаков после десятичной точки.

In [19]:
water = pd.read_csv('water.txt', sep = '\t')
water.head()

Unnamed: 0,location,town,mortality,hardness
0,South,Bath,1247,105
1,North,Birkenhead,1668,17
2,South,Birmingham,1466,5
3,North,Blackburn,1800,14
4,North,Blackpool,1609,18


In [34]:
print('Pearson Correlation =', corr_answer(water[['mortality', 'hardness']]))

Pearson Correlation = -0.6548


### Question 2

В предыдущей задаче посчитайте значение коэффициента корреляции Спирмена между средней годовой смертностью и жёсткостью воды. Округлите до четырёх знаков после десятичной точки.

In [35]:
print('Spearman Correlation =', corr_answer(water[['mortality', 'hardness']], method = 'spearman'))

Spearman Correlation = -0.6317


### Question 3

Сохраняется ли связь между признаками, если разбить выборку на северные и южные города? Посчитайте значения корреляции Пирсона между средней годовой смертностью и жёсткостью воды в каждой из двух подвыборок, введите наименьшее по модулю из двух значений, округлив его до четырёх знаков после десятичной точки.

In [52]:
north_cor = np.abs(corr_answer(water[(water['location'] == 'North')][['mortality', 'hardness']]))
south_cor = np.abs(corr_answer(water[(water['location'] == 'South')][['mortality', 'hardness']]))

print('ABS Minimum Perason Correlation =', round(float(np.minimum(north_cor, south_cor)), 4))

ABS Minimum Perason Correlation = 0.3686


### Question 4

Среди респондентов General Social Survey 2014 года хотя бы раз в месяц проводят вечер в баре 203 женщины и 239 мужчин; реже, чем раз в месяц, это делают 718 женщин и 515 мужчин.

Посчитайте значение коэффициента корреляции Мэтьюса между полом и частотой похода в бары. Округлите значение до трёх знаков после десятичной точки.

| 0 | 1  
------------- | -------------|
0  | a | b 
1  | c | d 

$$\text{Формула корреляции Мэтьюса:}$$
  
$$MCC_{X_1, X_2} =  \frac{ad-bc}{\sqrt{(a+b)(a+c)(b+d)(c+d)}}$$  

| 0 | 1  
------------- | -------------|
0  | 203 | 239 
1  | 718 | 515 

In [75]:
mcor = (203*515 - 718*239)/np.sqrt((203+239)*(203+718)*(515+239)*(515+718))

print('Matthew Correlation =', round(mcor,3))

Matthew Correlation = -0.109


### Question 5

В предыдущей задаче проверьте, значимо ли коэффициент корреляции Мэтьюса отличается от нуля. Посчитайте достигаемый уровень значимости; используйте функцию scipy.stats.chi2_contingency. Введите номер первой значащей цифры.

In [107]:
from scipy.stats import chi2_contingency

bar = np.array([[203, 239], [718, 515]])

print('p-value =', chi2_contingency(bar)[1])

p-value = 1.05589870066e-05


### Question 6

В предыдущей задаче давайте попробуем ответить на немного другой вопрос: отличаются ли доля мужчин и доля женщин, относительно часто проводящих вечера в баре? Постройте 95% доверительный интервал для разности долей, вычитая долю женщин из доли мужчин. Чему равна его нижняя граница? Округлите до четырёх знаков после десятичной точки.

In [79]:
fem = np.append(np.ones(203), np.zeros(718))
mal = np.append(np.ones(239), np.zeros(515))

In [80]:
def proportions_diff_confint_ind(sample1, sample2, alpha = 0.05):    
    z = scipy.stats.norm.ppf(1 - alpha / 2.)
    
    p1 = float(sum(sample1)) / len(sample1)
    p2 = float(sum(sample2)) / len(sample2)
    
    left_boundary = (p1 - p2) - z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    right_boundary = (p1 - p2) + z * np.sqrt(p1 * (1 - p1)/ len(sample1) + p2 * (1 - p2)/ len(sample2))
    
    return (left_boundary, right_boundary)

In [109]:
print("95%% confidence interval for a difference between proportions: [%f, %f]" %\
      proportions_diff_confint_ind(mal, fem))

print('Answer is', round(proportions_diff_confint_ind(mal, fem)[0], 4))

95% confidence interval for a difference between proportions: [0.053905, 0.139222]
Answer is 0.0539


### Question 7

Проверьте гипотезу о равенстве долей любителей часто проводить вечера в баре среди мужчин и женщин. Посчитайте достигаемый уровень значимости, используя двустороннюю альтернативу. Введите номер первой значащей цифры.

In [86]:
def proportions_diff_z_stat_ind(sample1, sample2):
    n1 = len(sample1)
    n2 = len(sample2)
    
    p1 = float(sum(sample1)) / n1
    p2 = float(sum(sample2)) / n2 
    P = float(p1*n1 + p2*n2) / (n1 + n2)
    
    return (p1 - p2) / np.sqrt(P * (1 - P) * (1. / n1 + 1. / n2))

In [87]:
def proportions_diff_z_test(z_stat, alternative = 'two-sided'):
    if alternative not in ('two-sided', 'less', 'greater'):
        raise ValueError("alternative not recognized\n"
                         "should be 'two-sided', 'less' or 'greater'")
    
    if alternative == 'two-sided':
        return 2 * (1 - scipy.stats.norm.cdf(np.abs(z_stat)))
    
    if alternative == 'less':
        return scipy.stats.norm.cdf(z_stat)

    if alternative == 'greater':
        return 1 - scipy.stats.norm.cdf(z_stat)

In [110]:
print("p-value: %f" % proportions_diff_z_test(proportions_diff_z_stat_ind(mal, fem)))
print('Answer is', 6)

p-value: 0.000008
Answer is 6


### Question 8

Посмотрим на данные General Social Survey 2014 года и проанализируем, как связаны ответы на вопросы "Счастливы ли вы?" и "Довольны ли вы вашим финансовым положением?" Чему равно значение статистики хи-квадрат для этой таблицы сопряжённости? Округлите ответ до четырёх знаков после десятичной точки.

|Не доволен|Более или менее|Доволен
---|---|---
Не очень счастлив|197|111|33
Достаточно счастлив|382|685|331
Очень счастлив|110|	342|333


In [95]:
happy = np.array([[197, 111, 33], [382, 685, 331], [110, 342, 333]])

print('Chi2 Stats =', round(float(chi2_contingency(happy)[0]), 4))

Chi2 Stats = 293.6831


### Question 9

На данных из предыдущего вопроса посчитайте значение достигаемого уровня значимости. Введите номер первой значащей цифры.

In [98]:
print('p-value =', chi2_contingency(happy)[1])

p-value = 2.49642995801e-62


### Question 10

Чему в предыдущей задаче равно значение коэффициента V Крамера для рассматриваемых признаков? Округлите ответ до четырёх знаков после десятичной точки.

$$\phi_c(X^{n}_1, X^{n}_2) = \sqrt{\frac{ \chi^2(X^{n}_1, X^{n}_2)}{n(min(K_1, K_2) - 1)}}$$

In [104]:
cramer = np.sqrt(chi2_contingency(happy)[0]/(np.sum(happy) * 2))

print('Cramer Correlation =', round(cramer, 4))

Cramer Correlation = 0.2412


## Множественная проверка гипотез. Quiz 

### Question 2

Классификатор C4.5 и три его модификации: с оптимизацией гиперпараметра m, гиперпараметра cf и с одновременной оптимизацией обоих гиперпараметров. Эти четыре классификатора сравнивались на 14 наборах данных. На каждом датасете был посчитан AUC каждого классификатора. 

Используя критерий знаковых рангов, проведите попарное сравнение каждого классификатора с каждым. Выберите два классификатора, различие между которыми наиболее статистически значимо.

In [112]:
aucs = pd.read_csv('AUCs.txt', sep = '\t', index_col = 0)

aucs.head()

Unnamed: 0,C4.5,C4.5+m,C4.5+cf,C4.5+m+cf
adult (sample),0.763,0.768,0.771,0.798
breast cancer,0.599,0.591,0.59,0.569
breast cancer wisconsin,0.954,0.971,0.968,0.967
cmc,0.628,0.661,0.654,0.657
ionosphere,0.882,0.888,0.886,0.898


In [114]:
from scipy import stats

In [130]:
%%time 
wilcox_data = []

for i, lhs_column in enumerate(aucs.columns):
    for j, rhs_column in enumerate(aucs.columns):
        if i >= j:
            continue
        
        stat, p = stats.wilcoxon(aucs[lhs_column], aucs[rhs_column])
        wilcox_data.append([lhs_column, rhs_column, stat, p])

Wall time: 2.51 ms


In [150]:
#C4.5, C4.5+m
wilcox_data

[['C4.5', 'C4.5+m', 6.5, 0.01075713311978963],
 ['C4.5', 'C4.5+cf', 43.0, 0.86126233009534803],
 ['C4.5', 'C4.5+m+cf', 11.0, 0.015906444101703374],
 ['C4.5+m', 'C4.5+cf', 17.0, 0.046332729793395394],
 ['C4.5+m', 'C4.5+m+cf', 22.0, 0.32782567584464062],
 ['C4.5+cf', 'C4.5+m+cf', 10.0, 0.022909099354356588]]

### Question 3

Сколько статистически значимых на уровне 0.05 различий мы обнаружили? **4**

### Question 4

Судя по данным из предыдущего опроса, настройка какого из параметров классификатора даёт более значимое увеличение качества? **m**

### Question 5

Сравнивая 4 классификатора между собой, мы проверили 6 гипотез. Давайте сделаем поправку на множественную проверку. Начнём с метода Холма. Сколько гипотез можно отвергнуть на уровне значимости 0.05 после поправки этим методом? **0**

In [152]:
from statsmodels.sandbox.stats.multicomp import multipletests

In [154]:
models_wilcox = pd.DataFrame.from_records(wilcox_data)
models_wilcox.columns = ['model_A', 'model_B', 'wilcox_stats', 'p']

models_wilcox.head()

Unnamed: 0,model_A,model_B,wilcox_stats,p
0,C4.5,C4.5+m,6.5,0.010757
1,C4.5,C4.5+cf,43.0,0.861262
2,C4.5,C4.5+m+cf,11.0,0.015906
3,C4.5+m,C4.5+cf,17.0,0.046333
4,C4.5+m,C4.5+m+cf,22.0,0.327826


In [155]:
reject, p_corrected, a1, a2 = multipletests(models_wilcox.p, 
                                            alpha = 0.05, 
                                            method = 'holm') 

In [156]:
models_wilcox['p_corrected'] = p_corrected
models_wilcox['reject'] = reject

In [157]:
models_wilcox.reject.value_counts()

False    6
Name: reject, dtype: int64

### Question 6

Сколько гипотез можно отвергнуть на уровне значимости 0.05 после поправки методом Бенджамини-Хохберга? **3**

In [159]:
reject, p_corrected, a1, a2 = multipletests(models_wilcox.p, 
                                            alpha = 0.05, 
                                            method = 'fdr_bh') 

In [160]:
models_wilcox['p_corrected'] = p_corrected
models_wilcox['reject'] = reject

In [161]:
models_wilcox.reject.value_counts()

True     3
False    3
Name: reject, dtype: int64

## Практика построения регрессии. Quiz

### Question 1

Давайте проанализируем данные опроса 4361 женщин из Ботсваны:

О каждой из них мы знаем:

* сколько детей она родила (признак ceb)
* возраст (age)
* длительность получения образования (educ)
* религиозная принадлежность (religion)
* идеальное, по её мнению, количество детей в семье (idlnchld)
* была ли она когда-нибудь замужем (evermarr)
* возраст первого замужества (agefm)
* длительность получения образования мужем (heduc)
* знает ли она о методах контрацепции (knowmeth)
* использует ли она методы контрацепции (usemeth)
* живёт ли она в городе (urban)
* есть ли у неё электричество, радио, телевизор и велосипед (electric, radio, tv, bicycle)

Давайте научимся оценивать количество детей ceb по остальным признакам.

Загрузите данные и внимательно изучите их. Сколько разных значений принимает признак religion?

In [231]:
botswana = pd.read_csv('botswana.tsv', sep = '\t')

botswana.head()

Unnamed: 0,ceb,age,educ,religion,idlnchld,knowmeth,usemeth,evermarr,agefm,heduc,urban,electric,radio,tv,bicycle
0,0,18,10,catholic,4.0,1.0,1.0,0,,,1,1.0,1.0,1.0,1.0
1,2,43,11,protestant,2.0,1.0,1.0,1,20.0,14.0,1,1.0,1.0,1.0,1.0
2,0,49,4,spirit,4.0,1.0,0.0,1,22.0,1.0,1,1.0,1.0,0.0,0.0
3,0,24,12,other,2.0,1.0,0.0,0,,,1,1.0,1.0,1.0,1.0
4,3,32,13,other,3.0,1.0,1.0,1,24.0,12.0,1,1.0,1.0,1.0,1.0


In [163]:
#4
botswana.religion.value_counts()

spirit        1841
other         1080
protestant     993
catholic       447
Name: religion, dtype: int64

### Question 2

Во многих признаках есть пропущенные значения. Сколько объектов из 4361 останется, если выбросить все, содержащие пропуски?

In [169]:
#1834
print('Shape: {}\nShape without NA: {}\nDifference = {}'.format(
    botswana.shape, botswana.dropna().shape, botswana.shape[0]-botswana.dropna().shape[0]))

Shape: (4361, 15)
Shape without NA: (1834, 15)
Difference = 2527


### Question 3

В разных признаках пропуски возникают по разным причинам и должны обрабатываться по-разному.

Например, в признаке agefm пропуски стоят только там, где evermarr=0, то есть, они соответствуют женщинам, никогда не выходившим замуж. Таким образом, для этого признака NaN соответствует значению "не применимо".

1. Создайте признак nevermarr, равный единице там, где в agefm пропуски.
2. Удалите признак evermarr — в сумме с nevermarr он даёт константу, значит, в нашей матрице $X$ будет мультиколлинеарность.
3. Замените NaN в признаке agefm на $c_{agefm}=0$
4. У объектов, где nevermarr = 1, замените NaN в признаке heduc на $c_{heduc_1}=-1$ (ноль использовать нельзя, так как он уже встречается у некоторых объектов выборки).

Сколько осталось пропущенных значений в признаке heduc?

In [232]:
botswana['nevermarr'] = np.where(botswana['agefm'].isnull(), 1, 0)

In [233]:
botswana.drop(['evermarr'], axis = 1, inplace=True)

In [234]:
botswana['agefm'] = np.where(botswana['agefm'].isnull(), 0, botswana['agefm'])

In [235]:
botswana['heduc'] = np.where((botswana['heduc'].isnull()) & (botswana['nevermarr'] == 1), -1, botswana['heduc'])

In [236]:
botswana.head()

Unnamed: 0,ceb,age,educ,religion,idlnchld,knowmeth,usemeth,agefm,heduc,urban,electric,radio,tv,bicycle,nevermarr
0,0,18,10,catholic,4.0,1.0,1.0,0.0,-1.0,1,1.0,1.0,1.0,1.0,1
1,2,43,11,protestant,2.0,1.0,1.0,20.0,14.0,1,1.0,1.0,1.0,1.0,0
2,0,49,4,spirit,4.0,1.0,0.0,22.0,1.0,1,1.0,1.0,0.0,0.0,0
3,0,24,12,other,2.0,1.0,0.0,0.0,-1.0,1,1.0,1.0,1.0,1.0,1
4,3,32,13,other,3.0,1.0,1.0,24.0,12.0,1,1.0,1.0,1.0,1.0,0


In [237]:
print('heduc NaNs left =', np.sum(botswana.heduc.isnull()))

heduc NaNs left = 123


### Question 4

Избавимся от оставшихся пропусков.

Для признаков idlnchld, heduc и usemeth проведите операцию, аналогичную предыдущей: создайте индикаторы пропусков по этим признакам (idlnchld_noans, heduc_noans, usemeth_noans), замените пропуски на нехарактерные значения ($c_{idlnchld}=-1$, $c_{heduc_2}=-2$ (значение -1 мы уже использовали), $c_{usemeth}=-1$).

Остались только пропуски в признаках knowmeth, electric, radio, tv и bicycle. Их очень мало, так что удалите объекты, на которых их значения пропущены.

Какого размера теперь наша матрица данных? Умножьте количество строк на количество всех столбцов (включая отклик ceb).

In [238]:
botswana['idlnchld_noans'] = np.where(botswana['idlnchld'].isnull(), 1, 0)
botswana['heduc_noans'] = np.where(botswana['heduc'].isnull(), 1, 0)
botswana['usemeth_noans'] = np.where(botswana['usemeth'].isnull(), 1, 0)

In [239]:
botswana['idlnchld'] = np.where(botswana['idlnchld'].isnull(), -1, botswana['idlnchld'])
botswana['heduc'] = np.where(botswana['heduc'].isnull(), -2, botswana['heduc'])
botswana['usemeth'] = np.where(botswana['usemeth'].isnull(), -1, botswana['usemeth'])

In [240]:
botswana.dropna(inplace = True)

In [241]:
print('New Shape =', botswana.shape[0]*botswana.shape[1])

New Shape = 78264


### Question 5

Постройте регрессию количества детей ceb на все имеющиеся признаки методом smf.ols, как в разобранном до этого примере. Какой получился коэффициент детерминации $R^2$? Округлите до трёх знаков после десятичной точки.

In [250]:
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms

  from pandas.core import datetools


In [246]:
botswana.columns

Index(['ceb', 'age', 'educ', 'religion', 'idlnchld', 'knowmeth', 'usemeth',
       'agefm', 'heduc', 'urban', 'electric', 'radio', 'tv', 'bicycle',
       'nevermarr', 'idlnchld_noans', 'heduc_noans', 'usemeth_noans'],
      dtype='object')

In [247]:
m1 = smf.ols('ceb ~ age + educ + religion + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + radio + tv + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m1.fit()
print(fitted.summary())

#0.644

                            OLS Regression Results                            
Dep. Variable:                    ceb   R-squared:                       0.644
Model:                            OLS   Adj. R-squared:                  0.643
Method:                 Least Squares   F-statistic:                     412.5
Date:                Wed, 04 Jul 2018   Prob (F-statistic):               0.00
Time:                        11:24:10   Log-Likelihood:                -7732.1
No. Observations:                4348   AIC:                         1.550e+04
Df Residuals:                    4328   BIC:                         1.563e+04
Df Model:                          19                                         
Covariance Type:            nonrobust                                         
                             coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------
Intercept                 -1

### Question 7

Проверьте критерием Бройша-Пагана гомоскедастичность ошибки в построенной модели. Выполняется ли она?

Если ошибка гетероскедастична, перенастройте модель, сделав поправку Уайта типа HC1.

In [252]:
print('Breusch-Pagan test: p=%f' % sms.het_breuschpagan(fitted.resid, fitted.model.exog)[1])

Breusch-Pagan test: p=0.000000


In [268]:
m2 = smf.ols('ceb ~ age + educ + religion + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + radio + tv + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m2.fit(cov_type='HC1')
fitted.summary()

0,1,2,3
Dep. Variable:,ceb,R-squared:,0.644
Model:,OLS,Adj. R-squared:,0.643
Method:,Least Squares,F-statistic:,345.0
Date:,"Wed, 04 Jul 2018",Prob (F-statistic):,0.0
Time:,11:52:07,Log-Likelihood:,-7732.1
No. Observations:,4348,AIC:,15500.0
Df Residuals:,4328,BIC:,15630.0
Df Model:,19,,
Covariance Type:,HC1,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-1.0263,0.266,-3.863,0.000,-1.547,-0.506
religion[T.other],-0.0830,0.078,-1.067,0.286,-0.235,0.069
religion[T.protestant],-0.0149,0.078,-0.192,0.848,-0.167,0.137
religion[T.spirit],-0.0191,0.071,-0.268,0.789,-0.159,0.121
age,0.1703,0.004,38.627,0.000,0.162,0.179
educ,-0.0724,0.007,-9.924,0.000,-0.087,-0.058
idlnchld,0.0760,0.015,5.236,0.000,0.048,0.104
knowmeth,0.5564,0.174,3.190,0.001,0.215,0.898
usemeth,0.6473,0.052,12.478,0.000,0.546,0.749

0,1,2,3
Omnibus:,224.411,Durbin-Watson:,1.887
Prob(Omnibus):,0.0,Jarque-Bera (JB):,859.014
Skew:,0.003,Prob(JB):,2.93e-187
Kurtosis:,5.178,Cond. No.,361.0


### Question 8

Удалите из модели незначимые признаки religion, radio и tv. Проверьте гомоскедастичность ошибки, при необходимости сделайте поправку Уайта.

Не произошло ли значимого ухудшения модели после удаления этой группы признаков? Проверьте с помощью критерия Фишера. Чему равен его достигаемый уровень значимости? Округлите до четырёх цифр после десятичной точки.

Если достигаемый уровень значимости получился маленький, верните все удалённые признаки; если он достаточно велик, оставьте модель без религии, тв и радио.

In [254]:
m3 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m3.fit()

In [255]:
print('Breusch-Pagan test: p=%f' % sms.het_breuschpagan(fitted.resid, fitted.model.exog)[1])

Breusch-Pagan test: p=0.000000


In [256]:
m4 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m4.fit(cov_type='HC1')

In [257]:
#0.4672 Модель не стала хуже
print("F=%f, p=%f, k1=%f" % m2.fit().compare_f_test(m4.fit()))

F=0.919236, p=0.467231, k1=5.000000


### Question 9

Признак usemeth_noans значим по критерию Стьюдента, то есть, при его удалении модель значимо ухудшится. Но вообще-то отдельно его удалять нельзя: из-за того, что мы перекодировали пропуски в usemeth произвольно выбранным значением $c_{usemeth }=-1$, удалять usemeth_noans и usemeth можно только вместе.

Удалите из текущей модели usemeth_noans и usemeth. Проверьте критерием Фишера гипотезу о том, что качество модели не ухудшилось. Введите номер первой значащей цифры в достигаемом уровне значимости.

Если достигаемый уровень значимости получился маленький, верните удалённые признаки; если он достаточно велик, оставьте модель без usemeth и usemeth_noans.

In [260]:
m5 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + agefm + heduc + urban + electric + bicycle + nevermarr + idlnchld_noans + heduc_noans', data = botswana)
fitted = m5.fit()

In [264]:
print("F=%f, p=%f, k1=%f" % m2.fit().compare_f_test(m4.fit()))

F=0.919236, p=0.467231, k1=5.000000


In [265]:
#40
m4.fit().compare_f_test(m5.fit())[1]

3.1552009480371243e-40

### Question 10

Посмотрите на доверительные интервалы для коэффициентов итоговой модели (не забудьте использовать поправку Уайта, если есть гетероскедастичность ошибки) и выберите правильные выводы.

In [269]:
m4 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + usemeth + agefm + heduc + urban + electric + bicycle + nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data = botswana)
fitted = m4.fit(cov_type='HC1')
fitted.summary()

0,1,2,3
Dep. Variable:,ceb,R-squared:,0.644
Model:,OLS,Adj. R-squared:,0.643
Method:,Least Squares,F-statistic:,463.4
Date:,"Wed, 04 Jul 2018",Prob (F-statistic):,0.0
Time:,11:52:12,Log-Likelihood:,-7734.5
No. Observations:,4348,AIC:,15500.0
Df Residuals:,4333,BIC:,15590.0
Df Model:,14,,
Covariance Type:,HC1,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-1.0698,0.258,-4.152,0.000,-1.575,-0.565
age,0.1702,0.004,38.746,0.000,0.162,0.179
educ,-0.0729,0.007,-10.311,0.000,-0.087,-0.059
idlnchld,0.0770,0.014,5.323,0.000,0.049,0.105
knowmeth,0.5610,0.174,3.224,0.001,0.220,0.902
usemeth,0.6516,0.052,12.571,0.000,0.550,0.753
agefm,-0.0606,0.010,-6.192,0.000,-0.080,-0.041
heduc,-0.0573,0.009,-6.440,0.000,-0.075,-0.040
urban,-0.2190,0.045,-4.814,0.000,-0.308,-0.130

0,1,2,3
Omnibus:,224.096,Durbin-Watson:,1.886
Prob(Omnibus):,0.0,Jarque-Bera (JB):,856.76
Skew:,0.004,Prob(JB):,9.06e-187
Kurtosis:,5.175,Cond. No.,345.0
