In [1]:
import statsmodels
import scipy
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
import matplotlib.pyplot as plt
from statsmodels.graphics.regressionplots import plot_leverage_resid2
%matplotlib inline

  from pandas.core import datetools


Давайте проанализируем данные опроса 4361 женщин из Ботсваны:

    О каждой из них мы знаем:
* сколько детей она родила (признак ceb)
* возраст (age)
* длительность получения образования (educ)
* религиозная принадлежность (religion)
* идеальное, по её мнению, количество детей в семье (idlnchld)
* была ли она когда-нибудь замужем (evermarr)
* возраст первого замужества (agefm)
* длительность получения образования мужем (heduc)
* знает ли она о методах контрацепции (knowmeth)
* использует ли она методы контрацепции (usemeth)
* живёт ли она в городе (urban)
* есть ли у неё электричество, радио, телевизор и велосипед (electric, radio, tv, bicycle)
* Давайте научимся оценивать количество детей ceb по остальным признакам.

Загрузите данные и внимательно изучите их. Сколько разных значений принимает признак religion?

In [2]:
data = pd.read_csv('botswana.tsv', sep='\t')
data.head()

Unnamed: 0,ceb,age,educ,religion,idlnchld,knowmeth,usemeth,evermarr,agefm,heduc,urban,electric,radio,tv,bicycle
0,0,18,10,catholic,4.0,1.0,1.0,0,,,1,1.0,1.0,1.0,1.0
1,2,43,11,protestant,2.0,1.0,1.0,1,20.0,14.0,1,1.0,1.0,1.0,1.0
2,0,49,4,spirit,4.0,1.0,0.0,1,22.0,1.0,1,1.0,1.0,0.0,0.0
3,0,24,12,other,2.0,1.0,0.0,0,,,1,1.0,1.0,1.0,1.0
4,3,32,13,other,3.0,1.0,1.0,1,24.0,12.0,1,1.0,1.0,1.0,1.0


In [3]:
data['religion'].value_counts()

spirit        1841
other         1080
protestant     993
catholic       447
Name: religion, dtype: int64

Во многих признаках есть пропущенные значения. Сколько объектов из 4361 останется, если выбросить все, содержащие пропуски?

In [4]:
data.dropna().shape

(1834, 15)

В разных признаках пропуски возникают по разным причинам и должны обрабатываться по-разному.

Например, в признаке agefm пропуски стоят только там, где evermarr=0, то есть, они соответствуют женщинам, никогда не выходившим замуж. Таким образом, для этого признака NaN соответствует значению "не применимо".

В подобных случаях, когда признак x1 на части объектов в принципе не может принимать никакие значения, рекомендуется поступать так:

* создать новый бинарный признак
\begin{equation*}
x_2 = 
 \begin{cases}
   1, & x_1 = не \; применимо\\
   0, &\text{иначе;}
 \end{cases}
\end{equation*}


* заменить "не применимо" в $x_1$ на произвольную константу $c$, которая среди других значений $x_1$ не встречается.

Теперь, когда мы построим регрессию на оба признака и получим модель вида

$$y = β_0 + β_1x_1 + β_2x_2,$$
    
на тех объектах, где $x_1$ было измерено, регрессионное уравнение примет вид

$$y = β_0 + β_1x,$$
    
а там, где $x_1$ было "не применимо", получится

$$y = β_0 + β_1c + β_2.$$
    
Выбор c влияет только на значение и интерпретацию $β_2$, но не $β_1$.

Давайте используем этот метод для обработки пропусков в agefm и heduc.

1. Создайте признак nevermarr, равный единице там, где в agefm пропуски.
2. Удалите признак evermarr — в сумме с nevermarr он даёт константу, значит, в нашей матрице X будет мультиколлинеарность.
3. Замените NaN в признаке *agefm* на $c_{agefm} = 0$.
4. У объектов, где nevermarr = 1, замените NaN в признаке heduc на $c_{heduc_1} = −1$ (ноль использовать нельзя, так как он уже встречается у некоторых объектов выборки).

Сколько осталось пропущенных значений в признаке heduc?

In [5]:
data['nevermarr'] = data['agefm'].apply(lambda x: 1 if pd.isnull(x) else 0)
data.drop('evermarr', axis=1, inplace=True)
data['agefm'].fillna(0, inplace=True)
data['heduc'][data['nevermarr'] == 1] = data['heduc'][data['nevermarr'] == 1].fillna(-1)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [6]:
data['heduc'].isnull().sum()

123

Избавимся от оставшихся пропусков.

Для признаков idlnchld, heduc и usemeth проведите операцию, аналогичную предыдущей: создайте индикаторы пропусков по этим признакам (idlnchld_noans, heduc_noans, usemeth_noans), замените пропуски на нехарактерные значения ($c_{idlnchld}=−1$, $c_{heduc_2}=−2$ (значение -1 мы уже использовали), $c_{usemeth}=−1$).

Остались только пропуски в признаках knowmeth, electric, radio, tv и bicycle. Их очень мало, так что удалите объекты, на которых их значения пропущены.

Какого размера теперь наша матрица данных? Умножьте количество строк на количество всех столбцов (включая отклик ceb).

In [8]:
data['idlnchld_noans'] = data['idlnchld'].apply(lambda x: 1 if pd.isnull(x) else 0)
data['heduc_noans'] = data['heduc'].apply(lambda x: 1 if pd.isnull(x) else 0)
data['usemeth_noans'] = data['usemeth'].apply(lambda x: 1 if pd.isnull(x) else 0)

data['idlnchld'][data['idlnchld_noans'] == 1] = data['idlnchld'][data['idlnchld_noans'] == 1].fillna(-1)
data['heduc'][data['heduc_noans'] == 1] = data['heduc'][data['heduc_noans'] == 1].fillna(-2)
data['usemeth'][data['usemeth_noans'] == 1] = data['usemeth'][data['usemeth_noans'] == 1].fillna(-1)

In [14]:
data.dropna(inplace=True)
data.shape[0] * data.shape[1]

78264

Постройте регрессию количества детей ceb на все имеющиеся признаки методом smf.ols, как в разобранном до этого примере. Какой получился коэффициент детерминации $R^2$? Округлите до трёх знаков после десятичной точки.

In [19]:
m1 = smf.ols('ceb ~ age + educ + religion + idlnchld + knowmeth + usemeth +'\
             'agefm + heduc + urban + electric + radio + tv + bicycle +'\
             'nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data=data)

fitted = m1.fit()
print fitted.summary()

                            OLS Regression Results                            
Dep. Variable:                    ceb   R-squared:                       0.644
Model:                            OLS   Adj. R-squared:                  0.643
Method:                 Least Squares   F-statistic:                     412.5
Date:                Fri, 13 Oct 2017   Prob (F-statistic):               0.00
Time:                        12:19:29   Log-Likelihood:                -7732.1
No. Observations:                4348   AIC:                         1.550e+04
Df Residuals:                    4328   BIC:                         1.563e+04
Df Model:                          19                                         
Covariance Type:            nonrobust                                         
                             coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------------------
Intercept                 -1

Проверьте критерием Бройша-Пагана гомоскедастичность ошибки в построенной модели. Выполняется ли она? Если ошибка гетероскедастична, перенастройте модель, сделав поправку Уайта типа HC1.

In [21]:
print 'Breusch-Pagan test: p=%f' % sms.het_breushpagan(fitted.resid, fitted.model.exog)[1]

Breusch-Pagan test: p=0.000000


Use het_breuschpagan, het_breushpagan will be removed in 0.9 
(Note: misspelling missing 'c')
  """Entry point for launching an IPython kernel.


Удалите из модели незначимые признаки religion, radio и tv. Проверьте гомоскедастичность ошибки, при необходимости сделайте поправку Уайта.

Не произошло ли значимого ухудшения модели после удаления этой группы признаков? Проверьте с помощью критерия Фишера. Чему равен его достигаемый уровень значимости? Округлите до четырёх цифр после десятичной точки.

Если достигаемый уровень значимости получился маленький, верните все удалённые признаки; если он достаточно велик, оставьте модель без религии, тв и радио.

In [31]:
m2 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth + usemeth +'\
             'agefm + heduc + urban + electric + bicycle +'\
             'nevermarr + idlnchld_noans + heduc_noans + usemeth_noans', data=data)

fitted = m2.fit(cov_type='HC1')
print "F=%.4f, p=%.4f, k1=%.4f" % m1.fit().compare_f_test(m2.fit())

F=0.9192, p=0.4672, k1=5.0000


Признак usemeth_noans значим по критерию Стьюдента, то есть, при его удалении модель значимо ухудшится. Но вообще-то отдельно его удалять нельзя: из-за того, что мы перекодировали пропуски в usemeth произвольно выбранным значением $c_{usemeth}=−1$, удалять usemeth_noans и usemeth можно только вместе.

Удалите из текущей модели usemeth_noans и usemeth. Проверьте критерием Фишера гипотезу о том, что качество модели не ухудшилось. Введите номер первой значащей цифры в достигаемом уровне значимости (например, если вы получили $5.5×10^{−8}$, нужно ввести 8).

Если достигаемый уровень значимости получился маленький, верните удалённые признаки; если он достаточно велик, оставьте модель без usemeth и usemeth_noans.

In [41]:
m3 = smf.ols('ceb ~ age + educ + idlnchld + knowmeth +'\
             'agefm + heduc + urban + electric + bicycle +'\
             'nevermarr + idlnchld_noans + heduc_noans', data=data)

fitted = m3.fit(cov_type='HC1')
print "p={}".format(m2.fit().compare_f_test(m3.fit())[1])

p=3.15520094804e-40


Посмотрите на доверительные интервалы для коэффициентов итоговой модели (не забудьте использовать поправку Уайта, если есть гетероскедастичность ошибки) и выберите правильные выводы.

In [40]:
print fitted.summary()

                            OLS Regression Results                            
Dep. Variable:                    ceb   R-squared:                       0.629
Model:                            OLS   Adj. R-squared:                  0.628
Method:                 Least Squares   F-statistic:                     396.4
Date:                Fri, 13 Oct 2017   Prob (F-statistic):               0.00
Time:                        12:50:58   Log-Likelihood:                -7825.7
No. Observations:                4348   AIC:                         1.568e+04
Df Residuals:                    4335   BIC:                         1.576e+04
Df Model:                          12                                         
Covariance Type:                  HC1                                         
                     coef    std err          z      P>|z|      [0.025      0.975]
----------------------------------------------------------------------------------
Intercept         -1.1931      0.262     -4.