In [56]:
import statsmodels
import scipy as sc
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
from statsmodels.graphics.regressionplots import plot_leverage_resid2
import matplotlib.pyplot as plt

In [57]:
raw = pd.read_csv('botswana.tsv', sep='\t')
print raw.head()
%pylab inline

   ceb  age  educ    religion  idlnchld  knowmeth  usemeth  evermarr  agefm  \
0    0   18    10    catholic       4.0       1.0      1.0         0    NaN   
1    2   43    11  protestant       2.0       1.0      1.0         1   20.0   
2    0   49     4      spirit       4.0       1.0      0.0         1   22.0   
3    0   24    12       other       2.0       1.0      0.0         0    NaN   
4    3   32    13       other       3.0       1.0      1.0         1   24.0   

   heduc  urban  electric  radio   tv  bicycle  
0    NaN      1       1.0    1.0  1.0      1.0  
1   14.0      1       1.0    1.0  1.0      1.0  
2    1.0      1       1.0    1.0  0.0      0.0  
3    NaN      1       1.0    1.0  1.0      1.0  
4   12.0      1       1.0    1.0  1.0      1.0  
Populating the interactive namespace from numpy and matplotlib


## Постановка

Давайте проанализируем данные опроса 4361 женщин из Ботсваны:
botswana.tsv

О каждой из них мы знаем:

    сколько детей она родила (признак ceb)
    возраст (age)
    длительность получения образования (educ)
    религиозная принадлежность (religion)
    идеальное, по её мнению, количество детей в семье (idlnchld)
    была ли она когда-нибудь замужем (evermarr)
    возраст первого замужества (agefm)
    длительность получения образования мужем (heduc)
    знает ли она о методах контрацепции (knowmeth)
    использует ли она методы контрацепции (usemeth)
    живёт ли она в городе (urban)
    есть ли у неё электричество, радио, телевизор и велосипед (electric, radio, tv, bicycle)

Давайте научимся оценивать количество детей ceb по остальным признакам.

1.Загрузите данные и внимательно изучите их. Сколько разных значений принимает признак religion?

In [58]:
raw.describe()

Unnamed: 0,ceb,age,educ,idlnchld,knowmeth,usemeth,evermarr,agefm,heduc,urban,electric,radio,tv,bicycle
count,4361.0,4361.0,4361.0,4241.0,4354.0,4290.0,4361.0,2079.0,1956.0,4361.0,4358.0,4359.0,4359.0,4358.0
mean,2.441642,27.405182,5.855996,4.615892,0.963252,0.577622,0.476726,20.686388,5.144683,0.516625,0.140202,0.701766,0.092911,0.275815
std,2.406861,8.685233,3.927075,2.219303,0.188164,0.493996,0.499515,5.002383,4.803028,0.499781,0.347236,0.457535,0.290341,0.446975
min,0.0,15.0,0.0,0.0,0.0,0.0,0.0,10.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,20.0,3.0,3.0,1.0,0.0,0.0,17.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2.0,26.0,7.0,4.0,1.0,1.0,0.0,20.0,6.0,1.0,0.0,1.0,0.0,0.0
75%,4.0,33.0,8.0,6.0,1.0,1.0,1.0,23.0,8.0,1.0,0.0,1.0,0.0,1.0
max,13.0,49.0,20.0,20.0,1.0,1.0,1.0,46.0,20.0,1.0,1.0,1.0,1.0,1.0


In [59]:
print raw.religion.value_counts()
print '\nAnswer 1: ', len(raw.religion.value_counts())

spirit        1841
other         1080
protestant     993
catholic       447
Name: religion, dtype: int64

Answer 1:  4


In [60]:
#Оценим сбалансированность выборки по категориальным признакам:
print raw.religion.value_counts()

print raw.knowmeth.value_counts()
print raw.usemeth.value_counts()
print raw.evermarr.value_counts()
print raw.urban.value_counts()
print raw.electric.value_counts()
print raw.radio.value_counts()
print raw.tv.value_counts()
print raw.bicycle.value_counts()

spirit        1841
other         1080
protestant     993
catholic       447
Name: religion, dtype: int64
1.0    4194
0.0     160
Name: knowmeth, dtype: int64
1.0    2478
0.0    1812
Name: usemeth, dtype: int64
0    2282
1    2079
Name: evermarr, dtype: int64
1    2253
0    2108
Name: urban, dtype: int64
0.0    3747
1.0     611
Name: electric, dtype: int64
1.0    3059
0.0    1300
Name: radio, dtype: int64
0.0    3954
1.0     405
Name: tv, dtype: int64
0.0    3156
1.0    1202
Name: bicycle, dtype: int64


2.Во многих признаках есть пропущенные значения. Сколько объектов из 4361 останется, если выбросить все, содержащие пропуски? 

In [61]:
data = raw.dropna()

print '\nAnswer 2: ', data.count()[0]


Answer 2:  1834


В разных признаках пропуски возникают по разным причинам и должны обрабатываться по-разному.

Например, в признаке agefm пропуски стоят только там, где evermarr=0, то есть, они соответствуют женщинам, никогда не выходившим замуж. Таким образом, для этого признака NaN соответствует значению "не применимо".

В подобных случаях, когда признак x1 на части объектов в принципе не может принимать никакие значения, рекомендуется поступать так:

    создать новый бинарный признак
    x2=1,x1='не применимо',0,иначе;
    заменить "не применимо" в x1 на произвольную константу c, которая среди других значений x1 не встречается.

Теперь, когда мы построим регрессию на оба признака и получим модель вида
y=β0+β1x1+β2x2,
на тех объектах, где x1 было измерено, регрессионное уравнение примет вид
y=β0+β1x,
а там, где x1 было "не применимо", получится
y=β0+β1c+β2.
Выбор c влияет только на значение и интерпретацию β2, но не β1.

Давайте используем этот метод для обработки пропусков в agefm и heduc.

    Создайте признак nevermarr, равный единице там, где в agefm пропуски.
    Удалите признак evermarr — в сумме с nevermarr он даёт константу, значит, в нашей матрице X будет мультиколлинеарность.
    Замените NaN в признаке agefm на cagefm=0.
    У объектов, где nevermarr = 1, замените NaN в признаке heduc на cheduc1=−1 (ноль использовать нельзя, так как он уже встречается у некоторых объектов выборки).

3.Сколько осталось пропущенных значений в признаке heduc?

In [79]:
data = raw.copy()
data['nevermarr'] = data['agefm'].apply(lambda x: 1 if np.isnan(x) else 0)
data.drop('evermarr', axis=1, inplace=True)
c_agefm = 0
c_heduc1 = -1
data['agefm'].fillna(value=c_agefm, inplace=True)
data.ix[data['nevermarr'] == 1, 'heduc'] = c_heduc1
data.describe()

Unnamed: 0,ceb,age,educ,idlnchld,knowmeth,usemeth,agefm,heduc,urban,electric,radio,tv,bicycle,nevermarr
count,4361.0,4361.0,4361.0,4241.0,4354.0,4290.0,4361.0,4238.0,4361.0,4358.0,4359.0,4359.0,4358.0,4361.0
mean,2.441642,27.405182,5.855996,4.615892,0.963252,0.577622,9.861729,1.836008,0.516625,0.140202,0.701766,0.092911,0.275815,0.523274
std,2.406861,8.685233,3.927075,2.219303,0.188164,0.493996,10.894991,4.475487,0.499781,0.347236,0.457535,0.290341,0.446975,0.499515
min,0.0,15.0,0.0,0.0,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,20.0,3.0,3.0,1.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2.0,26.0,7.0,4.0,1.0,1.0,0.0,-1.0,1.0,0.0,1.0,0.0,0.0,1.0
75%,4.0,33.0,8.0,6.0,1.0,1.0,19.0,4.0,1.0,0.0,1.0,0.0,1.0,1.0
max,13.0,49.0,20.0,20.0,1.0,1.0,46.0,20.0,1.0,1.0,1.0,1.0,1.0,1.0


Unnamed: 0,heduc,nevermarr
0,-1.0,1
3,-1.0,1
15,-1.0,1
16,-1.0,1
17,-1.0,1
24,-1.0,1
27,-1.0,1
28,-1.0,1
29,-1.0,1
31,-1.0,1
