In [29]:
import numpy as np
import pandas as pd
import scipy.stats as stats
from statsmodels.sandbox.stats.multicomp import multipletests
from sklearn.utils import resample

In [5]:
data = pd.read_excel('salaries.xls', index_col=0)
tests = []

In [6]:
data.describe()

Unnamed: 0.1,Unnamed: 0,Agency,Salary2010,Salary2011,Salary2012,Salary2013
count,52256.0,52256.0,52256.0,52256.0,52256.0,52256.0
mean,156430.169205,409.339655,49380.667234,52126.387133,52511.053027,50305.860284
std,89673.627737,155.48341,33914.308198,34439.595622,35238.704485,36724.706184
min,10.0,11.0,100.0,100.0,102.0,101.0
25%,83462.75,305.0,30432.5,33795.0,33929.75,30654.5
50%,155251.0,360.0,46322.0,48187.0,48889.5,47093.0
75%,225747.5,490.0,64223.25,66045.0,66337.25,65640.25
max,339762.0,696.0,1982918.0,2529168.0,2736431.0,2633642.0


In [None]:
Задание 1
Задание 1.1
Одновыборочный параметрический тест
H0 : Средняя зарплата политического аналитика в 2010 году была равна 49380
H1 : Средняя зарплата политического аналитика в 2010 году отличается от 49380

In [7]:
#Одновыборочный тест Стьюдента
t_score = (np.mean(data['Salary2010']) - 49380) / (np.std(data['Salary2010']) / (data['Salary2010'].size) ** 0.5)
#правосторонняя
p_value = 1 - stats.t.cdf(t_score, data['Salary2010'].size - 1)
tests.append(p_value)
print p_value

0.498205786099


In [None]:
p_value = 0.498205786099
Следовательно, гипотеза H0 не отвергается

In [8]:
#t = data[(data.JobTitle == u'SENIOR ACTUARIAL ANALYST')&(data.JobTitle == u'ADM LAW JDGE 3')]
model_list = ['SENIOR ACTUARIAL ANALYST', 'ADM LAW JDGE 3']
data[data['JobTitle'].isin(model_list)].groupby("JobTitle")[[ 'Salary2011']].agg(['mean'])
data

Unnamed: 0.1,Unnamed: 0,Agency,AgencyTitle,EmployeeName,JobTitle,Salary2010,Salary2011,Salary2012,Salary2013
2,10,165,Accountancy,"JOLICOEUR, EDWIN G",BOARD MEMBER,750,950,450,300
5,36,165,Accountancy,"SWEENEY, RICK",EXEC. DIRECTOR,92573,91078,91536,92952
6,44,35,Actuary,"BURKHART, KELLY RAE",ADMINISTRATIVE SERVICES MANAGER,78905,77458,76560,78726
7,45,35,Actuary,"DEMPSEY, TROY A",SENIOR ACTUARIAL ANALYST,81542,86883,105468,66491
8,47,35,Actuary,"GUTIERREZ, AARON",POLICY ANALYST,69468,68703,67656,69570
9,48,35,Actuary,"HARBOUR, MICHAEL",ACTUARIAL ANALYST,54310,53699,52884,58958
10,52,35,Actuary,"HYDE, ELIZABETH R",PUB SPEC/WEBMASTER,63074,62092,61284,62232
11,58,35,Actuary,"SMITH, MATTHEW M",STATE ACTUARY,173197,171249,174256,191552
12,59,35,Actuary,"STEELE, CHRISTINE L",SENIOR ACTUARIAL ANALYST,74824,73983,72852,75876
13,60,35,Actuary,"STINEMAN, KYLE",ACTUARIAL ANALYST,52730,56218,55560,59076


In [None]:
Задание 1.2
Двухвыборочный тест:
H0 : Средняя зарплата SENIOR ACTUARIAL ANALYST и ADM LAW JDGE 3 в 2011 не отличается
H1 : У SENIOR ACTUARIAL ANALYST средняя зарплата в 2012 году больше

In [9]:
#Двухвыборочный тест Стьюдента
first = data[data['JobTitle'] == 'SENIOR ACTUARIAL ANALYST']['Salary2011']
second = data[data['JobTitle'] == 'ADM LAW JDGE 3']['Salary2011']
print first.std()
print second.std()
s1 = np.std(first) ** 2 / first.size
s2 = np.std(second) ** 2 / second.size
#Дисперсия этой разности равна исходя из независимости выборок: 
V = np.sqrt( s1 +  s2)
#Распределение t-статистики: 
df = (s1 + s2) ** 2 / ( s1 ** 2 / (first.size - 1) + s2 ** 2 / (second.size - 1))
t_score = (np.mean(first) - np.mean(second)) / V
print 't_score', t_score
p_value = 1 - stats.t.cdf(t_score, df)
tests.append(p_value)
print 'p-value',p_value


9121.67747731
21509.7965928
t_score 2.21186330428
p-value 0.0573834022539


In [None]:
Получаем p-value ~ 0.057, на уровне значимости 0.05 гипотеза H0  не отвергается.

In [None]:
Двухвыборочный непараметрический тест
H0 : Вероятность того, что SENIOR ACTUARIAL ANALYST получает больше ADM LAW JDGE 3 в 2011 равна 0.5
H1 : Вероятность того, что SENIOR ACTUARIAL ANALYST получает больше ADM LAW JDGE 3 в 2012 больше 0.5

In [10]:
#Применим U-тест Манна - Уитни
from scipy.stats import mannwhitneyu
U_test = mannwhitneyu(first, second)
tests.append(U_test[1])
print U_test

(17.0, 0.16592895345135578)


In [None]:
p-value ~ 0.166, на уровне значимости 0.005 гипотезу Н0 не отвергаем

In [None]:
Задание 1.3
Непараметрический тест для парных наблюдений
H0: Медиана зарплат BOARD MEMBER за 2012 год не отличается от медианы за 2013 год
H1: Медиана отличается

In [11]:
from scipy.special import binom

#Знаковый критерий
board_salary2012 = data[data['JobTitle'] == 'BOARD MEMBER']['Salary2012']
board_salary2013 = data[data['JobTitle'] == 'BOARD MEMBER']['Salary2013']

a = np.sum(board_salary2012 < board_salary2013)
b = np.sum(board_salary2012 != board_salary2013)

if a > b / 2:
    p_value = np.sum(binom(b, x) for x in xrange(a, b + 1)) * (0.5 ** b) * 2
else:
    p_value = np.sum(binom(b, x) for x in xrange(0, a + 1)) * (0.5 ** b) * 2

tests.append(p_value)
print p_value 

0.5078125


In [None]:
p-value ~ 0.51, на уровне значимости 0.005 гипотезу Н0 не отвергаем

In [None]:
Параметрический тест для парных наблюдений
H0: Средняя зарплата Administrative Office of the Courts равна в 2010 и 2011 годах
H1: Средняя зарплата Administrative Office of the Courts больше в 2011 году

In [12]:
agency_salary = data[data.AgencyTitle == 'Administrative Hearings']
office2010 = agency_salary['Salary2010']
office2011 = agency_salary['Salary2011']
razn = office2010 - office2011
office_mean = np.mean(razn)
office_sd = np.std(razn)
t_value = office_mean / (office_sd / np.sqrt(razn.size))
p_value = 1 - stats.t.cdf(t_value, razn.size - 1)
tests.append(p_value)
print p_value

0.119383049695


In [None]:
p-value ~ 0.12, на уровне значимости 0.005 гипотезу Н0 не отвергаем

In [None]:
Задание 2
Точная альтернативная гипотеза для последнего теста: 
H1 : Средняя зарплата в 2010 году была больше на 5%

In [13]:
#Вероятность того, что мы правильно отклоним H0
x = stats.t.ppf(0.975, razn.size - 1) * np.std(razn) / razn.size
power = 1 - stats.t.cdf((x - np.mean(office2011) * 0.10)/(np.std(razn) / np.sqrt(razn.size)), razn.size - 1)
print 'Мощность критерия', power


Мощность критерия 0.960896781336


In [14]:
#Задание 3
print tests
error_rate = 0.05
rejections = np.sum(tests < error_rate)
print 'Отклонения: ', rejections

[0.4982057860989979, 0.057383402253872395, 0.16592895345135578, 0.5078125, 0.11938304969504909]
Отклонения:  0


In [21]:
reject, pvals_corrected, alphacSidak, alphacBonf = multipletests(tests, alpha=0.05, method='fdr_bh', returnsorted=False)
print 'Отклонения для Benjamini/Hochberg  (non-negative):' , np.sum(reject)

Отклонения для Benjamini/Hochberg  (non-negative): 0


In [20]:
reject, pvals_corrected, alphacSidak, alphacBonf = multipletests(tests, alpha=0.05, method='bonferroni', returnsorted=False)
print 'Отклонения после одношаговой коррекции Bonferroni:' , np.sum(reject)

Отклонения после одношаговой коррекции Bonferroni: 0


In [19]:
reject, pvals_corrected, alphacSidak, alphacBonf = multipletests(tests, alpha=0.05, method='sidak', returnsorted=False)
print 'Отклонения после одношаговой коррекции Sidak:' , np.sum(reject)

Отклонения после одношаговой коррекции Sidak: 0


In [22]:
reject, pvals_corrected, alphacSidak, alphacBonf = multipletests(tests, alpha=0.05, method='holm', returnsorted=False)
print 'Отклонения для step-down method using Bonferroni adjustments:' , np.sum(reject)

Отклонения для step-down method using Bonferroni adjustments: 0


In [None]:
Результаты не изменились после поправки на множественное тестирование

In [None]:
Задание 4
Найдем доверительный интервал для средней зарплаты в Big Bend Community College в 2012

In [24]:
college2012 = data[data['AgencyTitle'] == "Big Bend Community College"]['Salary2012']
college2012_size = college2012.size
college2012_mean = np.mean(college2012)
step = stats.norm.ppf(0.975) * np.std(college2012) / np.sqrt(college2012.size)
print "Доверительный интервал:",college2012_mean - step,':', college2012_mean + step

Доверительный интервал: 31908.9176551 : 39296.9882273


In [41]:
college2012_median = np.median(college2012)
nsamples = 1000
                                                                 
samplesize=len(college2012)
n = samplesize
X = []
for i in range(nsamples):
    college2012_resample = college2012_median - resample(college2012, replace = True).median()
    X.append(college2012_resample)
X.sort()
boundary1, boundary2 = np.percentile(X, q = [5, 95])
print "Непарметрический интервал для медианы на основе бустрепа:",college2012_median - boundary2,':', college2012_median - boundary1

Непарметрический интервал для медианы на основе бустрепа: 29726.0 : 36756.0
