# Критерии Стьюдента
### Вопрос 1

Пусть t — значение статистики критерия Стьюдента для независимых выборок, nu — соответствующее число степеней свободы. Какая из строчек кода вычисляет достигаемый уровень значимости t-критерия при альтернативе H1:μ1>μ2? `1 -stats.t.cdf(t, nu)`

### Вопрос 2

Выберите ситуации, в которых допустимо проверять нулевую гипотезу H0:μ1=μ2 против односторонней альтернативы H1:μ1>μ2

 * Признаки устроены так, что μ1<μ2 в принципе невозможно

 * ~~В полученных выборках X¯1>X¯2~~

 * ~~Случай μ1<μ2 нас не интересует: например, если X1 — это эффективность изобретённого нами лекарства, а X2 — эффективность плацебо, не в наших интересах брать двустороннюю альтернативу, потому что мы не хотим ненароком показать, что лекарство хуже плацебо~~
 
### Вопрос 3

Выберите верные утверждения о проблеме Беренца-Фишера.

 * ~~Приближённое решение проблемы Беренца-Фишера достаточно точно при [n1>n2]=[σ1<σ2]~~
 * ~~Проблема заключается в том, что при сравнении средних двух выборок с неизвестными дисперсиями нельзя даже приближённо посчитать число степеней свободы у нулевого распределения t-критерия~~
 * Приближённое решение проблемы Беренца-Фишера достаточно точно при n1=n2
 * Проблема заключается в том, что не существует точного способа сравнить средние двух выборок с неизвестными дисперсиями
 
 
### Вопрос 3
Уровень кальция в крови здоровых молодых женщин равен в среднем 9.5 милиграммам на децилитр и имеет характерное стандартное отклонение 0.4 мг/дл. В сельской больнице Гватемалы для 160 здоровых беременных женщин при первом обращении для ведения беременности был измерен уровень кальция; среднее значение составило 9.57 мг/дл. Можно ли утверждать, что средний уровень кальция в этой популяции отличается от 9.5?

Посчитайте достигаемый уровень значимости. Поскольку известны только среднее и дисперсия, а не сама выборка, нельзя использовать стандартные функции критериев — нужно реализовать формулу достигаемого уровня значимости самостоятельно.

Округлите ответ до четырёх знаков после десятичной точки.

In [1]:
import math
from scipy import stats

In [2]:
mu0 = 9.5
sigma = 0.4
n = 160
mu = 9.57

In [20]:
z = abs((mu - mu0)/(sigma/math.sqrt(n)))
z

2.213594362117875

In [22]:
round(2*(1 - stats.norm.cdf(z)),4)

0.0269

### Вопрос 5

Как вы считаете, это отличие в среднем уровне кальция в крови практически значимо?

 * ~~Нет, раз критерий Стьюдента говорит, что отличие незначимо~~
 * ~~Да, раз критерий Стьюдента говорит, что отличие значимо~~
 * Скорее всего нет: стандартное отклонение уровня в популяции намного больше полученного различия между средними
 
### Вопрос 6
Имеются данные о стоимости и размерах 53940 бриллиантов:

Отделите 25% случайных наблюдений в тестовую выборку с помощью функции sklearn.cross_validation.train_test_split (зафиксируйте random state = 1). На обучающей выборке настройте две регрессионные модели:
* линейную регрессию с помощью LinearRegression без параметров
* случайный лес с помощью RandomForestRegressor с random_state=1.

Какая из моделей лучше предсказывает цену бриллиантов? Сделайте предсказания на тестовой выборке, посчитайте модули отклонений предсказаний от истинных цен. Проверьте гипотезу об одинаковом среднем качестве предсказаний, вычислите достигаемый уровень значимости. Отвергается ли гипотеза об одинаковом качестве моделей против двусторонней альтернативы на уровен значимости α=0.05?

In [5]:
import pandas as pd
from sklearn import cross_validation
from sklearn import linear_model
from sklearn import ensemble, metrics
import pylab

In [6]:
diamonds = pd.read_csv('diamonds.txt', sep = '\t')

In [7]:
train_diamonds, test_diamonds = cross_validation.train_test_split(diamonds, random_state = 1)

In [8]:
linear_regression = linear_model.LinearRegression()
linear_regression.fit(train_diamonds.drop('price', axis = 1), train_diamonds.price)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [9]:
forest_regression = ensemble.RandomForestRegressor()
forest_regression.fit(train_diamonds.drop('price', axis = 1), train_diamonds.price)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           n_estimators=10, n_jobs=1, oob_score=False, random_state=None,
           verbose=0, warm_start=False)

In [10]:
cmp_df = pd.DataFrame()
cmp_df['price'] = test_diamonds.price

In [11]:
cmp_df['forest_prediction'] = forest_regression.predict(test_diamonds.drop('price', axis = 1))
cmp_df['linear_prediction'] = linear_regression.predict(test_diamonds.drop('price', axis = 1))

In [12]:
metrics.mean_absolute_error(cmp_df.price, cmp_df.forest_prediction), metrics.mean_absolute_error(cmp_df.price, cmp_df.linear_prediction)

(811.33935134998478, 890.37640042856117)

In [13]:
cmp_df['forest_delta'] = map(lambda x, y: abs(x-y), cmp_df.price, cmp_df.forest_prediction)
cmp_df['linear_delta'] = map(lambda x, y: abs(x-y), cmp_df.price, cmp_df.linear_prediction)

In [None]:
# stats.probplot(cmp_df.forest_delta - cmp_df.linear_delta, dist = "norm", plot = pylab)
pylab.show()

In [15]:
stats.ttest_rel(cmp_df.forest_delta, cmp_df.linear_delta)

Ttest_relResult(statistic=-11.659095925066145, pvalue=2.9127059841569498e-31)

### Вопрос 7

В предыдущей задаче посчитайте 95% доверительный интервал для разности средних абсолютных ошибок предсказаний регрессии и случайного леса. Чему равна его ближайшая к нулю граница? Округлите до десятков (поскольку случайный лес может давать немного разные предсказания в зависимости от версий библиотек, мы просим вас так сильно округлить, чтобы полученное значение наверняка совпало с нашим).

In [16]:
from statsmodels.stats.weightstats import *

In [17]:
print "95%% confidence interval: [%f, %f]" % DescrStatsW(cmp_df.forest_delta - cmp_df.linear_delta).tconfint_mean()

95% confidence interval: [-92.324844, -65.749254]
