In [8]:
# Подключение библиотек

import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from pylab import rcParams
from math import sqrt
from scipy import stats

%config InlineBackend.figure_format = 'svg'
rcParams['figure.figsize'] = 8, 6

<h2 style="color:black" align="center">2. Сравнение средних</h2>
<h2 style="color:#008B8B">2.1 T-распределение</h2>

**Вспоминаем ЦП**
Мы познакомились с основной идеей статистической проверки гипотез. Основываясь на ЦП мы могли бы предположить, как бы вели себя все выборочные средние, если бы мы многократно повторяли наш эксперемент и основываясь на этой информации рассчитать вероятность получить такое или ещё более выраженное отклонение, чем в нашем исследовании.

Ещё раз обратимся к ЦП теореме. Если мы знаем, что в нашей ГС $\mu = 0$ и $\sigma = 1$ и мы многократно извлекаем выборки из нашей ГС, то все средние значения этих выборок распределятся нормальныи образом вокруг среднего ГС ($\mu$) и со стандартныи отклонением (стандартная ошибка среднего) этого распределения, которую можно рассчитать по следующей формуле:

$se = \frac{\sigma}{n}$

Когда у нас большое количество наблюдений, стандартное отклонение ($sd$) по выборке хорошо описывет соответствующий параметр ГС ($\sigma$), что позволяет нам преобразовать формулу стандартной ошибки среднего $se$ в следющий вид для выборки:

$se = \frac{sd}{n}$

**Что если число наблюдений в выборке оказется небольшим?**
И при большом количестве наблюдений все выборочные средние будут вести себя в соответствии с нормальный распределением. Однако, когда количество наблюдей становится небольшим, особенно когда число наблюдений меньше 30. В этом случае стандартное отклонение по выборке не является хорошим показателем соответствующего параметра ГС ($\sigma$), так как он начинает больше отклоняется от него. Например, в такой ситуцации стандартное отклонение может быть равно $1.53$, когда в ГС стандартное отклонение равно 1. А что более важно, что нарушается предположение о том, что все выборочные средние будут вести себя в соответствии с нормальным законом (ЦПТ).

Причиной таких последствий является маленький объём выборки из-за чего она может оказаться в разных частях распределения, что и смещает все параметры. То есть, чем меньше объём нашей выборки, тем более сильные отклонения от среднего ГС мы будем получать.

**Распределение Стьюдента:** Если число наблюдений невелико и $\sigma$ неизвестно (почти всегда), используется распределение Стьюдента (t-distribution).

Давайте посмотрим, чем оно отличается от нормлаьного распределения: нормальное распределение обозначено розовой линией, а всё остальное - это t-распределение. Основное отличие заключается в том, что у распределения стьюдента более высокие хвосты распределения. Это означает, что в диапозоне превышающем 2 стандартных отклонения в право и влево будет лежать больше наблюдений, чем у нормального распределения.

"Форма" распределения определяется числом степеней свободы (df = n - 1) в нашем случае это k. С увеличением числа df распределение стремится к нормальному.

<img src="img/2_1.png" width="600" height="360">

**Вывод:** В отличии от нормального распределения, где отклонение от среднего строго регламентированно. "Форма" t-распределения будет изменяться в зависимости от числа степеней свободы. То есть, получить более экстримальные отклонения от срденего значения будет более или менее вероятно в зависимости от того, какой объём выборки.

### Пример: 

Посмотрим как знание t-распределения влияет на проверку статиситческих гипотез. Допустим в ГС $\mu = 10$, на выборке мы получили следующие значения: $\bar{x} = 10.8, ~ sd = 2, ~ N = 25$. Если бы мы пользовались стандартной формулой, то мы бы сказали: в соответствии с ЦПТ все выборочные средние распределились бы нормально, вокруг срденего ГС и se можно рассчитать $se = \frac{sd}{\sqrt{n}} = \frac{2}{\sqrt{25}} = 0.4$. 

Теперь необходимо узнать как далеко наше выборочное среднее отклонилось от сренего ГС в еденицах стандартного отклонения так как, если мы найдём данный параметр, то сможем рассчитать вероятность получить такое или ещё более выраженное отклонение. Для этого необходимо найти соответствующее Z-значение:

$Z_{10.8} = \frac{10.8 - 10}{0.4} = 2$ - в нашем эксперементе мы получили отклонение от предпологаемого срденего на два стандартных отклонения вправую сторону.

Найдём вероятность получить такое или ещё более выраженное отклонение:s

In [14]:
# Для нормального распределения
2 * (stats.norm.cdf(-2))

0.04550026389635839

Получаем, что p-value меньше чем 0.05, поэтому мы можем отклонить нулевую гипотезу, согласно которой наша выборка принадлежит ГС со средним равным 10. Но как мы сказали, при небольшом объёме выборке распределение выборочных средних будет отличаться от нормального и вероятность получить более выраженные отклонения от среднего будет выше. Рассчитаем такую вероятность в случае t-распределения:

In [15]:
from scipy import stats

t_value = 2
n = 25
df = n - 1

p = 2 * (1 - stats.t.cdf(t_value, df))
p

0.056939849936591624

Исходя из этого, мы уже не можем отклонить нулевую гипотезу, так как p-value > 0.05. t-критерий рассчитывается также как и z-значение: 

$t_i = \frac{\bar{x_i} - \mu}{se}$

В случае z-значения мы делили на $\sigma$ но $se$ представляет из себя аналог только среди выборочных средних. И $\bar{x_i}$ - это выборочное срденее из которого мы вычитаем уже не выборочноее срденее, а среднее ГС.

### О t-распределении

Вернемся к предельной центральной теореме, мы уже узнали, что если некий признак в генеральной совокупности распределен нормально (не обязательно) со средним $\mu$ и стандартным отклонением $\sigma$, и мы будем многократно извлекать выборки одинакового размера $n$, и для каждой выборки рассчитывать, как далеко выборочное среднее $\bar{X}$ отклонилось от среднего в генеральной совокупности в единицах стандартной ошибки среднего:

$Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}$

то эта величина $z$ будет иметь стандартное нормальное распределение со средним равным нулю и стандартным отклонением равным единице.

Обратите внимание, что для расчета стандартной ошибки мы используем именно стандартное отклонение в генеральной совокупности - $\sigma$. Ранее мы уже обсуждали, что на практике $\sigma$ нам практически никогда не известна, и для расчета стандартной ошибки мы используем выборочное стандартное отклонение.

Так вот, строго говоря в таком случае распределение отклонения выборочного среднего и среднего в генеральной совокупности, деленного на стандартную ошибку, теперь будет описываться именно при помощи t-распределения.

$t = \frac{\bar{X} - \mu}{\frac{sd}{\sqrt{n}}}$

таким образом, в случае неизвестной $\sigma$ мы всегда будем иметь дело с t-распределением. На этом этапе вы должны с негодованием спросить меня, почему же мы применяли z-критерий в первом модуле курса, для проверки гипотез, используя выборочное стандартное отклонение?

Мы уже знаем, что при довольно большом объеме выборки (обычно в учебниках приводится правило, n > 30) t - распределение совсем близко подбирается к нормальному распределению:

Поэтому иногда, для простоты расчетов говорится, что если n > 30, то мы будем использовать свойства нормального распределения для наших целей. Строго говоря, это конечно неправильный подход, который часто критикуют. В до компьютерную эпоху этому было некоторое объяснение, чтобы не рассчитывать для каждого n больше 30 соответствующее критическое значение t - распределения, статистики как бы округляли результат и использовали нормальное распределение для этих целей. Сегодня, конечно, с этим больше никаких проблем нет, и все статистические программы, разумеется, без труда рассчитают все необходимые показатели для t - распределения с любым числом степеней свободы. Действительно при выборках очень большого объема t - распределение практически не будет отличаться от нормального, однако, хоть и очень малые но различия все равно будут.

Поэтому, правильнее будет сказать, что мы используем t - распределение не потому что у нас маленькие выборки, а потому что мы не знаем стандартное отклонение в генеральной совокупности. Поэтому в дальнейшем мы всегда будем использовать t - распределение для проверки гипотез, если нам неизвестно стандартное отклонение в генеральной совокупности, необходимое для расчета стандартной ошибки, даже если объем выборки больше 30.