# Введение

## Генеральная совокупность и выборка

**Генеральная совокупность (ГС)** - множество всех тех объектов, о которых мы хотим делать выводы в рамках решения той, или иной научной проблемы

**ГС** - как правило очень велика и опросить или измерить всех ее представителей не представляется возможным. Поэтому, исследователи выбирают только часть ее представителей, т.е. формирует **выборку** для своего исследования. И, исследуя данную выборку, старается обощить свои результаты на **ГС**.

Очень важным условием, для такого обобщения, является **репрезентативность**. Т.е. выборка должна быть моделью ГС (отражать ее свойства).

### Варианты формирования репрезентативных выборок

**Простая случайная выборка (simple random sample)** - из генеральной совокупности, случайным образом, выбираются ее представители для участия в нашем эксперименте. При увеличении объема случайной выборки, она постепенно начинает напоминать ГС по своим характеристикам.

**Стратифицированная выборка (stratified sample)** - ее идея заключается в том, что перед тем, как извлекать элементы ГС для нашего исследования, мы разобьем саму ГС на несколько обособленных групп (страт). Например, если мы хотим, чтобы в нашем исследовании равновероятно приняли участие как мужчины, так и женщины, мы предварительно можем разделить ГС на группы 'М' и 'Ж', а потом, используя метод случайной выборки, из каждой страты отобрать равные наборы элементов для нашего исследования.

**Групповая выборка (cluster sample)** - по своей сути, она напоминает предыдущий метод. Мы так же разделим совокупность на несколько групп (кластеров). Но в этом случае - все кластеры будут очень похожи между собой. Например - можно разделить город на несколько географических районов и быть уверенными в том, что в принципе, население разных районов, принципиально друг от друга не отличается. Поэтому, мы можем выбрать только несколько кластеров для участия в нашем исследовании, а затем, пользуясь тем же методом случайной выборки, надергать из них объекты исследования.

## Переменные и их типы

Естественно, мы формируем выборку - не просто так. Нас интересуют некоторые характеристики ГС, которые мы решили исследовать, при помощи этой самой выборки.

В целом, все типы переменных, с которыми мы, так или иначе столкнемся, можно разделить на 2 большие группы:
- Колличественные
- Качественные (Номинативные)

Мы уже сталкивались с таким форматом данных, как большая таблица, где каждая строка это испытуемый объект, а каждый столбец - характеристики этого объекта, которые нам удалось зафиксировать при формировании нашей выборки (матрица объектов-признаков)

### Количественные переменные

Количественные переменные представляют собой непосредственно измеренные значения некоторого признака. Если переменная может принимать абсолютно любое значение на некотором промежутке, то она считается **непрерывной**. В случае **дискретных** переменных, мы ожидаем, что они будут принимать только какие-то фиксированные значения.

### Номинативные переменные

Номинативные переменные используются для разделения наших объектов на группы. Например, мы можем сказать, что все испытуемые женского пола будут обозначены цифрой 1, а мужского - цифрой 2. В этом случае за цифрами не стоит никакого математического смысла, их бесполезно сравнивать, чтобы получить какую-либо мнформацию об испытаниях. В данном случае, цифры - всего лишь маркеры (лейблы), которые делят испытуемых на группы.

### Ранговые переменные

Еще одна важная группа переменных - так называемые **ранговые** переменные. Представьте, что у нас есть информация о марафонском забеге. Кто-то прибежал первым, кто-то - вторым и т.д.. В данном случае, это не совсем номинативные данные, потому, что мы можем сказать, что испытуемый с рангом 1 "быстрее-выше-сильнее", чем испытуемый с рангом 5., однако, мы не можем сказать ни "на сколько", ни "во-сколько" раз выражено его преимущество. Единственная математическая операция, которая возможна с ранговыми переменными - это сравнение.

## Меры центральной тенденции

Теперь познакомимся с понятиями описательной статистики. Предположим, что мы уже сформировали выборку, разобрались с типами переменных и теперь хотим исследовать форму их распределения. Что вообще означает фраза "распределение некоторой переменной"?

Когда мы говорим про номинативные переменные, нет ничего проще, чем посмотреть какое количество наблюдений оказалось в той, или иной группе. Гораздо интереснее исследовать распределение количественного признака. Для этого используется гистограмма частот, которая позволяет получить первое впечатление о том, какая форма распределения у наших данных.

Чтобы исследовать такие переменные, мы познакомимся с двумя типами описательной статистики:
- Меры центральной тенденции
- Меры изменчивости

Представьте себе, что вас просят описать ряд переменных лдним числом, которое максимально хорошо описыват получившееся распределение. Какое значение признака нам выбрать? Один из вариантов - найти **моду**. 

**Мода** - такое значение, которрое встречается максимально часто. Мод может быть несколько, если несколько значений встречаются одинаковое количество раз и чаще чем другие.

**Медиана** - значение признака, которое делит упорядоченное множество пополам. Если в множестве четное колмчество значений - берется среднее арифметическое между двумя средними числами.

**Среднее значение** - сумма всех значений измеренного признака, деленная на количество этих значений. Иногда называется **математическим ожиданием**.

Важно отметить, что для **выборочного среднего** используется обозначение $\overline{x}$, для **среднего ГС** используется - $\mu$

Может возникнуть вопрос - зачем нам целых три меры центральной тенденции? Ведь мы всегда можем усреднить наши данные?

Нет! Среднее значение очень сильно чуствительно к выбросам. Поэтому, если вы видите, что ваше распределение симметрично, унимодально (имеет только одну моду) и не имеет заметных выбросов - вы можете использовать любую из предложенных мер.

Однако, если вы заметили, что у распределения наблюдается ярко выраженная ассиметрия, заметные выбросы или несколько мод - испоьзование среднего может привести нас к абсолютно некорректным результатам. При этом - гораздо лучше использовать моду или медиану.

Несмотря на опасности, именно среднее значение используется в статистике чаще всего.

### Свойства среднего значения

1. Если к каждому значению нашей выборки прибавить некоторое число, то и среднее значение увеличится на это число<br>
$M_{x+c} = M_x + c$

2. Если каждое значение нашей выборки умножить на некоторое число, то и среднее значение увеличится в это же количество раз<br>
$M_{x*c} = M_x * c$

3. Если мы для каждго элемента рассчитаем такой показатель, как отклонение от среднего, то сумма этих отклонений будет равняться нулю:<br>
$\sum{x_i - M_x}=0$

## Меры изменчивости

### Определение мер изменчивости

**Размах** - $R = X_{max} - X_{min}$ (разница между минимальным и максимальным значниями). Недостаток в том, что эта мера рассчитывает изменчивость наших данных, исходя из из пограничных значений. Поэтому, любое изменение этих значений будет очеь болезненно отражаться на итоговом результате (*т.е. - чуствителен к выбросам*)

**Дисперсия** - средний квадрат отклонения индивидуальных значений признаков, от их средней величины. Иными словами - показатель демонстрирует, на сколько **в среднем** наши значения, отклоняются от **среднего значения** ($\mu$ или $\overline{x}$), в квадрате (*квадрат здесь нужен лишь для того, чтобы отрицательные отклонения не схлопнулись с положительными в нуле*)

$\displaystyle D = \frac{\sum{(x_i - \overline{x})^2}}{n}$

**Среднеквадратическое отклонение** - в отличии от дисперсии - показывает реальное среднее значение отклонений индивидуального признака от среднего значения по выборке (обозначается $\sigma$)

$\sigma = \sqrt{D}$

**Здесь нужно дать некоторые пояснения:<br>**
1. В зависимости от того, говорим мы о выборке, или генеральной совокупности в целом, показатели **Дисперсия** и **Среднеквадратичное отклонение** будут обозначаться по разному:
    - Среднеквадатичное отклонение ГС (генеральной совокупности) - $\sigma$
    - Среднеквадратичное выборки - sd
2. Если мы рассчитываем дисперсию для ГС, то формула: $\displaystyle D = \frac{\sum{(x_i - \overline{x})^2}}{n}$, однако, если мы решили рассчитать этот показатель для выборки, то необходимо добавлять **-1** в знаменатель:

$\displaystyle D = \frac{\sum{(x_i - \overline{x})^2}}{n-1}$

Причина, по которой мы должны вычитать единицу в знаменателе - отдельный вопрос. Это связано с таким понятием, как **степени свободы**, что это - обсудим несколько позже. Пока, это можно понимать следующим образом: если мы хотим, на основе нашей выборки, оценить какая дисперсия на самом деле в ГС, то будем получать более точные оценки, если будем корректировать нашу формулу, вычитая единицу в знаменателе.

### Свойства мер изменчивости

1. Если мы к каждому элементу нашей выборки прибавим некоторое число, то **D** и **sd** не изменятся<br>
$D_{x+c} = D_x$<br>
$sd_{x+c} = sd_x$


2. Если мы умножим каждый элемент выборки на некоторое число, то:<br>
$D_{x*c} = D_x * c^2$<br>
$sd_{x*c} = sd_x * c$

## Квартили распределения

Завершая наш раговор об описательных статистиках, рассмотрим тему **квантилей распределения**.

**Квантили** - такие значения признака, которые делят упорядоченные данные на некоторое количество равных частей. Примером этого может служить **медиана** - она делит данные на две равные части. Однако, в статистике часто используются еще и **квартили**. Это три точки, которые делят наши данные на 4 равные части (медиана, кстати, это второй квартиль).

Используя квартили, можно легко описать наше распределение и построить такой интересный график, как **boxplot** (ящик с усами).

Разница между третьим и первым квартилем назвается **межквартильный размах** (чем больше этот размах, тем выше вариативность признака). Усы ящика - отклонения 1.5 межквартильного размаха вверх (от третьего квартиля) и вниз (от первого), те значения, которые последними принадлежат этому диапазону и будут границами усов. Значения, которые превосходят 1.5 размаха - обозначаются отдельно точками и считаются выбросами.

Как правило - 50% всех наблюдений находятся между 1 и 3 квартилями (нужно уточнить)

## Нормальное распределение

**Нормальное распределение** - унимодально и симметрично. Более того, отклонение значений от среднего будут равновероятны, так еще и будут подчиняться определенному вероятностному закону:
- В диапазоне от среднего (математическое ожидание или $\mu$), до одного стандартного отклонения (sd или $\sigma$) в каждую сторону, будет находится 34.1% всех значений.
- В диапазоне от 1й до 2х сигм, уже - 13.6%
- 2 - 3 сигмы - 2.1%
- Вероятность встретить наблюдения за пределами 3х сигм  = 0.1%

### Z-стандартизация

Это такое преобразование данных, которое позволяет всю нашу шкалу привести в следующий тип: $\mu = 0$, а $D\in[-1; 1]$. Для этого необходимо из каждого значения нашей выборки вычесть седнее значение нашей выборки и разделить получившееся выражение на стандартное отклонение, мы получим **Z-шкалу** где новое среднее будет равно нулю, а дисперсия - единице (при этом - форма распределения - не изменится)

$\displaystyle Z_i = \frac{x_i - \overline{x}}{sd}$

### Правило "двух" и "трех" сигм

Мы уже говорили, что наши значения отклоняются от среднего с некоторым вероятностным законом:
- $M_x \pm \sigma = 68\%$ наблюдений
- $M_x \pm 2\sigma = 95\%$
- $M_x \pm 3\sigma = 100\%$

**Z-преобразование** позволяет ответить на вопрос "Какой % наблюдений лежит в абсолютно любом интересующем нас диапазоне?".

Предположим, что $\overline x = 150$, а $sd = 8$. Мы хотим узнать, какой процент наблюдений превосходит значение равное 154. Сначала сделаем z-преобразование. Чтобы найти **z-значение** нужно из целевого значения вычесть среднее и разделить на стандартное отклонение:

$\displaystyle Z = \frac{154-150}{8} = 0.5$

Воспользуемся таблицей (**ХЗ какой**) и найдем по строкам интересующее нас значение до десятых, по столбцам до сотых, и увидим, какой процент наблюдений находится в диапазоне, превышающем наше целевое значение (здесь - 30.85%)

В переводе на язык вероятности, это звучит так: "Вероятность встретить значение, превышающее 0.5 по z-шкале = 30.85%"

## Центральная предельная теорема (ЦПТ)

Мы выяснили, что без труда сможем рассчитать, что отклонение от среднего превысит интересующую нас величину. Держа в уме это прекрасное свойство нормального распределния, давайте познакомимся с **Центральной предельной теоремой (ЦТП)**, которая лежит в основании самой идеи статистической проверки гипотез и разберемся, что же означает столь желаемая для исследователей фраза "*Статистически значимые различия*"

Допустим, что в генеральной совокупности, некоторый признак распределен нормально и имеет $\mu=0$ и $\sigma=15$. Тогда, при многократном извлечении выборок из нашей **ГС** (например - по 35 в каждой) и расчете **среднего** и **sd** мы увидим, что распределение признака будет меняться от минивыборки к минивыборке, при этом значения средних, будут так же варьироваться (гдето - в положительную сторону, где-то в отрицательную). Однако, если мы возьмем средние значения каждой из этих выборок и построим их распределение, то **в среднем, выборочные средние значения покажут неплохое соответствие среднему в ГС**. Стандартное отклонение такого распределения, называется стандартной ошибкой среднего (sd of $\overline{x}$ **(SE)**) и показывает на сколько в срднем выборочные значения отклоняются от среднего ГС.

А что произойдет, если мы увеличим объем каждой из минивыборок? Во-первых, мы увидим, что распределение признака внутри каждой такой выборки, стало напоминать ГС, во-вторых - выборочные оценки стали более точными (с отклонениями, тоже, но...), но если мы посмотрим на распределение выборочных средних, то увидим, что стандартная ошибка сильно уменьшилась, и теперь большинство наших средних выборочных наблюдений лежат совсем близко со средним ГС.

**Центральная предельная теорема:** предположим, исследуемый нами признак, в ГС имеет нормальное распределение (с некоторым $\mu$ и $\sigma$) и мы многократно извлекаем выборки, равные **n** по объему, и у каждой рассчитываем среднее значение, после чего строим распределение этих выборочных средних. Так вот - такое распределение  будет являться нормальным, со средним, совпадающим с этим показателем в ГС, со стандартным отклонением (которое называется **стандартная ошибка среднего (SE)**), которое рассчитавается по следующей формуле:

$\displaystyle SE = \frac{\sigma_{гс}}{\sqrt{n}}$

Поэтому, чем больше наблюдений в минивыборках, чем меньше изменчивость признака, тем меньше стандартная ошибка.

Здесь важно сделать следующее замечание - если выполняются условия:
- число наблюдений в выборке >30
- выборка является репрезентативной (т.е. элементы из ГС отобраны случайно)

То формула ЦПТ позволяет сделать следующую замену:



$\displaystyle SE = \frac{\sigma_{гс}}{\sqrt{n}} = \frac{sd_x}{\sqrt{n}}$

Где $sd_x$ - стандпртное отклонение текущей выборки

А что произойдет, если признак в генеральной совокупности будет распределен ненормально? Допустим, это будет равномерное распределение? Воспользуемся все тем же приложением для симуляции:

Вот это поворот! Оказывается и в такой ситуации, распределение выборочных средних тоже окажется близким к нормальному. Это вынуждает нас значительно дополнить определение ЦПТ, которое я сформулировал в прошлом шаге.

Можно сказать, что ЦПТ - это значительно более сильное по смыслу утверждение:
Пусть есть признак, распределенный КАК  УГОДНО* с некоторым средним и некоторым стандартным отклонением. Тогда, если мы будем выбирать из этой совокупности выборки объема n, то их средние тоже будут распределены нормально со средним равным среднему признака в ГС и отклонением стандартным отклонением, se, формулу которого мы уже приводили в прошлых шагах.

Это довольно важное замечание, так как на практике мы часто сталкиваемся с признаками, у которых распределение ненормальное, но это не означает, что мы не можем проверять статистические гипотезы в таком случае. Не смотря на то, что сам признак распределен ненормальным образом!

<font size=1>\* определенные ограничения на распределение все-таки накладываются, например, распределение должно обладать конечной дисперсией, да и так бывает, бывают распределения, у которых дисперсия и вовсе не определена!</font>

## Доверительные интервалы

Наша первая задача, для решения которой потребуется знание **ЦПТ** будет связана с построением **доверительных интервалов** для среднего значения.

Как вы помните, мы начали с того, что целью статистики является возможность сделать выводы о ГС, основываясь, только на выборочных данных. Зачастую исследователя интересует чему равняется среднее значение исследуемого признака во всей ГС.

Приведем пример: ы нашем исследовании приняли участие 64 человека в возрасте от18 до 30 лет, у которых измеряли уровень экспрессии некоторого гена. Мы получили некую выборку (состоящую из 64 значений) у которой есть среднее и sd (стандартное отклонение). На основе этого нужно предсказать это самое среднее у ГС (т.е. всех людей этого возраста).

И здесь есть две новости - хорошая и плохая. Плохая новость заключается в том, что мы не сможем ответить на этот вопрос абсолютно точно (т.е. не сможем сказать чему именно равняется среднее ГС), но - мыможем рассчитать такой интервал, относительно которого, можем быть абсолютно уверены, что он включает в себя интересующий нас параметр.

Для этого нужно вспомнить свойства **нормального распределения** и **ЦПТ**. Итак, мы знаем, что если бы много раз повторяди наш эксперимент, то все выборочные средние, распределились бы нормальным образом, вокруг среднего ГС (как раз - интересующий нас параметр), со стандартынм отклонением, или - стандартной ошибкой среднего, которое равняется:

$\displaystyle se = \frac{sd_x}{\sqrt{n}}$

И, мы так же знаем, что 95% всех выборочных средних (по свойствам нормального распределения), лежали бы в диапазоне $\mu \pm 1.96\sigma$, или, в нашем случае - $\mu \pm 1.96se$.

И как нам это может помочь? Ведь мы, как раз не знаем, чему равняется среднее ГС ($\mu$), а нвше с вами выборочное среднее может оказаться где угодно (может быть - попато точно в центр, а может быть максимально отклонилось). Но, если бы мы рассчитали интервал $\mu \pm 1.96se$, то он включил бы в себя среднее ГС.

Таким образом 95% всех выборочных средних, включили бы в себя среднее ГС, если бы мы рассчитывали такой интервал. И только те выборочные средние ($\overline{x}$), которые ооочень далеко отклонились бы от среднего ГС ($\mu$), не включили бы в свой 95% доверительный интервал среднее значение ГС.

Таким образом, если бы мы многократно извлекали выборки из ГС, в каждой выборке рассчитывали среднее значение и для него свой 95% ДИ (**CI = cofidence interval**), то в 95% всех случаев, такой интервал включал бы в себя среднее ГС (т.е. мы можем быть уверены на 95%, что такой доверительный интервал включает в себя среднее ГС). Теперь рассчитаем такой интервал, для наших выборочных данных.

Мы помним, что:
- $\overline{x} = 100$
- $sd = 4$
- $n = 64$

1. Рассчитаем стандартную ошибку:

$\displaystyle se = \frac{sd_x}{\sqrt{n}} = \frac{4}{\sqrt{64}} = 0.5$

2. Рассчитаем интервал:

$CI = \overline{x} \pm 1.96se = 100 \pm 1.96 * 0.5 = [99.02; 100.98]$

Рассчитав такой интервал, мы можем быть на 95% уверены в том, что он содержит в себе среднее ГС ($\mu$). В этом и заключается основная идея этого подхода - мы не можем точно оценить интересующий нас параметр, но - можем рассчитать такой интервал, для оценки параметра ГС.

Так же - можно увеличить степень уверенности, что мы смогли поймать среднее ГС. А именно - рассчитать более широкий доверительный интервал. Если 95% всех значений в нормальном распределении лежит в диапазоне $\mu \pm 1.96\sigma$, то 99% всех наблюдений, лежит в диапазоне $\mu \pm 2.58\sigma$. Такой интервал был бы более широким, и мымогли бы быть уверенными, что смогли поймать наше среднее ГС.

Доверительные интервалы очень широко применяются в статистике, для решения таких, вот задач - оценки параметров ГС, основываясь только на выборочных данных.

Чтобы чуть глубже погрузиться в тему доверительных интервалов - стоит прочесть [это](https://thinkcognitive.org/ru/blog/golova-professora-bambldorfa#.YNnNO-omztQ)