# **1. Введение**

## 1.1 Генеральная совокупность и выборка

* **Генеральная совокупность (ГС)** - множество всех объектов, относительно которых делаются выводы в рамках исследования некоторой научной проблемы
* **Выборка** - часть ГС, исследуя которую можно обобщить результаты на ГС. Для этого выборка должна быть ***репрезентативна***, то есть была моделью ГС (отражала свойства ГС) 

Способы формирования репрезентативной выборки:

* **Простая случайная выборка (simple random sample)** - случайным образом выбираются элементы ГС для участия в эксперименте или исследовании. При увеличении объема случайной выборки она начинает напоминать ГС по своим характеристикам

* **Стратифицированная выборка (stratified sample)** - ГС разбивается на несколько обособленных и различных по своей природе групп (страт), а затем методом случайной выборки извлекаются из каждой группы элементы для участия в исследовании

* **Групповая выборка (claster sample)** - ГС разбивается на несколько схожих по свойствам групп (кластеров), а затем методом случайной выборки извлекаются из каждого кластера элементы для участия в исследовании 

## 1.2 Типы переменных. Количественные и номинативные переменные

Типы переменных:

* **Количественные** (например, рост человека)
    * *непрерывные* (если переменная может принимать любое значение на некотором промежутке)
    * *дискретные* (если переменная принимает только определенное значение)
* **Номинативные (качественные)** - используются для разделения испытуемых или наблюдений на группы (цифры, которыми обозначают данные группы, не имеют математического значения, они являются лишь маркерами (лейблами))
* **Ранговые переменные** (например, информация о марафонском забеге, то есть кто пришел к финишу первым, вторым и тд). Единственная математическая операция, которая возможна в случае ранговых переменных, это сравнение

## 1.3 Описательная статистика

Типы описательной статистики:

* **Мера центральной тенденции** - насколько высокие значения принимает переменная

* **Мера изменчивости** - насколько изменчива (вариативна) переменная

### 1.3.1 Меры центральной тенденции

* **Мода (Mode)** - значение измеряемого признака, которое встречается максимально часто

* **Медиана (Median)** - значение признака, которое делит упорядоченное множество данных пополам

* **Среднее значение (mean, среднее арифметическое)** - сумма всех значений измеренного признака, деленная на количество измеренных значений
    * Свойства среднего:
    $$M_{x+c}=M_x + c$$
    $$M_{x*c}=M_x * c$$
    $$\sum(x_i-M_x)=0$$

In [11]:
# Расчет моды, медианы и среднего значения

import numpy as np
from scipy import stats

sample = np.array([185, 175, 170, 169, 171, 172, 175, 157, 170, 172, 167, 173, 168, 167, 166,
                167, 169, 172, 177, 178, 165, 161, 179, 159, 164, 178, 172, 170, 173, 171])

print("mode:", stats.mode(sample, keepdims=False))
print("median:", np.median(sample))
print("mean:", np.mean(sample))

mode: ModeResult(mode=172, count=4)
median: 170.5
mean: 170.4


### 1.3.2 Меры изменчивости

* **Размах (Range)** - разность максимального и минимального значения (чувствителен к изменению максимального и минимального значений)
$$R=X_{max}-X_{min}$$
* **Дисперсия (variance)** - средний квадрат отклонений индивидуальных значений признака от их средней величины
    * Для генеральной совокупности: $D=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{X})^2}{n}$
    * Для выборки: $D=\frac{\displaystyle\sum_{i=1}^{n}(x_i-\overline{X})^2}{n-1}$, (вычитание 1 связано со стеменями свободы)
* **Среднеквадратическое отклонение** - определяет реальное среднее значение отклонений от среднего значения по выборке 
    * Для генеральной совокупности: $\sigma=\sqrt{D}$
    * Для выборки: $sd=\sqrt{D}$

In [16]:
# Расчет дисперсии и стандартного отклонения

import statistics as st

sample_2 = np.array([1, 2, 2, 3, 4, 4, 5])

print('Variance:', st.variance(sample_2))
print('sd:', np.sqrt(st.variance(sample_2)))

Variance: 2
sd: 1.4142135623730951


Свойства дисперсии и стандартного отклонения:
$$D_{x+c}=D_x \text{ (не меняется форма распределения)}$$
$$sd_{x+c}=sd_x \text{ (не меняется форма распределения)}$$

$$D_{x*c}=D_x*с^2$$
$$sd_{x*c}=sd_x*с$$

In [33]:
# Пример 1: Рассчитайте среднеквадратическое отклонение данных выборочных значений

s1 = [1, 5, 2, 7, 1, 9, 3, 8, 5, 9]

print("sd:", np.std(s1, ddof=1))

sd: 3.1622776601683795


## 1.4 Квартили распределения и график box-plot