# Урок 3. Разведочный анализ / EDA (exploratory data analysis)

In [1]:
import numpy as np

import scipy.stats as stats

import warnings
warnings.filterwarnings('ignore')

***
## Генеральная и выборочная совокупности

**Генеральная совокупность** \
— это множество, которое содержит данные обо всех объектах, соответствующих определенным характеристикам.

**Выборка** \
— это случайным образом выбранная часть генеральной совокупности.

**Репрезентативная выборка** \
— часть генеральной совокупности, являющаяся моделью генеральной совокупности и отражющая свойства генеральной совокупности.

***
## Точечные оценки параметров распределения

***
### Меры центральной тенденции

#### Мода
– наиболее часто встречающееся в выборке значение.

In [2]:
X = np.array([167, 181, 174, 178, 175, 164, 182, 178, 193, 166, 154, 170, 177])

modes = stats.mode(X)[0]
print(modes)

[178]


#### Медиана
– значение, которое делит выборку на две равные части так, что значения, которые меньше медианы, составляют 50% выборки.

Для нечетной выборки: $\displaystyle N_{\left[\frac{n+1}{2}\right]}$
<br><br>
Для четной выборки: 
$\frac{N_{\left[\frac{n}{2}\right]} + 
       N_{\left[\frac{n}{2}+1\right]}}
      {2}$

In [3]:
X = np.array([167, 181, 174, 178, 175, 164, 182, 178, 193, 166, 154, 170, 177])

n = X.shape[0]
print(f'{n = }')
X.sort()
print(X)
print(f'me = {X[n//2]}')

n = 13
[154 164 166 167 170 174 175 177 178 178 181 182 193]
me = 175


#### Математическое ожидание
— среднее значение случайной величины при стремлении количества выборок или количества измерений к бесконечности (генеральная совокупность). \
$\displaystyle M(X) = \frac{1}{n}\sum^{n}_{i=1}{x_i}$

**Оценка математического ожидания** \
— это среднее арифметическое одномерной случайной величины конечного числа испытаний (выборка). \
$\displaystyle \bar{X} = \frac{1}{m}\sum^{m}_{i=1}{x_i}$

In [4]:
X = np.array([167, 181, 174, 178, 175, 164, 182, 178, 193, 166, 154, 170, 177])
np.mean(X)

173.76923076923077

***
### Меры изменчивости / показатели вариации

#### Дисперсия
характеризует степень рассеянности значений случайной величины относительно ее математического ожидания.

**Смещенная дисперсия** (для генеральной совокупности): $\displaystyle \sigma^2 = \frac{\sum^{m}_{i=1}{(x_i-\bar X)^2}}{m}$

**Несмещенная дисперсия** (для выборки): $\displaystyle S^2 = \frac{\sum^{n}_{i=1}{(x_i-\bar X)^2}}{n-1}$, если объем выборки меньше 100.

In [5]:
X = np.array([167,181,174,178,175,164,182,178,193,166,154,170,177])

# смещенная дисперсия
d = np.var(X)
print(d)

# несмещенная дисперсия
d = np.var(X, ddof=1)
print(d)

88.02366863905326
95.35897435897436


#### Среднее квадратичное отклонение / стандартное отклонение
показывает, насколько далеко наблюдения могут быть "разбросаны" относительно их среднего значения $\mu$.

$\sigma = \sqrt{\sigma^2}$

$S = \sqrt{S^2}$

In [6]:
X = np.array([167,181,174,178,175,164,182,178,193,166,154,170,177])

# смещенное стандартное отклонение
print(np.std(X))

# несмещенное стандартное отклонение
print(np.std(X, ddof=1))

9.382092977531892
9.765191977579056


***
## Квантили распределения

Одним из наиболее действенных методов описания выборки является описание с помощью квантилей и процентилей.

**Квантиль $Q$** \
– это значение, отделяющее от распределения слева или справа определенную долю объема совокупности.

**Квартили $Q_1,Q_2,Q_3$** \
– это три точки (значения признака), которые делят упорядоченное множество данных на четыре части. \
Первый квартиль ($Q_1$),отделяет слева 25% объема совокупности. Второй квартиль ($Q_2$),делит совокупность на две равные по объему части (по 50%),он называется медианой. Третий квартиль ($Q_3$) отделяет слева 75% объема совокупности или справа 25% объема.

**Децили $D_1,D_2,\ldots,Q_9$** \
– это варианты, которые делят упорядоченный вариационный ряд на 10 равных (по количеству вариант) частей.

**Процентили $Р_1,P_2,\ldots,P_{99}$** \
– это точки (их 99) которыеделят упорядоченное множество данных на 100 частей.
<br><br>

**Первый квартиль** – такое значение, что  25% наблюдений в выборке не превышают эту величину. \
**Второй квартиль** – синоним медианы. \
**Третий квартиль** – такое значение, что 75% наблюдений в выборке не превышают эту величину. \
**Интерквартильное расстояние** – отрезок, равный разности 3-го и 1-го квартиля.