## Урок 3

### Описательная статистика. Качественные и количественные характеристики популяции. 

### Графическое представление данных

[Текст ссылки](https://)Рассмотрим описательные статистические характеристики на примере датасета с данными по хоккеистам.

Воспользуемся данными, приведенными в статье 
<a href='https://habr.com/post/301340/'>«Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке»</a>.

Импортируем библиотеки и загрузим данные:

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

In [None]:
df = pd.read_csv('csv/hockey_players.csv', encoding='cp1251', parse_dates=['birth'])

FileNotFoundError: ignored

Удалим дубликаты:

In [None]:
df = df.drop_duplicates(['name', 'birth'])

Данный датасет мог бы считаться **генеральной совокупностью**, если бы он содержал данные обо всех хоккеистах, 

соответствующих определенным характеристикам.

Если мы выберем случайным образом определенное количество примеров (наблюдений), такое множество можно называть выборкой.

**Выборка** — это случайным образом выбранная часть генеральной совокупности.

Одно из основных понятий в теории вероятностей — **математическое ожидание**. Обозначается как $M(X)$ (в статистике принято обозначение $\mu$).

Математическое ожидание — среднее значение случайной величины (распределение вероятностей стационарной случайной величины) при стремлении количества выборок или количества измерений (иногда говорят — количества испытаний) к бесконечности.

Среднее арифметическое одномерной случайной величины конечного числа испытаний обычно называют оценкой математического ожидания. При стремлении числа испытаний стационарного случайного процесса к бесконечности оценка математического ожидания стремится к математическому ожиданию.

# Найдем среднее значение роста хоккеистов из датасета по формуле:

$$M(X) = \frac{1}{n} \sum\limits_{i=1}^{n} x_i$$

где $x$ — рост, $n$ — количество наблюдений.

In [None]:
mean_height = df['height'].sum() / df['height'].count()
mean_height

Найдем эту же величину с помощью метода **mean**:

In [None]:
df['height'].mean()

Полученные значения равны (отличается только количество знаков после запятой). Такая оценка математического ожидания называется несмещенной.

Другим важным показателем выборки является **среднее квадратичное отклонение**. Оно показывает, насколько далеко наблюдения могут быть «разбросаны» относительно среднего значения.

Вычислить его можно по формуле:

$$\sigma = \sqrt{\frac{\sum\limits_{i=1}^{n} (x_i - \overline{x})^2}{n}}$$

Посчитаем среднее квадратичное отклонение роста хоккеистов:

In [None]:
height_std = np.sqrt(((df['height'] - df['height'].mean())**2).sum() / df['height'].count())
height_std

NameError: ignored

Посчитаем еще раз среднее квадратичное отклонение, но уже с помощью метода **std**:

In [None]:
nums = [100, 80, 75, 77, 89, 33, 45, 25, 65, 17, 30, 24, 57, 55, 70, 75, 65, 84, 90, 150]

In [None]:
m = 64.3 
n=len(nums)-1
sum_num = 0
for num in nums:
  sum_num+= (num - m)**2
print(sum_num/n)


1001.1684210526314


In [None]:
nums_df = pd.DataFrame(nums)
nums_df.var(ddof=1)

0    1000.115789
dtype: float64

In [None]:
df['height'].std(ddof=0)

NameError: ignored

**Дисперсия** равна среднему квадратичному отклонению, возведенному в квадрат:

$$\sigma^2 = \frac{\sum\limits_{i=1}^{n} (x_i - \overline{x})^2}{n}$$

Посчитаем дисперсию роста хоккеистов:

In [None]:
height_variance = ((df['height'] - df['height'].mean())**2).sum() / df['height'].count()
height_variance

Такая оценка дисперсии является **смещенной**. Следующая формула показывает, как вычисляется **несмещенная оценка дисперсии**:

$$\sigma^2_{несмещ.} = \frac{\sum\limits_{i=1}^{n} (x_i - \overline{x})^2}{n - 1}$$

Отличие несмещенной оценки дисперсии от смещенной в том, что мы делим сумму квадратов разностей всех величин со средним значением не на $n$, а на $n - 1$.

Рассчитаем несмещенную дисперсию роста хоккеистов:

In [None]:
height_variance2 = ((df['height'] - df['height'].mean())**2).sum() / (df['height'].count() - 1)
height_variance2

С помощью метода **var** можно посчитать смещенную оценку дисперсии:

In [None]:
df['height'].var(ddof=0)

Несмещенная считается аналогично:

In [None]:
df['height'].var(ddof=1)

Аргумент **ddof** (Delta Degrees of Freedom) показывает, какую величину нужно отнять от числа наблюдений $n$, которое находится в формуле дисперсии в делителе.

**Мода** — наиболее часто встречающееся в выборке значение. Для дискретных распределений модой считают любое значение $a_i$, вероятность которого $p_i$ больше, чем вероятности соседних значений.

Если в выборке есть два и более значений, встречающихся с одинаковой (максимальной) вероятностью, то есть выборка имеет две и более мод, то ее называют **мультимодальной**.

Модой абсолютно непрерывного распределения называют любую точку локального максимума плотности распределения.

**Медиана** — значение, которое делит выборку на две части так, что значения, которые меньше медианы, составляют половину (50 %) выборки. То есть половина значений выборки больше медианы, половина — не больше.

**Первый квартиль** — значение, которое не превышают 25 % наблюдений в выборке.

**Второй квартиль** — синоним медианы.

**Третий квартиль** — значение, которое не превышают 75 % наблюдений в выборке.

**Квантиль** — похожее понятие, только в качестве точки может выступать любая величина от 0 до 100 %.

Например, 40 % квантиль — значение, которое не превышают 40 % наблюдений.

**Перцентиль** — частный случай квантиля, в качестве меры берутся целые проценты.

Например, 40 % квантиль — то же, что и 40 % перцентиль.

**Дециль** — частный случай квантиля, в качестве меры берутся десятки процентов.

Например, 70 % квантиль — это также и 7-й дециль.

**Интерквартильное расстояние** — отрезок, равный разности 3-й и 1-й квартили.

##### Графическое представление данных

# Новый раздел

Чтобы получить представление о распределении роста хоккеистов, построим гистограмму. По умолчанию данные разбиваются на 10 частей (аргумент **bins**). Высота столбиков соответствует количеству наблюдений в бине:

In [None]:
plt.hist(df['height'])
plt.show()

Построим гистограмму еще раз, указав в качестве аргумента **bins** число 20, чтобы получить более детальную картину:

In [None]:
plt.hist(df['height'], bins = 20)
plt.show()

Другой способ графически представить данные — построить диаграмму **boxplot**. Для этого импортируем библиотеку **seaborn**:

In [None]:
import seaborn as sns

In [None]:
sns.boxplot(df['height'], orient='v')
plt.show()

На данном графике показатели роста располагаются по вертикали. Черта в середине прямоугольника обозначает медиану, его нижняя сторона — 1-й квартиль, а верхняя — 3-й квартиль.

От прямоугольника вверх и вниз отходят «усики». Черта на конце нижнего усика отстоит от 1-го квартиля на 1.5 интерквартильных расстояния, а на конце верхнего — на 1.5 интерквартильных расстояния от 3-го квартиля.

Точки, находящиеся за их пределами, обозначают выбросы в данных — нетипичные наблюдения, которые могут быть и ошибками.