# Описательные статистики

Можно сказать, что описательная статистика — *это формула, которая использует весь набор данных и дает нам ответ в виде одного числа.*

Например, у нас есть такой набор чисел:
    *23, 45, 23, 44, 34, 56, 54, 12, 11, 44, 44, 31, 4, 30, 20, 49, 38, 48, 38, 40, 36, 41, 33, 47, 32*

Каждое число здесь показывает количество контрактов, заключенных в течение одного года одним менеджером по продажам.

С первого взгляда сложно понять, о чём могут сказать эти разрозненные числа. Результаты, полученные для нашей выборки (некоторой группы объектов, которые мы исследуем) интересуют нас не по отдельности для каждого объекта — нас интересует какая-то обобщённая оценка. 

Нам необходимо как-то оценить, описать распределение интересующих нас признаков в обобщенном виде. Для этого в первую очередь нам нужно знать, какие значения являются наиболее типичными для этого признака, что для него наиболее характерно. Для этого мы будем вычислять меры центральной тенденции, или меры центра.

Всего есть три меры центральной тенденции:

- Среднее (среднее арифметическое всех значений).
- Медиана (серединное значение).
- Мода (наиболее частое наблюдение).

Но найденная мера центральной тенденции не позволит нам полностью описать признак. Например, мы знаем, что средний чек в ресторане за неделю составил 1000 руб. Это значение может быть получено разными способами: например, все посетители потратили по 1000 руб. Ровно такое же среднее арифметическое будет в ситуации, когда половина посетителей потратила по 500 руб., а другая — по 1500 руб. Конечно, это будут совершенно разные ситуации.

Поэтому ещё один вопрос, который необходимо задать: а **насколько сильно разбросаны друг относительно друга** значения?

Для ответа на такой вопрос существуют **меры разброса**.

Вот самые популярные меры разброса:

- Дисперсия. 
- Стандартное отклонение.
- Размах.
- Межквартильный размах.

## Важные термины

Прежде чем мы перейдем к тому, как именно вычислять описательные статистики, поговорим немного о терминах. Они помогут нам быстро называть операции над данными и записывать их.

- Случайная величина. Это то, с чем мы работаем. Случайной она называется потому, что когда мы выбираем какое-либо число из набора данных, мы не знаем, каким оно окажется. Обозначается большой буквой, например **X**.
    - В нашем примере случайная величина — это количество контрактов, заключенных одним менеджером в течение года.


- Наблюдение. Это конкретное значение случайной величины. Обозначается маленькой буквой, например **x**.
    - **x<sub>5</sub> = 41** Означает, что пятый менеджер заключил **41** контракт.


- Генеральная совокупность. Это все множество объектов, которое нас интересует. В нашем примере генеральная совокупность — это все менеджеры по продажам внутри большой международной компании. Обозначается большой буквой **N**.
    - Например, *N = 1000*.


- Выборка. Поскольку в реальной жизни, как правило, у нас нет информации обо всей генеральной совокупности, нам приходится работать с какой-то ее частью. Эта часть генеральной совокупности и называется выборкой. Обозначается маленькой буквой **n**.
    - Например, *n = 25*.
	
### Важно!
Следует всегда помнить, с чем нам приходится работать — с выборкой или с генеральной совокупностью. Это повлияет на выбранный нами способ расчетов.

## СРЕДНЕЕ

Самая интуитивно понятная мера центральной тенденции, которая сразу приходит на ум — это среднее арифметическое. Мы достаточно часто используем эту меру в повседневной жизни. К примеру, если мы хотим узнать об уровне обучения в какой-то школе, мы можем посмотреть средний балл ЕГЭ её выпускников и оценить, насколько качественные знания дают в этом учебном заведении. Или, представим, что мы хотим перекусить в кафе и хотим понять, хватит ли нам денег. В таком случае мы можем выбирать только те кафе, средний чек которых не слишком для нас высок.

Среднее бывает *выборочным* и *истинным* — в зависимости от того, какой у нас есть набор данных (выборка или генеральная совокупность).

*Выборочное среднее* — это просто среднее арифметическое всех наблюдений, то есть сумма наблюдений, поделенная на их количество. Обозначается  (x с вертикальной верхней чертой).

![stat1](./../../../data/stat1.png)

Считаем выборочное среднее по нашим данным:

![stat1](./../../../data/stat2.png)

*Истинное среднее* рассчитывается на основе всех значений генеральной совокупности. Обозначается греческой буквой «мю».

![stat1](./../../../data/stat3.png)

Однако у среднего арифметического как у меры центральной тенденции есть существенный минус. Эта мера чувствительна к выбросам. 

***А ЧТО ТАКОЕ ВЫБРОС?***

Представим, что мы хотим вычислить среднюю зарплату и отобрали 10 сотрудников с зарплатой 30 000 и одного топ-менеджера с зарплатой 500 000. Вычислим среднюю зарплату для этих людей:

![stat1](./../../../data/stat4.png)

Мы можем видеть, что из-за большой зарплаты топ-менеджера средняя зарплата увеличилась и не отражает действительности.

Или другой пример. Если мы возьмем группу людей со средним уровнем интеллекта, то человек с очень высоким уровнем интеллекта (к примеру Эйнштейн) будет выбросом. Человек с очень низким уровнем интеллекта (например, имеющий некие особенности развития) также будет выбросом.

Есть несколько путей борьбы с этой проблемой. Во-первых, можно вычислять *усечённое среднее*. Для того, чтобы его найти, нужно отбросить самые маленькие и самые большие значения (например, по 5 % с каждой стороны) и вычислять среднее уже по такой урезанной выборке. Отсекая самые маленькие и самые большие значения, мы избавляемся от выбросов, и результат получается более релевантный. 

→ Также можно специально выбрать именно те значения, которые являются выбросами. Мы научимся делать это чуть позднее.

Есть и другой путь: вычислять показатели, не чувствительные к выбросам (их называют **робастными**). Аналог среднего арифметического, который не чувствителен к выбросам, — это медиана ↓

## МЕДИАНА

Медиана — это значение, разделяющее набор данных на две половины: одна ниже медианы, другая выше.

```
    Как найти медиану?
    
    - Упорядочить все наблюдения по возрастанию.
    - Найти середину.
```

Многое в нахождении медианы зависит от того, четное или нечетное количество наблюдений.

Если n нечетное. Тут все просто: в середине окажется одно центральное значение. 

\begin{equation*}
k = \frac{n + 1}{2} = 3
\end{equation*}

медиана равна

\begin{equation*}
x_3 = 34
\end{equation*}

Если n четное. В середине оказывается два наблюдения. В таком случае мы находим среднее арифметическое этих двух значений.

![stat1](./../../../data/stat5.png)

## СРЕДНЕЕ VS МЕДИАНА

Что лучше — среднее или медиана? Все зависит от того, есть ли в нашем наборе данных нетипичные наблюдения (выбросы). Допустим, если в набор данных о доходах затесались доходы миллионера, наше среднее будет говорить вовсе не о типичном значении.

Посмотрим на слабые и сильные стороны среднего и медианы:

![stat1](./../../../data/stat6.png)

На практике одинаково часто используется и среднее, и медиана.

## МОДА

Есть и ещё одна мера центральной тенденции — это мода.

Мода — это наиболее частое наблюдение в наборе данных. 

В нашем случае это 44, единственное наблюдение, которое встретилось три раза.

Мода используется не так часто, но иногда это единственный способ оценить самые типичные значения. Например, если у нас есть города проживания для какого-то количества людей, то мы не можем найти среднее арифметическое для городов, не можем их проранжировать для поиска медианы, но зато мы можем найти самый часто встречающийся город — моду.