# Использование сводных статистик для эффективного использования данных при принятии решений
---
**В статье рассказывается, как научиться понимать данные и связанные с ними проблемы на более глубоком уровне, критически относиться к данным и результатам, полученным на основе их анализа, а также как разумно говорить обо всем, что касается данных**.

В эпоху больших данных мы ежедневно сталкиваемся с огромными массивами информации, на основе которых принимаются важные решения — от распоряжения личными доходами до государственного регулирования в социально-экономической сфере. Поэтому в мире, где данные стали своего рода "валютой", способность правильно их интерпретировать — это не просто ключевая компетенция любого аналитика или управленца, но и современного человека. Статистическая грамотность позволяет превратить данные из набора цифр в источник ценных инсайтов, позволяя принимать не просто основанные на данных, но и верные решения.

Описать целый массив информации всего несколькими числами и сделать его «осязаемым» позволяют три самых распространенных понятия сводной статистики – ***среднее значение***, ***медиана*** и ***мода***. Они являются фундаментальным инструментом в арсенале любого аналитика данных. Но и для обычного человека они не должны быть просто цифрами, необходимо уметь их интерпетировать и пользоваться этими показателями при принятии решений, понимая их смысл, ограничения и подводные камни. А информация о том, что *с $2025$ года минимальный размер оплаты труда (МРОТ) рассчитывается на основе ***медианной*** заработной платы* должна быть понятна работнику не зависимо от занимаемой должности и математической подготовки. Он должен четко понимать, что не от *среднего значения* идет расчет МРОТ, что *медиана* — не синоним для *среднего значения* и не случайная описка. Современный человек должен понимать, что *среднее значение* может вводить в заблуждение, а на практике *средняя заработная плата* часто выше *медианной*, особенно в государственном масштабе, поэтому она не отражает объективную картину доходов населения.

Главная цель сводных статистик — описать **меры центральной тенденции** (положение «центра» данных,  вокруг которого группируются остальные значения) и **разброс** (насколько другие данные отклонются от этого центра). Основными *мерами центральной тенденции* являются: *среднее значение*, *медиана* и *мода*. *Дисперсия*, *размах* и *стандартное отклонение* – являются *мерами разброса*. 

## Меры центральной тенденции

Поясним, что означают понятия, используемые при определении *мер центральной тенденции* для исследуемого набора данных (признака, случайной величины).

> ***Среднее значение*** (от англ. *mean* – среднее значение) набора данных $X = \{x_1, x_2, ..., x_n\}$ — значение, равное сумме всех значений из этого набора, деленной на их количество $n$:

\begin{equation}
    \overline X = \frac {x_1 + x_2 + ... + x_n} {n} \text{. }
\end{equation}
> ***Медиана*** (от лат. *mediana* – средина) набора данных $X = \{x_1, x_2, ..., x_n\}$ — значение, находящееся посередине этого набора, если его <u>отсортировать</u> от наименьшего к наибольшему. Медиана определяется в зависимости от того, является ли количество элементов в наборе (объем выборки) $n$ числом четным или нечетным (для набора с нечетным числом элементов медиана равна среднему варианту, а для ряда с четным числом элементов – полусумме двух серединных вариантов):

\begin{equation}
    \ Me(X) = \begin{cases} 
           \displaystyle\ x_{\frac {n+1} {2}} \text{, } & \text{если } n - \text{нечетно; }\\
           \displaystyle\ \frac {x_{\frac {n} {2}} + x_{\frac {n} {2} + 1}} {2} \text{, } & \text{если } n - \text{четно. }
      \end{cases}
\end{equation}

Т.о. медиана — это значение, которое делит упорядоченный по возрастанию набор данных ровно пополам: $50$% данных меньше медианы, $50$% — больше. 

Если определять медиану в контексте распределения непрерывной случайной величины $Y$, то *медиана* — это значение, которое делит площадь под кривой плотности вероятности на две равные части (рис. 1): вероятность получить значение случайной величины слева от медианы равна вероятности получить значение случайной величины справа от нее (и они обе равны $1/2$), т.е.

\begin{equation}
    P(Y < me) = P(Y > me) = \frac {1} {2},
\end{equation}

где $Y$ — случайная величина, $me = Me(Y)$ — медиана случайной величины $Y$.

<center><img src="Images/img_1.JPG" style="width: 600px"> </center>
<center>Рис. 1. Плотность распределения непрерывной случайной величины и положение медианы</center>

> ***Мода*** – это значение из набора данных  $X$, которое встречается в нем чаще всех остальных. Моду используют для определения типичных или самых популярных наблюдений. Обозначается $Mo(X)$.

У непрерывной случайной величины *мода* соответствует значению аргумента, в котором кривая плотности веротности достигает своего максимального значения, образуя пик (рис. 1). Т.к. максимальное значение вероятности может достигаться в нескольких точках набора данных (встечаться чаще всего), то у распределения может образовываться несколько выраженных пиков. Такие распределения называют ***полимодальными***.

Рассмотрим на примере, как одинаковое *среднее значение* может скрывать совершенно разную природу данных.

Предположим, что два бывших одноклассника (одногруппника), являющиеся руководителями компаний $A$ и $B$, предлагают вам работу. При этом руководитель компании $A$ сообщает, что в его организации средняя заработная плата составляет  $122$ у.е., а руководитель компании $B$, что у него – $122.5$ у.е.

Можно ли по этим средним считать, что в компании $B$ зарплата сотрудников немного больше? Ответ: ***нет***.

Пусть нам стали известны данные по зарплатам, по которым были вычислены указанные средние значения. Посмотрим на них более внимательно и вычислим рассмотренные выше *меры центральной тенденции*.

***Компания A***: 
* **данные по зарплате** (в у.е.): $130, 125, 90, 135, 140, 110, 150, 180, 40, 120$;
* **количество значений**: $10$;
* **среднее значение**: $$\frac {130 + 125 + 90 + 135 + 140 + 110 + 150 + 180 + 40 + 120} {10} = 122;$$
* **медиана** (упорядочим данные: $40, 90, 110, 120, 125, 130, 135, 140, 150, 180$): $$\frac{125 + 130} {2} = 127.5;$$
* **мода**: в наборе данных нет повторяющихся значений, поэтому мода не определена.

***Компания B***: 
* **данные по зарплате** (в у.е.): $240, 120, 95, 105, 120, 100, 120, 120, 115, 90$;
* **количество значений**: $10$;
* **среднее значение**: $$\frac {240, 120, 95, 105, 120, 100, 120, 120, 115, 90} {10} = 122.5;$$
* **медиана** (упорядочим данные: $90, 95, 100, 105, 115, 120, 120, 120, 120, 240$): $$\frac{115 + 120} {2} = 117.5;$$
* **мода**: наиболее часто встречающееся значение — $120$ у.е. (встречается $4$ раза).



Сделаем ***предварительные выводы***.
1. В компании $A$ медиана значительно выше среднего ($127.5 > 122$). Это означает, что есть несколько сотрудников с зарплатой значительно ниже остальных (в нашем примере $40$ и $90$ у.е.), которые "тянут" среднее арифметическое вниз. Медиана лучше отражает типичную зарплату "среднего" сотрудника. Она показывает, что половина сотрудников в компании $A$ получает меньше $127.5$ у.е., а половина — больше.
2. В компании $B$ медиана ниже среднего ($117.5 < 122.5$). Показатель средней зарплаты в $122.5$ у.е. вводит в заблуждение. Он завышен из-за одной экстремально высокой зарплаты (наверное, руководителя) и не отражает реальный уровень доходов подавляющего большинства сотрудников. Уже на этом этапе анализа данных видна потенциальная аномалия — значение $240$ сильно выделяется. Наиболее типичная зарплата в организации (мода) — $120$ у.е. встречается $4$ раза из $10$, значит $40$% сотрудников имеют одинаковую зарплату. Это очень важное наблюдение!

Оба набора данных показывают, что *среднее значение* в отрыве от *медианы* и визуализации распределения может быть глубоко вводящей в заблуждение метрикой. 

Любой аналитик при знакомстве с данными помимо рассчета статистических показателей визуализирует распределение исследуемой случайной величины, используя гистограмму распределения или «ящик с усами» (*boxplot*).

При построении ***гистограммы*** распределения случайной величины данные группируются по определенным диапазонам и подсчитывается, сколько значений попадает в тот или иной диапазон. В результате будет нарисован набор столбиков (рис. 2), высота которых определяется числом случайных величин, попавших в тот или иной диапазон (или частотой их попадания в диапазон).

<center><img src="Images/histplot.jpg"  style="width: 700px"> </center>

<center> Рис. 2. Гисторгаммы распеделения зарплат в компаниях $A$ и $B$</center>

***«Ящик с усами»*** позволяет не только посмотреть распределение данных, но и компактно отображает одномерные статистики распределения случайной величины: *медиану*, *квартили*, *размах* и *выбросы*. Он помогает быстро сравнить вариативность данных в разных группах и выявить аномальные значения. Этот вид диаграммы основан на понятии ***квартили*** и для ее построения надо знать три характеристики: 
* $Q_1$ — ***первый квартиль*** или $25$% квантиль;
* $Q_2$ — ***второй квартиль*** (медиана) или $50$% квантиль;
* $Q_3$ — ***третий квартиль*** или $75$% квантиль.

> **Квантиль** — это значение, ниже которого попадает определенный процент данных.

Основные составляющие «ящика с усами» (рис. 3):
* *ящик* или *коробка* – левая граница коробки соответствует значению $Q_1$, правая –  $Q_3$, а линия внутри коробки – медиане ($Q_2$); ширина ящика называется *межквартильным размахом* (*Interquartile Range*) и вычисляется как $IQR = Q_3 - Q_1$;
* *усы ящика*, длина которых равна $1.5 \cdot IQR$ ; крайние точки усов часто обозначаются в литературе как «*min*» и «*max*» и называются *границами распределения*, но фактически эти точки не всегда являются истинными минимумом и максимумом признака;
* *потенциальные выбросы* – значения которые находятся очень далеко от статистически значимой части данных; на самой диаграмме это точки, лежащие за пределами границ.

<center><img src="Images/img_2.png" style="width: 600px"> </center>
<center> Рис. 3. Основные составляющие «ящика с усами»</center>

Для сравнения рассматриваемых зарплат в компаниях $A$ и $B$ отобразим их с помощью *boxplot* (рис. 4) 

<center><img src="Images/boxplot.jpg" style="width: 800px"> </center>
<center> Рис. 4. Визуализация распределений зарплат с помощью «ящика с усами»</center>

Построенные «ящики с усами» наглядно показывают статистики распределения и позволяют **дополнить** ранее сделанные **выводы**:

* положение среднего (синий треугольник на рис. 4) в компании $A$ и $B$ практически совпадают;
* положение медианы: в компании $A$  медиана расположена практически по центру ящика, что  указывает на относительно симметричное распределение без сильного перекоса, а в компании $B$ большинство значений сконцентрировано слева (к более низким значениям);
* сдвиг медианы относительно среднего: в компании $A$ медиана значительно выше среднего, а в компании $B$ медиана ниже среднего;
* наличие выбросов в обоих наборах: в компании $A$ отмечено два выброса ($40$, $180$), а в компании $B$ значение $240$ в $2$ раза выше модальной зарплаты и более чем в $2.5$ раза выше, чем у нижних сотрудников — это явно руководитель или уникальный специалист;
* межквартильный размах ($IQR$) в компании $B$ очень маленький: зарплаты центральных $50$% сотрудников лежат в очень узком коридоре, это указывает на минимальный разброс в оплате труда, в то время, как в компании $A$ разброс в оплате труда больше;
* положение $Q_1$ показвывает, что $25$% сотрудников:
    * в компании $A$ ($Q_1 = 112.5$), получают зарплату ниже $112.5$ у.е.;
    * в компании $B$ ($Q_1 = 101.25$), получают зарплату ниже $101.25$ у.е.;
* положение $Q_3$ показвывает, что $75$% сотрудников:
    * в компании $A$ ($Q_3 = 138.75$), получают зарплату ниже $138.75$ у.е.;
    * в компании $B$ ($Q_3 = 120$), получают зарплату ниже $120$ у.е.

Оба набора имеют практически одинаковое *среднее значение*, но показывают совершенно разные истории о том, как это среднее было достигнуто. Это идеально иллюстрирует, почему для описания данных всегда **необходим комплексный взгляд**: визуализация («ящик с усами»), расчет медианы, моды и квартилей, а не ограничиваться лишь вычислением среднего значения.

## Важность визуализации данных. Квартет Энскомба

Можно ли при анализе данных ограничиться описательными статистиками, такими как среднее, дисперсия? Ответ: **нет**.

Важность визуализации данных и демонстрацию того, как простые статистические меры могут вводить в заблуждение, если их использовать в отрыве от контекста и графического представления, показывает *Квартет Энскомба*, составленный в $1973$ году английским математиком Фрэнсисом Энскомбом.

> **Квартет Энскомба** —  это четыре набора точек с одинаковыми описательными статистиками, такими как среднее, дисперсия и коэффициент корреляции, но имеющими очень разные визуальные представления и распределения.

Каждый из четырех наборов состоит из $11$ пар чисел $(x, y)$:

* набор 1 — линейный тренд с выбросами;
* набор 2 — нелинейный тренд, который лучше описывается кривой, чем прямой линией;
* набор 3 — линейный тренд, похожий на первый, но с выбросами, которые делают его более чувствительным к некоторым статистикам;
* набор 4 — тренд, где большинство точек расположены слева, но есть один выброс справа, который искажает статистику.

Значение для чисел $x$ и $y$ у все наборов показано на рис. 5 (значение $x$ одинаковы для первых трех наборов).

<center><img src="Images/anscombe.JPG" style="width: 600px"> </center>
<center> Рис. 5. Квартет Энскомба </center>

На рис. 6 показаны значения большинства описательных статистик. Можно увидеть, что описательные статистики совпадают. 

<center><img src="Images/anscombe_describe.JPG""> </center>
<center> Рис. 6. Описательные статистики (слева – для значений $x$, справа – для значений $y$)</center>


Визуализируем распределение данных в наборе (рис. 7). Из графиков видно, что распределения данных оказались совершенно разными. 

<center><img src="Images/anscombe_graph.JPG"> </center>
<center> Рис. 7. Визуализация Квартета Энскомба </center>

*Квартет Энскомба* наглядно показывает, что нельзя делать выводы только на основе одномерных статистик, таких как *среднее* или *дисперсия*, поскольку графическое представление позволяет увидеть структуру данных, которую не передают одномерные статистические показатели. Аналитики и руководители компаний оценивают большие объемы информации и делают выводы именно на основании визуализаций — поэтому это умение так важно при обработке данных.

## Заключение

Известная сатирическая фраза "*Существуют три вида лжи: ложь, наглая ложь и статистика*", которую приписывают разным авторам, включая Бенджамина Дизраэли и Марка Твена, показывает, как можно манипулировать данными, чтобы создать ложное представление о реальности. 

На рис. 8 показана гистограмма доходов граждан России на основе официальных данных Росстата за $2023$ год.

<center><img src="Images/RosStat.JPG" style="width: 800px"> </center>
<center> Рис. 8. Распределение заработной платы в России ($2023$ год)</center>

Использование среднего арифметического для анализа доходов сделало бы большинство действительно нуждающихся семей формально "благополучными" и лишило бы их поддержки (в виде льгот, пособий, выдачи бесплатного питания и лекарств и пр.), что неприемлемо с точки зрения социальной справедливости.

Так (по результатам многолетних наблюдений) официально признано, что в России:

* из-за влияния высокооплачиваемых групп медиана ниже среднего;
* модальное значение ниже медианного;
* распределение доходов сильно скошено вправо, поэтому основная масса населения сосредоточена в левой части графика кривой распределения.

Чтобы понимать реальную картину мира и не позволить немногочисленным выбросам ввести нас в заблуждение, можно придерживаться следующих рекомендаций при анализе данных.

1. Визуализируйте данные. Построить гистограмму или *boxplot* — это первый шаг, который покажет форму распределения и наличие выбросов.
2. Считайте и среднее, и медиану. Если они сильно различаются — это сигнал об асимметрии в данных и наличии в них выбросов.
3. Используйте в качестве метрики:
   * *среднее значение* для симметричных распределений без выбросов (например, рост взрослых людей);
    * *медиану* для данных с выбросами или асимметричных распределений (зарплаты, цены на недвижимость, время отклика).
5. Для более глубокого анализа используйте квантили и $IQR$.

Сводные статистики — это не просто цифры для отчета, а анализ квантилей и визуализация распределения — это не просто академические упражнения, это инструмент для принятия решений. Неправильный выбор метрики может привести к совершенно неверным выводам и дорогостоящим ошибкам в бизнесе и анализе. 