# Элементы математической статистики для анализа данных

# 3. Основы визуализации

## Визуализация данных
Рассмотрим данные о стоимости акций компании N по дням за последний квартал:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/fb3a126a-9138-11eb-b8f0-0242ac190002" alt="таблица с ценами" style="width: 800px; margin-right: 75%"></div>

Можно ли по этим данным сказать, выросла стоимость акций за этот промежуток времени или нет? Формально да, мы видим, что последнее число больше первого, то есть стоимость акций выросла. Но очевидно, что, глядя на такую таблицу, мы можем лишь рассматривать отдельные точки, но не можем воспринимать картину в целом. Давайте построим график: по горизонтальной оси отложим дни, а по вертикальной — стоимость акций:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/03faca66-9139-11eb-a909-0242ac190003" alt="график цен акций" style="width: 400px; margin-right: 75%"></div>

Теперь, при взгляде на график, становится хорошо видно, что, во-первых, стоимость акций сильно скачет, а во-вторых, что в среднем за последние три месяца стоимость акций скорее падала (серая пунктирная линия отражает общую линию тренда). Конечно, предсказать дальнейшее поведение стоимости мы так не сможем, но по крайней мере, построение графика позволило нам адекватно оценить имеющиеся данные.

Этот простой пример иллюстрирует важную идею: 
> _данные нужно обязательно визуализировать, чтобы правильно их понимать и интерпретировать_. 

И более того, важно понимать, каким именно образом лучше всего визуализировать данные в тех или иных случаях, чтобы получить правильную картину. Поэтому в этом модуле мы рассмотрим несколько важнейших типов графиков и их распространенные применения.

### Scatter plot. Корреляция
На практике нас часто интересует, есть ли какая-то связь между двумя разными величинами, или, более строго, **есть ли между ними некоторая статистическая взаимосвязь**. Например, мы хотим понять, есть ли взаимосвязь между курсом доллара и стоимостью барреля нефти. Для этого соберем данные об истории их изменения за последние 10 лет:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/bf7a256e-ece5-11ea-8e06-0242966aaeec" alt="таблица цен нефти и доллара" style="width: 900px; margin-right: 75%"></div>

и построим точками на графике зависимость одного от другого. Такой график называется по-английски «**scatter plot**», или «**диаграмма рассеяния**». 

Для построения диаграммы рассеяния достаточно взять набор пар переменных (в нашем примере каждая пара — это стоимость барреля нефти и курс доллара за один и тот же год) и отметить на графике точки, координаты которых соответствуют этим парам:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/50704ba6-ece7-11ea-9523-024283e6cae5" alt="диаграмма рассеяния" style="width: 400px; margin-right: 75%"></div>

Мы видим на представленном графике, что точки ложатся на поле не случайным образом, а выстраиваются в подобие прямой линии (обозначена пунктиром). Это означает, что чаще всего увеличение стоимости нефти происходит одновременно с понижением курса доллара, то есть между этими величинами существует взаимосвязь. Такая взаимосвязь называется **корреляцией**. В нашем примере увеличение стоимости барреля нефти происходит одновременно со снижением курса доллара — такая корреляция называется **отрицательной**. В обратном случае, когда увеличение одной величины коррелирует с увеличением другой, корреляция называется **положительной**:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/5d605022-ece7-11ea-ba08-02429a728377" alt="виды корреляции" style="width: 900px; margin-right: 50%"></div>

**Очень важно помнить**: 

> корреляция не равносильна причинно-следственной связи. 

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причем эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причиненного ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад. 

> Корреляция двух величин может свидетельствовать о существовании **общей причины**, хотя сами явления напрямую не взаимодействуют. 

**В то же время** 

> отсутствие корреляции между двумя величинами еще не значит, что между ними нет никакой связи. 

Например, **зависимость может иметь сложный нелинейный характер, который корреляция не выявляет**.



## Гистограмма
Другой важный тип графика, который показывает, как распределены данные, называется гистограмма. 

**Гистограмма** — это просто наглядное представление функции плотности вероятности некоторой случайной величины, построенное по имеющейся выборке. Иногда ее называют **частотным распределением**, так как гистограмма показывает частоту появления различных значений. 

Рассмотрим, как строится гистограмма, на конкретном примере. Пусть мы хотим построить приближенную функцию плотности распределения случайной величины — роста случайного прохожего. Для этого возьмем выборку случайных прохожих и измерим их рост:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/4c8cd36e-ece8-11ea-a9e2-02429a728377" alt="таблица ростов" style="width: 600px; margin-right: 50%"></div>

Разобьем весь диапазон возможных значений величины на интервалы фиксированного размера, как показано в таблице, и подсчитаем, сколько объектов в нашей выборке попадает в каждый интервал: 

<table style="border-collapse: collapse; width: 90%; margin-right: 10%" border="1">
<tbody>
<tr>
<td style="width: 8.614232209737828%;"><em>Границы интервала</em></td>
<td style="width: 7.490636704119851%; text-align: center;">100-110</td>
<td style="width: 8.333333333333332%; text-align: center;">110-120</td>
<td style="width: 8.333333333333332%; text-align: center;">120-130</td>
<td style="width: 9.644194756554308%; text-align: center;">130-140</td>
<td style="width: 9.644194756554308%; text-align: center;">140-150</td>
<td style="width: 9.644194756554308%; text-align: center;">150-160</td>
<td style="width: 9.644194756554308%; text-align: center;">160-170</td>
<td style="width: 9.644194756554308%; text-align: center;">170-180</td>
<td style="width: 9.644194756554308%; text-align: center;">180-190</td>
<td style="width: 9.363295880149813%; text-align: center;">190-200</td>
</tr>
<tr>
<td style="width: 8.614232209737828%;"><em>Количество объектов</em></td>
<td style="width: 7.490636704119851%; text-align: center;">0</td>
<td style="width: 8.333333333333332%; text-align: center;">1</td>
<td style="width: 8.333333333333332%; text-align: center;">1</td>
<td style="width: 9.644194756554308%; text-align: center;">0</td>
<td style="width: 9.644194756554308%; text-align: center;">2</td>
<td style="width: 9.644194756554308%; text-align: center;">2</td>
<td style="width: 9.644194756554308%; text-align: center;">5</td>
<td style="width: 9.644194756554308%; text-align: center;">1</td>
<td style="width: 9.644194756554308%; text-align: center;">2</td>
<td style="width: 9.363295880149813%; text-align: center;">1</td>
</tr>
</tbody>
</table>

Далее построим по таблице гистограмму, в которой высота каждого столбика определяется соответствующим числом, записанным в таблице. Как видим, по выборке из всего 15 чисел получили хоть и рваный, но характерный колокол с пиком в районе 170. Это и есть приближение распределения роста случайных прохожих.
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/6e3315c8-ece8-11ea-ad28-02429e63942a" alt="гистограмма" style="width: 400px; margin-right: 75%"></div>

Далее, если взять выборку большего размера, то, во-первых, относительная частота появления значения в отдельных столбиках будет приближаться к плотности распределения при данном значении роста, а во-вторых, будет возможность разбить диапазон возможных значений роста на более мелкие интервалы. В результате, как показано на рисунке ниже, полученная гистограмма будет гораздо точнее описывать истинное распределение. Это отражает общий тренд, который мы обсуждали в прошлом модуле, — чем больше выборка, тем ближе распределение значений по ней описывает распределение по всей генеральной совокупности.
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/813d2f8c-ece8-11ea-99ea-02429e63942a" alt="гистограмма" style="width: 700px; margin-right: 75%"></div>

Таким образом, гистограмма — это аналог распределения случайной величины для случая, когда мы работаем с конечной выборкой. **Во многих случаях очень важно визуализировать распределения с помощью гистограмм**, так как, например, просто оценка матожидания может привести к искаженному восприятию данных, ранее мы говорили про неуниверсальность матожидания для описания распределения.

## Ящик с усами, или boxplot
Как вы помните из предыдущего модуля, зачастую нам важно уметь сравнивать распределения (или, на практике, гистограммы) между собой. Пусть, например, мы хотим сравнить распределения зарплат в 12 разных компаниях. Мы могли бы построить гистограммы по выборкам людей из каждой компании и сравнить их между собой:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/326cb25e-ecea-11ea-9496-024283e6cae5" alt="гистограммы зп в 12 компаниях" style="width: 1000px; margin-right: 75%"></div>

Как мы говорили, гистограммы приближенно показывают нам распределения зарплат в каждой компании и таким образом дают нам довольно детальную информацию. Однако, согласитесь, сравнивать между собой множество гистограмм неудобно, данные слишком детальные и громоздкие, поэтому тяжело уловить общую картину. Для того, чтобы решить эту проблему, придумали компактную форму визуализации распределений — **ящик с усами**, или **boxplot**. 

Разберемся, как строится boxplot. Характерные линии ящика обозначают главные характеристики распределения. Так, медиана обозначается линией внутри ящика. Границы ящика — первый и третий квартили (25-й и 75-й процентили соответственно), то есть длина ящика показывает интерквартильный размах. Ниже показан пример ящика с усами, соответствующего некоторой гистограмме:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/459673c4-ecea-11ea-a0b9-024283e6cae5" alt="гистограмма" style="width: 300px; margin-right: 75%"></div>
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/5d9f85aa-ecea-11ea-8151-02429a728377" alt="гистограмма" style="width: 500px; margin-right: 75%"></div>

Таким образом, по ящику можно понять медиану и интерквартильный размах, что позволяет оценить область, в которой находится большая часть всех значений величины. Но что же показывают усы? Они просто показывают весь диапазон возможных значений случайной величины, левый ус показывает, где находится минимальное значение, а правый — максимальное. Однако мы видим, что есть отдельные точки, которые не захватываются усами. Эти точки называются выбросами, так как они сильно выбиваются из основной массы значений. Поэтому усы показывают на самом деле не минимум и максимум, а _наблюдаемые минимум и максимум_, то есть без учета выбросов.

Теперь давайте посмотрим, как будут выглядеть распределения зарплат в 12 компаниях, если визуализировать их ящиками с усами:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/74859a52-ecea-11ea-9c39-024283e6cae5" alt="гистограмма" style="width: 700px; margin-right: 75%"></div>

Как видно, из графика хорошо ясна общая картина: в каких компаниях медианная зарплата больше, в каких меньше. Кстати, подумайте, почему в распределении компании G так много точек вне ящика с усами. Ответ на этот вопрос вы можете узнать в следующем модуле. 
