# Элементы математической статистики для анализа данных

# 2. Описательная статистика

## Матожидание, дисперсия
В предыдущем модуле мы узнали, что такое **распределение случайной величины**, рассмотрели разные типы распределений и изучили их графики. Но что, если нам нужно сравнить несколько разных распределений между собой? Сложно проводить сравнения между многими случайными величинами, чисто визуально сравнивая графики их распределений. Поэтому на практике часто стараются описать распределение в целом несколькими характерными числами, которые легко интерпретировать и сравнивать между собой.

Рассмотрим уже известное нам **нормальное распределение**, имеющее характерный вид колокола. Удобно описывать форму такого колокола положением его _центра_, то есть некоторым средним значением, и _шириной_ колокола, то есть характерным разбросом случайной величины относительно среднего:

<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/391f130e-ec5d-11ea-a675-02429a728377" alt="Пример. Нормальное распределение" style="width: 400px; margin-right: 75%"></div>

В теории вероятностей как раз вводят такие две характеристики распределения случайной величины, которые описывают ее среднее значение и разброс относительно среднего — **математическое ожидание** и **дисперсию**.

Попробуем задать эти характеристики, то есть записать формулы, по которым можно вычислить среднее — матожидание, и меру разброса — дисперсию.

### Математическое ожидание
(_см. тет. по алгебре, с. 304_)

> Матожидание - сумма средневзвешенных по вероятности значений элементарных событий.

Начнем с матожидания. Когда мы считаем среднее значение случайной величины, нам важно, чтобы более частые значения давали в него больший вклад, чем редкие. Поэтому матожидание случайной величины `X` (обозначается как `E(X)`) задается как сумма всех возможных значений случайной величины, в которой каждое значение `x(i)` умножается на вероятность этого значения `p(i)`. Иными словами, это просто сумма всех возможных значений, взвешенная по вероятности:

<div><img src="https://cs.sberbank-school.ru/image/1000/auto/upsize/2d5a735e-9132-11eb-b3e3-0242ac1c0003" alt="формула матожидания" style="width: 350px; margin-right: 50%"></div>

Например, вероятность каждого значения, которое может выпасть на игральном кубике, — 1/6. Поэтому матожидание распределения количества очков, которые могут выпасть на игральном кубике, можно рассчитать по формуле:

<div><img src="https://cs.sberbank-school.ru/image/1000/auto/upsize/2d6297c8-9132-11eb-889d-0242ac1c0003" alt="формула матожидания" style="width: 350px; margin-right: 50%"></div>

In [22]:
# Описанная выше формула матожидания равносильна среднему арифметическому, если все исходы имеют равную вероятность,
# См. тет. по алгебре с.305. Проверка:

summ = 0
for i in range(1,7):
    summ += i
    
Ex = summ/len(range(1,7))

print('Матожидание E(X) =', Ex)

Матожидание E(X) = 3.5


### Дисперсия
(дополнительно _см. тет. по алгебре с. 292_)

Рассмотрим теперь меру разброса — дисперсию. Сначала рассмотрим отклонение случайной величины `X` от ее среднего значения — матожидания. Отклонение можно записать как `X – E(X)`. К сожалению, отклонение меняет знак в зависимости от того, больше или меньше полученное значение, чем среднее. Поэтому, если мы его усредним, мы скорее всего получим неосмысленное значение около нуля. Чтобы работать с неотрицательной величиной, просто возведем отклонение в квадрат, получим **квадрат отклонения**. Наконец, посчитаем **средний квадрат отклонения**, или, более строго, **матожидание квадрата отклонения**. Это и есть **дисперсия**! Она отлично характеризует разброс случайной величины X. Обозначается дисперсия случайной величины X как `Var(X)`:

<div><img src="https://cs.sberbank-school.ru/image/1000/auto/upsize/2d54e966-9132-11eb-a3fe-0242ac190003" alt="формула матожидания" style="width: 400px; margin-right: 50%"></div>

По формуле выше можно вычислить дисперсию для нашего игрального кубика:

<div><img src="https://cs.sberbank-school.ru/image/1000/auto/upsize/2d554b54-9132-11eb-98a7-0242ac190002" alt="формула матожидания" style="width: 400px; margin-right: 50%"></div>

На практике чаще всего используют квадратный корень из дисперсии, его называют **среднеквадратичным**, или **стандартным**, **отклонением**:

<div><img src="https://cs.sberbank-school.ru/image/1000/auto/upsize/2d553c0e-9132-11eb-8ab1-0242ac190002" alt="формула матожидания" style="width: 120px; margin-right: 75%"></div>

Стандартное отклонение удобнее как минимум потому, что измеряется в тех же единицах измерения, что и сама случайная величина (вспомним, что при подсчете дисперсии мы возводили отклонение в квадрат). 

In [20]:
# Проверим более простой вариант расчета - разделить сумму квадратов отклонений исходов на общее число исходов.
# Подробнее см. тет. по алгебре с. 292 + с .305.

summ = 0
for i in range(1,7):
    summ+=i
Ex = summ/len(range(1,7))
print('Матожидание E(X) =', Ex)

expectation = 0 
for i in range(1,7):
    expectation += (i-Ex)**2
VarX = expectation/len(range(1,7))

print('Дисперсия Var(X) =', round(VarX, 1))
print('Стандартное отклонение:', round(VarX**(1/2), 1))

Матожидание E(X) = 3.5
Дисперсия Var(X) = 2.9
Стандартное отклонение: 1.7


Для лучшего понимания рассмотрим несколько примеров графиков нормального распределения с различными матожиданием и среднеквадратичным отклонением. 
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/016ba836-ec5e-11ea-8e49-0242966aaeec" alt="примеры" style="width: 800px; margin: 0 auto"></div>
<div style="text-align: center; font-size: 90%">Матожидание задает положение пика, а среднеквадратичное отклонение задает его полуширину.</div>

Среднеквадратичное отклонение помогает определять разброс случайной величины не только для нормальных, но и для произвольных распределений.

## Правило 3𝝈
На практике для быстрых оценок удобно пользоваться простым правилом «три сигма», которое гласит, что 

> _значения любой случайной величины с вероятностью не меньше 8/9 лежат в интервале ±3𝝈 от ее матожидания_. 

Проще говоря, большинство значений случайной величины лежит в интервале ±3𝝈 от ее среднего значения. 

В частности, для нормального распределения вероятность попадания значения случайной величины в интервал ±3𝝈 составляет около 99,8%, как проиллюстрировано на графике. Также можно сказать, что вероятность попадания значения в интервал ±2𝝈 около 95%, а в интервал ±𝝈 около 68%.

<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/e7d67a9e-9131-11eb-8a87-0242ac190002" alt="правило три сигма" style="width: 600px; margin-right: 50%"></div>

Таким образом, работая с нормальным распределением, мы можем не строить его график, а описывать его двумя интуитивно понятными числами: матожиданием и дисперсией (или стандартным отклонением). Даже более того: _нормальное распределение_ полностью задается этими двумя характеристиками. За это удобство его так и любят.

## Генеральная совокупность, выборка

До этого мы работали с распределениями, но на практике чаще приходится работать с данными, точное распределение которых нам неизвестно. Пусть, например, мы хотим провести опрос среди пользователей мобильного приложения. В идеальном случае, чтобы получить точный результат, нам бы хотелось опросить вообще всех пользователей. Такое множество людей называется **генеральной совокупностью**. Но как правило, опросить миллионы людей из генеральной совокупности физически невозможно, и на самом деле мы сможем опросить только некоторое подмножество людей, например, 1000 случайных прохожих. Такое подмножество, то есть те, кого мы опросили, называется **выборкой**.

<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/da037012-ec8d-11ec-890d-0242ac150002" alt="выборка" style="width: 400px; margin-right: 50%"></div>

Важно, чтобы выборка была **репрезентативной**, то есть результаты опроса по выборке как можно больше соответствовали тем результатам, которые мы бы получили в теории, опросив всех людей из генеральной совокупности. Например, если мы опросим только баскетболистов, выборка будет не очень репрезентативной, ведь в генеральной совокупности есть не только баскетболисты, но и люди с совершенно другими интересами. Правильный опрос должен быть организован так, чтобы в выборку попали люди разных профессий, разного возраста и с разными интересами, как показано на иллюстрации.

<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/9a095772-ec5f-11ea-a858-0242966aaeec" alt="репрезентативная выборка" style="width: 700px; margin-right: 75%"></div>

Как получить репрезентативную выборку? С помощью математической статистики можно доказать, что в общем случае выборка будет наиболее репрезентативна, если объекты из генеральной совокупности выбираются случайно, то есть равновероятно. И, конечно, чем больше выборка, тем больше репрезентативность, ведь чем больше людей в нашей выборке, тем ближе она будет ко всей генеральной совокупности и тем лучше приближает ее характеристики.

#### Факторы отбора
Казалось бы, составить репрезентативную выборку — это не проблема, нужно просто «набрать» из генеральной совокупности объекты случайным образом. На самом деле это не всегда легко, потому что то, как отбирались, скажем, люди для опроса, влияет на то, какие люди попадут в этот опрос. Приведем простой пример. В городе А решили оценить долю людей, имеющих антитела к коронавирусу, и опубликовали в интернете посты о том, что проводятся исследования, для которых нужны добровольцы, которые могут бесплатно прийти в лабораторию и сдать тест. Казалось бы, если придет достаточно большое количество людей, мы получим хорошую выборку для оценки доли переболевших. Но на самом деле те, кто подозревал, что он переболел (например, чувствовали себя плохо или не знали, чем болели), переживают больше и с большей вероятностью придут на тест. Кроме того, посты в интернете увидят в среднем больше активных пользователей интернета, то есть в выборку попадет больше молодых людей, которые болеют меньше. Получается, что есть уже как минимум два фактора, которые могут значительно повлиять на репрезентативность выборки и непредсказуемо изменить результаты исследования. К счастью, в современную IT-эпоху зачастую можно действительно случайно набирать примеры из большого набора. Например, если в базе данных записана информация обо всех пользователях мобильного приложения, мы можем случайно выбрать подмножество пользователей с помощью специальных запросов к этой базе данных.

## Среднее по выборке и матожидание
Теперь рассмотрим на примере, как связаны понятия генеральной совокупности и случайной величины. 

Пусть, например, мы хотим изучить ежемесячные доходы жителей Екатеринбурга. Доход случайного жителя мы можем рассматривать как случайную величину X, а все жители Екатеринбурга будут в данном случае генеральной совокупностью, распределение зарплат в которой описывается распределением X. Понятно, что физически невозможно выяснить доход всех жителей и поэтому мы не знаем истинное распределение доходов. Поэтому посчитать, например, матожидание этого распределения (то есть средний доход жителя Екатеринбурга) не представляется возможным. Что же делать? Конечно, мы можем взять выборку из, например, 1000 жителей, и выяснить их доход, тогда мы получим тысячу чисел — выборку из распределения случайной величины X. Оказывается, что распределение доходов жителей в такой выборке в определенном смысле приближает распределение доходов всех жителей, и приближает тем лучше, чем более репрезентативную и полную выборку жителей мы взяли. 

Визуализировать такое приближение можно с помощью гистограмм:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/28027814-9134-11eb-ba5d-0242ac1c0003" alt="Среднее по выборке и матожидание" style="width: 900px; margin-right: 75%"></div>

Про гистограммы мы подробнее поговорим позже, когда будем обсуждать методы визуализации данных, а сейчас обсудим, как можно оценить матожидание распределения доходов по конечной выборке. Оказывается, что интуиция не подводит — достаточно просто посчитать среднее арифметическое объектов в выборке. В теории математической статистики строго доказывается, что 

> _при увеличении количества объектов в выборке среднее арифметическое по этой выборке будет стремиться к матожиданию всего распределения (при условии, что объекты в выборку отбираются случайным образом, без этого выборка окажется нерепрезентативной)_. 


## Квантили
Существует еще несколько характеристик, которыми часто пользуются на практике, чтобы описывать те или иные аспекты распределений случайных величин или выборок из этих распределений. Начнем с квантилей. 

**Квантиль** — это просто значение, которое заданная случайная величина не превышает с фиксированной вероятностью. 

Например, фраза «0,95 квантиль зарплаты сотрудников в компании N составляет 230 000 рублей» означает, что 95% сотрудников получают зарплату меньше либо равную 230 000 рублей, а оставшиеся 5% — больше либо равную. То есть квантиль просто означает число, которое «разрезает» распределение на две части в заданной пропорции:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/bddc1358-ec62-11ea-adec-02429e63942a" alt="квантили" style="width: 500px; margin-right: 75%"></div>

**Процентиль** — это то же самое, что и квантиль, но в процентах, то есть, например, 0,95 квантиль это то же самое, что 95-й процентиль. 

Квантили можно считать и по выборке конечного размера. Для этого нужно просто отсортировать выборку и взять число, которое делит выборку в нужном соотношении. 

## Квартили: медиана и мода
Есть квантили, которые ввиду своего частого использования имеют характерные имена. Это 0.25, 0.5 и 0.75 квантили, которые называют I, II и III квартилем соответственно.

II квартиль, то есть 50-й процентиль, делит распределение или выборку ровно пополам, то есть половина значений меньше II квартиля, а половина — больше. 50-й процентиль обычно называют просто **медианой**. 

Проиллюстрируем квартили и медиану на графике распределения. Медиана разбивает площадь под графиком ровно пополам, а I и III квартили делят полученные «половинки» на «четвертинки»:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/384dac2e-9135-11eb-a666-0242ac190002" alt="квартили" style="width: 500px; margin-right: 75%"></div>

Расстояние между I и III квартилями называют **интерквартильным размахом (IQR)**, который, так же как и дисперсия, описывает степень разброса случайной величины:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/5e058e64-9135-11eb-9e39-0242ac190002" alt="интерквартильный размах" style="width: 500px; margin-right: 75%"></div>

Также часто пользуются понятием **моды распределения**. Мода — это просто самое частое значение, то есть аргумент максимума на графике плотности распределения, как продемонстрировано на рисунке ниже:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/full/full/resize/929a4976-9135-11eb-8b2a-0242ac1c0003" alt="мода" style="width: 500px; margin-right: 75%"></div>

#### Меры центральной тенденции

Важно заметить, что **медиана**, **матожидание** и **мода** — все эти величины в некотором смысле характеризуют некое центральное значение распределения. Медиана — число, которое разбивает все возможные значения пополам, матожидание — сумма всех значений, взвешенная по вероятности, а мода — просто самое часто встречаемое значение. Поэтому их называют **мерами центральной тенденции**. Важно помнить, что в общем случае все эти меры не совпадают:
<p></p>
<div><img src="https://cs.sberbank-school.ru/image/1000/auto/upsize/f2cccc24-9135-11eb-b129-0242ac1c0003" alt="медиана, матожидание, мода" style="width: 500px; margin-right: 75%"></div>
