## Математическая статистика 

Это раздел математики, который занимается систематизацией и обработкой данных для их использования и получения выводов.

Данные, собранные в ходе исследования каких-то явлений или процессов, сами по себе не очень информативны. Чтобы извлечь из данных какие-то полезные идеи, применяется **описательная статистика**.

Например, мы исследуем, от каких факторов зависит удовлетворенность жизнью, имея на руках информацию о доходах населения. Сами по себе эти данные мало что дают. 

Проанализировав этот признак, с помощью знаний описательной статистики мы получим примерно такие статистические данные:

- средний доход;

- средний доход в регионе проживания;

- средний доход в разрезе пола;

- разница между минимальным и максимальным доходом;

- а также другие показатели, которые могут охарактеризовать доход человека более детально. 

После извлечения идей мы получаем статистические данные.

Статистические данные — упорядоченные, классифицированные данные о каком-то явлении или процессе.

Так как в процессе получения статистических данных появляются новые признаки, то этот процесс касается 
не только математической статистики, но и проектирования признаков — ещё одной части разведывательного анализа данных

# Одномерный анализ

Когда мы описываем и вычисляем характеристики одной переменной (в нашем дата-сете), мы выполняем **одномерный анализ**.

Например, вы хотите узнать больше о сомелье, которые давали подробный отзыв вину. Вы анализируете признак независимо от других, как будто в датасете не существует других признаков. Вы можете просмотреть, сколько сомелье приняло участие в обзоре вин. Можете проанализировать информацию и увидеть, какой сомелье чаще всего оценивал вино. Возможно, эта информация будет важна, и на этапе проектирования и преобразования признаков мы обработаем признаки на основе этих выводов.

К одномерному анализу вы можете отнести вычисление **максимальных** и **минимальных** значений какого-либо признака, вычисление **средних** значений, **часто встречающихся значений и размаха**.

Вычисление среднего так же относится к одномерному анализу.

*Мера центральной тенденции* — это число, которое описывает так называемое «среднее» признака. Мера центральной тенденции может рассчитываться по-разному в зависимости от типа признака или от его распределения.

Далее мы рассмотрим наиболее популярные меры центральной тенденции, используемые в машинном обучении: 

* среднее арифметическое;
* медиана; 
* мода. 

Для расчёта этих описательных статистик в Python мы будем пользоваться библиотекой statistics. Она предоставляет готовые функции для вычисления математической статистики для числовых данных.

``` terminal
pip install statistics
```

## СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ

Сумма всех элементов, поделённая на количество элементов в числовом ряду или признаке (Series).

Среднее арифметическое хорошо работает для признаков с небольшим разбросом в значениях, например чтобы корректно вычислять средний возраст популяции. Однако оно плохо работает для признака с большим разбросом в значениях.

## МЕДИАНА

Медиана — средний элемент распределения. Для расчёта медианы должно выполняться одно условие: числовой ряд должен быть предварительно отсортирован. Только так мы сможем корректно рассчитать средний элемент. Признак может быть отсортирован как по возрастанию, так и по убыванию.

В отличие от среднего арифметического медиана хорошо справляется с разбросом в значениях, поэтому её чаще используют. Также медиана разбивает данные на две группы, состоящие из одинакового количества элементов.

Также в библиотеке statistics есть функции, связанные с медианой, — функция statistics.median_low() и функция statistics.median_high().

→ В случае, когда количество элементов в числовом ряду (серии) нечётное, функции возвращают то же, что и median().

В случае, когда количество элементов чётное, у нас получается два средних значения:

- median_low() возвращает меньшее из них;

- median_high() возвращает большее из них.

Примечание: Если в вашем наборе данных есть пропущенные значения, функции библиотеки statistics в отличие от других методов (например np.median() из библиотеки numpy) будут автоматически игнорировать пропущенные значения, не выдавая ошибку.

## МОДА

Мода — самое часто встречающееся значение в числовом или нечисловом ряду данных.

Чаще всего мода используется в нечисловых рядах. Например самая популярная порода собак, фильм года, лучшие рестораны вычисляются именно модой.

Моду также можно вычислить при помощи statistics.multimode(). В случае наличия нескольких модовых (популярных значений) функция statistics.mode() вернёт вам ошибку StatisticsError, а statistics.multimode() — список с всеми вычисленными модовыми значениями.

Выше рассмотрели самые основные и часто используемые в машинном обучении меры центральной тенденции. Также к мерам центральной тенденции относятся:

* среднее геометрическое;

* среднее гармоническое;

* средневзвешенное и другие.

# Многомерный анализ

Когда мы анализируем пару переменных и больше, то мы делаем **многомерный анализ**. 

Целью такого анализа является нахождение связей между признаками.

Мы можем проанализировать, есть ли связь между сортом винограда и ценой бутылки вина. Для этого используется корреляционный анализ, с которым мы познакомимся в следующем юните. Для оценки рейтинга вина можем оценить статистическую значимость переменных, которую мы изучим в следующих модулях. Например, если цена за бутылку вина окажется неважным признаком, то мы сможем удалить его из датасета, так как он не влияет на рейтинг вина.

## КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Корреляция — статистическая связь двух и более переменных. При изменении значения одной из переменных происходит закономерное изменение другой или других величин.

Мерой связи величин, мерой корреляции является коэффициент корреляции. Он может принимать значение от -1 до +1.

**Отрицательная корреляция**, коэффициент корреляции < 0 говорит об обратной связи между переменными. При обратной связи увеличение одной из величин ведёт к закономерному уменьшению другой (других) величин.

Например, чем больше сумма активного долга, тем меньше шанс в одобрении кредита.

**Положительная корреляция**, коэффициент корреляции > 0 говорит о прямой связи между переменными. При прямой связи увеличение одной из величин ведёт к закономерному увеличению другой (других) величин.

Например, с увеличением возраста размер ноги человека увеличивается, и его рост увеличивается тоже.

| Сила связи |	Значение коэффициента корреляции |
|------------| ---------------------------------|
| Отсутствие связи или очень слабая связь	| 0…+/- 0.3 |
| Слабая связь |	+/- 0.3…+/- 0.5 |
| Средняя связь |	+/- 0.5…+/- 0.7 |
| Сильная связь |	+/- 0.7…+/- 0.9 |
| Очень сильная или абсолютная связь |	+/- 0.9…+/-1 |

Принято считать, что при коэффициенте корреляции +/-0,7 связь между признаками сильная и приводит к мультиколлинеарности.

Мультиколлинеарность — зависимость такой силы переменных друг от друга, что она затрудняет анализ и оценку будущей модели машинного обучения. 

Например, сложилась ситуация, когда в датасете были обнаружены признаки с очень сильной корреляцией. Мы знаем, что мультиколлинеарность вредит такой модели, поэтому на этапе проектирования признаков можем объединить эту пару признаков в один или удалить из этой пары один — тот, что менее важен. Важность признаков мы оцениваем позже, на этапе отбора признаков.

Для расчёта коэффициента корреляции используется функция df.corr() библиотеки pandas.

## ЛОЖНАЯ КОРРЕЛЯЦИЯ

Рассмотрим, почему корреляция не подразумевает причинно-следственных связей, на популярном примере.

Продажи мороженого коррелируют с убийствами!

По мере роста или падения продаж замороженного десерта соответственно растёт или уменьшается количество убийств. Является ли потребление замороженного десерта причиной смерти людей?

Нет. Эти две вещи взаимосвязаны, но это не значит, что одна вызывает другую.

Этот случай можно назвать совпадением, и чаще всего корреляция наблюдается именно в таких ситуациях. А иногда нам просто не хватает данных, чтобы уловить причину связи между переменными.

В некоторых случаях участвуют скрытые факторы. Например, в примере с мороженым улучшение погоды вызывает рост продаж десерта, а большое количество людей на улицах создаёт благоприятные условия для убийц.

Нет причинно-следственной связи между убийствами и продажей мороженого, а наличие третьего фактора — хорошей погоды — объясняет эти связи. Этот случай называется ложной корреляцией.

## Метод df.corr()

Метод df.corr() в pandas принимает три аргумента: 

1. method:

method: указывает метод вычисления корреляции.

Параметр может принимать значения 'pearson', 'kendall' или 'spearman'.
- 'pearson': метод корреляции Пирсона (по умолчанию).

- 'kendall': метод корреляции Кендалла.

- 'spearman': метод корреляции Спирмена.

Каждый метод может быть применён для разных типов данных.

2. min_periods:

min_periods: минимальное число непустых значений, необходимое для вычисления корреляции.

По умолчанию: 1.
Целое число, определяющее минимальное количество ненулевых наблюдений, необходимое для вычисления пары элементов.
numeric_only: включает в себя только числовые столбцы.

3. numeric_only.

По умолчанию: None.
Булевый параметр, если установлен в True, будет учитывать только числовые столбцы в DataFrame.

## КОРРЕЛЯЦИЯ ПИРСОНА

Рассчитав в прошлом юните коэффициент корреляции между point и price, мы использовали df.corr(). Согласно документации, если не указать method, по умолчанию используется корреляция Пирсона.

Коэффициент корреляции Пирсона используется для вычисления линейной взаимосвязи между признаками. 

Линейная взаимосвязь — вид связи между признаками, в котором изменение одного признака $x_1$ всегда приводит к изменению другого признака $x_2$ на величину, пропорциональную изменению $x_1$, в соответствии с правилом: $x_1 = ax_1 + b$ (уравнение прямой), где $a$ и $b$ — некоторые коэффициенты.

## НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Большинство окружающих нас процессов и явлений, характеристик объектов можно описать нормальным распределением. В основном это переменные, которые зависят от множества факторов, например рост человека. Он сформировался благодаря местности, в которой проживает человек, генетическим предрасположенностям, перенесённым заболеваниям и так далее. Как следствие, показатели роста подвергаются законам нормального распределения.

Если признак является совокупностью очень редких событий, например аварии на дорогах, то распределение признака нормальным не будет.

С точки зрения визуализации нормальное (гауссово) распределение представляет собой распределение признака в виде колокола.

## РАНГОВЫЕ КОРРЕЛЯЦИИ

Ранговая корреляция — это вид корреляции, отражающий отношения переменных, упорядоченных по возрастанию их значения. 

Ранги — это порядковые номера единиц совокупности в упорядоченном (ранжированном) ряду. Если проранжировать совокупность по двум признакам, связь между которыми изучается, то полное совпадение рангов означает максимально тесную прямую связь, а полная противоположность рангов — максимально тесную обратную связь.

## КОРРЕЛЯЦИЯ СПИРМЕНА

Коэффициент корреляции Спирмена используется для вычисления взаимосвязей между категориальными переменными.

Чтобы рассчитать коэффициент корреляции Спирмена, необходимо передать в df.corr() аргумент method = 'spearman' .

## КОРРЕЛЯЦИЯ КЕНДАЛЛА

Так же, как и корреляция Спирмена, корреляция Кендала предусмотрена для нахождения взаимосвязей между категориальными переменными. Для расчёта коэффициента корреляции Кендалла необходимо передать в метод df.corr() аргумент method = 'kendall'. 

Корреляции Спирмена и Кендалла очень похожи. Чтобы понять их различия, необходимо глубокое погружение в их математическую природу. Однако в среднем корреляция Кендала выдаёт меньшие значения коэффициента корреляции, чем корреляция Спирмена.

## КОРРЕЛЯЦИЯ МЭТЬЮСА

Бинарные признаки являются подгруппой категориальных. Мы по-прежнему можем использовать методы ранговых корреляций для расчёта связи между переменными. 

Кроме этого, существует корреляция Мэтьюса — мера силы связи между бинарными переменными.

В df.corr() нет расчёта для корреляции Мэтьюса, но мы можем воспользоваться библиотекой scikit-learn и её функцией matthews_corrcoef() для расчёта коэффициента корреляции Мэтьюса.

scikit-learn — это библиотека с реализацией готовых алгоритмов для машинного обучения. Более подробно вы познакомитесь с ней в модулях, посвящённых машинному обучению.

Для начала установим библиотеку scikit-learn.

``` terminal
    pip install scikit-learn
```
Затем импортируем нужную нам функцию для дальнейшей работы.

``` python
    from sklearn.metrics import matthews_corrcoef
```
В нашем датасете винных обзоров нет бинарных переменных, но мы можем воспользоваться учебным примером.

## ТЕПЛОВАЯ МАТРИЦА КОРРЕЛЯЦИЙ

Для построения такой матрицы нам будет необходима seaborn.

``` python
    import seaborn as sns
    
    sns.heatmap(data=df.corr())
```
Метод принимает на вход двумерный массив данных под аргументом data. Это может быть матрица корреляций, полученная методом df.corr(), матрица пропущенных значений, полученная методом df.isnull(), набор данных и многое другое. 



## SCATTERPLOT

Чтобы рассмотреть распределение и характер связи, существует точечная диаграмма рассеивания.

Точечная диаграмма рассеивания — это такая диаграмма, в которой каждое значение, которое принимает признак в датасете, отражено точкой.

Присвоив каждой оси переменную, мы можем определить наличие связи между переменными. Сила связи (коэффициент корреляции) зависит от того, насколько плотно расположены точки на диаграмме. Если точки расположены более плотно, то это означает бОльшую силу связи.

Метод, который используется - sns.scatterplot(). Он отражает связь между переменными, где есть аргументы метода x, y, и признаки, которые мы хотим исследовать.

``` pyhton
    sns.scatterplot()
```

Необходимо помнить несколько правил:

<img src='Images/eda_1.png' width='500' height='200'>

* При положительной корреляции увеличение одного признака приводит к увеличению другого. И наоборот.

* При отрицательной связи увеличение одного из признаков приводит к уменьшению другого и наоборот.

* При нулевой корреляции признаки распределяются независимо друг от друга, что видно на рисунке.

<img src='Images/eda_2.png' width='500' height='200'>

При сильной связи точки на графике расположены близко друг к другу. Чем связь слабее, тем дальше находятся точки друг от друга. На графике изображена сильная связь с коэффициентом корреляции ~0.95, слабая с коэффициентом корреляции ~0.5 и нулевая корреляция.

Диаграмма рассеивания в данных — удобный инструмент анализа, но, к сожалению, только для пары признаков. 

Тепловая матрица корреляций удобна для анализа всего датасета, но показывает только силу и направления корреляции (плюс/минус), а информации о распределении признаков мы не получаем.

## ГРАФИК ПОПАРНЫХ ОТНОШЕНИЙ (PAIRPLOT)

Давайте построим график PairPlot для нашего набора данных:

График pairplot сочетает в себе оба подхода heatmap и scatterplot.

``` python
    sns.pairplot(data=df.corr())
```