# EDA Математическая статистика

###  Содержание <a class="anchor" id=0></a>
- [1. Введение](#1)
- [2. Описательная статистика. Меры центральной тенденции в Python](#2)
- [3. Корреляция](#3)
- [4. Типы корреляции. Корреляция Пирсона](#4)
- [5. Типы корреляции. Ранговые корреляции](#5)
- [6. Визуализация корреляции. Матрица корреляции. График рассеяния](#6)
- [7. Проверка](#7)
- [8. Итог](#8)

## Введение <a class="anchor" id=1></a>

[к содержанию](#0)

Статистика очень тесно связана с машинным обучением. Этот раздел математики помогает ответить, какие из признаков важны, позволяет выдвигать и проверять гипотезы и идеи. Статистика лежит в основе алгоритмов машинного обучения, методов разведывательного анализа данных. С элементами математической статистики мы столкнёмся в каждом модуле этого курса.


>**Математическая статистика** — раздел математики, который занимается систематизацией и обработкой данных для их использования и получения выводов.

Данные, собранные в ходе исследования каких-то явлений или процессов, сами по себе не очень информативны. Чтобы извлечь из данных какие-то полезные идеи, применяется описательная статистика, которую мы и будем изучать в этом модуле.

>Например, мы исследуем, от каких факторов зависит удовлетворенность жизнью, имея на руках информацию о доходах населения. Сами по себе эти данные мало что дают. 

Проанализировав этот признак, с помощью знаний описательной статистики мы получим примерно такие статистические данные:

* средний доход;
* средний доход в регионе проживания;
* средний доход в разрезе пола;
* разница между минимальным и максимальным доходом;
* а также другие показатели, которые могут охарактеризовать доход человека более детально. 

После извлечения идей мы получаем статистические данные.

**Статистические данные — упорядоченные, классифицированные данные о каком-то явлении или процессе.**

Так как в процессе получения статистических данных появляются новые признаки, то этот процесс касается не только математической статистики, но и проектирования признаков — ещё одной части разведывательного анализа данных, который будет изучен в следующем модуле. 

Прежде чем применять математические статистики к разведывательному анализу данных, необходимо изучить описательные статистики — с ними мы познакомимся в следующем юните. Без понимания этих основ будет невозможно двигаться дальше по всем этапам машинного обучения.



## Описательная статистика. Меры центральной тенденции в Python <a class="anchor" id=2></a>

[к содержанию](#0)

Описательную статистику можно применять к одной переменной или к целому набору данных. 

Описательную статистику мы рассмотрим на примере подготовленного и очищенного вами в модуле EDA-1. Юнит 5. Проверка.

[скачать датасет](https://drive.google.com/file/d/1Xwo8bXV6TA9o14cvcElb-zbzNoAAkQi6/view?usp=sharing)

Когда вы описываете и вычисляете характеристики одной переменной, вы выполняете **одномерный анализ**. 

>Например, вы хотите узнать больше о сомелье, которые давали подробный отзыв вину. Вы анализируете признак независимо от других, как будто в датасете не существует других признаков. Вы можете просмотреть, сколько сомелье приняло участие в обзоре вин. Можете проанализировать информацию и увидеть, какой сомелье чаще всего оценивал вино. Возможно, эта информация будет важна, и на этапе проектирования и преобразования признаков мы обработаем признаки на основе этих выводов. 

Когда вы анализируете пару переменных и больше, то вы делаете **многомерный анализ**. Целью такого анализа является нахождение связей между признаками. 

>Мы можем проанализировать, есть ли связь между сортом винограда и ценой бутылки вина. Для этого используется корреляционный анализ, с которым мы познакомимся в следующем юните. Для оценки рейтинга вина можем оценить статистическую значимость переменных, которую мы изучим в следующих модулях. Например, если цена за бутылку вина окажется неважным признаком, то мы сможем удалить его из датасета, так как он не влияет на рейтинг вина.

К одномерному анализу вы можете отнести вычисление максимальных и минимальных значений какого-либо признака, вычисление средних значений, часто встречающихся значений и размаха. 

In [1]:
import pandas as pd

df = pd.read_csv("wine_cleared.csv")

In [4]:
df['price'].describe()

count    129971.000000
mean         35.363389
std          39.577066
min           4.000000
25%          18.000000
50%          28.000000
75%          40.000000
max        3300.000000
Name: price, dtype: float64

**Вычисление среднего** также относится к одномерному анализу. Но что значит среднее?

>Например, средняя зарплата в Краснодарском крае составляет 43 000 руб. Это число даёт нам представление о среднестатистическом жителе этого края. 

Но что здесь означает средняя зарплата и среднестатистический житель? Среднее арифметическое, середина распределения или что-то другое? Чтобы ответить на этот вопрос, нам необходимо знать, что такое мера центральной тенденции.

**Мера центральной тенденции** — это число, которое описывает так называемое «среднее» признака. Мера центральной тенденции может рассчитываться по-разному в зависимости от типа признака или от его распределения.

>Далее мы рассмотрим наиболее популярные меры центральной тенденции, используемые в машинном обучении: среднее арифметическое, медиана, мода. Для расчёта этих описательных статистик в Python мы будем пользоваться библиотекой [statistics](https://docs.python.org/3/library/statistics.html). Она предоставляет готовые функции для вычисления математической статистики для числовых данных.

Установим библиотеку:

>pip install statistics

Импортируем библиотеку для дальнейшего использования:

>import statistics

In [5]:
import statistics

**Среднее арифметическое** — сумма всех элементов, поделённая на количество элементов в числовом ряду или признаке (`Series`).

In [7]:
# Средняя стоимость бутылки округлённая до сотен
round(statistics.mean(df['price']),2)

35.36

In [8]:
df['price'].mean()

35.36338912999136

**Среднее арифметическое** хорошо работает для признаков с небольшим разбросом в значениях, например чтобы корректно вычислять средний возраст популяции. Однако оно **плохо работает для признака с большим разбросом **в значениях. 

>Возьмём в пример рост человека. Если в выборке попадутся игроки баскетбольной команды или карлики, представление о среднем росте человека сильно исказится. Если таких значений в выборке будет мало, скорее всего, они будут обработаны на этапе очистки данных от выбросов. Если после очистки данных большой разброс останется, вы можете снова вернуться к этому этапу, так как цикл машинного обучения не линеен, или использовать другую описательную статистику для получения среднего значения.

### МЕДИАНА

**Медиана** — средний элемент распределения. Для расчёта медианы должно выполняться одно условие: числовой ряд должен быть предварительно отсортирован. Только так мы сможем корректно рассчитать средний элемент. Признак может быть отсортирован как по возрастанию, так и по убыванию. 

Методы современных библиотек, в том числе и используемой нами statistics для вычисления медианы, самостоятельно выполняют сортировку данных — вам не нужно заботиться об этом. 

<img src=e_2_img1.png>

Если количество элементов чётное, медианой будет среднее арифметическое двух средних элементов распределения.

<img src=e_2_img2.png>

In [9]:
# Медианная стоимость бутылки (округлённое до сотен)

round(statistics.median(df['price']),2)

28.0

In [11]:
# Медианная стоимость стандартными методами python

count_price = len(df['price']) # количество записей цен
sorted_price = sorted(df['price']) # отсортированные цены

if count_price % 2: # при нечетном кол-ве элементов выбираем средний по индексу 
    median = sorted_price[round(0.5*(count_price-1))]
else: # при четном кол-ве элементов выбираем 2 средних по индексу и считаем между ними среднее арифметическое
    index = sorted(x), round(0.5 * count_price)
    median_ = 0.5 * (sorted_price[index-1] + sorted_price[index])
median

28.0

В отличие от среднего арифметического медиана хорошо справляется с разбросом в значениях, поэтому её чаще используют. Также медиана разбивает данные на две группы, состоящие из одинакового количества элементов.

Средние значения, например уровень дохода или цена на недвижимость, часто вычисляются именно по медиане, потому что в этом случае важен средний уровень доходов большей части населения. 

В таком случае основатель Amazon Джефф Безосс с годовым доходом в несколько миллиардов не испортит нам всю статистику. 

Также в библиотеке `statistics` есть функции, связанные с медианой, — функция `statistics.median_low()` и функция `statistics.median_high()`.

>В случае, когда количество элементов в числовом ряду (серии) нечётное, функции возвращают то же, что и `median()`.

В случае, когда количество элементов чётное, у нас получается два средних значения:

median_low() возвращает меньшее из них;
median_high() возвращает большее из них.
Примечание. Если в вашем наборе данных есть пропущенные значения, функции библиотеки statistics в отличие от других методов (например np.median() из библиотеки numpy) будут автоматически игнорировать пропущенные значения, не выдавая ошибку.

## Корреляция <a class="anchor" id=3></a>

[к содержанию](#0)

## Типы корреляции. Корреляция Пирсона <a class="anchor" id=4></a>

[к содержанию](#0)

## Типы корреляции. Ранговые корреляции <a class="anchor" id=5></a>

[к содержанию](#0)

## Визуализация корреляции. Матрица корреляции. График рассеяния <a class="anchor" id=6></a>

[к содержанию](#0)

## Проверка <a class="anchor" id=7></a>

[к содержанию](#0)

## Итоги <a class="anchor" id=8></a>

[к содержанию](#0)