Профессия Data Science  
Блок 3. Разведывательный анализ данных  
**EDA-2. Математическая статистика в контексте EDA**

---

## **✍ Оглавление:**

1. Введение  
2. Описательная статистика. Меры центральной тенденции в Python
3. Корреляция

---

## **1. Введение**

Статистика очень тесно связана с машинным обучением. Этот раздел математики помогает ответить, какие из признаков важны, позволяет выдвигать и проверять гипотезы и идеи. Статистика лежит в основе алгоритмов машинного обучения, методов разведывательного анализа данных. 

**Математическая статистика** — раздел математики, который занимается систематизацией и обработкой данных для их использования и получения выводов.

Данные, собранные в ходе исследования каких-то явлений или процессов, сами по себе не очень информативны. Чтобы извлечь из данных какие-то полезные идеи, применяется **описательная статистика**.

Так как в процессе получения статистических данных появляются новые признаки, то этот процесс касается не только математической статистики, но и **проектирования признаков** — ещё одной части разведывательного анализа данных.

## **2. Описательная статистика. Меры центральной тенденции в Python**

Описательную статистику можно применять к одной переменной или к целому набору данных.

Когда вы описываете и вычисляете характеристики одной переменной, вы выполняете **одномерный анализ**.

Когда вы анализируете пару переменных и больше, то вы делаете **многомерный анализ**. Целью такого анализа является нахождение связей между признаками. 

К одномерному анализу можно отнести вычисление максимальных и минимальных значений какого-либо признака, вычисление средних значений, часто встречающихся значений и размаха. 

**Вычисление среднего** также относится к одномерному анализу.

**Мера центральной тенденции** — это число, которое описывает так называемое «среднее» признака. Мера центральной тенденции может рассчитываться по-разному в зависимости от типа признака или от его распределения.

Наиболее популярные меры центральной тенденции, используемые в машинном обучении: среднее арифметическое, медиана, мода.

**Среднее арифметическое** — сумма всех элементов, поделённая на количество элементов в числовом ряду или признаке (Series).

Среднее арифметическое хорошо работает для признаков с небольшим разбросом в значениях, например чтобы корректно вычислять средний возраст популяции. Однако оно плохо работает для признака с большим разбросом в значениях. 

**Медиана** — средний элемент распределения. Для расчёта медианы должно выполняться одно условие: числовой ряд должен быть предварительно отсортирован. Только так мы сможем корректно рассчитать средний элемент. Признак может быть отсортирован как по возрастанию, так и по убыванию. 

Если количество элементов чётное, медианой будет среднее арифметическое двух средних элементов распределения.

В отличие от среднего арифметического медиана хорошо справляется с разбросом в значениях, поэтому её чаще используют. Также медиана разбивает данные на две группы, состоящие из одинакового количества элементов.

Также в библиотеке statistics есть функции, связанные с медианой, — функция **statistics.median_low()** и функция **statistics.median_high()**.

→ В случае, когда количество элементов в числовом ряду (серии) нечётное, функции возвращают то же, что и median().

В случае, когда количество элементов чётное, у нас получается два средних значения:

median_low() возвращает меньшее из них;  
median_high() возвращает большее из них.

**Примечание.** Если в вашем наборе данных есть пропущенные значения, функции библиотеки statistics в отличие от других методов (например np.median() из библиотеки numpy) будут автоматически игнорировать пропущенные значения, не выдавая ошибку.

**Мода** — самое часто встречающееся значение в числовом или нечисловом ряду данных.

Чаще всего мода используется в нечисловых рядах. Например самая популярная порода собак, фильм года, лучшие рестораны вычисляются именно модой.

Моду также можно вычислить при помощи **statistics.multimode()**. В случае наличия нескольких модовых (популярных значений) функция statistics.mode() вернёт вам ошибку StatisticsError, а statistics.multimode() — список с всеми вычисленными модовыми значениями.

Мы рассмотрели самые основные и часто используемые в машинном обучении меры центральной тенденции. Также к мерам центральной тенденции относятся:

среднее геометрическое;  
среднее гармоническое;  
средневзвешенное и другие.

Их также можно вычислить с помощью библиотеки statistics, но они реже используются для описания распределения в машинном обучении.

In [6]:
import pandas as pd
import statistics

# Прочитаем наш файл с винными обзорами:
data = pd.read_csv('Data/wine_cleared.csv')
# data.info()

# Вычислите наименьший балл за вино в датасете?
data['points'].min()
data.describe()

# Вычислите среднюю стоимость бутылки вина
# при помощи стандартных функций Python
data['price'].mean()

# или

# Среднее арифметическое равно поделить сумму всех элементов
# sum(data['price']) на их количество len(data['price'])
mean = sum(data['price']) / len(data['price'])

# Вычислите среднюю стоимость бутылки вина при
# помощи функции statistics.mean() библиотеки
# statistics. Округлите значение до сотых.

round(statistics.mean(data['price']),2)

# Вычислите медиану стоимости бутылки вина при
# помощи функции statistics.median() библиотеки
# statistics. Округлите значение до сотых.

round(statistics.median(data['price']),2)

# Вычислите медиану стоимости бутылки вина при
# помощи стандартных функций Python.
data['price'].median()

# или

count_price = len(data['price']) # количество записей цен
sorted_price = sorted(data['price']) # отсортированные цены

if count_price % 2: # при нечетном кол-ве элементов
    # выбираем средний по индексу 
    median = sorted_price[round(0.5*(count_price-1))]
else: # при четном кол-ве элементов выбираем 2 средних по
    # индексу и считаем между ними среднее арифметическое
    index = round(0.5 * count_price)
    median_ = 0.5 * (sorted_price[index-1] + sorted_price[index])
median

# Вычислите моду стоимости бутылки (самую часто встречающуюся цену)
# вина при помощи функции statistics.mode() библиотеки statistics.
# Округлите значение до сотых.

round(statistics.mode(data['price']),2)

# Вычислите моду стоимости бутылки (самую часто встречающуюся цену)
# вина при помощи стандартных функций Python и pandas.

data['price'].mode()

# или

mode = round(data["price"].value_counts().index[0],2)

## **3. Корреляция**

**Корреляция** — статистическая связь двух и более переменных. При изменении значения одной из переменных происходит закономерное изменение другой или других величин.

Мерой связи величин, мерой корреляции является **коэффициент корреляции**. Он может принимать значение от -1 до +1.

**Отрицательная корреляция**, коэффициент корреляции < 0 говорит об обратной связи между переменными. При обратной связи увеличение одной из величин ведёт к закономерному уменьшению другой (других) величин. 

Например, чем больше сумма активного долга, тем меньше шанс в одобрении кредита.

**Положительная корреляция**, коэффициент корреляции > 0 говорит о прямой связи между переменными. При прямой связи увеличение одной из величин ведёт к закономерному увеличению другой (других) величин. 

Например, с увеличением возраста размер ноги человека увеличивается, и его рост увеличивается тоже.

**Коэффициент корреляции = 0** говорит о том, что переменные независимы друг от друга, по крайней мере линейно, но это вовсе не значит, что между ними нет какой-то более сложной взаимосвязи. Это достаточно редкое явление, которое может встретиться на конкретном наборе данных.

Понимание корреляции приводит нас к понятию **мультиколлинеарности** — такой сильной зависимости переменных друг от друга, что она затрудняет анализ и оценку будущей модели машинного обучения. 