### Описательная статистика. Меры центральной тенденции в Python

После подготовки и очистки данных винных обзоров мы готовы провести статистический анализ данных, представленных в нашем наборе, чтобы составить выводы о самих признаках и их взаимосвязях.

Описательную статистику можно применять к одной переменной или к целому набору данных.

Когда вы описываете и вычисляете характеристики одной переменной, вы выполняете **одномерный анализ**. 

*Например, вы хотите узнать больше о сомелье, которые давали подробный отзыв вину. Вы анализируете признак независимо от других, как будто в датасете не существует других признаков. Вы можете просмотреть, сколько сомелье приняло участие в обзоре вин. Можете проанализировать информацию и увидеть, какой сомелье чаще всего оценивал вино. Возможно, эта информация будет важна, и на этапе проектирования и преобразования признаков мы обработаем признаки на основе этих выводов.* 

Когда вы анализируете пару переменных и больше, то вы делаете **многомерный анализ**. Целью такого анализа является нахождение связей между признаками. 

*Мы можем проанализировать, есть ли связь между сортом винограда и ценой бутылки вина. Для этого используется корреляционный анализ, с которым мы познакомимся в следующем юните. Для оценки рейтинга вина можем оценить статистическую значимость переменных, которую мы изучим в следующих модулях. Например, если цена за бутылку вина окажется неважным признаком, то мы сможем удалить его из датасета, так как он не влияет на рейтинг вина.*

К одномерному анализу вы можете отнести вычисление максимальных и минимальных значений какого-либо признака, вычисление средних значений, часто встречающихся значений и размаха.

Начнём с более простого — вычисления максимума и минимума для признаков.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('data/wine_cleared.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,unknown,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.0,Oregon,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm


In [3]:
df.columns

Index(['Unnamed: 0', 'country', 'description', 'designation', 'points',
       'price', 'province', 'region_1', 'taster_name', 'taster_twitter_handle',
       'title', 'variety', 'winery'],
      dtype='object')

In [4]:
df.pop('Unnamed: 0')

0              0
1              1
2              2
3              3
4              4
           ...  
129966    129966
129967    129967
129968    129968
129969    129969
129970    129970
Name: Unnamed: 0, Length: 129971, dtype: int64

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129971 entries, 0 to 129970
Data columns (total 12 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   country                129908 non-null  object 
 1   description            129971 non-null  object 
 2   designation            129971 non-null  object 
 3   points                 129971 non-null  int64  
 4   price                  129971 non-null  float64
 5   province               129908 non-null  object 
 6   region_1               129971 non-null  object 
 7   taster_name            129971 non-null  object 
 8   taster_twitter_handle  129971 non-null  object 
 9   title                  129971 non-null  object 
 10  variety                129970 non-null  object 
 11  winery                 129971 non-null  object 
dtypes: float64(1), int64(1), object(10)
memory usage: 11.9+ MB


Вычислим наименьший балл за вино в датасете.

In [7]:
df['points'].min()

80

Хм-м-м… Несмотря на то что в описании сказано, что оценка может распределяться от 0 до 100, в нашем датасете сосредоточены лучшие вина!

Вычислим наименьшую цену за бутылку в наборе данных.

In [6]:
df['price'].min()

4.0

Удивительно, но бутылка всего в 4 $ может иметь высокий балл по шкале WineEnthusiast! Возможно, цена никак не влияет на рейтинг вина…

**Вычисление среднего** также относится к одномерному анализу. Но что значит среднее?

*Например, средняя зарплата в Краснодарском крае составляет 43 000 руб. Это число даёт нам представление о среднестатистическом жителе этого края.*

Но что здесь означает средняя зарплата и среднестатистический житель? Среднее арифметическое, середина распределения или что-то другое? Чтобы ответить на этот вопрос, нам необходимо знать, что такое *мера центральной тенденции*.

***Мера центральной тенденции** — это число, которое описывает так называемое «среднее» признака. Мера центральной тенденции может рассчитываться по-разному в зависимости от типа признака или от его распределения.*

*Далее мы рассмотрим наиболее популярные меры центральной тенденции, используемые в машинном обучении: среднее арифметическое, медиана, мода. Для расчёта этих описательных статистик в Python мы будем пользоваться библиотекой **[statistics](https://docs.python.org/3/library/statistics.html)**. Она предоставляет готовые функции для вычисления математической статистики для числовых данных.*

In [8]:
import statistics

#### СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ

![Arithmetic mean](img/Arithmetic%20mean.png)

Вычислим среднюю стоимость бутылки вина при помощи функции *[statistics.mean()](https://docs.python.org/3/library/statistics.html#statistics.mean)* библиотеки *statistics*.

In [9]:
round(statistics.mean(df['price']), 2)

35.36

Вычислим среднюю стоимость бутылки вина при помощи стандартных функций Python.

In [12]:
mean = sum(df['price']) / len(df['price'])
display(mean)

35.36338912999136

Верно:
Среднее арифметическое равно поделить сумму всех элементов **sum(data['price'])** на их количество **len(data['price'])**.

***Среднее арифметическое** хорошо работает для признаков с небольшим разбросом в значениях, например чтобы корректно вычислять средний возраст популяции. Однако оно плохо работает для признака с большим разбросом в значениях.* 

Возьмём в пример рост человека. Если в выборке попадутся игроки баскетбольной команды или карлики, представление о среднем росте человека сильно исказится. Если таких значений в выборке будет мало, скорее всего, они будут обработаны на этапе очистки данных от выбросов. Если после очистки данных большой разброс останется, вы можете снова вернуться к этому этапу, так как цикл машинного обучения не линеен, или использовать другую описательную статистику для получения среднего значения.

#### МЕДИАНА

***Медиана** — средний элемент распределения. Для расчёта медианы должно выполняться одно условие: числовой ряд должен быть предварительно отсортирован. Только так мы сможем корректно рассчитать средний элемент. Признак может быть отсортирован как по возрастанию, так и по убыванию.* 

Методы современных библиотек, в том числе и используемой нами statistics для вычисления медианы, самостоятельно выполняют сортировку данных — вам не нужно заботиться об этом.

![dst-eda-2-1](img/dst-eda-2-1.png)

Медиана делит распределение признака ровно пополам

Если количество элементов чётное, медианой будет среднее арифметическое двух средних элементов распределения.

![dst-eda-2-2](img/dst-eda-2-2.png)

Вычислим медиану стоимости бутылки вина при помощи функции *[statistics.median()](https://docs.python.org/3/library/statistics.html#statistics.median)* библиотеки *statistics*.

In [13]:
round(statistics.median(df['price']), 2)

28.0

Вычислим медиану стоимости бутылки вина при помощи стандартных функций Python.

In [14]:
count_price = len(df['price']) # количество записей цен
sorted_price = sorted(df['price']) # отсортированные цены

if count_price % 2: # при нечетном кол-ве элементов выбираем средний по индексу 
    median = sorted_price[round(0.5*(count_price-1))]
else: # при четном кол-ве элементов выбираем 2 средних по индексу и считаем между ними среднее арифметическое
    index = round(0.5 * count_price)
    median_ = 0.5 * (sorted_price[index-1] + sorted_price[index])
median

28.0

*В отличие от среднего арифметического медиана хорошо справляется с разбросом в значениях, поэтому её чаще используют. Также медиана разбивает данные на две группы, состоящие из одинакового количества элементов.*

Средние значения, например уровень дохода или цена на недвижимость, часто вычисляются именно по медиане, потому что в этом случае важен средний уровень доходов большей части населения. 

В таком случае основатель Amazon Джефф Безосс с годовым доходом в несколько миллиардов не испортит нам всю статистику. 

Также в библиотеке *statistics* есть функции, связанные с медианой, — функция *[statistics.median_low()](https://docs.python.org/3/library/statistics.html#statistics.median_low)* и функция *[statistics.median_high()](https://docs.python.org/3/library/statistics.html#statistics.median_high)*.

→ В случае, когда количество элементов в числовом ряду (серии) нечётное, функции возвращают то же, что и *median()*.

В случае, когда количество элементов чётное, у нас получается два средних значения:

* *median_low()* возвращает меньшее из них;
* *median_high()* возвращает большее из них.

*Примечание. Если в вашем наборе данных есть пропущенные значения, функции библиотеки statistics в отличие от других методов (например np.median() из библиотеки numpy) будут автоматически игнорировать пропущенные значения, не выдавая ошибку.*

#### МОДА

**Мода** — самый часто встречающийся элемент в числовом ряду.

Допустим, вы решили полететь в отпуск со своими друзьями и решили выбрать месяц. Вы провели опрос, кому в какой месяц было бы удобнее. Месяцы в году — это числовой ряд от 1 до 12. Дима и Серёжа свободны в феврале. Толя может взять отпуск в любой месяц года, а Ксюша может только в июне. Как в этом случае поступите вы?

Очевидно, выберете месяц, который выбрало большинство; остальные подстроятся либо не полетят с вами.

Чаще всего мода используется в нечисловых рядах. Например самая популярная порода собак, фильм года, лучшие рестораны вычисляются именно модой.

Вычислим моду стоимости бутылки (самую часто встречающуюся цену) вина при помощи функции *statistics.mode()* библиотеки *statistics*.

In [15]:
round(df['price'].mode(), 2)

0    35.36
Name: price, dtype: float64

Моду также можно вычислить при помощи *[statistics.multimode()](https://docs.python.org/3/library/statistics.html#statistics.multimode)*. В случае наличия нескольких модовых (популярных значений) функция *statistics.mode()* вернёт вам ошибку *StatisticsError*, а *statistics.multimode()* — список с всеми вычисленными модовыми значениями.

Вычислим моду стоимости бутылки (самую часто встречающуюся цену) вина при помощи стандартных функций Python и pandas.

In [17]:
mode = round(df["price"].value_counts().index[0],2)
display(mode)

35.36

Мы рассмотрели самые основные и часто используемые в машинном обучении меры центральной тенденции. Также к мерам центральной тенденции относятся:

* **среднее геометрическое**;
* **среднее гармоническое**;
* **средневзвешенное** и другие.

Их также можно вычислить с помощью библиотеки *statistics*, но они реже используются для описания распределения в машинном обучении.

*Мы рассмотрели очень важную идею «среднего значения». Она часто применяется в разведывательном анализе данных. Цель среднего значения, как и других описательных статистик — выразить распределение признака одним числом, отразить его суть, что может оказаться важным признаком для модели машинного обучения.*

#### Корреляция

*Рассмотрим корреляционный анализ как один из часто применяемых средств многомерного анализа данных.*

***Корреляция** — статистическая связь двух и более переменных. При изменении значения одной из переменных происходит закономерное изменение другой или других величин.* 

Например, при взрослении у человека меняются его показатели: рост становится больше, риск сердечно-сосудистых заболеваний — выше.

Мерой связи величин, мерой корреляции является **коэффициент корреляции**. Он может принимать значение от -1 до +1.

**Отрицательная корреляция**, коэффициент корреляции < 0 говорит об обратной связи между переменными. При обратной связи увеличение одной из величин ведёт к закономерному уменьшению другой (других) величин. 

Например, чем больше сумма активного долга, тем меньше шанс в одобрении кредита.

**Положительная корреляция**, коэффициент корреляции > 0 говорит о прямой связи между переменными. При прямой связи увеличение одной из величин ведёт к закономерному увеличению другой (других) величин. 

 Например, с увеличением возраста размер ноги человека увеличивается, и его рост увеличивается тоже.

**Коэффициент корреляции = 0** говорит о том, что переменные независимы друг от друга, по крайней мере линейно, но это вовсе не значит, что между ними нет какой-то более сложной взаимосвязи. Это достаточно редкое явление, которое может встретиться на конкретном наборе данных.

Понимание корреляции приводит нас к понятию **мультиколлинеарности** — такой сильной зависимости переменных друг от друга, что она затрудняет анализ и оценку будущей модели машинного обучения. 

Понять, почему это плохо для модели машинного обучения, вы сможете, когда приступите к обучению моделей. Но уже на этапе разведывательного анализа данных вы сможете выявить такие зависимости.

Как понять, существует ли сильная взаимозавимость признаков? Для этого существует примерная шкала степеней силы связи и коэффициента корреляции между признаками.

В таблице отражены основные силы связи между признаками.

![korellation](img/korellation.png)

Например, сложилась ситуация, когда в датасете были обнаружены признаки с очень сильной корреляцией. Мы знаем, что мультиколлинеарность вредит такой модели, поэтому на этапе проектирования признаков можем объединить эту пару признаков в один или удалить из этой пары один — тот, что менее важен. Важность признаков мы оцениваем позже, на этапе отбора признаков.

Так что для этапа корреляционного анализа достаточно делать и запоминать выводы о взаимосвязях признаков, чтобы на дальнейшем этапе разведывательного анализа данных правильно их обработать. Эти этапы мы изучим позже в курсе, в юнитах про разведывательный анализ данных.

Для расчёта коэффициента корреляции применим функцию *[df.corr()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html)* библиотеки pandas.

Вычислим коэффициент корреляции между переменными в датасете винных обзоров. В ответ запишите величину коэффициента корреляции между ценой за бутылку и баллами за вино.

In [18]:
display(df.corr().apply(lambda x: round(x, 6)))

  display(df.corr().apply(lambda x: round(x, 6)))


Unnamed: 0,points,price
points,1.0,0.402137
price,0.402137,1.0


Результатом функции *df.corr()* является матрица корреляции. 

***Матрица корреляции** — таблица, заголовками и строками которой являются названия признаков в датасете. На пересечении строк и столбцов находится значение коэффициента корреляции этих двух признаков.*

Данная матрица имеет значение 1 по главной диагонали, так как единица означает корреляцию признака с самим собой. Матрица является *симметричной*.

![dst-eda-2-3](img/dst-eda-2-3.png)

Визуализация матрицы корреляций на примере датасета о пассажирах «Титаника». Источник: kaggle

На рисунке вы можете увидеть визуализированную матрицу к одному из соревнований на kaggle. Наибольшая связь наблюдается в паре признаков age и age_bucket — 0.98, что по шкале корреляции является очень сильной связью и приводит к мультиколлинеарности признаков. Скорее всего, один из признаков будет исключён из датасета.

В нашей матрице датасета винных обзоров отражено всего два признака — *points*, *price*.  На пересечении признаков мы видим значение коэффициента корреляции между признаками *points* и *price*.

![matrix corr](img/matrix%20corr.png)

Причина в том, что рассчитать коэффициент корреляции мы можем только в том случае, когда признак имеет численное выражение. Как мы выяснили ранее, остальные признаки — в строковом формате, и расчёт коэффициента корреляции невозможен. Для этого необходимо провести кодирование признака.

Поскольку наша задача — предсказание рейтинга (баллов) за вино на основании признаков в датасете, можем ли мы с помощью корреляции понять, влияет ли, например, цена за бутылку в определении рейтинга вина?

Нет!

***Корреляция и причинно-следственная связь — это понятия, которые чаще всего ошибочно приравниваются друг к другу. Понимание корреляции важно для разведывательного анализа и помогает делать правильные выводы.*** 

#### ЛОЖНАЯ КОРРЕЛЯЦИЯ

Рассмотрим, почему корреляция не подразумевает причинно-следственных связей, на популярном примере.

***Продажи мороженого коррелируют с убийствами!***

По мере роста или падения продаж замороженного десерта соответственно растёт или уменьшается количество убийств. Является ли потребление замороженного десерта причиной смерти людей?

Нет. Эти две вещи взаимосвязаны, но это не значит, что одна вызывает другую.

Этот случай можно назвать совпадением, и чаще всего корреляция наблюдается именно в таких ситуациях. А иногда нам просто не хватает данных, чтобы уловить причину связи между переменными.

В некоторых случаях участвуют скрытые факторы. Например, в примере с мороженым улучшение погоды вызывает рост продаж десерта, а большое количество людей на улицах создаёт благоприятные условия для убийц.

Нет причинно-следственной связи между убийствами и продажей мороженого, а наличие третьего фактора — хорошей погоды — объясняет эти связи. Этот случай называется ***ложной корреляцией***.

Существует огромное количество подобных исследований с удивительными связями. Прочитайте, например, про *[связь пиратов с глобальным потеплением](https://ru.wikipedia.org/wiki/Пастафарианство#Пираты_и_глобальное_потепление)*. Больше исследований вы найдёте *[здесь](http://www.tylervigen.com/spurious-correlations)*.