### Описательная статистика. Меры центральной тенденции в Python

После подготовки и очистки данных винных обзоров мы готовы провести статистический анализ данных, представленных в нашем наборе, чтобы составить выводы о самих признаках и их взаимосвязях.

Описательную статистику можно применять к одной переменной или к целому набору данных.

Когда вы описываете и вычисляете характеристики одной переменной, вы выполняете **одномерный анализ**. 

*Например, вы хотите узнать больше о сомелье, которые давали подробный отзыв вину. Вы анализируете признак независимо от других, как будто в датасете не существует других признаков. Вы можете просмотреть, сколько сомелье приняло участие в обзоре вин. Можете проанализировать информацию и увидеть, какой сомелье чаще всего оценивал вино. Возможно, эта информация будет важна, и на этапе проектирования и преобразования признаков мы обработаем признаки на основе этих выводов.* 

Когда вы анализируете пару переменных и больше, то вы делаете **многомерный анализ**. Целью такого анализа является нахождение связей между признаками. 

*Мы можем проанализировать, есть ли связь между сортом винограда и ценой бутылки вина. Для этого используется корреляционный анализ, с которым мы познакомимся в следующем юните. Для оценки рейтинга вина можем оценить статистическую значимость переменных, которую мы изучим в следующих модулях. Например, если цена за бутылку вина окажется неважным признаком, то мы сможем удалить его из датасета, так как он не влияет на рейтинг вина.*

К одномерному анализу вы можете отнести вычисление максимальных и минимальных значений какого-либо признака, вычисление средних значений, часто встречающихся значений и размаха.

Начнём с более простого — вычисления максимума и минимума для признаков.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('data/wine_cleared.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,unknown,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.0,Oregon,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm


In [3]:
df.columns

Index(['Unnamed: 0', 'country', 'description', 'designation', 'points',
       'price', 'province', 'region_1', 'taster_name', 'taster_twitter_handle',
       'title', 'variety', 'winery'],
      dtype='object')

In [4]:
df.pop('Unnamed: 0')

0              0
1              1
2              2
3              3
4              4
           ...  
129966    129966
129967    129967
129968    129968
129969    129969
129970    129970
Name: Unnamed: 0, Length: 129971, dtype: int64

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129971 entries, 0 to 129970
Data columns (total 12 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   country                129908 non-null  object 
 1   description            129971 non-null  object 
 2   designation            129971 non-null  object 
 3   points                 129971 non-null  int64  
 4   price                  129971 non-null  float64
 5   province               129908 non-null  object 
 6   region_1               129971 non-null  object 
 7   taster_name            129971 non-null  object 
 8   taster_twitter_handle  129971 non-null  object 
 9   title                  129971 non-null  object 
 10  variety                129970 non-null  object 
 11  winery                 129971 non-null  object 
dtypes: float64(1), int64(1), object(10)
memory usage: 11.9+ MB


Вычислим наименьший балл за вино в датасете.

In [7]:
df['points'].min()

80

Хм-м-м… Несмотря на то что в описании сказано, что оценка может распределяться от 0 до 100, в нашем датасете сосредоточены лучшие вина!

Вычислим наименьшую цену за бутылку в наборе данных.

In [6]:
df['price'].min()

4.0

Удивительно, но бутылка всего в 4 $ может иметь высокий балл по шкале WineEnthusiast! Возможно, цена никак не влияет на рейтинг вина…

**Вычисление среднего** также относится к одномерному анализу. Но что значит среднее?

*Например, средняя зарплата в Краснодарском крае составляет 43 000 руб. Это число даёт нам представление о среднестатистическом жителе этого края.*

Но что здесь означает средняя зарплата и среднестатистический житель? Среднее арифметическое, середина распределения или что-то другое? Чтобы ответить на этот вопрос, нам необходимо знать, что такое *мера центральной тенденции*.

***Мера центральной тенденции** — это число, которое описывает так называемое «среднее» признака. Мера центральной тенденции может рассчитываться по-разному в зависимости от типа признака или от его распределения.*

*Далее мы рассмотрим наиболее популярные меры центральной тенденции, используемые в машинном обучении: среднее арифметическое, медиана, мода. Для расчёта этих описательных статистик в Python мы будем пользоваться библиотекой **[statistics](https://docs.python.org/3/library/statistics.html)**. Она предоставляет готовые функции для вычисления математической статистики для числовых данных.*