# 3. Описательные статистики

Это первый из двух уроков, посвященных т.н. Data Exploration - изучению данных. <br />
В этом уроке мы учимся рассказывать с помощью цифр и таблиц о нашем датасете. 

Инструментарий - описательные (дескриптивные - калька с английского) статистики. 

## Важные и нужные понятия

- **Генеральная совокупность** (англ. population) - это все-все объекты, относительно которых мы хотим делать какие-то выводы. Например, человечество, жители России, юридические лица и т.п.

- **Выборочная совокупность (выборка)** (англ. sample) - это часть объектов из генеральной совокупности, информация о которой у нас есть. Например, данные опроса о 455 россиянах по различным параметрам. 

<img src = "https://im0-tub-ua.yandex.net/i?id=7077045d6e5cece7961237bafd133302&n=13">

- **Статистика** - это функция от выборки. 

Напомним, что функцию можно описать формулой: $$ y = f(X)$$
Получается, что  $X$ - это выборка (наши данные), а $y$ - это статистика; одно число, которое дает понимание о выборке. 

**Цель на сегодня**: познакомиться с основными описательными статистиками. 

Здесь и далее, считаем, что нам дана выборка $x_1,...,x_n$

In [2]:
#Импортируем библиотеки, которые нам понадобятся для работы
import pandas as pd

In [3]:
foodCons = pd.read_csv('Food.csv', index_col = 0)

In [4]:
foodCons.head(1).T
foodCons.shape

(24, 9)

Будем смотреть на данные так: у нас есть некоторая выборка стран (в действительности их сильно больше 24). <br />
А по каждой из стране тоже есть выборка из типов продуктов питания (фунтов в неделю на человека).
**Наша задача**: описать в цифрах профиль потребления типа продукта. Например, однаково много едят красное мясо во всех странах? Что едят больше: 

## Максимум

Описательная статистика, показывающая наибольшее значение в выборке.

$$max = max(x_1,..., x_n)$$

In [5]:
foodCons.max()

RedMeat      18.0
WhiteMeat    14.0
Eggs          4.7
Milk         33.7
Fish         14.2
Cereals      56.7
Starch        6.5
Nuts          7.8
Fr&Veg        7.9
dtype: float64

In [7]:
e_max = foodCons.Eggs.max()
#foodCons.max()[2]
print(e_max)

4.7


## Минимум

Описательная статистика, показывающая наименьшее значение в выборке.

$$min = min(x_1,..., x_n)$$

In [8]:
# Определим минимальный возраст респондентов
foodCons.min()

RedMeat       5.3
WhiteMeat     1.4
Eggs          0.5
Milk          4.9
Fish          0.2
Cereals      18.6
Starch        0.6
Nuts          0.7
Fr&Veg        1.4
dtype: float64

In [7]:
e_min = foodCons.Eggs.min()
print(e_min)

0.5


## Среднее

Описательная статистика, показывающая среднее значение в выборке.

$$
 {\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {1}{n}}(x_{1}+\ldots +x_{n})} 
 $$

In [8]:
foodCons.mean()

RedMeat      10.054167
WhiteMeat     8.016667
Eggs          3.008333
Milk         17.429167
Fish          4.437500
Cereals      31.262500
Starch        4.329167
Nuts          2.962500
Fr&Veg        4.175000
dtype: float64

In [9]:
e_mean = foodCons.Eggs.mean()
print(e_mean)

3.0083333333333333


## Медиана

Значение, ниже или выше которого лежит ровно 50% выборки. 

In [10]:
foodCons.median()

RedMeat       9.50
WhiteMeat     8.55
Eggs          3.00
Milk         18.20
Fish          3.40
Cereals      27.50
Starch        4.75
Nuts          2.25
Fr&Veg        3.90
dtype: float64

In [11]:
e_med = foodCons.Eggs.median()
print(e_med)

3.0


## Мода

Значение, чаще всего встречающееся в выборке

In [12]:
foodCons.mode().T[0]

RedMeat       6.2
WhiteMeat     1.4
Eggs          2.7
Milk         11.1
Fish          3.0
Cereals      18.6
Starch        4.8
Nuts          1.6
Fr&Veg        2.9
Name: 0, dtype: float64

In [13]:
e_mod = foodCons.Eggs.mode()[0]
print(e_mod)

2.7


## Дисперсия 
Дисперсия значений признака является среднее отклонение от среднего в квадрате
$$\sigma^2={\dfrac {\sum \limits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)}{n}}^{2}
$$

Дисперсия измеряется в квадратах этой единицы измерения.

In [14]:
foodCons.var()

RedMeat       10.355634
WhiteMeat     13.859710
Eggs           1.166884
Milk          50.057808
Fish          11.465924
Cereals      100.346793
Starch         2.712591
Nuts           3.801576
Fr&Veg         3.355870
dtype: float64

In [15]:
e_var = foodCons.Eggs.var()
print(e_var)

1.1668840579710147


## Стандартное отклонение

Квадратный корень из дисперсии, $\sigma$, называется *среднеквадратическим отклонением*, *стандартным отклонением* или *стандартным разбросом*. 

Показывает отклонение от среднего, измеряется в тех же единицах. 

In [16]:
foodCons.std()

RedMeat       3.218017
WhiteMeat     3.722863
Eggs          1.080224
Milk          7.075154
Fish          3.386137
Cereals      10.017325
Starch        1.646994
Nuts          1.949763
Fr&Veg        1.831903
dtype: float64

In [17]:
e_std = foodCons.Eggs.std()
print(e_std)

1.0802240776667658


## Коэффициент вариации

Коэффициент вариации - это отношение среднеквадратического отклонения к среднему значению, выраженное в процентах. 

Совокупность принято считать однородной, если коэффициент вариации не превышает 33%.

**Можно ли считать предоставленные данные однородными?**

In [18]:
foodCons.std() / foodCons.mean()

RedMeat      0.320068
WhiteMeat    0.464390
Eggs         0.359077
Milk         0.405938
Fish         0.763073
Cereals      0.320426
Starch       0.380441
Nuts         0.658148
Fr&Veg       0.438779
dtype: float64

In [19]:
e_coef = foodCons.Eggs.std() / foodCons.Eggs.mean()
print(e_coef)

0.359077255734105


## Квантили и перцентили

$n$-ный перцентиль - это значение, меньше которого $n%$ выборки. <br />
Т.е. медиана - это 50-ый перцентиль, т.к. меньше медианы - ровно 50%

Родственное понятие - квантиль уровня $\alpha$ - это значение, которого случайная величина не превышает с фиксированной вероятностью. 
$${\displaystyle \mathbb {P} (X\leqslant x_{\alpha })\geqslant \alpha }$$

Связаны оба понятия изящным соотношением: $\alpha = \frac p {100}$

Знаменитые перцентили:
- 25-ый перцентиль/нижняя квартиль - LQ
- 50-ый перцентиль - медиана
- 75-ый перцентиль - UQ

Интерес представляет собой и характеристика интерквартильного размаха:
$$ IQR = UQ - LQ $$

In [20]:
foodCons.quantile(q = 0.25)

RedMeat       8.250
WhiteMeat     4.850
Eggs          2.700
Milk         11.100
Fish          2.175
Cereals      24.225
Starch        3.475
Nuts          1.475
Fr&Veg        2.875
Name: 0.25, dtype: float64

In [21]:
foodCons.quantile(q = 0.75)

RedMeat      10.800
WhiteMeat    10.950
Eggs          3.700
Milk         23.325
Fish          5.825
Cereals      37.625
Starch        5.700
Nuts          4.400
Fr&Veg        5.300
Name: 0.75, dtype: float64

In [22]:
e_lq = foodCons.Eggs.quantile(q = 0.25)
print(e_lq)
e_uq = foodCons.Eggs.quantile(q = 0.75)
print(e_uq)

2.7
3.7


Основное про описание числовых данных обсудили. 
Давайте соберем все воедино и обсудим. 

In [23]:
eggs_descr = [e_max, e_min, e_mean, e_med, e_var, e_std, e_coef, e_lq, e_uq]
ind = ['Максимум', 'Минимум', 'Среднее', 'Медиана','Дисперсия','Стандартное отклонение',
       'Коэффициент вариации', 'Нижняя квартиль', 'Верхняя квартиль']
e_descr = pd.DataFrame(eggs_descr, index = ind, columns = ['Потребление яиц в странах'])
e_descr

Unnamed: 0,Потребление яиц в странах
Максимум,4.7
Минимум,0.5
Среднее,3.008333
Медиана,3.0
Дисперсия,1.166884
Стандартное отклонение,1.080224
Коэффициент вариации,0.359077
Нижняя квартиль,2.7
Верхняя квартиль,3.7


Хорошо бы сразу все данные смотреть в динамике, да?

In [24]:
foodCons.describe()

Unnamed: 0,RedMeat,WhiteMeat,Eggs,Milk,Fish,Cereals,Starch,Nuts,Fr&Veg
count,24.0,24.0,24.0,24.0,24.0,24.0,24.0,24.0,24.0
mean,10.054167,8.016667,3.008333,17.429167,4.4375,31.2625,4.329167,2.9625,4.175
std,3.218017,3.722863,1.080224,7.075154,3.386137,10.017325,1.646994,1.949763,1.831903
min,5.3,1.4,0.5,4.9,0.2,18.6,0.6,0.7,1.4
25%,8.25,4.85,2.7,11.1,2.175,24.225,3.475,1.475,2.875
50%,9.5,8.55,3.0,18.2,3.4,27.5,4.75,2.25,3.9
75%,10.8,10.95,3.7,23.325,5.825,37.625,5.7,4.4,5.3
max,18.0,14.0,4.7,33.7,14.2,56.7,6.5,7.8,7.9


## Нечисловые данные

В качестве базовой описательной статистики одномерных массивов данных  для таких признаков можно использовать следующий набор характеристик:

- количество уникальных представителей массива

- частоты встречаемости этих представителей

- наиболее часто встречающиеся представители (мода распределения)

- наиболее редко встречающиеся представители

- количественная характеристика неоднородности частот встречаемости элементов (например, энтропия по Шеннону)

Создадим искуственно нечисловые данные

In [None]:
foodCons['Region'] = [1, 2, 2, 3, 3, 0, 2, 0, 2, 1, 3, 2, 1, 2, 0, 3, 1, 3, 1, 0, 2, 2, 3, 2]

In [None]:
foodCons.dtypes

Формально, все числа. Но мы-то с вами знаем, что в столбце Region записаны категории!

In [None]:
foodCons.Region.mode()[0]

In [None]:
foodCons.Region.count()

In [None]:
foodCons.Region.value_counts()

In [None]:
foodCons.Region.value_counts().idxmax()

In [None]:
foodCons.groupby('Region').describe().T

## Коэффициент корреляции

Корреляция - это статистическая зависимость двух или более величин. Если есть корреляционная зависимость, то систематическое изменение одной величины ведет к систематическому изменению другой величины. 

! ! ! Корреляционная связь - ассоциативная, а не причинно-следственная. 

Например, потребление шоколада связано с депрессией: расхожее мнение, что шоколад поднимает настроение и спасает от депрессивных дум.

Корреляция действительно есть. Но это совершенно не значит, что поедание шоколада гарантирует хорошее настроение и спасение от депрессии. И совершенно не факт, что в хорошем настроении человек ест шоколад. Или если не будет есть шоколад, то впадет в депрессию.  Первопричина обоих действий в чем-то другом. Мы лишь уловили статистическую взаимосвязь. 

Коэффициент корреляции показывает силу такой связи. У нее есть свойства:
- Изменяется в интервале от -1 до 1
- Отрицательный коэф.корреляции означает, что между величинами есть обратная взаимосвязь, а положительный - прямая. 
- В случае с нулем нужно быть аккуратными в трактовке. 

Считать коэффициент корреляции можно по-разному:
- Пирсоновской коэффициент корреляции
<img src = "https://wikimedia.org/api/rest_v1/media/math/render/svg/fc617ac6eedf1a6280410d4f88b58279e941d1cd">

Это линейный коэффициент корреляции, поэтому если он равен нулю, то между величинами нет ***линейной*** взаимосвязи.

- Ранговый коэффициент корреляции Кендалла:
<img src = "https://wikimedia.org/api/rest_v1/media/math/render/svg/ee7773a6b69764bee1037f2bafd93cb4cb457d67">

Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y.
$$ S = P - Q $$
$P$ — суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.

$Q$ — суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)

- Коэффициент корреляции Спирмэна:
<img src = "https://wikimedia.org/api/rest_v1/media/math/render/svg/82eae529334bfcd915eb0a11bd3f9297e4a6172d">


In [25]:
foodCons.corr()

Unnamed: 0,RedMeat,WhiteMeat,Eggs,Milk,Fish,Cereals,Starch,Nuts,Fr&Veg
RedMeat,1.0,0.105349,0.53481,0.46599,-0.016634,-0.414015,0.086645,-0.283287,-0.118356
WhiteMeat,0.105349,1.0,0.607996,0.254794,-0.281799,-0.386218,0.295042,-0.622072,-0.080519
Eggs,0.53481,0.607996,1.0,0.545696,-0.008053,-0.67081,0.428012,-0.51737,-0.085578
Milk,0.46599,0.254794,0.545696,1.0,0.092181,-0.565475,0.193497,-0.597178,-0.446297
Fish,-0.016634,-0.281799,-0.008053,0.092181,1.0,-0.485869,0.381959,-0.090723,0.249613
Cereals,-0.414015,-0.386218,-0.67081,-0.565475,-0.485869,1.0,-0.522008,0.613808,0.107039
Starch,0.086645,0.295042,0.428012,0.193497,0.381959,-0.522008,1.0,-0.452807,0.068125
Nuts,-0.283287,-0.622072,-0.51737,-0.597178,-0.090723,0.613808,-0.452807,1.0,0.42358
Fr&Veg,-0.118356,-0.080519,-0.085578,-0.446297,0.249613,0.107039,0.068125,0.42358,1.0


# Сделаем небольшой анализ

<a href ="https://archive.ics.uci.edu/ml/datasets/Online%20Retail#"> Скачайте данные </a>. Откройте ссылку, кликните на DataFolder и ждите скачивания xlsx файла. 

</br> Положите в ту же директорию, что и ваш .ipynb. 

In [30]:
#Грузить будет долго
retail = pd.read_excel('Online Retail.xlsx')

In [27]:
retail.head(15)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
5,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,2010-12-01 08:26:00,7.65,17850.0,United Kingdom
6,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,2010-12-01 08:26:00,4.25,17850.0,United Kingdom
7,536366,22633,HAND WARMER UNION JACK,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom
8,536366,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom
9,536367,84879,ASSORTED COLOUR BIRD ORNAMENT,32,2010-12-01 08:34:00,1.69,13047.0,United Kingdom


In [31]:
retail['ItemPriceInvoice'] = retail.Quantity*retail.UnitPrice

In [29]:
retail.head(15)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,ItemPriceInvoice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
5,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,2010-12-01 08:26:00,7.65,17850.0,United Kingdom,15.3
6,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,2010-12-01 08:26:00,4.25,17850.0,United Kingdom,25.5
7,536366,22633,HAND WARMER UNION JACK,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom,11.1
8,536366,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom,11.1
9,536367,84879,ASSORTED COLOUR BIRD ORNAMENT,32,2010-12-01 08:34:00,1.69,13047.0,United Kingdom,54.08


In [32]:
invoiceData = retail.groupby('InvoiceNo').sum()
print(invoiceData.shape)
invoiceData


(25900, 4)


Unnamed: 0_level_0,Quantity,UnitPrice,CustomerID,ItemPriceInvoice
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
536365,40,27.37,124950.0,139.12
536366,12,3.70,35700.0,22.20
536367,83,58.24,156564.0,278.73
536368,15,19.10,52188.0,70.05
536369,3,5.95,13047.0,17.85
536370,449,55.29,251660.0,855.86
536371,80,2.55,13748.0,204.00
536372,12,3.70,35700.0,22.20
536373,88,53.11,285600.0,259.86
536374,32,10.95,15100.0,350.40


In [None]:
invoiceData = invoiceData[invoiceData.ItemPriceInvoice >= 0]
invoiceData.shape

## Задание 9

Создайте новый файл или продублируйте текущий, но удалите все до секции "Сделаем небольшой анализ

**Вариант 1:**

С помощью описательных статистик дайте описание данных из столбца **ItemPriceInvoice**:<br /> 
1) Посчитайте самостоятельно Максимум, Минимум, Среднее, Дисперсию, Стандартное отклонение, Медиану, Нижнюю квартиль, Верхнюю квартиль, Коэффициент вариации <br />
2) Прокомментируйте полученные числа <br />
**Вариант 2**

С помощью описательных статистик дайте описание данных из столбца **Quantity.** <br />
1) Посчитайте самостоятельно Максимум, Минимум, Среднее, Дисперсию, Стандартное отклонение, Медиану, Нижнюю квартиль, Верхнюю квартиль, Коэффициент вариации <br />
2) Прокомментируйте полученные числа <br />