# Расчет центрального положения величины

### План урока:
* Зачем нужно определять центральное положение величины?
* Метрики центрального положения, их особенности и отличия.
* Практика в jupyter notebook.


#### Зачем нужно определять центральное положение величины
Это помогает понять, какие значения для каждого признака являются типичными.

## 1. Синтетические данные

In [2]:
import numpy as np
from scipy import stats

In [4]:
# Количество товаров в корзине пользователя на маркетплейсе
x = [10, 2, 2, 5, 26, 6]

### Выборочное среднее:

$$\bar{x} = \frac{\sum_{i = 1}^{n}x_i}{n}$$
$n$ – число элементов выборки

$x_{i}$ – элемент выборки

In [8]:
mean = sum(x) / len(x)
mean

8.5

In [10]:
mean = np.mean(x)
mean

8.5

---
Выборочное среднее сильно чувствительно к выбросам.

In [17]:
# добавили пользователя-перекупщика
y = [10, 2, 2, 5, 26, 6, 500]

In [19]:
np.mean(y)

78.71428571428571

### Усеченное среднее

Усеченное среднее — это среднее значение набора данных, рассчитанное после удаления определенного процента наименьших и наибольших значений из набора данных.

In [26]:
stats.trim_mean(y, 0.2)

9.8

### Взвешенное среднее:

$$\bar{x} = \frac{\sum_{i = 1}^{n}x_i w_i}{\sum_{i = 1}^{n}w_i}$$
$n$ – число элементов выборки

$x_{i}$ – элемент выборки

$w_{i}$ – вес элемента выборки

---
Взвешенное среднее используют тогда, когда некоторые значения интересующей нас переменной x <b>более важны</b>, чем другие.

Мы присоединяем вес $w_{i}$ к каждому из значений $x_{i}$ в нашей выборке для того, чтобы учесть эту важность.

In [34]:
# преобразуем list в numpy массив
y = np.array([10, 2, 2, 5, 26, 6, 500])
w = np.array([0.2, 0.5, 0.5, 0.4, 0.2, 0.3, 0.1])

In [36]:
wm = y.dot(w) / sum(w)
wm

28.636363636363633

In [38]:
wm = np.average(y, weights=w)
wm

28.636363636363633

---
Взвешенное среднее часто можно встретить в физике или экономике.

<b>Средняя скорость тела</b>

$$v_{cp} = \frac{\sum_{i = 1}^{n}t_i v_i}{\sum_{i = 1}^{n}t_i}$$

$v_{i}$ – скорость тела на $i$-м промежутке

$t_{i}$ – длительность $i$-го промежутка

### Медиана:

Медиана – число, которое находится в середине выборки, если ее упорядочить по возрастанию, то есть такое число, что половина из элементов набора не меньше него, а другая половина не больше.

In [47]:
y = [10, 2, 2, 5, 26, 6, 500]

In [49]:
# нечетное число элементов выборки
sorted(y) # 6.0

[2, 2, 5, 6, 10, 26, 500]

In [51]:
# четное число элементов выборки
sorted(x) # 5.5

[2, 2, 5, 6, 10, 26]

In [53]:
np.median(y), np.median(x)

(6.0, 5.5)

### Мода:

Мода – это элемент, который чаще всего встречается в данной выборке

In [74]:
y = [10, 2, 2, 5, 26, 6, 500]

In [76]:
mode = stats.mode(y)
mode

ModeResult(mode=2, count=2)

---
Мода как средняя величина употребляется чаще для данных, имеющих нечисловую природу.

In [79]:
# бинарные данные
b = [0, 1, 0, 0, 1]

In [81]:
mode = stats.mode(b)
mode

ModeResult(mode=0, count=3)

## 2. Боевой датасет

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('data.csv')
data.head()

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,State,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales
0,1,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96
1,2,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94
2,3,CA-2017-138688,12/06/2017,16/06/2017,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,California,90036.0,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62
3,4,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775
4,5,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.368


In [None]:
data.describe()

Unnamed: 0,Row ID,Postal Code,Sales
count,9800.0,9789.0,9800.0
mean,4900.5,55273.322403,230.769059
std,2829.160653,32041.223413,626.651875
min,1.0,1040.0,0.444
25%,2450.75,23223.0,17.248
50%,4900.5,58103.0,54.49
75%,7350.25,90008.0,210.605
max,9800.0,99301.0,22638.48


<b>Выборочное среднее:</b>

In [None]:
data.Sales

0       261.9600
1       731.9400
2        14.6200
3       957.5775
4        22.3680
          ...   
9795      3.7980
9796     10.3680
9797    235.1880
9798     26.3760
9799     10.3840
Name: Sales, Length: 9800, dtype: float64

In [None]:
mean = np.mean(data.Sales)
mean

230.7690594591837

In [None]:
data.Sales.mean()

230.7690594591837

<b>Усеченное среднее:</b>

In [None]:
len(data.Sales) * 0.1, len(data.Sales) * 0.01

(980.0, 98.0)

In [None]:
stats.trim_mean(data.Sales, 0.1), stats.trim_mean(data.Sales, 0.01)

(113.65588941326531, 188.93531754477303)

<b>Медиана:</b>

In [None]:
median = np.median(data.Sales),
median

(54.489999999999995,)

In [None]:
data.Sales.median()

54.489999999999995

<b>Мода:</b>

Мода как средняя величина употребляется чаще для данных, имеющих нечисловую природу.

In [None]:
data.State.mode()

0    California
Name: State, dtype: object

In [None]:
len(data[data.State == 'California'])

1946

---
## Итоги:
1. В зависимости от выборки, т.е. наличия в ней выбросов и различных типов данных, следует тщательно выбирать меру среднего.
2. Выборочное среднее сильно чувствительно к выбросам.
3. В датасетах с выбросами уместнее будет в качестве меры центрального положения выбирать:
    - взвешенное среднее;
    - усеченное среднее;
    - медиану.
4. Для данных, имеющих нечисловую природу (категориальные), можно воспользоваться модой.