### <center> 1. Введение

>**Математическая статистика** — раздел математики, который занимается систематизацией и обработкой данных для их использования и получения выводов.

Чтобы извлечь из данных какие-то полезные идеи, применяется **описательная статистика**

*>Например, мы исследуем, от каких факторов зависит удовлетворенность жизнью, имея на руках информацию о доходах населения. Сами по себе эти данные мало что дают.*

Проанализировав этот признак, с помощью знаний описательной статистики мы получим примерно такие статистические данные:

- средний доход;
- средний доход в регионе проживания;
- средний доход в разрезе пола;
- разница между минимальным и максимальным доходом;
- а также другие показатели, которые могут охарактеризовать доход человека более детально. 

После извлечения идей мы получаем статистические данные.

>**Статистические данные** — упорядоченные, классифицированные данные о каком-то явлении или процессе.

### <center>  2. Описательная статистика. Меры центральной тенденции в Python

Когда мы описываем и вычисляем характеристики одной переменной, мы выполняеем **одномерный анализ**. 

*>Например, вы хотите узнать больше о сомелье, которые давали подробный отзыв вину. Вы анализируете признак независимо от других, как будто в датасете не существует других признаков. Вы можете просмотреть, сколько сомелье приняло участие в обзоре вин. Можете проанализировать информацию и увидеть, какой сомелье чаще всего оценивал вино. Возможно, эта информация будет важна, и на этапе проектирования и преобразования признаков мы обработаем признаки на основе этих выводов.*

Когда мы анализируем пару переменных и больше, то мы делаем **многомерный анализ**. Целью такого анализа является *нахождение связей между признаками.* 

*>Мы можем проанализировать, есть ли связь между сортом винограда и ценой бутылки вина. Для этого используется корреляционный анализ. Для оценки рейтинга вина можем оценить статистическую значимость переменных. Например, если цена за бутылку вина окажется неважным признаком, то мы сможем удалить его из датасета, так как он не влияет на рейтинг вина.*

**Задание 2.1**

Вычислите наименьший балл за вино в датасете.

In [2]:
import pandas as pd

data = pd.read_csv('data/wine_cleared.csv')

In [3]:
data.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,unknown,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.0,Oregon,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,Alexander Peartree,unknown,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


In [4]:
min_point = data['points'].min()
print(min_point)

80


**Задание 2.2**

Вычислите наименьшую цену за бутылку в наборе данных.

In [5]:
min_price = data['price'].min()
print(min_price)

4.0


**Вычисление среднего** также относится к одномерному анализу. Но что значит среднее?

>**Мера центральной тенденции** — это число, которое описывает так называемое «среднее» признака. Мера центральной тенденции может рассчитываться по-разному в зависимости от типа признака или от его распределения.

Для расчёта этих описательных статистик в *Python* мы будем пользоваться библиотекой [statistics](https://docs.python.org/3/library/statistics.html). Она предоставляет готовые функции для вычисления математической статистики для числовых данных.

Установим библиотеку:

```PY
pip install statistics
```

Импортируем библиотеку для дальнейшего использования:

In [6]:
import statistics

**СРЕДНЕЕ АРИФМЕТИЧЕСКОЕ**

$$Среднее\;Арифметическое = \frac{Сумма\;Всех\;Чисел}{Количество\;Слагаемых}$$

>**Среднее арифметическое** — сумма всех элементов, поделённая на количество элементов в числовом ряду или признаке (Series).

**Задание 2.3**

Вычислите среднюю стоимость бутылки вина при помощи функции `statistics.mean()` библиотеки *statistics*. Округлите значение до сотых.

In [7]:
mean_price = round(statistics.mean(data['price']), 2)
mean_price

35.36

**Задание 2.4 (Самопроверка)**

Вычислите среднюю стоимость бутылки вина при помощи стандартных функций Python.

Вставьте получившийся код:

**Подсказка (1 из 1):** Используйте `sum()` для вычисления суммы всех элементов, `len()` — для расчёта количества элементов в серии.

In [8]:
mean_price_py = round((data['price'].sum())/len(data['price']), 2)
mean_price_py

np.float64(35.36)

Среднее арифметическое хорошо работает для признаков с небольшим разбросом в значениях, например чтобы корректно вычислять средний возраст популяции. Однако оно плохо работает для признака с большим разбросом в значениях. 

**МЕДИАНА**

>**Медиана** — средний элемент распределения. Для расчёта медианы должно выполняться одно **условие**: *числовой ряд должен быть предварительно отсортирован*. Только так мы сможем корректно рассчитать средний элемент. Признак может быть отсортирован как по возрастанию, так и по убыванию. 

![image.png](attachment:image.png)

**Задание 2.5**

Вычислите медиану стоимости бутылки вина при помощи функции `statistics.median()` библиотеки *statistics*. Округлите значение до сотых.

In [10]:
median_price = round(statistics.median(data['price']), 2)
median_price

28.0

**Задание 2.6**

Вычислите медиану стоимости бутылки вина при помощи стандартных функций Python.

Вставьте получившийся код:

**Подсказка (1 из 3):**
Алгоритм нахождения медианы:

отсортировать элементы серии по возрастанию или убыванию;
найти средний (средние) элементы в отсортированном наборе данных.

**Подсказка (2 из 3):** Используйте sum() для вычисления суммы всех элементов, sorted() — для сортировки элементов в серии, round() — для округления.

**Подсказка (3 из 3):** Используйте % для проверки числа на чётность.

In [13]:
sorted_data = sorted(data['price'])
n = len(sorted_data)
# Находим индекс центрального элемента
index = n // 2
# Проверяем на четность
if n % 2 != 0:
    median = sorted_data[index]
else:
    # Если четное, берем среднее арифметическое двух центральных значений
    median = (sorted_data[index - 1] + sorted_data[index]) / 2

median_price_py = round((median), 2)
median_price_py

28.0

В отличие от среднего арифметического медиана хорошо справляется с разбросом в значениях, поэтому её чаще используют. Также медиана разбивает данные на две группы, состоящие из одинакового количества элементов.

Средние значения, например **уровень дохода** или **цена на недвижимость**, часто вычисляются именно по **медиане**, потому что в этом случае важен средний уровень доходов большей части населения. 

Также в библиотеке **statistics** есть функции, связанные с медианой, — функция `statistics.median_low()` и функция `statistics.median_high()`.

→ В случае, когда количество элементов в числовом ряду (серии) **нечётное**, функции возвращают то же, что и *median()*.

В случае, когда количество элементов **чётное**, у нас получается два средних значения:

`median_low()` возвращает *меньшее* из них;
`median_high()` возвращает *большее* из них.

>**Примечание**. Если в вашем наборе данных есть пропущенные значения, функции библиотеки *statistics* в отличие от других методов (например `np.median()` из библиотеки *numpy*) будут автоматически игнорировать пропущенные значения, не выдавая ошибку.

**МОДА**

**Мода** — самое часто встречающееся значение в числовом или нечисловом ряду данных.

Чаще всего мода используется в **нечисловых** рядах. Например самая популярная порода собак, фильм года, лучшие рестораны вычисляются именно модой.

**Задание 2.7**

Вычислите моду стоимости бутылки (самую часто встречающуюся цену) вина при помощи функции `statistics.mode()` библиотеки *statistics*. Округлите значение до сотых.

In [16]:
mode_price = round(statistics.mode(data['price']), 2)
mode_price

35.36

Моду также можно вычислить при помощи `statistics.multimode()`. В случае наличия **нескольких** модовых (популярных значений) функция `statistics.mode()` вернёт вам ошибку *StatisticsError*, а `statistics.multimode()` — список с всеми вычисленными модовыми значениями.

**Задание 2.8**

Вычислите моду стоимости бутылки (самую часто встречающуюся цену) вина при помощи стандартных функций Python и pandas.

Вставьте получившийся код:

In [18]:
price_mode_py = round(data['price'].mode(), 2)
price_mode_py

0    35.36
Name: price, dtype: float64

ИЛИ

In [19]:
mode = round(data['price'].value_counts().index[0], 2)
mode

np.float64(35.36)

![image.png](attachment:image.png)

На этих схематических графиках показано, как могут выглядеть гистограммы с различными формами распределения. На графиках a и b — симметричные распределения, c и d — несимметричные.