**БИБЛИОТЕКА STATISTICS**

Установим библиотеку:

`pip install statistics`

Импортируем библиотеку для дальнейшего использования:

`import statistics`

`statistics.mean()` - Функция для вычисления среднего арифметического в библиотеке *statistics*

```py
mean_price = round(statistics.mean(data['price']), 2)
mean_price_py
```

---

`statistics.median()` - Функция для вычисления медианного значения в библиотеке *statistics*

```py
median_price = round(statistics.median(data['price']), 2)
median_price
```

---

`statistics.mode()` - Функция для вычисления самого популярного значения в библиотеке *statistics*. Чаще всего используется для нечисловых значений

```py
mode_price = round(statistics.mode(data['price']), 2)
mode_price
```

---

`df.corr()` - Функция для расчёта коэффициента корреляции в библиотеке *pandas*.

**Основные параметры:**

- `method` - метод вычисления корреляции. В *Pandas* доступны три основных метода:
    - `'pearson'` (по умолчанию) — расчёт коэффициента корреляции *Пирсона*, измеряющего **линейную** зависимость.
    - `'spearman'` - ранговый коэффициент корреляции *Спирмена*, оценивающий **монотонную** зависимость.
    - `'kendall'` - тау-коэффициент корреляции *Кендалла*, анализирующий **ранговую** зависимость.

- `min_periods` - Минимальное число наблюдений, необходимое для вычисления корреляции.

- `numeric_only` - Флаг, указывающий, следует ли включать только числовые столбцы. В последних версиях Pandas (≥ 2.0) значение по умолчанию — *True*. 

```py
corr_df = round(data['price'].corr(data['points']), 6)
corr_df
```

ИЛИ

```py
DataFrame.corr(method='pearson', min_periods=1, numeric_only=True)
```

- **Коэффициент корреляции Пирсона** используется для вычисления линейной взаимосвязи между признаками. 
   - Большинство окружающих нас процессов и явлений, характеристик объектов можно описать **нормальным** распределением.
   - Если признак является совокупностью *очень редких событий*, например аварии на дорогах, то распределение признака **нормальным не будет**.
   - С точки зрения визуализации нормальное (**гауссово**) распределение представляет собой распределение признака в виде *колокола*.

- **Коэффициент корреляции Спирмена** используется для вычисления взаимосвязей между *категориальными* переменными. Иногда мы можем применить ранговую корреляцию и для числовых переменных, которые распределены **ненормально** или если между ними существует **нелинейная** связь. 

- **Kорреляция Кендала** предусмотрена для нахождения взаимосвязей между категориальными переменными. Корреляция Кендалла *более устойчива к ошибкам и выбросам в данных*. Это значит, что её можно применить до очистки данных, чтобы выявить взаимосвязи заранее.

---

```py
import matplotlib.pyplot as plt
from scipy import stats # Библиотека для расчетов
```

---

*scikit-learn* — это библиотека с реализацией готовых алгоритмов для машинного обучения. Необходима для расчета корреляции Мэтьюса

```py
pip install scikit-learn # Установка библиотеки
```
Импортируем нужную функцию

```py
from sklearn.metrics import matthews_corrcoef
```

**Пример**

```py
x = [+1, -1, +1, +1] # список значений признака х
y = [+1, +1, +1, -1] # список значений признака y

matthews_corrcoef(x, y) # рассчитаем коэффициент корреляции Мэтьюса
```

---

`sns.heatmap()` - Используем для построения тепловой матрицы корреляций (библиотека *seaborn*). 

Метод принимает на вход двумерный массив данных под аргументом `data`. Это может быть матрица корреляций, полученная методом `df.corr()`, матрица пропущенных значений, полученная методом `df.isnull()`, набор данных и многое другое. 

```py
# передадим параметр `annot=True`, чтобы отобразить 
#коэффициент корреляции на пересечении признаков
# параметр numeric_only=True игнорирует нечисловые значения
sns.heatmap(data.corr(numeric_only=True), annot=True) 
```

---

`sns.scatterplot` - Метод для построения диаграммы рассеяния пары признаков

```py
sns.scatterplot(
    data=df,
    x='Weight',
    y='Year'
)
```

![image.png](attachment:image.png)

- При **положительной корреляции** увеличение одного признака приводит к увеличению другого. И наоборот.
- При **отрицательной связи** увеличение одного из признаков приводит к уменьшению другого и наоборот.
- При **нулевой корреляции** признаки распределяются независимо друг от друга, что видно на рисунке.

![image-2.png](attachment:image-2.png)

При **сильной связи** точки на графике расположены близко друг к другу. Чем связь **слабее**, тем дальше находятся точки друг от друга. На графике изображена сильная связь с коэффициентом корреляции ~0.95, слабая с коэффициентом корреляции ~0.5 и нулевая корреляция.



**Диаграмма рассеивания** в данных — удобный инструмент анализа, но, к сожалению, только *для пары признаков*. **Тепловая матрица корреляций** удобна для анализа *всего датасета*, но показывает только силу и направления корреляции (плюс/минус), а информации о распределении признаков мы не получаем. 

---

`sns.pairplot(датасет)` - Это функция для построения графика попарных отношений.

На **главной диагонали** вместо единиц представлены графики-распределения конкретной величины. В **остальных ячейках** мы можем увидеть точечный график связей признаков между собой — это *scatterplot*

```py
sns.pairplot(df)
```