# Распределения и их статистики. 


<a id='В начало'> </a>
## Содержание ноутбука:

1. <a href='#Блок 1.Теоретическое введение'> Блок 1. Теоретическое введение </a> 
2. <a href='#Блок 2.Основные статистики распределений'> Блок 2. Основные статистики распределений </a> 
    - <a href='#Нормальное распределение'> Нормальное распределение </a> 
    - <a href='#Распределение со скосом слева'> Распределение со скосом слева </a> 
    - <a href='#Распределение со скосом справа'> Распределение со скосом справа </a> 
    - <a href='#Мультимодальное распределение'> Мультимодальное распределение </a> 
    
3. <a href='#Блок 3.Общий вывод'> Блок 3. Общий вывод </a> 



In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.utils import resample


from scipy.stats import kurtosis, skew

from sympy import Symbol, pprint

plt.rcParams["figure.figsize"] = (15, 7)

<a id='Блок 1.Теоретическое введение'> </a>
## Теоретическое введение
<a href='#В начало'> В начало </a> 

В этом документе разобраны основные статистики 3х видов распределений: нормального, скошенных вправо и влево и мультимодального. 

Для них разобраны и рассмотрены следующие понятия: 

- мода
- минимум
- максимум
- перцентили
- дисперсия
- стандартное отклонение
- эксцесс распределения
- коэффициент ассиметрии

Также в документе использовано определение **момент распределения.**

**Мода** — самое частовстречаемое значение в наборе данных. \
**Минимум, максимум** — соответственно минимальные и максимальные значения в наборе данных.  \
**Перцентиль**, $perc$% — квантиль, выраженный в %. Величина $x$, значение которой больше либо равно ей для $perc$% значений. \
**Дисперсия** — мера разброса случайной величины относительно её математического ожидания*. Выражается как сумма квадратов отклонений о среднего значения в наборе, деленная на количество наблюдений. \
$$D = \frac{\sum_{i=1}^{n}(X - mean(X))^2}{n}$$ 

**Стандартное отклонение** $std, \sigma$ — статистическая мера разброса случайной величины, выражается как корень из дисперсии. 

$$std = \sqrt{\frac{\sum_{i=1}^{n}(X - mean(X))^2}{n}}$$ 


**Момент случайной величины** — величина, характеризующая вероятностное распределение. Одна из общих формул:

$$M_t = \frac{1}{n}\sum_{i=1}^{n}(x_i - A)^t$$, где A — фиксированная величина, а t порядок момента. 

Различают начальные (при $A=0$), центральные ($A = mean(X)$), условные($A=x_0$) и др. виды моментов. Здесь используются центральные. 

Заметим, что **центральный момент второго порядка** равен дисперсии, и что **первый центральный момент** равен 0 в силу *нулевого свойства среднего*. 

**Эксцесс распределения** — величина, характеризующая пологость распределения относительного нормального. 
$$kurtosis = \frac{\frac{1}{n}\sum_{i=1}^{n}(X - mean(X))^4}{\sigma^4} - 3$$

Для нормального распределения отношение 4го центрального момента к стандартному отклонению в четвертой степени равно 3м. 
Согласно формуле, для более острого, чем нормальное распределение коэффициент эксцесса будет положителен, для более пологого — отрицателен.  

**Коэффициент ассиметрии** — величина, характеризующая симметричность распрделения. 
$$skewness = \frac{\frac{1}{n}\sum_{i=1}^{n}(X - mean(X))^3}{\sigma^3}$$

Заметка:
У скошенно справа распределения коэффициент ассиметрии положителен, у скошенного слева — отрицателен. 


*1.Математическое ожидание* — понятие ТВ, означающее среднее (по вероятностям возможных значений) значение случайной величины \
*2.Нулевое свойство среднего — сумма всех отклонений от среднего в распрделении равна 0*

<a id='Блок 2.Основные статистики распределений'> </a>
## Блок 2.Основные статистики распределений
<a href='#В начало'> В начало </a> 

In [None]:
def get_statistics(distribution):
    
    """Функция принимает на вход переменную distribution. 
    Обязательно, чтобы тип данных переменной был pandas.Series.
    
    Также обязательно, чтобы были импортированы следующие библиотеки:
    pandas как pd
    matplotlib.pyplot как plt
    seaborn как sns
    Функции Symbol, pprint из Sympy
    Функции skew, kurtosis из scipy.stats
    """
    
    assert(type(distribution) == pd.core.series.Series), 'Приведите переменную к типу pd.Series'
    
    for i in [pd, plt, sns, pprint, Symbol, skew, kurtosis]:
        assert(i)
    

    print('Минимум, Максимум, Перцентили\n',  distribution.describe())
    print('\n')
    
    
    plot = sns.histplot(distribution, bins=50)
    plot.axvline(distribution.mean(), color='green', label='mean', markersize=0.9)
    plot.axvline(distribution.median(), color='orange', label='median', markersize=0.9)
    plot.legend()
    plt.show()
    
    print('Коэффициент эксцесса:')
    pprint(Symbol('(X - mean(X))^4')/ Symbol('sigma^4') - 3)
    print(kurtosis(distribution))
    
    print('\n')
    
    print('Коэффициент ассиметрии:')
    pprint(Symbol('(X - mean(X))^3')/ Symbol('sigma^3'))
    print(skew(distribution))
    
    print('\n')
    print('Свойство среднего:', round(sum([i - distribution.mean() for i in distribution]), 1))

    
    
def check_kurtosis(distribution):
    
    """Функция принимает на вход переменную distribution. 
    Обязательно, чтобы тип данных переменной был pandas.Series
    
     Также обязательно, чтобы был импортирован следующая функция:
     kurtosis из scipy.stats
    
    """
    
    assert(type(distribution) == pd.core.series.Series), 'Приведите переменную к типу pd.Series'
    assert(kurtosis), 'Импортируйте функцию kurtosis из scipy.stats: from scipy.stats import kurtosis'
    
    central_moment = sum((normal_distr -normal_distr.mean())**4)/len(normal_distr)
    std = distribution.std()**4
    
    kurt_frac = central_moment/std
    kurt = kurtosis(distribution)
    
    print('Значение центрального момента 4го порядка:', central_moment)
    print('Отношение центрального момента 4го порядка к стандартному отклонению в 4й степени', kurt_frac)
    print('Коэффициент эксцесса', kurt)

<a id='Нормальное распределение'> </a>

## Нормальное распределение

<a id='В начало'> </a>

In [None]:
np.random.seed(7)
normal_distr = pd.Series(np.random.normal(size=1000))

get_statistics(normal_distr)

1. Медиана и среднее практически равны. 
2. Ассиметрия и эксцесс близки к 0 (у канонического нормального распределения они нулю равны. 
3. Отношение четвертого центрального момента к стандартному отклонению в 4й степени приближенно равно 3м. Проверим это также вручную. 


In [None]:
check_kurtosis(normal_distr)

<a id='Распределение со скосом слева'> </a>
## Распределение со скосом слева

<a id='В начало'> </a>

In [None]:
left_skewed_distribution = pd.Series(resample(sorted(normal_distr)[:500], replace=True, random_state=7, n_samples=1000))

get_statistics(left_skewed_distribution)

Для распределения со скосом слева:

1. Коэффициент ассиметрии отрицателен
2. Медиана больше среднего. 

<a id='Распределение со скосом справа'> </a>
## Распределение со скосом справа

<a id='В начало'> </a>

In [None]:
right_skewed_distribution = pd.Series(resample(sorted(normal_distr)[500:], replace=True, random_state=7, n_samples=1000))

get_statistics(right_skewed_distribution)

Для распределения со скосом справа:

1. Медиана меньше среднего 
2. Коэффициент ассиметрии положителен

<a id='Мультимодальное распределение'> </a>
## Мультимодальное распределение

<a id='В начало'> </a>

In [None]:
np.random.seed(7)

normal_distr1 = np.random.normal(size=1000) 
normal_distr2 = np.random.normal(size=1000) - 4.02
normal_distr3 = np.random.normal(size=1000) + 4.01

concatenated_examples = np.concatenate([normal_distr1, normal_distr2])
concatenated_examples = np.concatenate([concatenated_examples, normal_distr3])

multinomial = pd.Series(resample(concatenated_examples, n_samples=1000, random_state=7, replace=True))

get_statistics(multinomial)

Для мультимодального распределения:
    
1. Только аналитическое рассмотрение могло дать ошибочное прдеположение о том, что это практически нормальное распределение (низкая ассиметрия), более пологое (эксцесс меньше 0), чем каноническое. 

**Получение мод распределения.**

In [None]:
#Получение мод при помощи pd.Series().mode()
print('Моды:')
multinomial.mode()

Визуально видны три горба, но пандас отдает только две моды. Это связано с тем, что пандас выдает только те значения, которых наибольшее количество. Если количество наблюдений с таким зачением хотя-бы на единицу меньше, то пандас уже не говорит об этом. 

В таком случае более валидным оказывается метод `pd.Series().value_counts()`. Поскольку значения данных представляют собой тип float, для большей информативности уточним их до целого числа (но это только ради примера)

In [None]:
#Получение мод при помощи pd.Series().value_counts()

round(multinomial).value_counts().head(5)

In [None]:
#Проверим то же самое с другим вариантом (pd.Series.mode())

round(multinomial).mode()

Видим, что метод value_counts() более информативен, как и визуальное восприятие. 

<a id='Блок 3.Общий вывод'> </a>

## Блок 3. Общий вывод

<a id='В начало'> </a>
Таким образом, базовое рассмотрение данных должно содержать:

- визуализацию (по возможности)
- моды
- минимум
- максимум
- перцентили
- дисперсию
- стандартное отклонение
- эксцесс распределения
- коэффициент ассиметрии



**Всех благ=)**

Мой блог в телеграмм https://t.me/jdata_blog \
В инстаграмм @sabrina.sadiekh