# Визуализация статистических распределений

https://pyprog.pro/

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

# Визуализация одномерных распределений

# Загрузим данные, на основе которых будем строить примеры:

In [None]:
penguins = pd.read_csv('../input/penguins/penguins.csv')
penguins.head()

Эти данные о трех видах пингвинов и содержат следующую информацию:

species - информация о виде пингвина;

island - название острова в архипелаге Палмера;

bill_length_mm - длина клюва в мм;

bill_depth_mm - толщина клюва в мм;

flipper_length_mm - длина крыла в мм;

body_mass_g - масса тела в граммах;

sex - пол особи.

Теперь мы можем построить гистограмму какой-нибудь величины из этой таблицы, например, гистограмму длины крыла, сделать это можно с помощью функции displot():

In [None]:
sns.displot(x='flipper_length_mm',data=penguins);

Судя по картинке, мы имеем дело со смесью распределений, ведь наверняка, длина крыльев зависит от вида пингвина. Что бы узнать это, можно выделить подмножества данных с помощью цвета, для этого нужно передать параметру hue соответствующий столбец:

In [None]:
sns.displot(x='flipper_length_mm',
            hue='species',
            data=penguins);

Однако, такой график не позволяет легко воспринимать информацию, т.к. гистограммы перекрывают друг друга. 

Можно воспользоваться параметром multiple. Если данному параметру передать значение stack, то перекрывающиеся участки пудут надставлены друг над другом:

In [None]:
sns.displot(x='flipper_length_mm',
            hue='species',
            multiple='stack',
            data=penguins);

Но, как мне кажется, так тоже "не очень", получается гораздо лучше, если параметру multiple передать значение dodge:

In [None]:
sns.displot(x='flipper_length_mm',
            hue='species',
            multiple='dodge',
            data=penguins);

Еще один способ изображения перекрывающихся гистограмм - это визуализация их процентного соотношения в каждой ячейке:

In [None]:
sns.displot(y='flipper_length_mm',
            hue='species',
            multiple='fill',
            data=penguins);

Обратите внимание, что для горизонтального расположения графика мы просто сменили параметр x на y.

Самым простым выходом для визуализации гистограмм нескольких подмножеств, является использование многосегментных графиков, которые на самом деле и призвана строить функция displot(). Для этого нужно передать столбец с категориальными данными не параметру hue, а параметру col (или row):

In [None]:
sns.displot(x='flipper_length_mm',
            col='species',
            data=penguins);

Так же очень часто возникает потребность в изменении ширины ячеек или увеличения их числа:

In [None]:
sns.displot(x='flipper_length_mm',
            binwidth=1,    # установка ширины ячейки
            col='species',
            data=penguins);

# Оценка плотности ядра
Еще один способ оценки распределения заключается в оценке плотности ядра (kernel density estimation или сокращенно kde). Визуально, kde рисуется в виде линии и часто повторяет форму гистограмм, но дает больше информации о характере распределения:

In [None]:
sns.displot(x='flipper_length_mm',
            kde=True,
            data=penguins);

Функция displot() по умолчанию рисует гистограммы, но она так же может рисовать и kde-графики, для этого нужно передать параметру kind значение 'kde'. Например, вот так можно взглянуть на оценку плотности длины крыла пингвинов разного вида:

In [None]:
sns.displot(x="flipper_length_mm",
            hue="species",
            kind="kde",
            data=penguins);

При этом kde-графики, точно так же как и гистограммы, поддерживают некоторые настройки внешнего вида. Например, они могут быть закрашены:

In [None]:
sns.displot(x="flipper_length_mm",
            hue="species",
            kind="kde",
            fill=True,
            data=penguins);

А если нужно избежать перекрытия, то линии могут быть надставлены:



In [None]:
sns.displot(x="flipper_length_mm",
            hue="species",
            kind="kde",
            multiple="stack",
            data=penguins);

# Визуализация многомерных распределений

Визуализация парных отношений является самой наглядной и что бы нарисовать совместное распределение всех переменных в наборе данных достаточно воспользоваться функцией pairplot():

In [None]:
sns.pairplot(penguins);

По умолчанию, парные распределения (те что под и над главной диагональю сетки) изображаются графиками разброса, а одномерные распределения (те что на главной диагонали) изображаются гистограммами.

Функция pairplot() использует класс PairGrid, кторый строит сетку для решетчатого графика, а это значит, что создав экземпляр данного класса, мы можем выполнять более тонкие настройки:

In [None]:
# Создаем экземпляр класса:
g = sns.PairGrid(penguins)

# задаем тип графиков над
# главной диагональю:
g.map_upper(sns.histplot, bins=30)

# задаем тип графиков под
# главной диагональю:
g.map_lower(sns.kdeplot, bw_adjust=0.7)

# задаем тип графиков на
# главной диагонали:
g.map_diag(sns.histplot, kde=True);