# Визуализация статистических зависимостей

https://pyprog.pro/

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# График разброса


In [None]:
tips = pd.read_csv('../input/tips-dataset/tips.csv')
# pd.read_excel()
tips.head(10)

В 1990 году, администратор ресторана, расположенного в пригородном торговом центре одного из городов США, в течение двух месяцах записывал информацию обо всех обслуживаемых столиках. Эти данные позволяют проанализировать, как разные факторы влияют на размер чаевых официантов и содержат следующую информацию:

total_bill - общий счет, т.е. стоимость заказанной еды в долларах США (с учетом налогов);
tip - размер чаевых в долларах США;
sex - пол человека, который оплачивает счет;
smoker - наличие курильщика среди участников одного заказа;
day - день недели;
time - время суток (lunch - первая половина дня, dinner - вторая половина дня);
size - количество людей в группе, выполнившей один заказ.


Что бы быстро нарисовать график разброса двух переменных, можно воспользоваться функцией relplot():

In [None]:
sns.relplot(x='Total_bill', y='Tip', data=tips)


На данном графике все точки одного цвета, но в тоже время, было бы очень хорошо отобразить точки из разных категорий в разные цвета, это можно сделать с помощью параметра hue:

In [None]:
sns.relplot(x='Total_bill', y='Tip', 
            hue='Time', 
            data=tips);

In [None]:
sns.relplot(x='Total_bill', y='Tip', 
            hue='Smoker', 
            data=tips);


Что бы улучшить восприятие, можно для каждой категории помимо цвета установить еще и разную форму маркеров. Делается это с помощью параметра style:

In [None]:
sns.relplot(x='Total_bill', y='Tip', 
            hue='Smoker', 
            style='Smoker', 
            data=tips);

Выше мы использовали цвет (параметр hue) что бы разделить данные на категории. Но цвет может указывать не только на качественные, но и числовые данные. Например вот так можно показать размер групп людей, совершивших один заказ:

In [None]:
sns.relplot(x='Total_bill', 
            y='Tip', 
            hue='Size', 
            data=tips);

По умолчанию, легенда строится с автоматически выделенным шагом оттенка, что бы не загромождать область рисунка. Но если нам нужно отразить ее полностью, то достаточно воспользоваться параметром legend и присвоить ему значение full:

In [None]:
sns.relplot(x='Total_bill',
            y='Tip', 
            hue='Size',
            legend='full',
            data=tips);

С помощью параметра palette можно изменить цветовую палитру:



In [None]:
sns.relplot(x='Total_bill',
            y='Tip', 
            hue='Size',
            legend='full',
            palette='ch: s=0.1, r=0.9',
            data=tips);

С другой стороны, размер группы совершившей один заказ, вполне логично визуализировать с помощью размера маркера. Это можно сделать с помощью параметра size:

In [None]:
sns.relplot(x='Total_bill', 
            y='Tip', 
            size='Size', 
            data=tips);

Мы можем одновременно установить как палитру, так и произвольный размер маркеров с помощью параметра sizes:

In [None]:
sns.relplot(x='Total_bill', 
            y='Tip', 
            hue='Size',
            size='Size', 
            sizes=(40, 150),
            legend='full',
            data=tips);

# График линии


Что бы нарисовать линейный график с помощью функции relplot() достаточно установить параметр kind в значение 'line'.

In [None]:
t = np.arange(200)
v = t**0.5 + np.random.randn(200)
df = pd.DataFrame(dict(Time=t, Value=v))

In [None]:
sns.relplot(x='Time', 
                y='Value',
                kind='line',
                data=df);

Но Seaborn может легко визуализировать и более сложные наборы данных. Давайте продемонстрируем это на данных для fMRI:

In [None]:
fmri = pd.read_csv('../input/seaborn-fmri-dataset/fmri.csv')
fmri.head()


Если изобразить эти данные с помощью графика разброса то мы увидим следующее:



In [None]:
sns.relplot(x='timepoint',
            y='signal',
            kind='scatter',
            data=fmri);

In [None]:
sns.relplot(x='timepoint',
            y='signal',
            kind='line',
            data=fmri);
# По умолчанию, в таких случаях Seaborn выполняет сортировку данных 
# (агрегирование данных по точкам на оси x), 
# а затем строит среднее значение для каждой группы измерений и его 95%-й доверительный интервал:

можно отключить эту функцию

In [None]:
sns.relplot(x='timepoint',
            y='signal',
            ci=None,
            kind='line',
            data=fmri);

Еще вместо доверительного интервала можно строить стандартное отклонение для каждой группы измерений, что очень полезно для оценки разброса значений, для этого нужно установить параметр ci в значение 'sd':

In [None]:
sns.relplot(x='timepoint',
            y='signal',
            kind='line',
            ci='sd',
            data=fmri);

# Визуальная семантика линий

Так же как и scatterplot() функция lineplot() позволяет визуально выделять разные подмножества в данных. Например, мы можем визуально выделить измерения сигнала для разных областей мозга (значений в столбце region):



In [None]:
sns.relplot(x='timepoint',
            y='signal',
            hue='region',
            kind='line',
            data=fmri);

Точно так же можно выделить цветом данные измерений для разных событий (значений в столбце event):

In [None]:
sns.relplot(x='timepoint',
            y='signal',
            hue='event',
            kind='line',
            data=fmri);

Мы можем даже выделить группы по каждому значению в столбце subject, но в этом случае лучше отключить вычисление и отрисовку доверительных интервалов:

In [None]:
sns.relplot(x='timepoint',
            y='signal',
            hue='subject',
            kind='line',
            ci=None,
            data=fmri);

Помимо цвета, для выделения подмножеств может использоваться стиль начертания линий, для этого параметру style нужно передать имя необходимого столбца:

In [None]:
sns.relplot(x='timepoint',
            y='signal',
            hue='event',
            style='region',
            ci=None,
            kind='line',
            data=fmri);

Так же, с помощью параметра markers к линиям могут быть добавлены маркеры. Но не стоит каждый раз пытаться уместить все данные на один график, так как это сильно затрудняет восприятие:

In [None]:
sns.relplot(x='timepoint',
            y='signal',
            hue='event',
            style='region',
            dashes=True,
            markers=True,
            ci='sd',
            kind='line',
            data=fmri);

Толщина линии задается с помощью параметра size и тоже может быть визуальным признаком принадлежности к той или инной категории:

In [None]:
sns.relplot(x='timepoint',
            y='signal',
            hue='region',
            size='event',
            ci=None,
            kind='line',
            data=fmri);

# relplot() для нескольких графиков


Лучше построить несколько графиков, чем одни, перегруженный визуальной информацией. Как раз это и позволяет сделать функция relplot(), например, возвращаясь к нашим данным о чаевых, вот так можно визуализировать распределение размера чаевых в зависимости от наличия курильщика в группе за столиком и времени:

In [None]:
sns.relplot(x='Total_bill',
            y='Tip',
            hue='Time',
            col='Smoker',
            data=tips);

С помощью параметра hue мы обозначили цветом два подмножества времени (time), а вот с помощью параметра col мы указали что для тех кто курит и не курит должен быть построен отдельный график, причем каждый график в отдельной колонке. С помощью параметра row мы можем указать что эти графики должны находиться не в разных колонках, а в разных строках:

In [None]:
sns.relplot(x='Total_bill',
            y='Tip',
            hue='Time',
            row='Smoker',
            data=tips);

Как вы догадались, мы можем сделать из графиков сетку, в которой каждая строка и столбец будет отражать влияние того или инного аспекта на совместное распределение:

In [None]:
sns.relplot(x='Total_bill',
            y='Tip',
            col='Smoker',
            row='Time',
            height=4,
            data=tips);