# Визуализация с Seaborn. Диаграмма рассеяния

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib.pyplot as plt # для настройки параметров в некоторых случаях

# Не показывать FutureWarnings
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [None]:
# Загрузка данных
df = pd.read_csv('Diamond.csv')
df.head()

## Базовая диаграмма рассеяния

Визуализируем парные наблюдения `carat vs price`

In [None]:
sns.scatterplot(data=df, x='carat', y='price')

Сделаем чтобы цвет зависел от `colour`, а форма точки от `certification`

In [None]:
sns.scatterplot(data=df, x='carat', y='price', hue='colour', style='certification')

Виузализируем первые 50 наблюдений, размер зависит от переменной `colour`

In [None]:
sns.scatterplot(data=df.iloc[:50], x='carat', y='price', hue='clarity', size='colour')

Вместо столбцов из датафрейма можно явно указать массивы наблюдений.

Нарисуем график `log(carat) vs log(price)`

In [None]:
sns.scatterplot(x= np.log(df['carat']), y=np.log(df['price']), hue=df['certification'])

plt.xlabel('log(carat)')
plt.ylabel('log(price)')
plt.title('log(carat) vs log(price)')
plt.show()

## Диаграмма рассеяния с подогнанным многочленом

Визуализируем парные наблюдения `carat vs price` с подогнанной прямой (обратим внимание на доверительную область для прямой)

In [None]:
sns.regplot(data=df, x='carat', y='price')

Подгоним параболу, уберём доверительную область, изменим цвет и стиль параболы, размер точек

In [None]:
sns.regplot(data=df, x='carat', y='price', ci=None, order=2, scatter_kws={'s':5},
           line_kws={'linestyle':'dotted', 'color':'r'})

Отобразим несколько регрессий, подогнанных на разных подвыборках

Для этого используем метод `lmplot`

In [None]:
sns.lmplot(data=df, x='carat', y='price', hue='certification', ci=None)

Разобьём на подграфики по столбцам по переменной `certification`

In [None]:
sns.lmplot(data=df, x='carat', y='price', col='certification', ci=None)

Разобьём на подграфики по столбцам по переменной `certification` и строками по переменной `colour`

In [None]:
sns.lmplot(data=df, x='carat', y='price', col='certification', row='colour')