In [None]:
# отключим лишние предупреждения 
import warnings
warnings.simplefilter('ignore')

# для отображения графиков
%matplotlib inline
import seaborn as sns
import matplotlib.pyplot as plt
%config InlineBackend.figure_format = 'svg' 

#увеличим размер графиков по сравнению со стандратным
from pylab import rcParams
rcParams['figure.figsize'] = 8, 5
import pandas as pd

Создадим `dataframe` с данными. При создании оставим только строки, которые не содержат пропущенных значений.

In [None]:
df = pd.read_csv('data/fb_m_data.csv').dropna()
print(df.shape)

In [None]:
13*13 - 8 * 16


Всего в таблице 761 объект и 15 признаков для них. Посмотрим на несколько первых записей c помощью `head`. Оставим только те признаки, которые мы будем в дальнейшем использовать.

In [None]:
df.head()

In [None]:
useful_cols = ['ad_id', 'campaign_id', 'fb_campaign_id', 'age', 
               'gender', 'interest1', 'interest2',
               'interest3', 'clicks', 'spent', 'total_conversion',
               'approved_conversion'
              ]
df[useful_cols].head()

Прежде чем мы перейдем к изучению методов библиотек `seaborn` и `plotly`, попробуем самый простой и зачастую удобный способ визуализировать данные из `dataframe` — это воспользоваться функцией `plot`. Посчитаем среднее время, которое пользователь потратил просматривая рекламные сообщения в каждой из кампаний. 

In [None]:
df[['campaign_id', 'spent']].groupby('campaign_id').mean().plot()

Но получившийся график не очень наглядный, сменим тип графика

In [None]:
df[['campaign_id', 'spent']].groupby('campaign_id').mean().plot(kind='bar', rot=45)

Посмотрим теперь на библиотеку для визуализации seaborn. 

Познакомимся с таким типом графиков как pair plot. Эта визуализация поможет нам посмотреть на одной картинке, как связаны между собой различные признаки.

In [None]:
# c svg pairplot браузер начинает тормозить
%config InlineBackend.figure_format = 'png' 
sns.pairplot(df[['clicks', 'spent', 'total_conversion', 
                 'approved_conversion']])

Также с помощью `seaborn` можно построить распределение, для примера посмотрим на распределение потраченного времени `spent`. Для этого построим __`distplot`__. 

In [None]:
%config InlineBackend.figure_format = 'svg' 
sns.distplot(df['total_conversion'])

Для того чтобы подробнее посмотреть на взаимосвязь двух численных признаков, есть еще и `joint_plot` – это гибрид `scatter plot` и `histogram`. 

In [None]:
sns.jointplot(x='spent', y='total_conversion', data=df, kind='scatter')

И еще один тип графиков (последний из тех, которые мы рассмотрим в этой статье) - это `heat map`. Heat map позволяет посмотреть на распределение какого-то численного признака по двум категориальным.

In [None]:
age_gender_conversion = df.pivot_table(
                        index='gender', 
                        columns='age', 
                        values='total_conversion', 
                        aggfunc=sum).fillna(0).applymap(float)

In [None]:
sns.heatmap(age_gender_conversion, annot=True, fmt=".1f", linewidths=.5)