# Анализ пользовательского взаимодействия с карточками статей

## Вводные данные

У аналитиков в в Яндекс.Дзене почти всё время занимает анализ пользовательского взаимодействия с карточками статей.
Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия».
Пользователей системы характеризует возрастная категория. Скажем, «26-30» или «45+».
Есть три способа взаимодействия пользователей с системой:
Карточка отображена для пользователя (show);
Пользователь кликнул на карточку (click);
Пользователь просмотрел статью карточки (view).

Регулярно поступают следующие вопросы:
Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
Как много карточек генерируют источники с разными темами?
Как соотносятся темы карточек и темы источников?

Необходимо создать дашборд с ответами на данные вопросы

### Планы исследования

1. Загрузим и подготовим данные к анализу - выгрузим данные из таблицы dash_visits в файл dash_visits.csv;
2. В Tableau Public на основе файла dash_visits.csv сформируем дашборд в соответствии с согласованным ТЗ;
3. Ответим на заданные вопросы и подготовим презентацию

## Загрузка и подготовка данных к анализу

Загрузим необходимые библиотеки и переданный нам датасет

In [3]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': '******', # имя пользователя
            'pwd': '*****', # пароль
            'host': '******',
            'port': ****, # порт подключения
            'db': '******'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string) 

In [4]:
query = '''
            SELECT *
            FROM dash_visits
        '''

In [5]:
dash_visits = pd.io.sql.read_sql(query, con = engine) 

In [6]:
print('Таблица dash_visits (информация о карточках и темах)')
#Просмотрим общую информацию о данных

print (' ')
print ('Общая информация о данных')
dash_visits.info()

#Просмотрим данные функцией describle

print (' ')
print ('Описание данных')
print(dash_visits.describe())
print (' ')

# Применим случайную выборку данных для первичного ознакомления
# Укажем параметр random_state=1, для сохранения результата при повторных запусках алгоритма, если нам
# вдруг понадобится

print ('Случайная выборка данных')
dash_visits.sample(5, random_state=1)

Таблица dash_visits (информация о карточках и темах)
 
Общая информация о данных
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30745 entries, 0 to 30744
Data columns (total 6 columns):
record_id       30745 non-null int64
item_topic      30745 non-null object
source_topic    30745 non-null object
age_segment     30745 non-null object
dt              30745 non-null datetime64[ns]
visits          30745 non-null int64
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 1.4+ MB
 
Описание данных
          record_id        visits
count  3.074500e+04  30745.000000
mean   1.055969e+06     10.089673
std    8.875461e+03     19.727601
min    1.040597e+06      1.000000
25%    1.048283e+06      1.000000
50%    1.055969e+06      3.000000
75%    1.063655e+06     10.000000
max    1.071341e+06    371.000000
 
Случайная выборка данных


Unnamed: 0,record_id,item_topic,source_topic,age_segment,dt,visits
12599,1053196,Культура,Полезные советы,26-30,2019-09-24 19:00:00,1
10691,1051288,История,Спорт,18-25,2019-09-24 19:00:00,4
8682,1049279,Искусство,История,31-35,2019-09-24 19:00:00,2
23712,1064309,Рассказы,Семейные отношения,26-30,2019-09-24 18:54:00,17
6192,1046789,Знаменитости,Музыка,18-25,2019-09-24 18:29:00,1


Агрегированная таблица dash_visits содержит:
- record_id — идентификатор пользователя;
- item_topic — название темы;
- source_topic — название источника;
- age_segment — возрастная категория;
- dt — время визита;
- visits — количество посещений.

In [9]:
# выгрузим подготовленные данные
dash_visits.to_csv('dash_visits.csv', index=False)

## Выводы

Мы выполнили часть работы в Jupyter Notebook. Дальнейшую работу по сбору дашборда проведем на сайте Tableau Public

**Ссылка на дашборд на сайте Tableau Public:**  <https://public.tableau.com/app/profile/igor.lundyshev/viz/_16389893109480/sheet4?publish=yes>