<font size="+4">Дашборд для Дзена</font>

Роль на проекте — аналитик в [Дзене](https://zen.yandex.ru/).

Почти всё время аналитика занимает анализ пользовательского взаимодействия с карточками статей.  
Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия».  
Пользователей системы характеризует возрастная категория. Например, «26-30» или «45+».  

Есть три способа взаимодействия пользователей с системой:
- Карточка отображена для пользователя (show);
- Пользователь кликнул на карточку (click);
- Пользователь просмотрел статью карточки (view).

Каждую неделю начинающие менеджеры Денис и Валерия задают аналитику одни и те же вопросы: 
- Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
- Как много карточек генерируют источники с разными темами?
- Как соотносятся темы карточек и темы источников?

Для Дениса и Валерии нужно сделать дашборд.  
Дашборд будет основываться на пайплайне, который будет брать данные из таблицы, в которых хранятся сырые данные, трансформировать данные и укладывать их в агрегирующую таблицу.

<font size="+3">Техническое задание</font>
- Бизнес-задача: анализ взаимодействия пользователей с карточками [Дзена](https://zen.yandex.ru/);
- Насколько часто предполагается пользоваться дашбордом: не реже, чем раз в неделю;
- Кто будет основным пользователем дашборда: менеджеры по анализу контента;
- Состав данных для дашборда:
    - История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
    - Разбивка событий по темам источников;
    - Таблица соответствия тем источников темам карточек.
- По каким параметрам данные должны группироваться:
    - Дата и время;
    - Тема карточки;
    - Тема источника;
    - Возрастная группа.
- Характер данных:
    - История событий по темам карточек — абсолютные величины с разбивкой по минутам;
    - Разбивка событий по темам источников — относительные величины (% событий);
    - Соответствия тем источников темам карточек — абсолютные величины.
- Важность: все графики имеют равную важность;
- Источники данных для дашборда: дата-инженеры обещали подготовить агрегирующую таблицу dash_visits. Структура dash_visits:
    - `record_id` — первичный ключ;
    - `item_topic` — тема карточки;
    - `source_topic` — тема источника;
    - `age_segment` — возрастной сегмент;
    - `dt` — дата и время;
    - `visits` — количество событий.
- Таблица хранится в базе данных zen;
- Частота обновления данных: один раз в сутки, в полночь по UTC;
- Какие графики должны отображаться и в каком порядке, какие элементы управления должны быть на дашборде (макет дашборда):

![макет дашборда](https://pictures.s3.yandex.net/resources/Untitled_-_2020-07-06T160925.436_1594041010.png)


In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import text, create_engine

In [2]:
# устанавливаем параметры
db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-zen-project-db'} # название базы данных

In [3]:
# Формируем строку соединения с БД
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db'],
)

In [4]:
# Подключаемся к БД.
engine = create_engine(connection_string)

In [5]:
# Формируем sql-запрос к dash_visits
query = ''' SELECT *
            FROM dash_visits
        '''

In [6]:
# Выполняем запрос и сохраняем результат
# выполнения в DataFrame df
df = pd.io.sql.read_sql(query, con = engine, index_col='record_id') 

In [7]:
df.head(5) # Вывод последних 5 строк для первичного ознакомления с датасетом

Unnamed: 0_level_0,item_topic,source_topic,age_segment,dt,visits
record_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1040597,Деньги,Авто,18-25,2019-09-24 18:32:00,3
1040598,Деньги,Авто,18-25,2019-09-24 18:35:00,1
1040599,Деньги,Авто,18-25,2019-09-24 18:54:00,4
1040600,Деньги,Авто,18-25,2019-09-24 18:55:00,17
1040601,Деньги,Авто,18-25,2019-09-24 18:56:00,27


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 30745 entries, 1040597 to 1071341
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   item_topic    30745 non-null  object        
 1   source_topic  30745 non-null  object        
 2   age_segment   30745 non-null  object        
 3   dt            30745 non-null  datetime64[ns]
 4   visits        30745 non-null  int64         
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 1.4+ MB


In [9]:
df.to_csv('datasets\dash_visits.csv')