## Составление технического задания

Вы работаете аналитиком в Яндекс.Дзене. Почти всё ваше время занимает анализ пользовательского взаимодействия с карточками статей.

Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия».

Пользователей системы характеризует возрастная категория. Скажем, «26-30» или «45+».

Есть три способа взаимодействия пользователей с системой:

1. Карточка отображена для пользователя (show);
2. Пользователь кликнул на карточку (click);
3. Пользователь просмотрел статью карточки (view).

Каждую неделю начинающие менеджеры Денис и Валерия задают вам одни и те же вопросы:

Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?

Как много карточек генерируют источники с разными темами?

Как соотносятся темы карточек и темы источников?

На шестую неделю работы вы решаете, что процесс пора автоматизировать. Для Дениса и Валерии нужно сделать дашборд.
Дашборд будет основываться на пайплайне, который будет брать данные из таблицы, в которых хранятся сырые данные, трансформировать данные и укладывать их в агрегирующую таблицу. Пайплайн будет разработан для вас дата-инженерами.

Пообщавшись с менеджерами и администраторами баз данных, мы написали краткое ТЗ**:

- Бизнес-задача: анализ взаимодействия пользователей с карточками Яндекс.Дзен;

- Насколько часто предполагается пользоваться дашбордом: не реже, чем раз в неделю;

- Кто будет основным пользователем дашборда: менеджеры по анализу контента;

- Состав данных для дашборда: История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
Разбивка событий по темам источников;
Таблица соответствия тем источников темам карточек;

- По каким параметрам данные должны группироваться:
Дата и время;
Тема карточки;
Тема источника;
Возрастная группа;

- Характер данных:
История событий по темам карточек — абсолютные величины с разбивкой по минутам;
Разбивка событий по темам источников — относительные величины (% событий);
Соответствия тем источников темам карточек - абсолютные величины;

- Важность: все графики имеют равную важность;

- Источники данных для дашборда: cырые данные о событиях взаимодействия пользователей с карточками (таблица log_raw);

- База данных, в которой будут храниться агрегированные данные: дополнительные агрегированные таблицы в БД zen;

- Частота обновления данных: один раз в сутки, в полночь по UTC;

- Какие графики должны отображаться и в каком порядке, какие элементы управления должны быть на дашборде (макет дашборда):

## Выгрузка данных

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
%%capture
!pip install SQLAlchemy
!pip install --upgrade SQLAlchemy
!python -m pip install psycopg2-binary 

In [3]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
 
db_config = {'user': 'praktikum_student',         # имя пользователя
             'pwd': 'Sdf4$2;d-d30pp', # пароль
             'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
             'port': 6432,              # порт подключения
             'db': 'data-analyst-zen-project-db'}          # название базы данных
 
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                         db_config['pwd'],
                                                         db_config['host'],
                                                         db_config['port'],
                                                         db_config['db'])
 
engine = create_engine(connection_string) 
 
query = '''
        SELECT * FROM dash_visits 
        '''
 
dash_visits = pd.io.sql.read_sql(query, con = engine) 
 
dash_visits.to_csv('dash_visits.csv')

AttributeError: 'OptionEngine' object has no attribute 'execute'

В Tableau Public на основе файла dash_visits.csv сформируем <b>дашборд</b> в соответствии с макетом, описанным выше:

https://public.tableau.com/views/dashboard_16711975372410/Dashboard1?:language=en-US&publish=yes&:display_count=n&:origin=viz_share_link

Ответим на вопросы менеджеров, используя дашборд: Cколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек? Как много карточек генерируют источники с разными темами? Как соотносятся темы карточек и темы источников? Результаты работы и ответы на вопрос сохраним в <b>презентации</b>:

https://disk.yandex.ru/i/ALy60YYlewYqtA