# Описание проекта

Вы работаете аналитиком в Яндекс.Дзене. Почти всё ваше время занимает анализ пользовательского взаимодействия с карточками статей.

Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия».

Пользователей системы характеризует возрастная категория. Скажем, «26-30» или «45+».

Есть три способа взаимодействия пользователей с системой:

Карточка отображена для пользователя (show);
Пользователь кликнул на карточку (click);
Пользователь просмотрел статью карточки (view).

Каждую неделю начинающие менеджеры Денис и Валерия задают вам одни и те же вопросы:

Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
Как много карточек генерируют источники с разными темами?
Как соотносятся темы карточек и темы источников?

На шестую неделю работы вы решаете, что процесс пора автоматизировать. Для Дениса и Валерии нужно сделать дашборд.
Дашборд будет основываться на пайплайне, который будет брать данные из таблицы, в которых хранятся сырые данные, трансформировать данные и укладывать их в агрегирующую таблицу. Пайплайн будет разработан для вас дата-инженерами.

**Пообщавшись с менеджерами и администраторами баз данных, мы написали краткое ТЗ:**

1) Бизнес-задача: анализ взаимодействия пользователей с карточками Яндекс.Дзен;

2) Насколько часто предполагается пользоваться дашбордом: не реже, чем раз в неделю;

3) Кто будет основным пользователем дашборда: менеджеры по анализу контента;

4) Состав данных для дашборда:

История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
Разбивка событий по темам источников;
Таблица соответствия тем источников темам карточек;

5) По каким параметрам данные должны группироваться:

Дата и время;
Тема карточки;
Тема источника;
Возрастная группа;

6) Характер данных:

История событий по темам карточек — абсолютные величины с разбивкой по минутам;
Разбивка событий по темам источников — относительные величины (% событий);
Соответствия тем источников темам карточек - абсолютные величины;

7) Важность: все графики имеют равную важность;

8) Источники данных для дашборда: cырые данные о событиях взаимодействия пользователей с карточками (таблица log_raw);

9) База данных, в которой будут храниться агрегированные данные: дополнительные агрегированные таблицы в БД zen;

10) Частота обновления данных: один раз в сутки, в полночь по UTC;

11) Какие графики должны отображаться и в каком порядке, какие элементы управления должны быть на дашборде (макет дашборда).

# Выгрузка данных

Подключение к базе, sql-запрос и выгрузка данных из таблицы dash_visits в файл dash_visits.csv:

In [2]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-zen-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string)
query = '''
           SELECT *
           FROM log_raw
        '''

log_raw = pd.io.sql.read_sql(query, con=engine, index_col='event_id')

log_raw.to_csv(r'C:\Users\ADMIN\Downloads\10_automatization\dash_visits.csv', index=False)

log_raw.head(5)

Unnamed: 0_level_0,age_segment,event,item_id,item_topic,item_type,source_id,source_topic,source_type,ts,user_id
event_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2931262,18-25,show,1793260,Красота,native,8388799,История,publisher,1569349657638,2185026
2931277,18-25,show,7465641,Культура,native,5837959,История,publisher,1569349657971,6845238
2931285,18-25,show,406073,История,url,2335872,Сад и дача,domain,1569349658408,5244363
2931247,26-30,show,752665,Путешествия,native,6963489,Здоровье,publisher,1569349657189,7553074
2931278,26-30,click,6843081,Юмор,url,5427748,Семейные отношения,domain,1569349658054,1317585


# Создание Dashboard'a

В Tableau Public на основе файла dash_visits.csv сформирован дашборд в соответствии с макетом, описанным выше:

https://public.tableau.com/app/profile/viktor5801/viz/Dzen_Dashboard/Dzen_Dashboard?publish=yes

# Создание презентации

Результаты работы и ответы на вопросы менеджеров представлены в презентации:

https://disk.yandex.ru/i/1Z8QaVS-9_sFfw