# Дашборд для Яндекс.Дзен

# Описание проекта

Вы работаете аналитиком в Яндекс.Дзене. Почти всё ваше время занимает анализ пользовательского взаимодействия с карточками статей.

Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия». А пользователей системы характеризует возрастная категория.

Есть три способа взаимодействия пользователей с системой:

- Карточка отображена для пользователя (show);
- Пользователь кликнул на карточку (click);
- Пользователь просмотрел статью карточки (view).

Каждую неделю начинающие менеджеры Денис и Валерия задают вам одни и те же вопросы:

- Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
- Как много карточек генерируют источники с разными темами?
- Как соотносятся темы карточек и темы источников?

На шестую неделю работы вы решаете, что процесс пора автоматизировать. Для Дениса и Валерии нужно сделать дашборд.

Дашборд будет основываться на пайплайне, который будет брать данные из таблицы, в которых хранятся сырые данные, трансформировать данные и укладывать их в агрегирующую таблицу. Пайплайн будет разработан для вас дата-инженерами.

# Краткое ТЗ для создания дашборда:

**Бизнес-задача:** анализ взаимодействия пользователей с карточками Яндекс.Дзен;
**Насколько часто предполагается пользоваться дашбордом:** не реже, чем раз в неделю;
**Кто будет основным пользователем дашборда:** менеджеры по анализу контента.

**Состав данных для дашборда:**

- История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
- Разбивка событий по темам источников;
- Таблица соответствия тем источников темам карточек;

**По каким параметрам данные должны группироваться:**

- Дата и время;
- Тема карточки;
- Тема источника;
- Возрастная группа;
- Характер данных.

История событий по темам карточек — абсолютные величины с разбивкой по минутам; Разбивка событий по темам источников — относительные величины (% событий); Соответствия тем источников темам карточек - абсолютные величины;

**Важность:** все графики имеют равную важность;

**Источники данных для дашборда:**
Сырые данные о событиях взаимодействия пользователей с карточками (таблица dash_visits);

**База данных, в которой будут храниться агрегированные данные:**
Дополнительные агрегированные таблицы в БД zen;

**Частота обновления данных:**
Один раз в сутки, в полночь по UTC;

# Задачи проекта

1. Получить данные из базы данных
2. Создать дашборд на основе полученных данных
3. Ответить на вопросы менеджеров в виде презентации:

- Cколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
- Как много карточек генерируют источники с разными темами?
- Как соотносятся темы карточек и темы источников?

In [1]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
from IPython.display import Image

## Макет дашборда

In [2]:
Image(url='https://pictures.s3.yandex.net/resources/Untitled_-_2020-07-06T160925.436_1594041010.png')

In [3]:
#коннектимся к базе
db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-zen-project-db'} # название базы данных

#запрашиваем сырые данные
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string)

In [4]:
# делаем sql запрос

query = '''
           SELECT *
           FROM dash_visits
        '''

dash_visits = pd.io.sql.read_sql(query, con=engine)

In [6]:
# преобразуем в csv
dash_visits.to_csv('https://code.s3.yandex.net/datasets/dash_visits.csv', index = False)

HTTPError: HTTP Error 404: Not Found

In [None]:
dash_visits.head(5) 

In [None]:
# посмотрим основную информацию
print(dash_visits.info())
print('\n')
print(dash_visits.describe())

In [None]:
# проверим на явные дубликаты
dash_visits.duplicated().sum()

In [None]:
# посмотрим на темы карточек 
dash_visits['item_topic'].value_counts()

In [None]:
# посмотрим на темы источников
dash_visits['source_topic'].value_counts()

In [None]:
# посмотрим на возрастные группы
dash_visits['age_segment'].value_counts()

In [None]:
# посмотрим за какой период получены данные
print(dash_visits['dt'].min(), '||', dash_visits['dt'].max())

# Дашборд

https://public.tableau.com/views/nv_zaharov_yandex_dzen/Dashboard1?:language=en-US&:display_count=n&:origin=viz_share_link

# Презентация

https://disk.yandex.ru/i/nytqRcLY1tIAkA

# Общий вывод

Для построенния дашборда получили данные по посещениям карточек Яндекс.Дзена за период с 18:28:00 по 19:00:00, 24 сентября 2019 года.

Построив дашборд мы можем отметить следующие посещения карточек:

На самый пик событий приходится суммарно 61.247 посещений.

**Топ-5 наиболее популярных тем карточек:**

- Наука (4.372 посещения)
- Отношения (4.145 посещений)
- Интересные факты (3.910 посещений)
- Общество (3.723 посещений)
- Подборки (3.520 посещений)

**Топ-5 наименее популярных тем карточек:**

- Знаменитости (1.463 посещения)
- Шоу (1.485 посещений)
- Женская психология (1.518 посещений)
- Психология (1.538 посещений)
- Искусство (1.707 посещений)

**По теме источников генерируют следующие количества посещенений:**

**Топ-5 наиболее популярных тем источников:**

- Семейные отношения (10-11% посещений)
- Россия (9-10% посещений)
- Полезные советы (8-9% посещений)
- Путешествия (7-8% посещений)
- Знаменитости (7-8% посещений)

**Топ-5 наименее популярных тем источников:**

- Финансы (0.8-1% посещений)
- Музыка (0.8-1% посещений)
- Строительство (0.8-1% посещений)
- Технологии (1% посещений)
- Интерьеры (1.24% посещений)

**Топ-5 наиболее популярных связок «источник - тема карточки»:**

- Путешествия - Рассказы (4.587 посещений)
- Россия - Общество (3.471 посещение)
- Кино - Наука (3.279 посещений)
- Россия - Россия (2.847 посещений)
- Полезные советы - Подборки (2.795 посещений)