**Название проекта:**

Создание дашборда по пользовательским событиям для агрегатора новостей

**ТЗ:**

- *Бизнес-задача:* анализ взаимодействия пользователей с карточками Яндекс.Дзен;

- *Насколько часто предполагается пользоваться дашбордом:* не реже, чем раз в неделю;

- *Кто будет основным пользователем дашборда:* менеджеры по анализу контента;

- *Состав данных для дашборда:*
 - История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
 - Разбивка событий по темам источников;
 - Таблица соответствия тем источников темам карточек;

- *По каким параметрам данные должны группироваться:*
 - Дата и время;
 - Тема карточки;
 - Тема источника;
 - Возрастная группа;

- *Характер данных:* 
 - История событий по темам карточек — абсолютные величины с разбивкой по минутам;
 - Разбивка событий по темам источников — относительные величины (% событий);
 - Соответствия тем источников темам карточек - абсолютные величины;

- *Важность:* все графики имеют равную важность;

- *Источники данных для дашборда:* cырые данные о событиях взаимодействия пользователей с карточками;

- *Частота обновления данных:* один раз в сутки, в полночь по UTC



**Краткое описание проекта:**

Я - аналитик в Яндекс.Дзене. Почти всё рабочее время занимает анализ пользовательского взаимодействия с карточками статей. Каждую неделю начинающие менеджеры Денис и Валерия задают мне одни и те же вопросы про взаимодействие пользователей с карточками. На шестую неделю работы я решаю, что процесс пора автоматизировать. Для Дениса и Валерии нужно сделать дашборд.
Дашборд будет основываться на пайплайне, который будет брать данные из таблицы, в которых хранятся сырые данные, трансформировать данные и укладывать их в агрегирующую таблицу. Пайплайн будет разработан дата-инженерами.



**Ссылка на работу:**

[Дашборд](https://public.tableau.com/app/profile/alla7041/viz/analysisforYandex_Dzen/Dashboard1#1) и [Презентация](https://disk.yandex.ru/i/WtdLtA0OF_O5zA)

# 1. Загрузка данных и создание коннекции к базе

In [None]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

In [None]:
# создаем коннекцию к базе
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-zen-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string)

In [None]:
query = '''SELECT * FROM dash_visits'''

In [None]:
dash_visits = pd.io.sql.read_sql(query, con = engine)

In [None]:
dash_visits.to_csv('dash_visits.csv', index=False)

In [None]:
# выгружаем файл
from google.colab import files
files.download("dash_visits.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# 2. Обзор данных

In [None]:
# посмотрим общую информацию
dash_visits.info()
dash_visits.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30745 entries, 0 to 30744
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   record_id     30745 non-null  int64         
 1   item_topic    30745 non-null  object        
 2   source_topic  30745 non-null  object        
 3   age_segment   30745 non-null  object        
 4   dt            30745 non-null  datetime64[ns]
 5   visits        30745 non-null  int64         
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 1.4+ MB


Unnamed: 0,record_id,item_topic,source_topic,age_segment,dt,visits
0,1040597,Деньги,Авто,18-25,2019-09-24 18:32:00,3
1,1040598,Деньги,Авто,18-25,2019-09-24 18:35:00,1
2,1040599,Деньги,Авто,18-25,2019-09-24 18:54:00,4
3,1040600,Деньги,Авто,18-25,2019-09-24 18:55:00,17
4,1040601,Деньги,Авто,18-25,2019-09-24 18:56:00,27


In [None]:
# посмотрим минимальную дату
dash_visits['dt'].min()

Timestamp('2019-09-24 18:28:00')

In [None]:
# посмотрим максимальную дату
dash_visits['dt'].max()

Timestamp('2019-09-24 19:00:00')