# Самостоятельный проект

## Анализ пользовательского взаимодействия с карточками статей  в Яндекс.Дзене

### Составление технического задания

Вы работаете аналитиком в Яндекс.Дзене. Почти всё ваше время занимает анализ пользовательского взаимодействия с карточками статей.
Каждую карточку определяют её тема и источник (у него тоже есть тема). Примеры тем: «Красота и здоровье», «Россия», «Путешествия».
Пользователей системы характеризует возрастная категория. Скажем, «26-30» или «45+».
Есть три способа взаимодействия пользователей с системой:
* Карточка отображена для пользователя (show);
* Пользователь кликнул на карточку (click);
* Пользователь просмотрел статью карточки (view).


Каждую неделю начинающие менеджеры Денис и Валерия задают вам одни и те же вопросы:
* Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
* Как много карточек генерируют источники с разными темами?
* Как соотносятся темы карточек и темы источников?

**краткое ТЗ:**
Бизнес-задача: анализ взаимодействия пользователей с карточками Яндекс.Дзен;
Насколько часто предполагается пользоваться дашбордом: не реже, чем раз в неделю;
Кто будет основным пользователем дашборда: менеджеры по анализу контента;


Состав данных для дашборда:
* История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
* Разбивка событий по темам источников;
* Таблица соответствия тем источников темам карточек;


По каким параметрам данные должны группироваться:
* Дата и время;
* Тема карточки;
* Тема источника;
* Возрастная группа;


Характер данных:
* История событий по темам карточек — абсолютные величины с разбивкой по минутам;
* Разбивка событий по темам источников — относительные величины (% событий);
* Соответствия тем источников темам карточек - абсолютные величины;
* Важность: все графики имеют равную важность;


Источники данных для дашборда: дата-инженеры обещали подготовить для вас агрегирующую таблицу dash_visits. 
Вот её структура:
* record_id — первичный ключ,
* item_topic — тема карточки,
* source_topic — тема источника,
* age_segment — возрастной сегмент,
* dt — дата и время,
* visits — количество событий.

Таблица хранится в специально подготовленной для вас базе данных zen;

Частота обновления данных: один раз в сутки, в полночь по UTC;

Какие графики должны отображаться и в каком порядке, какие элементы управления должны быть на дашборде (макет дашборда).

**Подключимся к серверу, выполним SQL запрос на получение всех записей из таблицы dash_visits и сохраняем данные в dash_visits.csv. По описанию задачи, предобработку данных делать не нужно, форматы подходят для создания визуализации, поэтому получив .csv приступаю к выполнению задания в Tableau**



In [4]:
# импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine

db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-zen-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string) 
# сделаем заппрос, сохраним результат в файл
query = ''' SELECT * 
            FROM dash_visits
        '''
dash_visits = pd.io.sql.read_sql(query, con=engine)
dash_visits.to_csv('dash_visits.csv', index=False)
dash_visits.head()

Unnamed: 0,record_id,item_topic,source_topic,age_segment,dt,visits
0,1040597,Деньги,Авто,18-25,2019-09-24 18:32:00,3
1,1040598,Деньги,Авто,18-25,2019-09-24 18:35:00,1
2,1040599,Деньги,Авто,18-25,2019-09-24 18:54:00,4
3,1040600,Деньги,Авто,18-25,2019-09-24 18:55:00,17
4,1040601,Деньги,Авто,18-25,2019-09-24 18:56:00,27




**Ответьте на вопросы менеджеров, используя дашборд:**
* Cколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
* Как много карточек генерируют источники с разными темами?
* Как соотносятся темы карточек и темы источников?

Ниже будут ссылки на дашборд и презентацию с ответами на эти вопросы 



# Презентация

PDF:  <a href="https://disk.yandex.ru/i/PFLsfnKkuxt2NA">на Яндекс диске</a>

# Дашборд

Tableau: <a href="https://public.tableau.com/app/profile/dmitry4380/viz/__16717863437040/sheet4?publish=yes">тут</a>