# Анализ для Яндекс.Дзен

 1. Бизнес-задача: анализ взаимодействия пользователей с карточками Яндекс.Дзен;
 2. Насколько часто предполагается пользоваться дашбордом: не реже, чем раз в неделю;
 3. Кто будет основным пользователем дашборда: менеджеры по анализу контента;
 4. Состав данных для дашборда:
 - История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
 - Разбивка событий по темам источников;
 - Таблица соответствия тем источников темам карточек;
 5. По каким параметрам данные должны группироваться:
 - Дата и время;
 - Тема карточки;
 - Тема источника;
 - Возрастная группа;
 6. Характер данных:
 - История событий по темам карточек — абсолютные величины с разбивкой по минутам;
 - Разбивка событий по темам источников — относительные величины (% событий);
 - Соответствия тем источников темам карточек - абсолютные величины;
 7. Важность: все графики имеют равную важность;
 8. Источники данных для дашборда: cырые данные о событиях взаимодействия пользователей с карточками (таблица log_raw);
 9. База данных, в которой будут храниться агрегированные данные: дополнительные агрегированные таблицы в БД zen;
 10. Частота обновления данных: один раз в сутки, в полночь по UTC;
 11. Какие графики должны отображаться и в каком порядке, какие элементы управления должны быть на дашборде (макет дашборда):
 
![Untitled_-_2020-07-06T160925.436_1594041010%20%281%29.png](attachment:Untitled_-_2020-07-06T160925.436_1594041010%20%281%29.png)

12. В ходе работы мы должны предоставить ответы на вопросы, используя Tableau public:

- Cколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
- Как много карточек генерируют источники с разными темами?
- Как соотносятся темы карточек и темы источников?

In [1]:
pip install termcolor

Note: you may need to restart the kernel to use updated packages.


In [2]:
# Импортируем библиотеки
import pandas as pd
from sqlalchemy import create_engine
from termcolor import colored

print(colored('STATUS -- LIB_IMPORT: SUCCESS', 'green'))

[32mSTATUS -- LIB_IMPORT: SUCCESS[0m


In [3]:
# Создаем подключение к БД

db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-zen-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string) 

# Делаем запрос на все данные dash_visits

query = '''
            SELECT * FROM dash_visits
        '''

dash_visits = pd.io.sql.read_sql(query, con = engine) 

# Сохраняем файл на локальной машине

dash_visits.to_csv('dash_visits.csv')

print(colored('STATUS -- Data saved to directory: SUCCESS', 'green'))

[32mSTATUS -- Data saved to directory: SUCCESS[0m


In [4]:
# Укажем путь к файлу на локальной машине

dash_visits = pd.read_csv('C:\\Users\\Stanley\\Downloads\\dash_visits.csv')

print(colored('STATUS -- Data read: SUCCESS', 'green'))

[32mSTATUS -- Data read: SUCCESS[0m


In [5]:
# Посмотрим первые пять строк датафрейма

dash_visits.head()

Unnamed: 0.1,Unnamed: 0,record_id,item_topic,source_topic,age_segment,dt,visits
0,0,1040597,Деньги,Авто,18-25,2019-09-24 18:32:00,3
1,1,1040598,Деньги,Авто,18-25,2019-09-24 18:35:00,1
2,2,1040599,Деньги,Авто,18-25,2019-09-24 18:54:00,4
3,3,1040600,Деньги,Авто,18-25,2019-09-24 18:55:00,17
4,4,1040601,Деньги,Авто,18-25,2019-09-24 18:56:00,27


In [6]:
# Посмотрим информацию о датафрейме

dash_visits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30745 entries, 0 to 30744
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Unnamed: 0    30745 non-null  int64 
 1   record_id     30745 non-null  int64 
 2   item_topic    30745 non-null  object
 3   source_topic  30745 non-null  object
 4   age_segment   30745 non-null  object
 5   dt            30745 non-null  object
 6   visits        30745 non-null  int64 
dtypes: int64(3), object(4)
memory usage: 1.6+ MB


In [7]:
# Посмотрим значения в item_topic

dash_visits['item_topic'].value_counts()

Отношения             1536
Интересные факты      1535
Наука                 1505
Подборки              1456
Полезные советы       1424
Общество              1422
Россия                1385
История               1363
Семья                 1287
Путешествия           1247
Деньги                1234
Женщины               1230
Дети                  1229
Туризм                1206
Здоровье              1203
Красота               1193
Культура              1160
Юмор                  1129
Искусство             1119
Рассказы              1109
Психология            1056
Скандалы              1023
Знаменитости           976
Женская психология     914
Шоу                    804
Name: item_topic, dtype: int64

In [8]:
# Посмотрим значения в source_topic

dash_visits['source_topic'].value_counts()

Семейные отношения    1822
Россия                1687
Знаменитости          1650
Полезные советы       1578
Путешествия           1563
Кино                  1505
Дети                  1459
История               1437
Семья                 1405
Одежда                1379
Здоровье              1243
Искусство             1228
Авто                  1077
Психология            1055
Сад и дача            1036
Политика              1024
Спорт                 1007
Сделай сам             995
Ремонт                 985
Деньги                 973
Еда                    912
Интерьеры              809
Строительство          758
Музыка                 750
Технологии             741
Финансы                667
Name: source_topic, dtype: int64

In [9]:
# Посмотрим значения в age_segment

dash_visits['age_segment'].value_counts()

18-25    7056
26-30    5875
31-35    5552
36-40    5105
41-45    3903
45+      3254
Name: age_segment, dtype: int64

In [10]:
# Посмотрим есть дли явные дубликаты

dash_visits.duplicated().sum()

0

In [11]:
# Посмотрим начальную и конечную дату в логах

display(dash_visits['dt'].min())
display(dash_visits['dt'].max())

'2019-09-24 18:28:00'

'2019-09-24 19:00:00'

<b>Вывод по полученным данным:</b>

1. Мы получили файл dash_visits.csv подключившись к базе данных и написав запрос на выгрузку.


2. Проанализировав данные распишем значения в столбцах:

- <b>Unnamed: 0</b> хранит в себе уникальный id строки
- <b>record_id</b> хранит в себе уникальный id записи яндекс.дзен
- <b>item_topic</b> хранит в себе тему записи яндекс.дзен
- <b>source_topic</b> хранит в себе источник яндекс.дзен
- <b>age_segment</b> хранит в себе возрастной диапозон
- <b>dt</b> хранит в себе дату и время
- <b>visits</b> хранит в себе количество визитов

3. Пропусков в данных нет.


4. Явные дубликаты в данных не обнаружено.


5. Все события происходят в интервале 32 минуты.

----

<b>Первичный анализ данных завершен, переходим к работе в Tableau public.</b>