# Анализ пользовательского взаимодействия в Яндекс.Дзен (User interaction analysis)

### Описание проекта

Имеются данные взаимодействия пользователей с карточками статей сервиса Яндекс.Дзен

**Цель проекта:** Провести анализ пользовательского взаимодействия с карточками статей и ответить на вопросы менеджеров:

* Сколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
* Как много карточек генерируют источники с разными темами?
* Как соотносятся темы карточек и темы источников?

**Задача проекта:** Для решения поставленной цели необходимо автоматизировать процесс и построить дашборд для анализа.

Пользователи разбиты на разные возрастные группы.

Планируемый состав данных для дашборда:

* История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
* Разбивка событий по темам источников;
* Таблица соответствия тем источников темам карточек;

Данные будут группироваться по параметрам:

* Дата и время;
* Тема карточки;
* Тема источника;
* Возрастная группа;

Характер данных:

* История событий по темам карточек — абсолютные величины с разбивкой по минутам;
* Разбивка событий по темам источников — относительные величины (% событий);
* Соответствия тем источников темам карточек - абсолютные величины;

Все графики имеют одинаковую важность.

Частота обновления данных: один раз в сутки, в полночь по UTC.

### Подготовка данных

Устанавливаем необходимую библиотеку

In [1]:
!pip install psycopg2



Импортируем библиотеки

In [2]:
import pandas as pd
from sqlalchemy import create_engine

Выгружаем таблицу из базы данных

In [3]:
db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-zen-project-db'} # название базы данных
 
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])
 
engine = create_engine(connection_string) 
 
query = query = ''' SELECT *
            FROM dash_visits
        '''
 
dash_visits = pd.io.sql.read_sql(query, con = engine) 
dash_visits.to_csv('dash_visits.csv', index=False) 

### Дашборд

Для ответа на вопросы был сделан дашборд в **Tableau Public**, который можно посмотреть по <a href=" https://public.tableau.com/app/profile/mikhail6624/viz/Project_yandex_16611638341260/Dashboard1?publish=yes">ссылке</a>

### Презентация

По итогам исследования подготовлена презентация. Ее можно посмотреть по ссылке: 
<a href=" https://docs.google.com/presentation/d/124_QYDiKBbdLur19yl86p0093WgeQxJ3yk3bwUQp1XQ/edit?usp=sharing">презентация</a>
