# Формирование csv-файла по данным из запроса к Базе данных

***
Цель проекта - автоматизация анализа взаимодействия пользователей с карточками Яндекс.Дзен.
***
Мы пообщались с менеджерами и администраторами базы данных, по результатам встречи получили развернутой `Техническое задание`:
- Бизнес-задача: анализ взаимодействия пользователей с карточками Яндекс.Дзен;
- Насколько часто предполагается пользоваться дашбордом: не реже, чем раз в неделю;
- Кто будет основным пользователем дашборда: менеджеры по анализу контента;
- Состав данных для дашборда:
    - История событий по темам карточек (два графика - абсолютные числа и процентное соотношение);
    - Разбивка событий по темам источников;
    - Таблица соответствия тем источников темам карточек;
- По каким параметрам данные должны группироваться:
    - Дата и время;
    - Тема карточки;
    - Тема источника;
    - Возрастная группа;
- Характер данных:
    - История событий по темам карточек — абсолютные величины с разбивкой по минутам;
    - Разбивка событий по темам источников — относительные величины (% событий);
    - Соответствия тем источников темам карточек - абсолютные величины;
- Важность: все графики имеют равную важность;
- Источники данных для дашборда: дата-инженеры обещали подготовить для вас агрегирующую таблицу dash_visits. Вот её структура:
    - `record_id` — первичный ключ,
    - `item_topic` — тема карточки,
    - `source_topic` — тема источника,
    - `age_segment` — возрастной сегмент,
    - `dt` — дата и время,
    - `visits` — количество событий.
- Таблица хранится в специально подготовленной для вас базе данных `zen`;
- Частота обновления данных: один раз в сутки, в полночь по UTC.
***
**Последовательность действий**

- Шаг 1. Выгрузим данные из предоставленной база данных из таблицы `dash_visits` и сохраним в файл `dash_visits.csv`.
- Шаг 2. На основе полученного файлы `dash_visits.csv` сформировать дашборд в соответствии с формированным Техническим заданием. Для формирования дашборда предлагаю использовать Tableau Public.
- Шаг 3. Опубликуем дашборд на сайте Tableau Public.
- Шаг 4. Ответим на вопросы менеджеров и сформируем отчетную презентацию:
    - Cколько взаимодействий пользователей с карточками происходит в системе с разбивкой по темам карточек?
    - Как много карточек генерируют источники с разными темами?
    - Как соотносятся темы карточек и темы источников?
***
**Дашборд размещен по следующей ссылке** - [Просмотреть дашборд](https://public.tableau.com/views/DashboardAnalysisYaDzen_SemenovDV/DashboardAnalysisYaDzen?:language=en-US&publish=yes&:display_count=n&:origin=viz_share_link)
***
**Отчетная презентация по проекту** - [Просмотреть презентацию](https://disk.yandex.ru/i/Bp-wzEkdAGNplA)
***

In [1]:
#импортируем необходимые библиотеки
import pandas as pd
from sqlalchemy import create_engine

## Выгрузка данных

### Оформление запроса к базе данных

Для формирования дашборда необходимо выгрузить данные из БД. Данные размещены в таблице `dash_visits`.

In [2]:
#сформируем запрос к БД

db_config = {'user': 'praktikum_student', # имя пользователя
            'pwd': 'Sdf4$2;d-d30pp', # пароль
            'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
            'port': 6432, # порт подключения
            'db': 'data-analyst-zen-project-db'} # название базы данных

connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(db_config['user'],
                                                db_config['pwd'],
                                                db_config['host'],
                                                db_config['port'],
                                                db_config['db'])

engine = create_engine(connection_string)

query = ''' SELECT * FROM dash_visits '''

dash_visits = pd.io.sql.read_sql(query, con = engine)

In [3]:
#выведим информацию по полученной таблице
dash_visits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30745 entries, 0 to 30744
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   record_id     30745 non-null  int64         
 1   item_topic    30745 non-null  object        
 2   source_topic  30745 non-null  object        
 3   age_segment   30745 non-null  object        
 4   dt            30745 non-null  datetime64[ns]
 5   visits        30745 non-null  int64         
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 1.4+ MB


In [4]:
#выведим head и tail полученной таблицы
dash_visits

Unnamed: 0,record_id,item_topic,source_topic,age_segment,dt,visits
0,1040597,Деньги,Авто,18-25,2019-09-24 18:32:00,3
1,1040598,Деньги,Авто,18-25,2019-09-24 18:35:00,1
2,1040599,Деньги,Авто,18-25,2019-09-24 18:54:00,4
3,1040600,Деньги,Авто,18-25,2019-09-24 18:55:00,17
4,1040601,Деньги,Авто,18-25,2019-09-24 18:56:00,27
...,...,...,...,...,...,...
30740,1071337,Юмор,Финансы,36-40,2019-09-24 18:57:00,2
30741,1071338,Юмор,Финансы,36-40,2019-09-24 19:00:00,1
30742,1071339,Юмор,Финансы,41-45,2019-09-24 18:54:00,1
30743,1071340,Юмор,Финансы,41-45,2019-09-24 18:56:00,1


<b>Итог:</b>
- В полученной таблице представлено 30745 позиций. <b>Необходимо проверить на дубликаты и уникальность каждой позиций по колонке `record_id`</b>
- Все колонки названы корректно. <b>Переименовывать не требуется.</b>
- По полученной информации наблюдаем, что пропуска в данных отсутствуют.
- Предлагаю изучить какие данные нам предоставлены по колонкам `item_topic`, `source_topic` и `age_segment`.

## Предобработка и изучение данных

In [5]:
#проверим на дубликаты таблицу
print('Количество дубликатов в выгруженном датасете:', dash_visits.duplicated().sum())

Количество дубликатов в выгруженном датасете: 0


In [6]:
#проверим уникальность полученных записей по колонке `record_id'
print('Количество уникальных первичных ключей:', dash_visits['record_id'].nunique())

Количество уникальных первичных ключей: 30745


<b>Подитог:</b>

В выгруженном датасете отсутствуют дубликаты. А также количество уникальных ключей совпадает с количеством предоставленных записей в датасете.

In [7]:
#создадим фукнцию для формирования сводных таблиц
def pivot_dash_visits(column):
    pivot_dash_visits = dash_visits.pivot_table(index=column, values='record_id', aggfunc='count')
    pivot_dash_visits = pivot_dash_visits.rename(columns={'record_id': 'count'})
    pivot_dash_visits = pivot_dash_visits.reset_index().sort_values(by='count', ascending=False)
    return pivot_dash_visits

In [8]:
#создадим сводную таблицу по колонке 'item_topic' 
count_item_topic = pivot_dash_visits('item_topic')
count_item_topic

Unnamed: 0,item_topic,count
13,Отношения,1536
6,Интересные факты,1535
11,Наука,1505
14,Подборки,1456
15,Полезные советы,1424
12,Общество,1422
19,Россия,1385
8,История,1363
20,Семья,1287
17,Путешествия,1247


In [9]:
#создадим сводную таблицу по колонке 'source_topic' 
count_source_topic = pivot_dash_visits('source_topic')
count_source_topic

Unnamed: 0,source_topic,count
20,Семейные отношения,1822
17,Россия,1687
5,Знаменитости,1650
12,Полезные советы,1578
15,Путешествия,1563
9,Кино,1505
2,Дети,1459
8,История,1437
21,Семья,1405
11,Одежда,1379


In [10]:
#создадим сводную таблицу по колонке 'age_segment' 
count_age_segment = pivot_dash_visits('age_segment')
count_age_segment

Unnamed: 0,age_segment,count
0,18-25,7056
1,26-30,5875
2,31-35,5552
3,36-40,5105
4,41-45,3903
5,45+,3254


<b>Итог:</b>
- В выгруженном датасете отсутствуют дубликаты
- Количество уникальных ключей совпадает с количеством предоставленных записей в датасете равное `30745` позиций.
- Из представленных записей в датасете имеется 25 уникальных тем карточек, среди которых самым популярным является "Отношения" - 1536, а самой не популярной является тема "Шоу" - 904.
- Также 26 уканикальных тем источника, среди которых самый популярный источник "Семейные отношения" - 1822, а самый не популярный "Финансы" - 667;
- Самой популярной возрастной категорией в датасете является от 18 до 25 лет.

## Сохранение датасета в 'csv'

In [11]:
#экспортируем полученный датасет в файл формата *.csv
dash_visits.to_csv('dash_visits.csv', index=False)

In [12]:
#проверим экспорт данных в файл формата *.csv
check_file = pd.read_csv('dash_visits.csv')

In [13]:
#выведим head и tail датасета сформированного файла
check_file

Unnamed: 0,record_id,item_topic,source_topic,age_segment,dt,visits
0,1040597,Деньги,Авто,18-25,2019-09-24 18:32:00,3
1,1040598,Деньги,Авто,18-25,2019-09-24 18:35:00,1
2,1040599,Деньги,Авто,18-25,2019-09-24 18:54:00,4
3,1040600,Деньги,Авто,18-25,2019-09-24 18:55:00,17
4,1040601,Деньги,Авто,18-25,2019-09-24 18:56:00,27
...,...,...,...,...,...,...
30740,1071337,Юмор,Финансы,36-40,2019-09-24 18:57:00,2
30741,1071338,Юмор,Финансы,36-40,2019-09-24 19:00:00,1
30742,1071339,Юмор,Финансы,41-45,2019-09-24 18:54:00,1
30743,1071340,Юмор,Финансы,41-45,2019-09-24 18:56:00,1


<b>Итог:</b>
- выгруженные данные из БД перенесены в файл формата *.csv.
- по полученному файлу можно выполнять сбор дашборда.