# Data upload from a remote server database

__Task__:
Get data from a Yandex remote server for a Tableau dashboard.

__Steps__:
1. Connect to a database at a Yandex remote server.
1. Upload raw data.
1. Make raw data Tableau-readable.
1. Export in a `.csv` format.

In [29]:
# install missed local lib

In [1]:
pip install psycopg2-binary

Note: you may need to restart the kernel to use updated packages.


In [13]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

## Yandex remote server connection

In [3]:
# connection info 
db_config = {
    'user': 'praktikum_student',      
    'pwd': 'Sdf4$2;d-d30pp', 
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432,              
    'db': 'data-analyst-zen-project-db'
}

# connection string
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db']
) 

# connection to db
engine = create_engine(connection_string)

## Data upload

In [4]:
# request to db
query = ''' SELECT *
            FROM dash_visits
        '''

In [5]:
# data upload to dataframe
zen_df = pd.io.sql.read_sql(
    query,
    con = engine
)

## Raw data preparation

In [6]:
zen_df.head()

Unnamed: 0,record_id,item_topic,source_topic,age_segment,dt,visits
0,1040597,Деньги,Авто,18-25,2019-09-24 18:32:00,3
1,1040598,Деньги,Авто,18-25,2019-09-24 18:35:00,1
2,1040599,Деньги,Авто,18-25,2019-09-24 18:54:00,4
3,1040600,Деньги,Авто,18-25,2019-09-24 18:55:00,17
4,1040601,Деньги,Авто,18-25,2019-09-24 18:56:00,27


In [7]:
zen_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30745 entries, 0 to 30744
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   record_id     30745 non-null  int64         
 1   item_topic    30745 non-null  object        
 2   source_topic  30745 non-null  object        
 3   age_segment   30745 non-null  object        
 4   dt            30745 non-null  datetime64[ns]
 5   visits        30745 non-null  int64         
dtypes: datetime64[ns](1), int64(2), object(3)
memory usage: 1.4+ MB


In [8]:
zen_df.dt.describe()

  """Entry point for launching an IPython kernel.


count                   30745
unique                     17
top       2019-09-24 18:58:00
freq                     3383
first     2019-09-24 18:28:00
last      2019-09-24 19:00:00
Name: dt, dtype: object

In [9]:
zen_df.item_topic.unique()

array(['Деньги', 'Дети', 'Женская психология', 'Женщины', 'Здоровье',
       'Знаменитости', 'Интересные факты', 'Искусство', 'История',
       'Красота', 'Культура', 'Наука', 'Общество', 'Отношения',
       'Подборки', 'Полезные советы', 'Психология', 'Путешествия',
       'Рассказы', 'Россия', 'Семья', 'Скандалы', 'Туризм', 'Шоу', 'Юмор'],
      dtype=object)

In [10]:
zen_df.source_topic.unique()

array(['Авто', 'Деньги', 'Дети', 'Еда', 'Здоровье', 'Знаменитости',
       'Интерьеры', 'Искусство', 'История', 'Кино', 'Музыка', 'Одежда',
       'Полезные советы', 'Политика', 'Психология', 'Путешествия',
       'Ремонт', 'Россия', 'Сад и дача', 'Сделай сам',
       'Семейные отношения', 'Семья', 'Спорт', 'Строительство',
       'Технологии', 'Финансы'], dtype=object)

In [11]:
zen_df.age_segment.unique()

array(['18-25', '26-30', '31-35', '36-40', '41-45', '45+'], dtype=object)

There are no missed values or columns with wrong data types in dataframe.   
Dataframe is ready to export.

In [19]:
zen_df

Unnamed: 0,record_id,item_topic,source_topic,age_segment,dt,visits
0,1040597,Деньги,Авто,18-25,2019-09-24 18:32:00,3
1,1040598,Деньги,Авто,18-25,2019-09-24 18:35:00,1
2,1040599,Деньги,Авто,18-25,2019-09-24 18:54:00,4
3,1040600,Деньги,Авто,18-25,2019-09-24 18:55:00,17
4,1040601,Деньги,Авто,18-25,2019-09-24 18:56:00,27
...,...,...,...,...,...,...
30740,1071337,Юмор,Финансы,36-40,2019-09-24 18:57:00,2
30741,1071338,Юмор,Финансы,36-40,2019-09-24 19:00:00,1
30742,1071339,Юмор,Финансы,41-45,2019-09-24 18:54:00,1
30743,1071340,Юмор,Финансы,41-45,2019-09-24 18:56:00,1


In [26]:
zen_df.groupby('item_topic')['visits'].sum().sort_values(ascending=False).to_excel('item_topic.xls')

In [25]:
zen_df.groupby('item_topic')['visits'].sum().sort_values(ascending=False)

item_topic
Наука                 21736
Отношения             20666
Интересные факты      19942
Общество              19640
Подборки              17772
Россия                16966
Полезные советы       15435
История               15389
Семья                 11897
Женщины               11499
Дети                  10989
Рассказы              10909
Здоровье              10399
Деньги                10291
Культура              10205
Красота                9814
Туризм                 9512
Юмор                   9398
Скандалы               9294
Путешествия            9260
Искусство              8516
Психология             8036
Женская психология     7737
Шоу                    7511
Знаменитости           7394
Name: visits, dtype: int64

In [29]:
zen_df.groupby('item_topic')['visits'].sum().sort_values(ascending=False).sum()

310207

In [23]:
zen_df.groupby('source_topic')['record_id'].count().sort_values(ascending=False).to_excel('source_topic.xls')

In [28]:
zen_df.groupby('source_topic')['record_id'].count().sort_values(ascending=False).sum()

30745

In [49]:
pd.pivot_table(
    zen_df, 
    values='visits', 
    index=['item_topic'],
    columns=['source_topic'],
    aggfunc=np.sum
).fillna(0).argmax(axis=1)

AttributeError: 'DataFrame' object has no attribute 'argmax'

In [27]:
pd.pivot_table(
    zen_df, 
    values='visits', 
    index=['item_topic'],
    columns=['source_topic'],
    aggfunc=np.sum
).fillna(0).to_excel('visits.xls')

## Export

In [34]:
# dataframe export
zen_df.to_csv('dash_visits.csv')

___
Next step is a Tableau dashboard preparing.