Необходимо произвести предобработку данных, чтобы далее построить дашборд в Power BI и получить ясную картину об общих показателях продаж. Также нас интересуют следующие вопросы:

* Какой товар был самым популярным в июне 2019 года?
* Какой самый эффективный источник трафика был в июле 2019 года?
* Какой товар принес больше всего выручки за весь период?
* Обратим внимание на закономерности в данных?

Описание данных:
* orders - данные о заказах
* users_utm - информация о клиентах
* utms - источники трафика

In [6]:
import pandas as pd

In [7]:
path_o = 'https://raw.githubusercontent.com/Vlkoz/Project-sales/main/files/orders.xlsx'

In [8]:
orders = pd.read_excel(path_o)

In [9]:
orders

Unnamed: 0,user_id,order_id,created_dt,state,payment_type,product_code,total_amount
0,886561,362881,2018-12-31 21:05:01,completed,комплектующие,компьютерная мышь,390
1,825081,362883,2018-12-31 21:10:14,completed,комплектующие,компьютерная мышь,390
2,903169,362885,2018-12-31 21:18:01,cancelled,бытовая техника,водонагреватель,18690
3,43285,362887,2018-12-31 21:20:01,completed,комплектующие,компьютерная мышь,390
4,835571,362889,2018-12-31 21:23:52,completed,комплектующие,компьютерная мышь,390
...,...,...,...,...,...,...,...
70840,1323087,517839,2019-12-31 18:45:13,completed,комплектующие,колонки,2890
70841,1323091,517841,2019-12-31 19:10:27,completed,комплектующие,компьютерная мышь,410
70842,1323091,517843,2019-12-31 19:12:06,cancelled,комплектующие,колонки,2890
70843,1062561,517845,2019-12-31 19:55:37,completed,комплектующие,компьютерная мышь,590


In [10]:
path_u = 'https://raw.githubusercontent.com/Vlkoz/Project-sales/main/files/users_utm.xlsx'

In [11]:
users_utm = pd.read_excel(path_u)

In [12]:
users_utm

Unnamed: 0,user_id,utm_id,added_dt
0,1,5409,2019-02-07 12:41:29
1,1,5445,2019-02-08 16:44:28
2,1,5503,2019-02-13 17:17:30
3,1,5537,2019-02-14 19:20:58
4,1,5571,2019-02-15 16:06:03
...,...,...,...
50321,1322917,10361,2019-12-30 20:54:35
50322,1323069,10437,2019-12-31 17:50:11
50323,1323073,5687,2019-03-28 19:24:14
50324,1323091,8847,2019-10-28 12:27:51


In [13]:
path_ut = 'https://raw.githubusercontent.com/Vlkoz/Project-sales/main/files/utms.xlsx'

In [14]:
utms = pd.read_excel(path_ut)

In [15]:
utms

Unnamed: 0,utm_id,utm_source,utm_medium,utm_campaign
0,9,Месячная рассылка,email,msk_brand_607
1,29,Месячная рассылка,email,regions_brand_695
2,31,Месячная рассылка,email,spb_ret_635
3,33,Полезная рассылка,email,spb_brand_45
4,39,Месячная рассылка,email,regions_brand_412
...,...,...,...,...
2842,10447,facebook,social,msk_brand_289
2843,10449,newsletter,email,spb_acc_244
2844,10457,telegram,social,msk_acc_575
2845,10461,mytarget,cpc,regions_ret_332


Посмотрим уникальные значения в источниках трафика

In [16]:
utms.utm_source.unique()

array(['Месячная рассылка', 'Полезная рассылка',
       'html academy newsletter', 'vk.com', 'google.com', 'htmlbook',
       'openedu', 'css-live.ru', 'yandex.ru', 'viber', 'facebook.com',
       'relap', 'picodi.com', 'article', 'youtube.com', 'youtube',
       'typograf', 'month_sub', 'vk_com', 'theory', 'yandex', 'pedsovet',
       'plus.google.com', 'puzzle', 'twitter.com', 'google', 'newtonew',
       'twitter', 'vk_repost', 'twit_repost', 'tp', 't.me', 'mytarget',
       'te-st', 'fbliga', 'theq', 'telegram', 'facebook', nan, 'fb',
       'curators_answer_yt', 'curators_answer_vk', 'rtk', 'yo',
       'odnoklassniki', 'vk', 'blog', 'referral', 'courses', 'rukodi.ru',
       'php', 'profession', 'networks', 'quiz', 'vkontakte', 'f',
       'faceboohttps://tml.io/5twt9k', 'moikrug.ru', 'newsletter',
       'freelance', 'partner', 'inst', 'vc', 'tg', 'hh', 'ok', 'skyeng',
       'crm', 'instagram', 'slack', 'brodude', 'myquiz', 'trigger_exp',
       'ig', 'mt', 'notification', 'fb_

Схлопнем повторы по следующим источникам трафика: 
* vk 
* google
* yandex
* facebook
* youtube
* twitter
* telegram
* odnoklassniki
* instagram

In [17]:
utms.utm_source = utms.utm_source.replace({'youtube': 'youtube.com', 'vk_com': 'vk.com', 'yandex': 'yandex.ru', 'google': 'google.com', 'twitter': 'twitter.com', 't.me': 'telegram', 'facebook': 'facebook.com', 'fb': 'facebook.com', 'vk': 'vk.com', 'vkontakte': 'vk.com', 'faceboohttps://tml.io/5twt9k': 'facebook.com', 'inst': 'instagram', 'tg': 'telegram', 'ok': 'odnoklassniki', 'ig': 'instagram', 'fb_ig': 'instagram'})


In [18]:
utms.utm_source.unique()

array(['Месячная рассылка', 'Полезная рассылка',
       'html academy newsletter', 'vk.com', 'google.com', 'htmlbook',
       'openedu', 'css-live.ru', 'yandex.ru', 'viber', 'facebook.com',
       'relap', 'picodi.com', 'article', 'youtube.com', 'typograf',
       'month_sub', 'theory', 'pedsovet', 'plus.google.com', 'puzzle',
       'twitter.com', 'newtonew', 'vk_repost', 'twit_repost', 'tp',
       'telegram', 'mytarget', 'te-st', 'fbliga', 'theq', nan,
       'curators_answer_yt', 'curators_answer_vk', 'rtk', 'yo',
       'odnoklassniki', 'blog', 'referral', 'courses', 'rukodi.ru', 'php',
       'profession', 'networks', 'quiz', 'f', 'moikrug.ru', 'newsletter',
       'freelance', 'partner', 'instagram', 'vc', 'hh', 'skyeng', 'crm',
       'slack', 'brodude', 'myquiz', 'trigger_exp', 'mt', 'notification',
       'checkroi.ru', 'podcast', 'ws'], dtype=object)

Пустые значения заменим на 'undefined_source'

In [19]:
utms.utm_source = utms.utm_source.fillna('Undefined')

В utm_medium также заменим пустые значения на 'undefined_medium'

In [20]:
utms.utm_medium = utms.utm_medium.fillna('Undefined')

In [21]:
utms.utm_medium.unique()

array(['email', 'cpc', 'social', 'Undefined', 'tproger', 'blog', 'vk.com',
       'cpm', 'chat', 'referral', 'banner', 'reg.ru', 'hwdesigner',
       'website', 'newyear', 'hwbdesigner', 'site', 'haudi-ho', 'article',
       'event', 'online-courses', 'pro-hi-tech', 'gameone', 'goshadudar',
       'wdb', 'topkot', 'answer', 'video', 'live', 'youtube', 'test',
       'twitter', 'telegram', 'facebook', 'vk', 'cpс', 'social_post',
       'cp?', 'moikrug', 'vacancy', 'rbc', 'study', 'progeri', 'special',
       'rsi', 'checkroi.ru', 'podcast'], dtype=object)

Схлопнем повторы по utm_medium

In [22]:
utms.utm_medium = utms.utm_medium.replace({'cpc': 'cpc', 'vk': 'vk.com', 'cpс': 'cpc'})

Проверим, что в таблицах нет пустых значений

In [23]:
orders.isnull().sum()

user_id         0
order_id        0
created_dt      0
state           0
payment_type    0
product_code    0
total_amount    0
dtype: int64

In [24]:
users_utm.isnull().sum()

user_id     0
utm_id      0
added_dt    0
dtype: int64

In [25]:
utms.isnull().sum()

utm_id          0
utm_source      0
utm_medium      0
utm_campaign    0
dtype: int64

Проверим типы данных

In [26]:
orders.dtypes

user_id                  int64
order_id                 int64
created_dt      datetime64[ns]
state                   object
payment_type            object
product_code            object
total_amount             int64
dtype: object

In [27]:
users_utm.dtypes

user_id              int64
utm_id               int64
added_dt    datetime64[ns]
dtype: object

In [28]:
utms.dtypes

utm_id           int64
utm_source      object
utm_medium      object
utm_campaign    object
dtype: object

Типы данных корректны, пропуски отсутствуют

Можно приступать к объединению таблиц для последующей визуализации в Power BI

In [29]:
users_utm_full = users_utm.merge(utms, on = 'utm_id', how = 'left')

In [30]:
users_utm_full

Unnamed: 0,user_id,utm_id,added_dt,utm_source,utm_medium,utm_campaign
0,1,5409,2019-02-07 12:41:29,vk.com,social,regions_ret_657
1,1,5445,2019-02-08 16:44:28,twitter.com,social,spb_acc_595
2,1,5503,2019-02-13 17:17:30,facebook.com,social,regions_acc_90
3,1,5537,2019-02-14 19:20:58,twitter.com,social,regions_brand_254
4,1,5571,2019-02-15 16:06:03,twitter.com,social,regions_ret_776
...,...,...,...,...,...,...
50321,1322917,10361,2019-12-30 20:54:35,yandex.ru,cpc,regions_acc_234
50322,1323069,10437,2019-12-31 17:50:11,htmlbook,blog,spb_ret_74
50323,1323073,5687,2019-03-28 19:24:14,mytarget,cpc,msk_acc_133
50324,1323091,8847,2019-10-28 12:27:51,google.com,cpc,regions_brand_388


In [31]:
users_utm_full = users_utm_full.groupby('user_id') \
    .agg({'added_dt': 'max'}) \
    .reset_index() \
    .merge(users_utm_full, on = ['user_id', 'added_dt'])

In [32]:
orders_full = orders.merge(users_utm_full, on = 'user_id', how= 'left')

In [33]:
orders_full

Unnamed: 0,user_id,order_id,created_dt,state,payment_type,product_code,total_amount,added_dt,utm_id,utm_source,utm_medium,utm_campaign
0,886561,362881,2018-12-31 21:05:01,completed,комплектующие,компьютерная мышь,390,NaT,,,,
1,825081,362883,2018-12-31 21:10:14,completed,комплектующие,компьютерная мышь,390,2019-12-11 13:18:17,9543.0,yandex.ru,cpc,regions_acc_125
2,903169,362885,2018-12-31 21:18:01,cancelled,бытовая техника,водонагреватель,18690,2019-12-31 14:45:38,10449.0,newsletter,email,spb_acc_244
3,43285,362887,2018-12-31 21:20:01,completed,комплектующие,компьютерная мышь,390,NaT,,,,
4,835571,362889,2018-12-31 21:23:52,completed,комплектующие,компьютерная мышь,390,NaT,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
70872,1323087,517839,2019-12-31 18:45:13,completed,комплектующие,колонки,2890,NaT,,,,
70873,1323091,517841,2019-12-31 19:10:27,completed,комплектующие,компьютерная мышь,410,2019-10-28 12:27:51,8847.0,google.com,cpc,regions_brand_388
70874,1323091,517843,2019-12-31 19:12:06,cancelled,комплектующие,колонки,2890,2019-10-28 12:27:51,8847.0,google.com,cpc,regions_brand_388
70875,1062561,517845,2019-12-31 19:55:37,completed,комплектующие,компьютерная мышь,590,NaT,,,,


Из-за объединения таблиц появились пустые значения

Скорее всего, они появились из-за того, что не по каждому пользователю,
который совершил заказ, есть информация по каналу его привлечения

In [34]:
orders_full.isna().sum()

user_id             0
order_id            0
created_dt          0
state               0
payment_type        0
product_code        0
total_amount        0
added_dt        33098
utm_id          33098
utm_source      33098
utm_medium      33098
utm_campaign    33098
dtype: int64

In [35]:
orders_full.utm_id       = orders_full.utm_id.fillna('Undefined')
orders_full.added_dt     = orders_full.added_dt.fillna('Undefined')
orders_full.utm_source   = orders_full.utm_source.fillna('Undefined')
orders_full.utm_medium   = orders_full.utm_medium.fillna('Undefined')
orders_full.utm_campaign = orders_full.utm_campaign.fillna('Undefined')

In [36]:
# Сохраним в Excel файл
orders_full.to_excel('full_data.xlsx', index = False)