# Data Exploration
### objective :
*Wygląda na to, że nasze firmy kurierskie czasami nie radzą sobie z dostawami. Lepiej by było, gdybyśmy wiedzieli, ile taka dostawa dla danego zamówienia może potrwać.*

In [252]:
import datetime
import json # as pandas struggled with json
import numpy as np
import pandas as pd
import pandas.io.json as pd_json
%matplotlib inline

### Load files:

In [253]:
def load_file(filename):
    with open(filename, encoding="utf8") as f:
        data = f.readlines()
        data = [json.loads(line) for line in data] #convert string to dict format
        df = pd_json.json_normalize(data)
    return df

users = load_file(r'data/users.jsonl')# pd.read_json(r"data/users.jsonl", typ='series', lines=True, dtype='dict')
users.head(30)

  """


Unnamed: 0,user_id,name,city,street
0,102,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03
1,103,Kajetan Karmelita,Warszawa,ulica Maczka 31
2,104,Eryk Kuncewicz,Police,ulica Krakowska 14/94
3,105,Sylwia Sabak,Radom,ulica Szpitalna 71
4,106,Inga Stępka,Mielec,aleja Liliowa 50
5,107,Filip Włodyka,Gdynia,aleja Ludowa 797
6,108,Jerzy Podgórny,Warszawa,ul. Głogowa 78
7,109,Julita Żuberek,Kutno,ul. Wesoła 214
8,110,Urszula Lepianka,Konin,al. Rataja 60
9,111,Mateusz Posmyk,Kutno,ulica Jadwigi 92


In [254]:
deliveries = load_file("data/deliveries.jsonl")
deliveries.head(30)

  """


Unnamed: 0,purchase_id,purchase_timestamp,delivery_timestamp,delivery_company
0,20001,2020-02-10T02:11:41,2020-02-12T13:11:41,360.0
1,20002,2020-03-18T08:22:20,,360.0
2,20003,2020-01-21T18:07:56,2020-01-24T05:07:56,360.0
3,20004,2020-02-21T15:33:36,2020-02-24T02:33:36,
4,20005,2020-03-09T14:46:19,2020-03-13T19:46:19,620.0
5,20006,2020-02-02T02:07:04,2020-02-06T07:07:04,620.0
6,20007,2020-01-20T20:33:10,2020-01-25T01:33:10,620.0
7,20008,2020-02-02T20:41:01,2020-02-05T07:41:01,360.0
8,20009,2020-01-31T02:24:21,2020-02-04T07:24:21,620.0
9,20010,2020-01-17T04:30:21,2020-01-19T15:30:21,360.0


In [255]:
sessions = load_file("data/sessions.jsonl")
sessions.head(30)

  """


Unnamed: 0,session_id,timestamp,user_id,product_id,event_type,offered_discount,purchase_id
0,100001,2020-02-10T01:49:08,102.0,1081.0,VIEW_PRODUCT,0,
1,100001,2020-02-10T01:52:15,102.0,,VIEW_PRODUCT,0,
2,100001,2020-02-10T01:56:33,102.0,1080.0,VIEW_PRODUCT,0,
3,100001,2020-02-10T01:58:07,102.0,1079.0,VIEW_PRODUCT,0,
4,100001,2020-02-10T02:01:33,102.0,1077.0,VIEW_PRODUCT,0,
5,100001,2020-02-10T02:03:54,102.0,1003.0,VIEW_PRODUCT,0,
6,100001,2020-02-10T02:04:56,102.0,1002.0,VIEW_PRODUCT,0,
7,100001,2020-02-10T02:07:25,102.0,1078.0,VIEW_PRODUCT,0,
8,100001,2020-02-10T02:11:41,102.0,1078.0,BUY_PRODUCT,0,20001.0
9,100002,2020-03-18T08:22:14,102.0,1318.0,VIEW_PRODUCT,0,


In [256]:
products = load_file("data/products.jsonl")
products.head()

  """


Unnamed: 0,product_id,product_name,category_path,price
0,1001,Telefon Siemens Gigaset DA310,Telefony i akcesoria;Telefony stacjonarne,58.97
1,1002,Kyocera FS-1135MFP,Komputery;Drukarki i skanery;Biurowe urządzeni...,2048.5
2,1003,Kyocera FS-3640MFP,Komputery;Drukarki i skanery;Biurowe urządzeni...,7639000000.0
3,1004,Fallout 3 (Xbox 360),Gry i konsole;Gry na konsole;Gry Xbox 360,49.99
4,1005,Szalone Króliki Na żywo i w kolorze (Xbox 360),Gry i konsole;Gry na konsole;Gry Xbox 360,49.99


### Obserwacje
Jak widać nie wszystkie sesje zakończone zakupem posiadają id użytkownika, co mogłoby być przydatne by ustalić np miasto dostawy. Dodatkowo nie wszystkie dostawy posiadają informację o czasie dostarczenia.

Połączmy dane w jedną tabelę

In [257]:
# inner join sessins and deliveries
merged_data = pd.merge(left=sessions, right=deliveries, left_on='purchase_id', right_on='purchase_id')

# left join users
merged_data = pd.merge(left=merged_data, right=users, how='left', left_on='user_id', right_on='user_id')

# left join products
merged_data = pd.merge(left=merged_data, right=products, how='left', left_on='product_id', right_on='product_id')

merged_data

Unnamed: 0,session_id,timestamp,user_id,product_id,event_type,offered_discount,purchase_id,purchase_timestamp,delivery_timestamp,delivery_company,name,city,street,product_name,category_path,price
0,100001,2020-02-10T02:11:41,102.0,1078.0,BUY_PRODUCT,0,20001.0,2020-02-10T02:11:41,2020-02-12T13:11:41,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Kyocera FS-3540MFP,Komputery;Drukarki i skanery;Biurowe urządzeni...,5.126000e+03
1,100002,2020-03-18T08:22:20,102.0,1318.0,BUY_PRODUCT,0,20002.0,2020-03-18T08:22:20,,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Plantronics Savi W710,Sprzęt RTV;Audio;Słuchawki,5.530000e+02
2,100003,2020-01-21T18:07:56,102.0,1046.0,BUY_PRODUCT,10,20003.0,2020-01-21T18:07:56,2020-01-24T05:07:56,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,LEGO Batman 2 DC Super Heroes (PS3),Gry i konsole;Gry na konsole;Gry PlayStation3,6.118000e+01
3,100005,2020-02-21T15:33:36,102.0,1001.0,BUY_PRODUCT,15,20004.0,2020-02-21T15:33:36,2020-02-24T02:33:36,,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Telefon Siemens Gigaset DA310,Telefony i akcesoria;Telefony stacjonarne,5.897000e+01
4,100006,2020-03-09T14:46:19,102.0,1201.0,BUY_PRODUCT,0,20005.0,2020-03-09T14:46:19,2020-03-13T19:46:19,620.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Jabra Speak 410,Telefony i akcesoria;Akcesoria telefoniczne;Ze...,3.274700e+02
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7263,110434,2020-02-28T13:13:00,301.0,1077.0,BUY_PRODUCT,0,27264.0,2020-02-28T13:13:00,2020-03-04T15:13:00,620.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Kyocera FS-C2026MFP,Komputery;Drukarki i skanery;Biurowe urządzeni...,3.777000e+03
7264,110436,2020-02-16T21:22:58,301.0,1037.0,BUY_PRODUCT,10,27265.0,2020-02-16T21:22:58,2020-02-20T10:22:58,360.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,LCD Asus VK248H,Komputery;Monitory;Monitory LCD,7.990000e+08
7265,110437,2020-02-24T11:35:37,301.0,1012.0,BUY_PRODUCT,15,27266.0,2020-02-24T11:35:37,2020-02-29T13:35:37,620.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Fallout New Vegas (Xbox 360),Gry i konsole;Gry na konsole;Gry Xbox 360,6.900000e+01
7266,110439,2020-01-31T23:34:46,301.0,1007.0,BUY_PRODUCT,10,27267.0,2020-01-31T23:34:46,2020-02-04T12:34:46,360.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Dead Space 3 (Xbox 360),Gry i konsole;Gry na konsole;Gry Xbox 360,8.999000e+01


### Odrzućmy część kolumn

In [258]:
columns = ['session_id', 'purchase_id', 'event_type', 'offered_discount', 'timestamp', 'product_id', 'product_name']
for col in columns:
    merged_data = merged_data.drop(col, axis=1)

merged_data

Unnamed: 0,user_id,purchase_timestamp,delivery_timestamp,delivery_company,name,city,street,category_path,price
0,102.0,2020-02-10T02:11:41,2020-02-12T13:11:41,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Komputery;Drukarki i skanery;Biurowe urządzeni...,5.126000e+03
1,102.0,2020-03-18T08:22:20,,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Sprzęt RTV;Audio;Słuchawki,5.530000e+02
2,102.0,2020-01-21T18:07:56,2020-01-24T05:07:56,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Gry i konsole;Gry na konsole;Gry PlayStation3,6.118000e+01
3,102.0,2020-02-21T15:33:36,2020-02-24T02:33:36,,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Telefony i akcesoria;Telefony stacjonarne,5.897000e+01
4,102.0,2020-03-09T14:46:19,2020-03-13T19:46:19,620.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Telefony i akcesoria;Akcesoria telefoniczne;Ze...,3.274700e+02
...,...,...,...,...,...,...,...,...,...
7263,301.0,2020-02-28T13:13:00,2020-03-04T15:13:00,620.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Komputery;Drukarki i skanery;Biurowe urządzeni...,3.777000e+03
7264,301.0,2020-02-16T21:22:58,2020-02-20T10:22:58,360.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Komputery;Monitory;Monitory LCD,7.990000e+08
7265,301.0,2020-02-24T11:35:37,2020-02-29T13:35:37,620.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Gry i konsole;Gry na konsole;Gry Xbox 360,6.900000e+01
7266,301.0,2020-01-31T23:34:46,2020-02-04T12:34:46,360.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Gry i konsole;Gry na konsole;Gry Xbox 360,8.999000e+01


### Kolumny wyliczane.
Przydatne mogą okazać się podstawowe kategorie i sam czas dostawy

In [259]:
merged_data['delivery_timestamp'] = pd.to_datetime(merged_data.delivery_timestamp)
merged_data['purchase_timestamp'] = pd.to_datetime(merged_data.purchase_timestamp)
merged_data['delivery_total_time'] = merged_data['delivery_timestamp'] - merged_data['purchase_timestamp']

print(merged_data['delivery_total_time'])

0      2 days 11:00:00
1                  NaT
2      2 days 11:00:00
3      2 days 11:00:00
4      4 days 05:00:00
             ...      
7263   5 days 02:00:00
7264   3 days 13:00:00
7265   5 days 02:00:00
7266   3 days 13:00:00
7267   3 days 17:00:00
Name: delivery_total_time, Length: 7268, dtype: timedelta64[ns]


In [260]:
category_path_arr = merged_data['category_path'].str.split(';', 2)
category_arr = []
subcategory_arr = []
for path in category_path_arr:
    if type(path) == float:
        category_arr.append(path)
        subcategory_arr.append(path)
    else:
        category_arr.append(path[0])
        subcategory_arr.append(path[1])

merged_data['category'] = category_arr
merged_data['subcategory'] = subcategory_arr

merged_data

Unnamed: 0,user_id,purchase_timestamp,delivery_timestamp,delivery_company,name,city,street,category_path,price,delivery_total_time,category,subcategory
0,102.0,2020-02-10 02:11:41,2020-02-12 13:11:41,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Komputery;Drukarki i skanery;Biurowe urządzeni...,5.126000e+03,2 days 11:00:00,Komputery,Drukarki i skanery
1,102.0,2020-03-18 08:22:20,NaT,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Sprzęt RTV;Audio;Słuchawki,5.530000e+02,NaT,Sprzęt RTV,Audio
2,102.0,2020-01-21 18:07:56,2020-01-24 05:07:56,360.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Gry i konsole;Gry na konsole;Gry PlayStation3,6.118000e+01,2 days 11:00:00,Gry i konsole,Gry na konsole
3,102.0,2020-02-21 15:33:36,2020-02-24 02:33:36,,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Telefony i akcesoria;Telefony stacjonarne,5.897000e+01,2 days 11:00:00,Telefony i akcesoria,Telefony stacjonarne
4,102.0,2020-03-09 14:46:19,2020-03-13 19:46:19,620.0,Oliwier Maślankiewicz,Konin,pl. Kwiatowa 03,Telefony i akcesoria;Akcesoria telefoniczne;Ze...,3.274700e+02,4 days 05:00:00,Telefony i akcesoria,Akcesoria telefoniczne
...,...,...,...,...,...,...,...,...,...,...,...,...
7263,301.0,2020-02-28 13:13:00,2020-03-04 15:13:00,620.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Komputery;Drukarki i skanery;Biurowe urządzeni...,3.777000e+03,5 days 02:00:00,Komputery,Drukarki i skanery
7264,301.0,2020-02-16 21:22:58,2020-02-20 10:22:58,360.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Komputery;Monitory;Monitory LCD,7.990000e+08,3 days 13:00:00,Komputery,Monitory
7265,301.0,2020-02-24 11:35:37,2020-02-29 13:35:37,620.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Gry i konsole;Gry na konsole;Gry Xbox 360,6.900000e+01,5 days 02:00:00,Gry i konsole,Gry na konsole
7266,301.0,2020-01-31 23:34:46,2020-02-04 12:34:46,360.0,Ada Laszkiewicz,Szczecin,ul. Sportowa 70,Gry i konsole;Gry na konsole;Gry Xbox 360,8.999000e+01,3 days 13:00:00,Gry i konsole,Gry na konsole
