In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
sns.set_style('whitegrid')


# 01 - Importar DataFrames Originais

In [2]:
off = ".//Data//Small_Data//offline_sales.json"
on = './Data/Small_Data/online_orders.json'

In [3]:
## Carregar Arquivo (customer_id e visitor_id como string para evitar notação cientifica)
df_off = pd.read_json(off, lines=True, dtype={'customer_id': str})
df_on = pd.read_json(on, lines=True, dtype={'visitor_id':str,'customer_id': str})

In [4]:
## Substitui None por NaN
df_off.customer_id.replace('None', np.nan, inplace=True)
df_on.customer_id.replace('None', np.nan, inplace=True)
df_on.visitor_id.replace('None', np.nan, inplace=True)


## 1.1 - Comparação de Clientes que utilizam ambos serviços 
**Esses números descartam clientes com identificação faltante**

In [5]:
clients_off = df_off.dropna().groupby('customer_id').sum().reset_index().customer_id
clients_on = df_on.dropna().groupby('customer_id').sum().reset_index().customer_id

lista_off = list(clients_off)
lista_on = list(clients_on)

In [6]:
## Quantidade de clientes que compraram tanto online quanto offline
clients_off.isin(lista_on).sum()

457

In [7]:
#### Aprimorar essa função usando seleção por estado com maior faturamento
def get_state(name):
    return ''.join(list(df_off[df_off.customer_id==name].state.value_counts().index)[0])
    
    

In [8]:
## Cria lista de clients utilizaram ambos serviços
clients_both = []
estados = []
for name in lista_off:
    ## Se nome do cliente off existe no clients On apenda id, se nao, passsa
    if clients_on.isin([name]).sum()>=1:
        clients_both.append(name)
        estados.append(get_state(name))
    else:
        pass
    
    

In [9]:
dict_clients = dict(zip(clients_both, estados))

In [10]:
df_both = pd.DataFrame(list(zip(clients_both, estados)), columns=['customer_id','state'])

In [11]:
## Lista de Clientes Identificados que utilizaram ambos serviços
df_both.head()

Unnamed: 0,customer_id,state
0,30313235376530633063,RJ
1,30313239643866643564,RJ
2,30323636393364386334,RJ
3,30326138306138626565,RJ
4,30326337663562336538,RJ


In [12]:
#Numero de Clientes que utilizam ambos serviços
n_both = len(df_both)

# 02 - Importar Outputs Off e Online

In [13]:
out_off = './Outputs/Offline_Data/Off_Output_Horizontal.csv'
out_on = './Outputs/Online_Data/On_Output_Horizontal.csv'

In [14]:
o_off = pd.read_csv(out_off).drop('Unnamed: 0', axis=1)
o_on = pd.read_csv(out_on).drop('Unnamed: 0', axis=1)

## 2.1 - Gerar Dados de Saída Combinados

In [15]:
fat_off = int(o_off.faturamento_total.values)
fat_on = int(o_on.faturamento_total.values)
fat_total = fat_off+fat_on

In [16]:
print('Faturamento das Lojas Físicas:', fat_off)
print('Faturamento da Loja Virtual', fat_on)
print('Faturamento total:',fat_total)

Faturamento das Lojas Físicas: 13747940
Faturamento da Loja Virtual 5641837
Faturamento total: 19389777


# 03 - Importar Output PageView Visitors ID

In [36]:
f = './Outputs/Utils/visitors_grouped.csv'

In [57]:
visitors = pd.read_csv(f,dtype={'on_product_id':str}).drop('Unnamed: 0', axis=1)

## 3.1 - Manipulação PageView / Online_Orders

In [74]:
## Gera uma lista contendo os ids dos visitantes que visualizaram paginas
lista_vis = list(visitors.visitor_id.unique())
len(lista_vis)

864938

In [86]:
## Cria Série para os IDs de compradores (removendo repetidos)
serie_ids_compradores = pd.Series(df_on.visitor_id.unique())
## Verifica se todos os dados de quem comprou estão presentes no DF de visualizaçoes (p/ controle)
serie_ids_compradores.isin(lista_vis).value_counts()

True    6099
dtype: int64

**Ok, todos compradores estão presente na lista de visitantes**

In [87]:
## Cris Lista com IDs das pessoas que compraram
lista_bought = list(df_on.visitor_id.unique())
len(lista_bought)

6099

In [88]:
## Acessa DF dos IDS de pessoas que acessaram a página e nao compraram 
visitors[~visitors.visitor_id.isin(lista_bought)]

Unnamed: 0,visitor_id,on_product_id,count
0,6265393131396533633738343,643564616339663,2
1,3338666465303563633536333,653332626234666,1
2,6232623334396365633033376,623361636538373,1
3,3265396532333465393239313,306530623037386,1
4,6335643734383761323766336,663162653735336,1
...,...,...,...
1671463,6437373938643136376363366,316666646434613,1
1671464,3437383135343337336635313,613634393437643,1
1671465,6335333234313733323965656,,1
1671466,3235633136386131386239393,,1


In [96]:
no_bought_group = visitors[~visitors.visitor_id.isin(lista_bought)].groupby(['visitor_id', 'on_product_id']).sum()
no_bought_group

Unnamed: 0_level_0,Unnamed: 1_level_0,count
visitor_id,on_product_id,Unnamed: 2_level_1
3030303031303364643064326,363966653132636,1
3030303031303364643064326,643733373961386,1
3030303031303364643064326,653466303735636,1
3030303032333232333334633,626538323635626,1
3030303063396466356636393,623166353632633,1
...,...,...
6666666631626137333730323,636633333065313,1
6666666634613263316365363,656461626139613,1
6666666635613462626138646,373661336532643,1
6666666637306230373631653,346437653831396,1


In [118]:
## Cria DF com esses IDs de pessoas que acessaram mas nao compraram
no_bought = pd.DataFrame(visitors[~visitors.visitor_id.isin(lista_bought)].visitor_id.unique(),columns=['visitor_id'])

In [121]:
no_bought.head()

Unnamed: 0,visitor_id
0,6265393131396533633738343
1,3338666465303563633536333
2,6232623334396365633033376
3,3265396532333465393239313
4,6335643734383761323766336


In [5]:
## Quantiddade de clientes que compraram algo
len(df_on.visitor_id.unique())

6099

#### Exporta esse DataFrame para utilizar no PageViews e obter customer_id dos clientes que apenas visualizaram e nao compraram

In [122]:
no_bought.to_csv(r'./Outputs/Utils/no_bought.csv')

# 3.2 Manipulação - Offline Orders 

In [10]:
## Importa ID dos Clientes que Visualizaram Páginas mas não compraram Online
df_customers = pd.read_csv('./Outputs/Utils/customers_no.csv').drop('Unnamed: 0', axis=1)
df_customers.head()

Unnamed: 0,customer_id
0,34353463636236633338
1,30623261643565303438
2,61643135303266633337
3,37626238653639363136
4,32376562393133303065


In [17]:
## Gera lista com ids dos clientes que não compraram online
lista_customers = df_customers.customer_id.tolist()

In [21]:
## Verifica quais desses clientes estiveram em Lojas Físicas no Período
all_cust = df_off[df_off.customer_id.isin(lista_customers)]

In [None]:
## Verifica Quantidade de Clientes (numero unico de ids que visualizaram paginas e também foram à loja)
len(all_cust.customer_id.unique())

**Apenas 257 pessoas com Nome registrado olharam produtos Online e também foram nas lojas físicas)**