# 0.0 Conjunto de dados

Foi escolhido um conjunto de dados que contém registros das compras ocorridas entre janeiro de 2020 e abril de 2020, em grandes lojas online, com categorias de produtos variados. Cada linha no arquivo representa um evento. Todos os eventos estão relacionados a produtos e usuários. Cada evento é como uma relação muitos-para-muitos entre produtos e usuários. Dados coletados pelo projeto Open CDP.

- Kaggle: https://www.kaggle.com/datasets/mkechinov/ecommerce-behavior-data-from-multi-category-store
- Open CDP: https://rees46.com/en/open-cdp

# 1.0 Configurações iniciais

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import datetime
import warnings

In [2]:
warnings.filterwarnings('ignore')

# 2.0 Descrição dos dados

## 2.1 Testando com o mês de abril de 2020

In [3]:
# Verificando as colunas do conjunto de dados
df_load = pd.read_csv('archive/2020-Apr.csv', nrows = 10)
df_load.head()

Unnamed: 0,event_time,event_type,product_id,category_id,category_code,brand,price,user_id,user_session
0,2020-04-01 00:00:00 UTC,view,1201465,2232732101407408685,apparel.shoes.slipons,samsung,230.38,568984877,e2456cef-2d4f-42b9-a53a-8893cb0c6851
1,2020-04-01 00:00:01 UTC,view,1307156,2053013554658804075,electronics.audio.headphone,apple,1352.67,514955500,38f43134-de83-4710-ae0a-326677d292c6
2,2020-04-01 00:00:01 UTC,view,1480477,2053013563835941749,appliances.kitchen.refrigerators,apple,1184.05,633645770,16aba270-b3c2-4b23-be0a-b7c80bc9da9e
3,2020-04-01 00:00:02 UTC,view,1307050,2053013554658804075,electronics.audio.headphone,apple,1724.34,564933778,05b443bd-e68a-4d72-b971-80bd31109cb8
4,2020-04-01 00:00:03 UTC,view,9500109,2232732104175649385,apparel.scarf,defender,25.05,530206135,e3c1fb4b-0a7e-457d-a0cf-5d1479e9aafc


In [4]:
df_load.dtypes

event_time        object
event_type        object
product_id         int64
category_id        int64
category_code     object
brand             object
price            float64
user_id            int64
user_session      object
dtype: object

In [5]:
# Manipulando o tipo das colunas para reduzir o tamanho do conjunto de dados
dtype = {'event_time': 'object',
         'event_type': 'category',
         'product_id': 'int64',
         'category_code': 'category',
         'brand': 'category',
         'price': 'float32'}

usecols = list(dtype.keys())

df_reduced = pd.read_csv('archive/2020-Apr.csv', dtype = dtype, usecols = usecols)
df_reduced.head()

Unnamed: 0,event_time,event_type,product_id,category_code,brand,price
0,2020-04-01 00:00:00 UTC,view,1201465,apparel.shoes.slipons,samsung,230.380005
1,2020-04-01 00:00:01 UTC,view,1307156,electronics.audio.headphone,apple,1352.670044
2,2020-04-01 00:00:01 UTC,view,1480477,appliances.kitchen.refrigerators,apple,1184.050049
3,2020-04-01 00:00:02 UTC,view,1307050,electronics.audio.headphone,apple,1724.339966
4,2020-04-01 00:00:03 UTC,view,9500109,apparel.scarf,defender,25.049999


In [6]:
df_reduced.dtypes

event_time         object
event_type       category
product_id          int64
category_code    category
brand            category
price             float32
dtype: object

In [7]:
# Selecionando apenas as linhas que contém registros de compra:
df_reduced = df_reduced[(df_reduced['event_type'] == 'purchase')]

In [8]:
# Removendo NAs:
df_reduced = df_reduced.dropna(axis = 0)

In [9]:
# Visão geral dos dados
print('Os nomes das colunas são: \n{}\n'.format(df_reduced.columns))
print('O tamanho do conjunto de dados é (linhas, colunas): \n{}\n'.format(df_reduced.shape))
print('A quantidade de linhas vazias para cada coluna é: \n{}\n'.format(df_reduced.isna().sum()))

Os nomes das colunas são: 
Index(['event_time', 'event_type', 'product_id', 'category_code', 'brand',
       'price'],
      dtype='object')

O tamanho do conjunto de dados é (linhas, colunas): 
(822697, 6)

A quantidade de linhas vazias para cada coluna é: 
event_time       0
event_type       0
product_id       0
category_code    0
brand            0
price            0
dtype: int64



In [10]:
# Exportando conjunto csv
df_reduced.to_csv('archive/df_reduced_april_2020.csv', index = False)  

## 2.2 Realizando o mesmo processo para os meses de janeiro, fevereiro e março

In [11]:
# Março
df_reduced_mar = pd.read_csv('archive/2020-Mar.csv', dtype = dtype, usecols = usecols)
df_reduced_mar = df_reduced_mar[(df_reduced_mar['event_type'] == 'purchase')]
df_reduced_mar = df_reduced_mar.dropna(axis = 0)
df_reduced_mar.to_csv('archive/df_reduced_mar_2020.csv', index = False)  

In [12]:
# Fevereiro
df_reduced_feb = pd.read_csv('archive/2020-Feb.csv', dtype = dtype, usecols = usecols)
df_reduced_feb = df_reduced_feb[(df_reduced_feb['event_type'] == 'purchase')]
df_reduced_feb = df_reduced_feb.dropna(axis = 0)
df_reduced_feb.to_csv('archive/df_reduced_feb_2020.csv', index = False) 

In [13]:
# Janeiro
df_reduced_jan = pd.read_csv('archive/2020-Jan.csv', dtype = dtype, usecols = usecols)
df_reduced_jan = df_reduced_jan[(df_reduced_jan['event_type'] == 'purchase')]
df_reduced_jan = df_reduced_jan.dropna(axis = 0)
df_reduced_jan.to_csv('archive/df_reduced_jan_2020.csv', index = False) 

In [14]:
# Lendo os csvs:
df_reduced_apr = pd.read_csv('archive/df_reduced_april_2020.csv')
df_reduced_mar = pd.read_csv('archive/df_reduced_mar_2020.csv')
df_reduced_feb = pd.read_csv('archive/df_reduced_feb_2020.csv')
df_reduced_jan = pd.read_csv('archive/df_reduced_jan_2020.csv')

In [15]:
# Concatenando os dados
df_concat = pd.concat([df_reduced_jan, df_reduced_feb, df_reduced_mar, df_reduced_apr])

In [16]:
# Tamanho do conjunto concatenado
print('O tamanho do conjunto de dados é (linhas, colunas): \n{}\n'.format(df_concat.shape))

O tamanho do conjunto de dados é (linhas, colunas): 
(3491835, 6)



In [17]:
# Exportando o df concatenado final
df_concat.to_csv('archive/df_concat.csv', index = False) 