In [71]:
import pandas as pd
import matplotlib.pyplot as plt

In [72]:
df_clientes = pd.read_excel('../dataset/caso_estudo.xlsx', sheet_name='clientes')
df_lojas = pd.read_excel('../dataset/caso_estudo.xlsx', sheet_name='lojas')
df_produtos = pd.read_excel('../dataset/caso_estudo.xlsx', sheet_name='produtos')
df_vendas = pd.read_excel('../dataset/caso_estudo.xlsx', sheet_name='vendas')
df_pagamentos = pd.read_excel('../dataset/caso_estudo.xlsx', sheet_name='pagamentos')

# Analise preliminar

### df_clientes

In [73]:
df_clientes.sample(5)

Unnamed: 0,id,nome,sexo,dt_nasc
679,680,Julia Goncalves,F,8/22/1979
337,338,Mariana Rodrigues,F,6/2/2001
998,999,Julian Cunha,M,6/20/1994
364,365,Luiz Castro,M,5/23/1982
488,489,Marisa Correia,F,12/29/1987


In [74]:
df_clientes.isnull().sum()

id         0
nome       4
sexo       4
dt_nasc    4
dtype: int64

In [75]:
# Identificando as linhas com algum dado nulo
df_clientes[df_clientes.isnull().T.any()]

Unnamed: 0,id,nome,sexo,dt_nasc
263,264,,F,7/29/1997
264,265,,M,2/7/1979
268,269,,F,
269,270,,M,
276,277,Brenda Santos,F,
282,283,Amanda Barros,F,
287,288,Victor Ribeiro,,12/17/1974
290,291,Clara Pinto,,12/25/1980
294,295,Tiago Lima,,7/26/1973
301,302,Guilherme Cardoso,,3/9/1998


In [76]:
df_clientes.sexo.unique()

array(['F', 'M', nan], dtype=object)

### df_lojas

In [77]:
df_lojas

Unnamed: 0,id,cidade
0,1,São Paulo
1,2,Rio de Janeiro
2,3,Curitiba
3,4,Belo Horizonte
4,5,Santa Catarina
5,6,Recife
6,7,Salvador
7,8,Brasília
8,9,Palmas
9,10,Vitória


### df_produtos

In [78]:
df_produtos

Unnamed: 0,id,produto,valor
0,1,mouse,20.0
1,2,teclado,30.0
2,3,laptop básico,2300.0
3,4,laptop gamer,5300.0
4,5,monitor,1500.0
5,6,impressora,700.0
6,7,carregador,150.0
7,8,cadeira,540.0
8,9,mesa,860.0
9,10,xxx-231a,3211352.0


In [79]:
# Visualização por boxplot, excluindo o outlier 'xxx-231a'
df_produtos[df_produtos.valor < 3000000].boxplot(column=['valor'])

<Axes: >

In [80]:
# Há vendas do produto xxx-231a?
df_vendas[df_vendas.id_produto == 10].count()

id            182
id_cliente    182
id_loja       182
id_produto    182
dt_venda      182
dtype: int64

### df_vendas

In [81]:
df_vendas.describe()

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda
count,3000.0,3000.0,3000.0,3000.0,3000
mean,1500.5,500.763667,4.538333,4.435,2019-05-17 17:48:28.799999744
min,1.0,1.0,1.0,1.0,2018-01-04 00:00:00
25%,750.75,254.75,2.0,3.0,2018-09-09 00:00:00
50%,1500.5,503.5,4.0,3.0,2019-05-20 00:00:00
75%,2250.25,742.0,7.0,6.0,2020-01-29 06:00:00
max,3000.0,1000.0,10.0,10.0,2020-09-27 00:00:00
std,866.169729,285.322282,2.922221,2.511018,


### df_pagamento

In [82]:
df_pagamentos.isnull().sum()

id          0
id_venda    0
dt_pgto     0
dtype: int64

In [83]:
df_pagamentos.describe()

Unnamed: 0,id,id_venda,dt_pgto
count,2072.0,2072.0,2072
mean,1036.5,1491.73166,2019-06-06 05:37:45.637065472
min,1.0,1.0,2018-01-10 00:00:00
25%,518.75,746.25,2018-10-01 12:00:00
50%,1036.5,1501.5,2019-06-10 00:00:00
75%,1554.25,2220.5,2020-02-08 00:00:00
max,2072.0,2997.0,2020-11-03 00:00:00
std,598.279199,864.865583,


# Data Cleanning

### Dados nulos

In [84]:
df_vendas[df_vendas.id_cliente == 264]

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda
229,230,264,2,3,2018-03-28
562,563,264,5,3,2018-07-07
1438,1439,264,3,3,2019-04-29
2021,2022,264,6,3,2019-11-08
2877,2878,264,10,3,2020-08-14


In [85]:
df_clientes.loc[df_clientes.nome.isnull(), 'nome'] = 'Sem nome'
df_clientes.loc[df_clientes.sexo.isnull(), 'sexo'] = 'O'
df_clientes.loc[df_clientes.dt_nasc.isnull(), 'dt_nasc'] = '1/1/2020'

In [86]:
df_clientes.loc[[269, 287], :]

Unnamed: 0,id,nome,sexo,dt_nasc
269,270,Sem nome,M,1/1/2020
287,288,Victor Ribeiro,O,12/17/1974


### Outliers

In [87]:
df_produtos.loc[9, 'valor'] = df_produtos.valor[9]/10000
df_produtos

Unnamed: 0,id,produto,valor
0,1,mouse,20.0
1,2,teclado,30.0
2,3,laptop básico,2300.0
3,4,laptop gamer,5300.0
4,5,monitor,1500.0
5,6,impressora,700.0
6,7,carregador,150.0
7,8,cadeira,540.0
8,9,mesa,860.0
9,10,xxx-231a,321.1352


In [88]:
df_produtos.boxplot(column=['valor'])

<Axes: >

### Consistência

In [89]:
# Verificando se alguma venda não possui cliente
df_vendas[~df_vendas.id_cliente.isin(df_clientes.id)]

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda


In [90]:
# Verificando se alguma venda não está no df_lojas
df_vendas[~df_vendas.id_loja.isin(df_lojas.id)]

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda


In [91]:
# Verificando se algum id_produto não está no df_produtos
df_vendas[~df_vendas.id_produto.isin(df_produtos.id)]

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda


In [92]:
# Pagamento sem id_venda
df_pagamentos[~df_pagamentos.id_venda.isin(df_vendas.id)]

Unnamed: 0,id,id_venda,dt_pgto


In [93]:
# Verificando quais vendas não geraram pagamentos
df_vendas[~df_vendas.id.isin(df_pagamentos.id_venda)].count()

id            928
id_cliente    928
id_loja       928
id_produto    928
dt_venda      928
dtype: int64

### Dados duplicados

In [94]:
df_clientes[df_clientes.nome.duplicated()]

Unnamed: 0,id,nome,sexo,dt_nasc
79,80,Anna Melo,F,8/10/1999
96,97,Beatrice Goncalves,F,11/22/1964
138,139,Kauê Araujo,M,5/31/1974
139,140,Leonor Sousa,F,8/2/1981
154,155,Luis Rodrigues,M,7/3/1973
...,...,...,...,...
986,987,Beatriz Cardoso,F,7/17/1984
990,991,Diogo Melo,M,7/24/2001
993,994,Eduardo Costa,M,12/18/1963
996,997,Laura Oliveira,F,6/15/1979


In [95]:
# Verificando se existe alguma linha identica, excluindo o id
df_clientes.drop('id', axis=1).duplicated().sum()

0

In [96]:
df_produtos.produto.duplicated().sum()

0

In [97]:
df_lojas.cidade.duplicated().sum()

0

In [98]:
# Pode ser indicativo de um dado duplicado ou que uma pessoa fez duas compras iguais no mesmo dia
df_vendas[df_vendas.drop('id', axis=1).duplicated()]

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda
496,497,559,2,5,2018-06-22


In [99]:
df_pagamentos.drop('id', axis=1).duplicated().sum()

0

### Formato de dados

In [100]:
# Convertendo o formato da coluna data
df_clientes.dt_nasc = pd.to_datetime(df_clientes.dt_nasc, format='%m/%d/%Y')
df_clientes

Unnamed: 0,id,nome,sexo,dt_nasc
0,1,Lavinia Sousa,F,1975-05-02
1,2,Caio Pereira,M,1978-04-16
2,3,Júlio Azevedo,M,1952-11-04
3,4,Sarah Goncalves,F,1937-02-24
4,5,Gabrielle Martins,F,1953-05-06
...,...,...,...,...
995,996,Ágatha Ribeiro,F,1946-02-08
996,997,Laura Oliveira,F,1979-06-15
997,998,Lara Oliveira,F,1946-03-15
998,999,Julian Cunha,M,1994-06-20


### Indexes

In [101]:
df_clientes = df_clientes.set_index('id')
df_clientes

Unnamed: 0_level_0,nome,sexo,dt_nasc
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Lavinia Sousa,F,1975-05-02
2,Caio Pereira,M,1978-04-16
3,Júlio Azevedo,M,1952-11-04
4,Sarah Goncalves,F,1937-02-24
5,Gabrielle Martins,F,1953-05-06
...,...,...,...
996,Ágatha Ribeiro,F,1946-02-08
997,Laura Oliveira,F,1979-06-15
998,Lara Oliveira,F,1946-03-15
999,Julian Cunha,M,1994-06-20


In [102]:
df_lojas = df_lojas.set_index('id')
df_produtos = df_produtos.set_index('id')
df_vendas = df_vendas.set_index('id')
df_pagamentos = df_pagamentos.set_index('id')