In [1]:
import pandas as pd
clientes = pd.read_csv('caso_estudo_clientes.csv' , sep=';')
lojas = pd.read_csv('caso_estudo_lojas.csv' , sep=';')
pagamentos = pd.read_csv('caso_estudo_pagamentos.csv' , sep=';')
produtos = pd.read_csv('caso_estudo_produtos.csv' , sep=';')
vendas = pd.read_csv('caso_estudo_vendas.csv' , sep=';')

# Limpeza de Dados

A limpeza de dados consiste na preparação dos dados que serão analisados.
Serão buscados neste processo:

- Dados Nulos
- Dados duplicados
- Outliers (fora da faixa/média)
- Ajustar tipos de dados (ex: datas)
- Se necessita unir bases (join) e realizar correspondências

## Dados Nulos

Primeira situação: modificar os dados

In [3]:
clientes

Unnamed: 0,id,nome,sexo,dt_nasc
0,1,Lavinia Sousa,F,5/2/1975
1,2,Caio Pereira,M,4/16/1978
2,3,Júlio Azevedo,M,11/4/1952
3,4,Sarah Goncalves,F,2/24/1937
4,5,Gabrielle Martins,F,5/6/1953
...,...,...,...,...
995,996,Ágatha Ribeiro,F,2/8/1946
996,997,Laura Oliveira,F,6/15/1979
997,998,Lara Oliveira,F,3/15/1946
998,999,Julian Cunha,M,6/20/1994


In [4]:
lojas

Unnamed: 0,id,cidade
0,1,São Paulo
1,2,Rio de Janeiro
2,3,Curitiba
3,4,Belo Horizonte
4,5,Santa Catarina
5,6,Recife
6,7,Salvador
7,8,Brasília
8,9,Palmas
9,10,Vitória


In [5]:
pagamentos

Unnamed: 0,id,id_venda,dt_pgto
0,1.0,1.0,28/11/2018
1,2.0,2.0,12/02/2018
2,3.0,3.0,23/05/2018
3,4.0,4.0,13/07/2020
4,5.0,5.0,23/08/2018
...,...,...,...
851,,,
852,,,
853,,,
854,,,


In [6]:
produtos

Unnamed: 0,id,produto,valor
0,1,mouse,20.0
1,2,teclado,30.0
2,3,laptop básico,2300.0
3,4,laptop gamer,5300.0
4,5,monitor,1500.0
5,6,impressora,700.0
6,7,carregador,150.0
7,8,cadeira,540.0
8,9,mesa,860.0
9,10,xxx-231a,3211352.0


In [7]:
# isnull() - verifica se existem dados nulos no Dataframe
# Retorna True caso algum dado senha nulos, retorna false se não for nulo
clientes.isnull()

Unnamed: 0,id,nome,sexo,dt_nasc
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
995,False,False,False,False
996,False,False,False,False
997,False,False,False,False
998,False,False,False,False


In [8]:
"""
A junção da função isnull() com sum() 
retorna quantos dados nulos existem por coluna
"""
clientes.isnull().sum()

id         0
nome       4
sexo       4
dt_nasc    4
dtype: int64

In [9]:
"""
Revisão de Slicing usando loc é possível fatiar linhas (2:5) e colunad ('nome':'sexo') ao mesmo tempo
"""
clientes.loc[2:5, 'nome':'sexo']

Unnamed: 0,nome,sexo
2,Júlio Azevedo,M
3,Sarah Goncalves,F
4,Gabrielle Martins,F
5,Felipe Almeida,M


In [10]:
"""
T é uma alias (abreviação) para Tranpose, e tem como objetivo
de veificar algo em uma linha completa
any() retorna True se alguma coluna da linha for nulo, False caso contrário
"""
clientes.isnull().T.any()

0      False
1      False
2      False
3      False
4      False
       ...  
995    False
996    False
997    False
998    False
999    False
Length: 1000, dtype: bool

In [11]:
"""
A operação anterior foi colocada nos colchetes para o slicing,
retornando apenas as linhas que possuem alguma coluna com dado nulo
"""
clientes[clientes.isnull().T.any()]

Unnamed: 0,id,nome,sexo,dt_nasc
263,264,,F,7/29/1997
264,265,,M,2/7/1979
268,269,,F,
269,270,,M,
276,277,Brenda Santos,F,
282,283,Amanda Barros,F,
287,288,Victor Ribeiro,,12/17/1974
290,291,Clara Pinto,,12/25/1980
294,295,Tiago Lima,,7/26/1973
301,302,Guilherme Cardoso,,3/9/1998


In [12]:
vendas

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda
0,1,620,3,2,07/11/2018
1,2,483,1,9,06/01/2018
2,3,976,8,3,10/04/2018
3,4,389,5,6,05/07/2020
4,5,626,7,8,22/07/2018
...,...,...,...,...,...
995,996,641,8,5,27/03/2018
996,997,325,4,1,26/07/2019
997,998,765,6,8,24/03/2018
998,999,217,10,3,23/08/2018


In [13]:
"""
É necessário verificar se os clientes que possuem dados nulos tem algum tipo de dependência no dataframe.
Se possuir, esses dados não podem ser apagados.
Neste exemplo, foi realizado uma busca no dataframe vendas pelo id do primeiro cliente que possui dados nulos.
"""
vendas[vendas.id_cliente == 264]

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda
32,33,264,1,3,22/02/2020
815,816,264,3,3,28/01/2019
906,907,264,6,5,21/02/2019


In [3]:
"""
Retorna apenas os índices dos clientes que possuem pelo menos 1 dado nulo
"""

clientes[clientes.isnull().T.any()].index

Int64Index([263, 264, 268, 269, 276, 282, 287, 290, 294, 301], dtype='int64')

In [6]:
"""
A operação a seguir retorna todas as 'vendas[]' em que o id_cliente
de vendas "vendas['id_client']" esteja contido "isin()" na lista de ids
de clientes que possuem pelo menos 1 dado nulo
"clientes[clientes.isnull().T.any()].index)]"

"""

vendas[vendas['id_cliente'].isin(clientes[clientes.isnull().T.any()].index)]

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda
32,33,264,1,3,22/02/2020
82,83,301,6,4,14/08/2020
197,198,268,2,1,01/03/2018
296,297,301,4,7,13/06/2019
538,539,276,5,4,26/09/2019
597,598,263,8,6,07/07/2018
815,816,264,3,3,28/01/2019
906,907,264,6,5,21/02/2019
917,918,269,7,10,20/09/2018


In [9]:
#Slicing simples para retornar os clientes que possuem apenas o nome nulo
clientes[clientes.nome.isnull()]

Unnamed: 0,id,nome,sexo,dt_nasc
263,264,,F,7/29/1997
264,265,,M,2/7/1979
268,269,,F,
269,270,,M,


In [11]:
#Slicing utilizando Loc que retorna os mesmos dados do exemplo anterior
"""
Revisão: df.loc[linhas,colunas]
linhas = clientes.nome.isnull()
colunas = :  - retorna todas as colunas
"""
clientes.loc[clientes.nome.isnull(),:]

Unnamed: 0,id,nome,sexo,dt_nasc
263,264,,F,7/29/1997
264,265,,M,2/7/1979
268,269,,F,
269,270,,M,


In [14]:
#Mesmo slicing do exemplo anterior, mas retornando dados apenas da coluna nome
clientes.loc[clientes.nome.isnull(),'nome']

263    NaN
264    NaN
268    NaN
269    NaN
Name: nome, dtype: object

In [15]:
#Retorna apenas os valores nulos de nome por 'Sem nome'
clientes.loc[clientes.nome.isnull(),'nome'] = 'Sem nome'

In [16]:
#Conferindo se os nulos foram trocados por 'Sem nome'
clientes[clientes.nome == 'Sem nome']

Unnamed: 0,id,nome,sexo,dt_nasc
263,264,Sem nome,F,7/29/1997
264,265,Sem nome,M,2/7/1979
268,269,Sem nome,F,
269,270,Sem nome,M,


In [17]:
clientes.loc[clientes.sexo.isnull(),'sexo'] = '0'

In [18]:
clientes.loc[clientes.sexo == '0']

Unnamed: 0,id,nome,sexo,dt_nasc
287,288,Victor Ribeiro,0,12/17/1974
290,291,Clara Pinto,0,12/25/1980
294,295,Tiago Lima,0,7/26/1973
301,302,Guilherme Cardoso,0,3/9/1998


In [23]:
clientes.loc[clientes.dt_nasc.isnull(), 'dt_nasc'] = '01/12/2023'

In [24]:
clientes.loc[clientes.dt_nasc == '01/12/2023']

Unnamed: 0,id,nome,sexo,dt_nasc
268,269,Sem nome,F,01/12/2023
269,270,Sem nome,M,01/12/2023
276,277,Brenda Santos,F,01/12/2023
282,283,Amanda Barros,F,01/12/2023
