In [19]:
import pandas as pd
clientes = pd.read_csv('caso_estudo_clientes.csv', sep=';')
lojas = pd.read_csv('caso_estudo_lojas.csv', sep=';')
pagamentos = pd.read_csv('caso_estudo_pagamentos.csv', sep=';')
produtos = pd.read_csv('caso_estudo_produtos.csv', sep=';')
vendas = pd.read_csv('caso_estudo_vendas.csv', sep=';')

# Limpeza de Dados

A limpesa de dados consiste na preparação dos dados que serão analisados.
Serão buscados nesse processo:
- Dados Nulos
- Dados duplicados
- Outliers (fora da faixa/média)
- Ajustar tipos de dados (ex: datas)
- Se necessita unir base (join) e realizar correspondências

## Dados Nulos

Prieira situação: Modificar os dados

In [20]:
vendas

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda
0,1,620,3,2,07/11/2018
1,2,483,1,9,06/01/2018
2,3,976,8,3,10/04/2018
3,4,389,5,6,05/07/2020
4,5,626,7,8,22/07/2018
...,...,...,...,...,...
995,996,641,8,5,27/03/2018
996,997,325,4,1,26/07/2019
997,998,765,6,8,24/03/2018
998,999,217,10,3,23/08/2018


In [21]:
# isnull() - verifica se existem dados nulos no Dataframe
# Retorna True caso algum dado seja nulo, retorna False se não for nulo
clientes.isnull()

Unnamed: 0,id,nome,sexo,dt_nasc
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
995,False,False,False,False
996,False,False,False,False
997,False,False,False,False
998,False,False,False,False


In [22]:
# A junção da função isnull() com sum() retorna quantos dados nulos existem por coluna

clientes.isnull().sum()

id         0
nome       4
sexo       4
dt_nasc    4
dtype: int64

In [23]:
# revisão de slicing
# usando loc é possivel fatiar linhas (2:5) e colunas ('nome':'sexo') ao mesmo tempo 

clientes.loc[2:5,'nome':'sexo']

Unnamed: 0,nome,sexo
2,Júlio Azevedo,M
3,Sarah Goncalves,F
4,Gabrielle Martins,F
5,Felipe Almeida,M


In [24]:
# T é uma alias (abreviação) para Transpose, e tem como objetivo, verificar algo em uma linha completa
# any() retorna True de alguma coluna for nulo, False caso contrário 

clientes.isnull().T.any()

0      False
1      False
2      False
3      False
4      False
       ...  
995    False
996    False
997    False
998    False
999    False
Length: 1000, dtype: bool

In [25]:
# A operação anterior foi colocada nos colchetes para o slicing, 
# retornando apenas as linhas que possuem alguma coluna com dado nulo

clientes[clientes.isnull().T.any()]

# Forma correta de imprimir é a de baixo
# print(clientes[clientes.isnull().T.any()])

Unnamed: 0,id,nome,sexo,dt_nasc
263,264,,F,7/29/1997
264,265,,M,2/7/1979
268,269,,F,
269,270,,M,
276,277,Brenda Santos,F,
282,283,Amanda Barros,F,
287,288,Victor Ribeiro,,12/17/1974
290,291,Clara Pinto,,12/25/1980
294,295,Tiago Lima,,7/26/1973
301,302,Guilherme Cardoso,,3/9/1998


In [26]:
# É necessario vericifacar se os clientes que possuem dados nulos tem algum tipo de dependência no Dataframe
# Se possuir, esses dados não podem ser apagados.
# Nesse exemplo, foi realizado uma busca no Dataframe vendas pelo id do primeiro cliente que possui dados nulos.

vendas[vendas.id_cliente == 264]

Unnamed: 0,id,id_cliente,id_loja,id_produto,dt_venda
32,33,264,1,3,22/02/2020
815,816,264,3,3,28/01/2019
906,907,264,6,5,21/02/2019


In [27]:
clientes.loc[clientes.sexo.isnull(), "nome"] = 'sem nome'

In [28]:
clientes.loc[clientes.nome == "sem nome"]

Unnamed: 0,id,nome,sexo,dt_nasc
287,288,sem nome,,12/17/1974
290,291,sem nome,,12/25/1980
294,295,sem nome,,7/26/1973
301,302,sem nome,,3/9/1998


In [29]:
clientes.loc[clientes.sexo.isnull(), 'sexo'] = 'o'

In [30]:
clientes.loc[clientes.sexo == 'o']

Unnamed: 0,id,nome,sexo,dt_nasc
287,288,sem nome,o,12/17/1974
290,291,sem nome,o,12/25/1980
294,295,sem nome,o,7/26/1973
301,302,sem nome,o,3/9/1998


In [31]:
clientes.loc[clientes.dt_nasc.isnull(), 'dt_nasc'] = '01/12/2023'

In [32]:
clientes.loc[clientes.dt_nasc == 'dt_nasc']

Unnamed: 0,id,nome,sexo,dt_nasc
