# Tratar valores ausentes e inconsistências
após análise do relatório de integridade e qualidade dos dados, será feito o tratamento a fim amenizar dados inconsistentes

In [1]:
# importação de bibliotecas necessárias
import pandas as pd
from joblib import load, dump # para carregar os files .z

In [2]:
caminho = '../../util/data/'

In [3]:
arquivos = { # dicionario das tabelas uteis
    'categorias':'df_categorias.z',
    'clientes': 'df_clientes.z',
    'produtos':'df_produtos.z',
    'unidades':'df_unidades.z',
    'vendas':'df_vendas.z',
    'vendedores':'df_vendedores.z'
 }

In [4]:
# loop para vasculhar todas as colunas de cada arquivo e somar os valores nulos
for nome, arquivo_nome in arquivos.items():
 
    df = load(caminho+arquivo_nome) 
    print(f'leitura do arquivo [{nome}]:\n', df.isnull().sum(),'\n-----------------------')  

leitura do arquivo [categorias]:
 codigo       0
descricao    0
dtype: int64 
-----------------------
leitura do arquivo [clientes]:
 codigo                  0
id_fiscal               1
nome                    0
nome_fantasia           0
natureza_juridica       0
id_fiscal_2             0
id_fiscal_3             0
tidfiscs             3131
contribuinte_icms       0
ccnae                3131
dnasc                3124
pdc                     0
itemt                3129
iprz                 3132
ccrm1                3131
nctx                 3131
ccrm2                3131
nctx-2               3131
ccrm3                3132
nctx-3               3132
ccrm4                3132
nctx-4               3132
ccrm5                3132
nctx-5               3132
ccrm6                3132
nctx-6               3132
crota                3132
crota_idol              6
vendedor              260
cst                     0
dtype: int64 
-----------------------
leitura do arquivo [produtos]:
 codigo          

# `df_categorias `

In [5]:
df_categorias = load(caminho+'df_categorias.z')

In [6]:
df_categorias.head(5)

Unnamed: 0,codigo,descricao
0,41,COMPUTADOR
1,64,PASTA
2,342,CANETA
3,51,PRESENTE
4,346,MATERIAL DE USO E CONSUMO


## `df_clientes`

In [7]:
# removendo colunas de 'df_clientes'
df_clientes = load(caminho+'df_clientes.z') # carregando o dataframe

df_clientes = df_clientes.drop(columns=['tidfiscs','ccnae','dnasc','itemt','iprz','ccrm1','nctx','ccrm2','nctx-2','ccrm3','ccrm4','nctx-4','nctx-4','nctx-5','ccrm6','nctx-6','crota','nctx-3','ccrm5','crota_idol','pdc']) # removendo colunas com drop()

df_clientes.head(5)

Unnamed: 0,codigo,id_fiscal,nome,nome_fantasia,natureza_juridica,id_fiscal_2,id_fiscal_3,contribuinte_icms,vendedor,cst
0,9712,322.175.103-63,JOAO MIRANDA DA SILVA,JOAO MIRANDA DA SILVA,PF,ISENTO,ISENTO,N,9.0,PD
1,239,17.014.825/0001-68,VERDUREIRA E SORVETERIA PALHANO LTDA,VERDUREIRA E SORVETERIA PALHANO LTDA,LT,82500016,ISENTO,S,9.0,PD
2,8810,17.055.887/0003-80,M & C LANCHES LTDA,M & C LANCHES LTDA,LT,88700038,ISENTO,S,58.0,PD
3,6006,17.041.611/0001-80,BAR E LANCHONETE FUNCHAL LTDA,BAR E LANCHONETE FUNCHAL LTDA,LT,61100018,ISENTO,S,79.0,PD
4,7761,17.050.253/0001-72,LANCHERIA LTDA,LANCHERIA LTDA,LT,25300017,ISENTO,S,11.0,PD


In [8]:
# substituindo valor 'ISENTO' na primeira célula da tabela id_fiscal_2 por 0
df_clientes.at[0, 'id_fiscal_2'] = 0

In [9]:
df_clientes['id_fiscal'].fillna(0, inplace=True) # aplicando valor 0 em valor nulo na coluna 'id_fiscal'

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_clientes['id_fiscal'].fillna(0, inplace=True) # aplicando valor 0 em valor nulo na coluna 'id_fiscal'


In [10]:
# tratamento na coluna 'vendedor'
# ao que parece, os valores se relacionam com os 'df_vendedores'

vendedores = [11,51,88,89,54,56,94,79,58,9,90,32,101] # lista dos valores 

it_vendedores = iter(vendedores) # iterador, vai pecorrer os itens da lista

def preencher_valores(valor):
    if pd.isnull(valor): # verifica se valor no df está nulo
        try:
            return next(it_vendedores) # substitui pelo próximo valor
        except StopIteration: # 
            return vendedores[-1]  # se acabar a lista, repete o último
    return valor

df_clientes['vendedor'] = df_clientes['vendedor'].apply(preencher_valores) # aplicando a function na coluna


In [11]:
df_clientes['vendedor'] = df_clientes['vendedor'].astype(int)
print(df_clientes.info()) 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3132 entries, 0 to 3131
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   codigo             3132 non-null   int64 
 1   id_fiscal          3132 non-null   object
 2   nome               3132 non-null   object
 3   nome_fantasia      3132 non-null   object
 4   natureza_juridica  3132 non-null   object
 5   id_fiscal_2        3132 non-null   object
 6   id_fiscal_3        3132 non-null   object
 7   contribuinte_icms  3132 non-null   object
 8   vendedor           3132 non-null   int64 
 9   cst                3132 non-null   object
dtypes: int64(2), object(8)
memory usage: 244.8+ KB
None


In [12]:
# última checagem
df_clientes.isnull().sum()
df_clientes.head(5)

Unnamed: 0,codigo,id_fiscal,nome,nome_fantasia,natureza_juridica,id_fiscal_2,id_fiscal_3,contribuinte_icms,vendedor,cst
0,9712,322.175.103-63,JOAO MIRANDA DA SILVA,JOAO MIRANDA DA SILVA,PF,0,ISENTO,N,9,PD
1,239,17.014.825/0001-68,VERDUREIRA E SORVETERIA PALHANO LTDA,VERDUREIRA E SORVETERIA PALHANO LTDA,LT,82500016,ISENTO,S,9,PD
2,8810,17.055.887/0003-80,M & C LANCHES LTDA,M & C LANCHES LTDA,LT,88700038,ISENTO,S,58,PD
3,6006,17.041.611/0001-80,BAR E LANCHONETE FUNCHAL LTDA,BAR E LANCHONETE FUNCHAL LTDA,LT,61100018,ISENTO,S,79,PD
4,7761,17.050.253/0001-72,LANCHERIA LTDA,LANCHERIA LTDA,LT,25300017,ISENTO,S,11,PD


In [13]:
dump(df_clientes, caminho+'df_clientes.z') # substituindo com as novas mudanças

['../../util/data/df_clientes.z']

## `df_vendas`

### Importando dados

In [14]:
from joblib import load
df_vendas = load("../../util/data/df_vendas.z")

#### Identificando valores ausentes

Iniciaremos o processo de análise avaliando os valores ausentes em **Vendas**:

In [15]:
print(df_vendas.info())

# Percentual de valores ausentes por coluna
missing_percent = df_vendas.isnull().mean().sort_values(ascending=False) * 100
print("\nPercentual de valores ausentes por coluna (maior para menor):")
print(missing_percent)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10428 entries, 0 to 10427
Data columns (total 22 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   codigo_empresa             10428 non-null  int64  
 1   tipo_pedido                10428 non-null  object 
 2   centro_resultado           10428 non-null  int64  
 3   documento                  10428 non-null  int64  
 4   codigo_cliente             10428 non-null  int64  
 5   codigo_parceiro            1 non-null      float64
 6   codigo_empregado           10428 non-null  int64  
 7   codigo_mecanico_empregado  5 non-null      float64
 8   data_emissao               10428 non-null  object 
 9   hora_emissao               10428 non-null  object 
 10  data_fechamento            10428 non-null  object 
 11  hora_fechamento            10428 non-null  object 
 12  data_faturamento           10418 non-null  object 
 13  placa                      5 non-null      obj

### Nesse cenário, é possível destacar:

**Colunas com 100% de valores ausentes:**

- `origem` (totalmente ausente)

- `motivo_perda` (totalmente ausente)


**Colunas com alta taxa de valores ausentes:**

- `codigo_parceiro` (99.99%)

- `codigo_mecanico_empregado` (99.95%)

- `placa` (99.95%)

- `campanha` (99.03%)

**Colunas com poucos valores ausentes:**

- `data_faturamento` (menos de 0.1% de valores ausentes)

**Colunas sem valores ausentes:**

- As demais colunas não possuem dados ausentes.

#### Assim, removeremos as colunas `origem`, `motivo_perda`, `codigo_parceiro`, `codigo_mecanico_empregado`, `placa` e `campanha` por apresentarem mais de 99% de valores ausentes, o que compromete sua relevância na análise.

In [16]:
df_vendas.drop(columns=[
    'origem',
    'motivo_perda',
    'codigo_parceiro',
    'codigo_mecanico_empregado',
    'placa',
    'campanha'
], inplace=True)

print(df_vendas.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10428 entries, 0 to 10427
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   codigo_empresa    10428 non-null  int64  
 1   tipo_pedido       10428 non-null  object 
 2   centro_resultado  10428 non-null  int64  
 3   documento         10428 non-null  int64  
 4   codigo_cliente    10428 non-null  int64  
 5   codigo_empregado  10428 non-null  int64  
 6   data_emissao      10428 non-null  object 
 7   hora_emissao      10428 non-null  object 
 8   data_fechamento   10428 non-null  object 
 9   hora_fechamento   10428 non-null  object 
 10  data_faturamento  10418 non-null  object 
 11  codigo_produto    10428 non-null  int64  
 12  quantidade        10428 non-null  float64
 13  total             10428 non-null  float64
 14  custo_medio       10428 non-null  float64
 15  valor_desconto    10428 non-null  float64
dtypes: float64(4), int64(6), object(6)
memor

Ademais, é necessário avaliar a estratégia para a coluna `data_faturamento`, tendo em vista sua baixa porcentagem de dados ausentes (0,09%), destacam-se duas estratégias, preencher utilizando outra coluna com o tipo de data, ou excluir essas linhas com valores ausentes. Nesse caso, por não conhecer com precisão o impacto das outras variáveis de tipo data, optaremos pela segunda estratégia, ou seja, a remoção.

In [17]:
df_vendas = df_vendas[df_vendas['data_faturamento'].notnull()]

Com essas etapas, eliminamos todas as colunas ou linhas que possuíam dados ausentes:

In [18]:
# Verificar se ainda há valores ausentes
print(df_vendas.isnull().sum())

codigo_empresa      0
tipo_pedido         0
centro_resultado    0
documento           0
codigo_cliente      0
codigo_empregado    0
data_emissao        0
hora_emissao        0
data_fechamento     0
hora_fechamento     0
data_faturamento    0
codigo_produto      0
quantidade          0
total               0
custo_medio         0
valor_desconto      0
dtype: int64


### Prosseguindo, avaliaremos as formatações de colunas com o tipo data: 

In [19]:
possiveis_datas = [col for col in df_vendas.columns if 'data' in col.lower()]
print(possiveis_datas)

['data_emissao', 'data_fechamento', 'data_faturamento']


In [20]:
print(df_vendas[possiveis_datas].dtypes)

data_emissao        object
data_fechamento     object
data_faturamento    object
dtype: object


Percebemos que essas colunas não estão tipo correto, resolveremos isso: 

In [21]:
import pandas as pd

# Converter colunas de data para datetime
date_cols = ['data_emissao', 'data_fechamento', 'data_faturamento']

for col in date_cols:
    df_vendas[col] = pd.to_datetime(df_vendas[col], errors='coerce')

In [22]:
print(df_vendas[date_cols].dtypes)

data_emissao        datetime64[ns]
data_fechamento     datetime64[ns]
data_faturamento    datetime64[ns]
dtype: object


### Após isso, iremos verificar e padronizar colunas de texto:

In [23]:
colunas_object = df_vendas.select_dtypes(include='object').columns
print(colunas_object)

Index(['tipo_pedido', 'hora_emissao', 'hora_fechamento'], dtype='object')


Iniciando com `tipo_pedido`:

In [24]:
print(df_vendas['tipo_pedido'].unique())

['PV' 'DV']


Nesse caso, eles já estão consistentes, padronizados e sem espaços, logo não é necessário tratamento aqui.

Prosseguindo com `hora_emissao` e `hora_fechamento`:

In [25]:
print(df_vendas[['hora_emissao', 'hora_fechamento']].sample(5))

     hora_emissao hora_fechamento
8893     09:36:05        09:39:05
2175     12:36:32        12:38:35
6494     08:07:13        08:29:23
9691     10:27:43        10:28:48
6307     15:38:21        15:38:51


In [26]:
print(df_vendas[['hora_emissao', 'hora_fechamento']].dtypes)

hora_emissao       object
hora_fechamento    object
dtype: object


Não há erro no padrão armazenado, mas no futuro pode ser mais interessando trabalhar com o tipo `datetime.time`.

Seguiremos avaliando os valores únicos e básicos nas colunas de identificação:

In [27]:
print("Valores únicos por coluna de identificação:")
print("codigo_empresa:", df_vendas['codigo_empresa'].unique())
print("centro_resultado:", df_vendas['centro_resultado'].nunique())
print("codigo_cliente:", df_vendas['codigo_cliente'].nunique())
print("codigo_empregado:", df_vendas['codigo_empregado'].nunique())
print("codigo_produto:", df_vendas['codigo_produto'].nunique())
print("documento duplicado?", df_vendas['documento'].duplicated().any())

Valores únicos por coluna de identificação:
codigo_empresa: [2 1 3]
centro_resultado: 6
codigo_cliente: 969
codigo_empregado: 14
codigo_produto: 2872
documento duplicado? True


Apenas uma apresenta problemas notórios, nesse sentido iremos avaliar `documento`:

In [28]:
# Ver duplicados
print("Quantidade de documentos duplicados:", df_vendas['documento'].duplicated().sum())

print("\nExemplos de documentos duplicados:")
print(df_vendas[df_vendas['documento'].duplicated(keep=False)].sort_values('documento').head(10))

Quantidade de documentos duplicados: 6060

Exemplos de documentos duplicados:
      codigo_empresa tipo_pedido  centro_resultado  documento  codigo_cliente  \
1831               1          PV                 2      18228            6863   
2631               1          PV                 2      18228            6863   
2630               1          PV                 2      18228            6863   
97                 1          PV                 7      19216            6863   
98                 1          PV                 7      19216            6863   
8811               1          PV                 2      19509             236   
8812               1          PV                 2      19509             236   
8810               1          PV                 2      19509             236   
8816               1          PV                 2      19509             236   
8815               1          PV                 2      19509             236   

      codigo_empregado data_em

Conclusão: Os documentos não são duplicatas exatas, eles compartilham o mesmo número de documento, mas:

- Diferem no `codigo_produto`, `quantidade`, `total`, etc.

- Representam, provavelmente, itens diferentes de um mesmo pedido (como uma nota fiscal com várias linhas).

Assim, manteremos os dados como estão.

### Por fim, iremos avaliar as últimas colunas restantes:

In [29]:
print(df_vendas[['quantidade', 'total', 'custo_medio', 'valor_desconto']].describe())

# Procurando valores negativos
negativos = df_vendas[(df_vendas['quantidade'] < 0) |
                      (df_vendas['total'] < 0) |
                      (df_vendas['custo_medio'] < 0) |
                      (df_vendas['valor_desconto'] < 0)]
print(f"\nQuantidade de registros com valores negativos: {len(negativos)}")

# Procurando linhas com quantidade == 0 ou total == 0
zeros_suspeitos = df_vendas[(df_vendas['quantidade'] == 0) | (df_vendas['total'] == 0)]
print(f"\nRegistros com quantidade ou total igual a zero: {len(zeros_suspeitos)}")

         quantidade         total   custo_medio  valor_desconto
count  10418.000000  10418.000000  10418.000000    10418.000000
mean       5.463429    206.323024     50.682218       67.747056
std       19.755777    513.622674    195.042046      226.178726
min      -59.000000  -2415.000000   -815.900000        0.000000
25%        1.000000     30.000000      6.995100        2.665000
50%        2.000000     79.795000     12.828000       15.675000
75%        5.000000    199.972500     32.086875       56.400000
max      600.000000  14900.000000   5163.480000     5262.000000

Quantidade de registros com valores negativos: 76

Registros com quantidade ou total igual a zero: 0


Localizando os 76 registros com valores negativos:

In [30]:
negativos = df_vendas[
    (df_vendas['quantidade'] < 0) |
    (df_vendas['total'] < 0) |
    (df_vendas['custo_medio'] < 0)
]

print(f"Quantidade de registros com valores negativos: {len(negativos)}")
display(negativos)

Quantidade de registros com valores negativos: 76


Unnamed: 0,codigo_empresa,tipo_pedido,centro_resultado,documento,codigo_cliente,codigo_empregado,data_emissao,hora_emissao,data_fechamento,hora_fechamento,data_faturamento,codigo_produto,quantidade,total,custo_medio,valor_desconto
269,1,DV,2,20822,9328,58,2023-01-18,15:19:20,2023-01-18,15:19:33,2023-01-18,190569,-3.0,-255.00,-41.2230,0.0
282,1,DV,7,23862,9636,58,2023-03-09,16:11:47,2023-03-09,16:12:06,2023-03-09,192510,-4.0,-28.00,-1.9200,0.0
310,1,DV,2,20834,9330,58,2023-01-18,16:32:32,2023-01-18,16:32:42,2023-01-18,159671,-1.0,-30.00,-0.7200,0.0
435,1,DV,7,23892,5292,82,2023-03-10,09:51:22,2023-03-10,09:52:03,2023-03-10,1441,-1.0,-351.90,-247.7335,0.0
858,1,DV,2,21062,9345,58,2023-01-23,11:06:46,2023-01-23,11:07:01,2023-01-23,130,-2.0,-32.00,-7.4497,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9187,1,DV,2,24242,599,82,2023-03-15,20:20:42,2023-03-15,20:22:43,2023-03-15,193436,-1.0,-534.31,-240.2783,0.0
9188,1,DV,2,24242,599,82,2023-03-15,20:20:42,2023-03-15,20:22:43,2023-03-15,667,-1.0,-653.62,-378.8261,0.0
9189,1,DV,2,24242,599,82,2023-03-15,20:20:42,2023-03-15,20:22:43,2023-03-15,1718,-2.0,-505.78,-148.7550,0.0
9348,1,DV,2,20275,6128,63,2023-01-11,08:03:47,2023-01-11,08:04:46,2023-01-11,7037,-2.0,-240.12,-27.6313,0.0


Checaremos uma possível relação com a coluna `tipo_pedido`:

In [31]:
dv_negativos = negativos[negativos['tipo_pedido'] == 'DV']
print(f"Registros com valores negativos e tipo_pedido = 'DV': {len(dv_negativos)}")
display(dv_negativos)

Registros com valores negativos e tipo_pedido = 'DV': 76


Unnamed: 0,codigo_empresa,tipo_pedido,centro_resultado,documento,codigo_cliente,codigo_empregado,data_emissao,hora_emissao,data_fechamento,hora_fechamento,data_faturamento,codigo_produto,quantidade,total,custo_medio,valor_desconto
269,1,DV,2,20822,9328,58,2023-01-18,15:19:20,2023-01-18,15:19:33,2023-01-18,190569,-3.0,-255.00,-41.2230,0.0
282,1,DV,7,23862,9636,58,2023-03-09,16:11:47,2023-03-09,16:12:06,2023-03-09,192510,-4.0,-28.00,-1.9200,0.0
310,1,DV,2,20834,9330,58,2023-01-18,16:32:32,2023-01-18,16:32:42,2023-01-18,159671,-1.0,-30.00,-0.7200,0.0
435,1,DV,7,23892,5292,82,2023-03-10,09:51:22,2023-03-10,09:52:03,2023-03-10,1441,-1.0,-351.90,-247.7335,0.0
858,1,DV,2,21062,9345,58,2023-01-23,11:06:46,2023-01-23,11:07:01,2023-01-23,130,-2.0,-32.00,-7.4497,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9187,1,DV,2,24242,599,82,2023-03-15,20:20:42,2023-03-15,20:22:43,2023-03-15,193436,-1.0,-534.31,-240.2783,0.0
9188,1,DV,2,24242,599,82,2023-03-15,20:20:42,2023-03-15,20:22:43,2023-03-15,667,-1.0,-653.62,-378.8261,0.0
9189,1,DV,2,24242,599,82,2023-03-15,20:20:42,2023-03-15,20:22:43,2023-03-15,1718,-2.0,-505.78,-148.7550,0.0
9348,1,DV,2,20275,6128,63,2023-01-11,08:03:47,2023-01-11,08:04:46,2023-01-11,7037,-2.0,-240.12,-27.6313,0.0


In [32]:
dump(df_vendas, '../../util/data/df_vendas.z')

['../../util/data/df_vendas.z']

Observações: 

Existe, de fato, uma relação da ocorrência de valores negativos nas colunas `quantidade`, `total` e `custo_medio`, com o `tipo_pedido` 'DV'. Esses valores podem indicar estornos, devoluções ou ajustes manuais. No entanto, não é possível decidir se esses registros devem ser excluídos, corrigidos ou mantidos sem conhecer as regras de negócio envolvidas.

## `df_produtos`

### Importando os dados

In [33]:
from joblib import load
df_produtos = load("../../util/data/df_produtos.z")

#### Identificando valores ausentes

Iniciaremos o processo de análise avaliando os valores ausentes em **Produtos**:

In [34]:
print(df_produtos.info())

# Percentual de valores ausentes por coluna
missing_percent = df_produtos.isnull().mean().sort_values(ascending=False) * 100
print("\nPercentual de valores ausentes por coluna (maior para menor):")
print(missing_percent)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9592 entries, 0 to 9591
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   codigo            9591 non-null   object 
 1   descricao         9592 non-null   object 
 2   codigo_barras     111 non-null    object 
 3   unidade           9481 non-null   object 
 4   marca             9475 non-null   object 
 5   codigo_categoria  9589 non-null   float64
 6   categoria         9589 non-null   object 
 7   classificacao     9592 non-null   object 
 8   preco_venda       9592 non-null   float64
dtypes: float64(2), object(7)
memory usage: 674.6+ KB
None

Percentual de valores ausentes por coluna (maior para menor):
codigo_barras       98.842786
marca                1.219766
unidade              1.157214
categoria            0.031276
codigo_categoria     0.031276
codigo               0.010425
descricao            0.000000
classificacao        0.000000
preco_venda    

In [35]:
dump(df_produtos, '../../util/data/df_produtos.z')

['../../util/data/df_produtos.z']

Conclusão: 

- A coluna `codigo_barras` possui mais de 98% dos ausentes, sendo uma forte candidata a ser removida.

- As colunas `descricao`, `classificacao` e `preco_venda` não possuem valores ausentes, garantindo boa confiabilidade.

- As demais colunas possuem uma baixa porcentagem de valores ausentes (menor que 2%), logo será necessário uma estratégia para a substituição desses valores.