# Tratar valores ausentes e inconsistências
após análise do relatório de integridade e qualidade dos dados, será feito o tratamento a fim amenizar dados inconsistentes

In [20]:
# importação de bibliotecas necessárias
import pandas as pd
from joblib import load, dump # para carregar os files .z

In [21]:
caminho = '../../util/data/'

In [22]:
arquivos = { # dicionario das tabelas uteis
    'categorias':'df_categorias.z',
    'clientes': 'df_clientes.z',
    'produtos':'df_produtos.z',
    'unidades':'df_unidades.z',
    'vendas':'df_vendas.z',
    'vendedores':'df_vendedores.z'
 }

In [23]:
# loop para vasculhar todas as colunas de cada arquivo e somar os valores nulos
for nome, arquivo_nome in arquivos.items():
 
    df = load(caminho+arquivo_nome) 
    print(f'leitura do arquivo [{nome}]:\n', df.isnull().sum(),'\n-----------------------') 
    

leitura do arquivo [categorias]:
 codigo       0
descricao    0
dtype: int64 
-----------------------
leitura do arquivo [clientes]:
 codigo                  0
id_fiscal               1
nome                    0
nome_fantasia           0
natureza_juridica       0
id_fiscal_2             0
id_fiscal_3             0
tidfiscs             3131
contribuinte_icms       0
ccnae                3131
dnasc                3124
pdc                     0
itemt                3129
iprz                 3132
ccrm1                3131
nctx                 3131
ccrm2                3131
nctx-2               3131
ccrm3                3132
nctx-3               3132
ccrm4                3132
nctx-4               3132
ccrm5                3132
nctx-5               3132
ccrm6                3132
nctx-6               3132
crota                3132
crota_idol              6
vendedor              260
cst                     0
dtype: int64 
-----------------------
leitura do arquivo [produtos]:
 codigo          

In [24]:
# removendo colunas de 'df_clientes'
df_clientes = load(caminho+'df_clientes.z') # carregando o dataframe

df_clientes = df_clientes.drop(columns=['tidfiscs','ccnae','dnasc','itemt','iprz','ccrm1','nctx','ccrm2','nctx-2','ccrm3','ccrm4','nctx-4','nctx-4','nctx-5','ccrm6','nctx-6','crota','nctx-3','ccrm5','crota_idol']) # removendo colunas com drop()

df_clientes

Unnamed: 0,codigo,id_fiscal,nome,nome_fantasia,natureza_juridica,id_fiscal_2,id_fiscal_3,contribuinte_icms,pdc,vendedor,cst
0,9712,322.175.103-63,JOAO MIRANDA DA SILVA,JOAO MIRANDA DA SILVA,PF,ISENTO,ISENTO,N,0.0,9.0,PD
1,239,17.014.825/0001-68,VERDUREIRA E SORVETERIA PALHANO LTDA,VERDUREIRA E SORVETERIA PALHANO LTDA,LT,82500016,ISENTO,S,0.0,9.0,PD
2,8810,17.055.887/0003-80,M & C LANCHES LTDA,M & C LANCHES LTDA,LT,88700038,ISENTO,S,0.0,58.0,PD
3,6006,17.041.611/0001-80,BAR E LANCHONETE FUNCHAL LTDA,BAR E LANCHONETE FUNCHAL LTDA,LT,61100018,ISENTO,S,0.0,79.0,PD
4,7761,17.050.253/0001-72,LANCHERIA LTDA,LANCHERIA LTDA,LT,25300017,ISENTO,S,0.0,11.0,PD
...,...,...,...,...,...,...,...,...,...,...,...
3127,264,17.014.916/0001-01,MARIA AUGUSTA PEIXOTO E CIA LTDA,MARIA AUGUSTA PEIXOTO E CIA LTDA,LT,91600010,ISENTO,S,0.0,63.0,PD
3128,9728,,BRUNO RODOCEARA,BRUNO,PF,ISENTO,ISENTO,N,0.0,77.0,PD
3129,7712,17.050.058/0002-23,AIRES E TUPINAMBA CAFETERIA LTDA,AIRES E TUPINAMBA CAFETERIA LTDA,LT,05800022,ISENTO,S,0.0,79.0,PD
3130,8814,17.055.902/0001-28,A 7 EVENTOS LTDA,A 7 EVENTOS LTDA,LT,90200012,ISENTO,S,0.0,54.0,PD


In [None]:
df_clientes['id_fiscal'].fillna(0, inplace=True) # aplicando valor 0 em valor nulo na coluna 'id_fiscal'

In [None]:
# tratamento na coluna 'vendedor'
# ao que parece, os valores se relacionam com os 'df_vendedores'

vendedores = [11,51,88,89,54,56,94,79,58,9,90,32,101] # lista dos valores 

it_vendedores = iter(vendedores) # iterador, vai pecorrer os itens da lista

def preencher_valores(valor):
    if pd.isnull(valor): # verifica se valor no df está nulo
        try:
            return next(it_vendedores) # substitui pelo próximo valor
        except StopIteration: # 
            return vendedores[-1]  # se acabar a lista, repete o último
    return valor

df_clientes['vendedor'] = df_clientes['vendedor'].apply(preencher_valores) # aplicando a function na coluna


In [None]:
df_clientes['vendedor'] = df_clientes['vendedor'].astype(int)
df_clientes['pdc'] = df_clientes['pdc'].astype(int)
print(df_clientes.info()) 

In [None]:
# última checagem
df_clientes.isnull().sum()

df_clientes.head()

codigo               0
id_fiscal            0
nome                 0
nome_fantasia        0
natureza_juridica    0
id_fiscal_2          0
id_fiscal_3          0
contribuinte_icms    0
pdc                  0
vendedor             0
cst                  0
dtype: int64

In [None]:
dump(df_clientes, caminho+'df_clientes.z') # substituindo com as novas mudanças

['../../util/data/df_clientes.z']