**Configuração de clonagem do repositório**

In [38]:
import os
import joblib
from joblib import dump, load
import pandas as pd
import numpy as np

# Configuração do Git (uma vez por sessão)
!git config --global user.email "facconc@email.com"
!git config --global user.name "Diego-Lima7"

# Token de acesso (NUNCA compartilhe publicamente!)
os.environ["GITHUB_TOKEN"] = "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"  # Substitua pelo token real

# Token de Acesso (substitua pelo seu token ou use variáveis de ambiente)
REPO_URL = f"https://{os.environ['GITHUB_TOKEN']}@github.com/capacitabrasil/e4-6-18-unigex-cr-projeto03.git"
BRANCH = "main"

# Clonagem segura ou atualização do repositório
if not os.path.exists("e4-6-18-unigex-cr-projeto03"):
    !git clone {REPO_URL}
else:
    %cd e4-6-18-unigex-cr-projeto03
    !git pull origin {BRANCH}

Cloning into 'e4-6-18-unigex-cr-projeto03'...
remote: Enumerating objects: 170, done.[K
remote: Counting objects: 100% (170/170), done.[K
remote: Compressing objects: 100% (136/136), done.[K
remote: Total 170 (delta 38), reused 86 (delta 10), pack-reused 0 (from 0)[K
Receiving objects: 100% (170/170), 10.85 MiB | 13.79 MiB/s, done.
Resolving deltas: 100% (38/38), done.


In [39]:
!ls util/data/

categorias.csv	      df_unidades.z		 README.md
chats.csv	      df_vendas.z		 tickets.csv
clientes.csv	      movimento-contabil.csv	 unidades.csv
contas-a-pagar.csv    movimento-financeiro.csv	 vendas.csv
contas-a-receber.csv  naturezas-financeiras.csv  vendedores.csv
df_categorias.z       plano-de-contas.csv
df_produtos.z	      produtos.csv


**Carregamento dos DataFrames**

In [40]:
# Carregamento dos DataFrames
categorias = load('util/data/df_categorias.z')
produtos = load('util/data/df_produtos.z')
unidades = load('util/data/df_unidades.z')
vendas = load('util/data/df_vendas.z')

**Verificar integridade e qualidade dos dados**

**Categorias**

In [41]:
# Visualização do DataFrame
categorias.head()

Unnamed: 0,id,descricao
0,41,COMPUTADOR
1,64,PASTA
2,342,CANETA
3,51,PRESENTE
4,346,MATERIAL DE USO E CONSUMO


In [49]:
# Verifica linhas duplicadas (considerando TODAS as colunas)
duplicados = categorias.duplicated() # Confere se há linhas duplicadas
print(f"Total de duplicados em categorias: {duplicados.sum()}") # Faz a contagem de duplicatas
print(categorias[duplicados])  # Mostra os registros duplicados
print("-"*50)

# 2. Verificar se há dados ausentes ou nulos em colunas importantes
print("Total de valores nulos por coluna em categorias:") # Contagem de valores ausentes por coluna
print(categorias.isnull().sum())
print("-"*50)

print("Total de valores ausentes por coluna em categorias:") # Contagem de valores ausentes por coluna
print(categorias.isnull().sum())
print("-"*50)

# 2.1 Contagem de ausentes e nulos separadamente
contagem_nan = categorias.map(lambda x: x is np.nan).sum() # Contagem de ausentes
contagem_none = categorias.map(lambda x: x is None).sum() # Contagem de nulos

print("Quantidade somente de ausentes por coluna:")
print(contagem_nan)

print("\nQuantidade somente de nulos por coluna:")
print(contagem_none)

# 3. Identificar valores inconsistentes ou fora do padrão esperado
print("Tipos de dados em cada coluna em categorias:") # Mostra os tipos de dados das colunas para ver se correspondem a proposta da coluna (Descrição > object)
print(categorias.dtypes)
print("-"*50)

# 4. Avaliar o tipo de dado (ex: texto onde deveria ser número)
valores_unicos = categorias['descricao'].unique() # Ver valores únicos da coluna 'descricao'
print(valores_unicos)

# 5. Gerar um resumo da qualidade geral dos dados

# O dataframe não tem registros duplicados e nem ausentes;
# Os valores não estão fora dos padrões (coluna ID está ok com valores inteiros
# para uma coluna numérica e a coluna descrição pode manter o seu tipo como object
# já que não há dados misturados como números, datas etc)

# 6. Ações corretivas propostas

# 1. Normalizar os textos da coluna descricao para padronizar acentuacao e a grafia;
# 2. Tem muitos itens com o nome serviço. Talvez agrupá-los em uma nova categoria para otimização

Total de duplicados em categorias: 0
Empty DataFrame
Columns: [id, descricao]
Index: []
--------------------------------------------------
Total de valores nulos por coluna em categorias:
id           0
descricao    0
dtype: int64
--------------------------------------------------
Total de valores ausentes por coluna em categorias:
id           0
descricao    0
dtype: int64
--------------------------------------------------
Quantidade de NaN por coluna:
id           0
descricao    0
dtype: int64

Quantidade de None por coluna:
id           0
descricao    0
dtype: int64
Tipos de dados em cada coluna em categorias:
id            int64
descricao    object
dtype: object
--------------------------------------------------
['COMPUTADOR' 'PASTA' 'CANETA' 'PRESENTE' 'MATERIAL DE USO E CONSUMO'
 'ALIMENTO' 'CABO' 'MIDIA DE ARMAZENAMENTO' 'DRONE' 'SOM AUTOMOTIVO' 'GPS'
 'TELEVISAO' 'BEBIDA' 'ACESSORIO' 'TINTA' 'MATERIAL DE EMBALAGEM'
 'MATERIAL DE LIMPEZA' 'ENVELOPE' 'LIVRO' 'CAIXA DE SOM' 'MOVEI

**Produtos**

In [82]:
# Visualização do DataFrame
produtos.head()

Unnamed: 0,id,descricao,codigo_barras,unidade,marca,codigo_categoria,categoria,classificacao,preco_venda
0,194408,CANETA REF 35629,,UN,BIC,342.0,CANETA,MERCADORIA PARA REVENDA,0.0
1,194412,CANETA REF 35633,,UN,BIC,342.0,CANETA,MERCADORIA PARA REVENDA,8.93
2,194413,CANETA REF 35634,,UN,BIC,342.0,CANETA,MERCADORIA PARA REVENDA,0.0
3,6467,CANETA REF 5968,,UN,BIC,342.0,CANETA,MERCADORIA PARA REVENDA,8.38
4,4559,CANETA REF 4092,,UN,BIC,342.0,CANETA,MERCADORIA PARA REVENDA,67.91


In [83]:
# Avaliar o tipo de dado (ex: texto onde deveria ser número)
valores_unicos = produtos['descricao'].unique() # Ver valores únicos da coluna 'descricao'
print(valores_unicos)

['CANETA REF 35629' 'CANETA REF 35633' 'CANETA REF 35634' ...
 'PARAFUSO CHIPBOARD CABECA CHATA PHILLIPS  6,0X100 BIC.'
 'PAPEL DE PAREDE LISTRADO' 'CANETA']


In [52]:
# Verifica linhas duplicadas (considerando TODAS as colunas)
duplicados = produtos.duplicated() # Confere se há linhas duplicadas
print(f"Total de duplicados em produtos: {duplicados.sum()}") # Faz a contagem de duplicatas
print(produtos[duplicados])  # Mostra os registros duplicados
print("-"*50)

# 2. Verificar se há dados ausentes ou nulos em colunas importantes
print("Total de valores nulos por coluna em produtos:") # Contagem de valores ausentes por coluna
print(produtos.isnull().sum())
print("-"*50)

print("Total de valores ausentes por coluna em produtos:") # Contagem de valores ausentes por coluna
print(produtos.isnull().sum())
print("-"*50)

# 2.1 Contagem de ausentes e nulos separadamente
contagem_nan = produtos.map(lambda x: x is np.nan).sum() # Contagem de ausentes
contagem_none = produtos.map(lambda x: x is None).sum() # Contagem de nulos

print("Quantidade somente de ausentes por coluna:")
print(contagem_nan)

print("\nQuantidade somente de nulos por coluna:")
print(contagem_none)
print("-"*50)

# 3. Identificar valores inconsistentes ou fora do padrão esperado
print("Tipos de dados em cada coluna em produtos:") # Mostra os tipos de dados das colunas para ver se correspondem a proposta da coluna (Descrição > object)
print(produtos.dtypes)
print("-"*50)

# 4. Avaliar o tipo de dado (ex: texto onde deveria ser número)
valores_unicos = produtos['id'].unique() # Ver valores únicos da coluna 'descricao'
print(valores_unicos)

# 5. Gerar um resumo da qualidade geral dos dados

# Muitos valores nulos/ausentes a serem tratados;
# Coluna código da categoria está com valores float, acho que seria mais interessante ficar como int,
# por serem códigos;
# A coluna id tem id grandes e pequenas ou seja com números em quantidade de caracteres diferentes
# A coluna código de barras tem muitas NaN
# A coluna unidade tem muitas unidades diferentes, o que pode ser reduzido para UN e CX
# A coluna classificação eu tiraria, pq tem a mesma informação. Poderia ser transformada em um título
# A coluna preco_venda tem muitos itens com preços zerados e valores diferentes


Total de duplicados em produtos: 0
Empty DataFrame
Columns: [id, descricao, codigo_barras, unidade, marca, codigo_categoria, categoria, classificacao, preco_venda]
Index: []
--------------------------------------------------
Total de valores nulos por coluna em produtos:
id                     1
descricao              0
codigo_barras       9481
unidade              111
marca                117
codigo_categoria       3
categoria              3
classificacao          0
preco_venda            0
dtype: int64
--------------------------------------------------
Total de valores ausentes por coluna em produtos:
id                     1
descricao              0
codigo_barras       9481
unidade              111
marca                117
codigo_categoria       3
categoria              3
classificacao          0
preco_venda            0
dtype: int64
--------------------------------------------------
Quantidade somente de ausentes por coluna:
id                  0
descricao           0
codigo_barras

In [65]:
df = pd.DataFrame(produtos)

# Ordenar pelo preço (do MAIOR para o menor)
df_maiores = df.sort_values('preco_venda', ascending=False)
print("Do MAIOR para o menor preço:")
print(df_maiores)

# Ordenar pelo preço (do MENOR para o maior)
df_menores = df.sort_values('preco_venda', ascending=True)
print("\nDo MENOR para o maior preço:")
print(df_menores)

Do MAIOR para o menor preço:
          id                        descricao codigo_barras unidade  \
2922  194926    MATERIAL DE LIMPEZA REF 36253           NaN      UN   
4800  179736              ACESSORIO REF 21349           NaN      UN   
208   194492                  PASTA REF 35734           NaN      UN   
9477  196157       CHAISE NORONHA C/BR LD DIR           NaN      UN   
9476  196156       SOFA SLIM LINE 4 LUG CHALK           NaN      UN   
...      ...                              ...           ...     ...   
806   158048                  TINTA REF 13238           NaN      UN   
1319  193223  MATERIAL DE EMBALAGEM REF 34505           NaN      UN   
5251  194459               ALIMENTO REF 35701           NaN      UN   
98    000041                     LIVRO REF 39           NaN      UN   
971   158031                 BEBIDA REF 13222           NaN      UN   

              marca  codigo_categoria              categoria  \
2922          FAIRY               3.0    MATERIAL DE L

**Unidades**

In [84]:
# Visualização do DataFrame
unidades.head()

Unnamed: 0,id,nome_fantasia,status
0,10003,L03 - SALVADOR,sim
1,10002,L02 - SOBRAL,sim
2,10001,L01 - FORTALEZA,sim


In [85]:
# Avaliar o tipo de dado (ex: texto onde deveria ser número)
valores_unicos = unidades['id'].unique() # Ver valores únicos da coluna 'descricao'
print(valores_unicos)

[10003 10002 10001]


In [86]:
# Verifica linhas duplicadas (considerando TODAS as colunas)
duplicados = unidades.duplicated() # Confere se há linhas duplicadas
print(f"Total de duplicados em unidades: {duplicados.sum()}") # Faz a contagem de duplicatas
print(unidades[duplicados])  # Mostra os registros duplicados
print("-"*50)

# 2. Verificar se há dados ausentes ou nulos em colunas importantes
print("Total de valores nulos por coluna em unidades:") # Contagem de valores ausentes por coluna
print(unidades.isnull().sum())
print("-"*50)

print("Total de valores ausentes por coluna em unidades:") # Contagem de valores ausentes por coluna
print(unidades.isnull().sum())
print("-"*50)

# 2.1 Contagem de ausentes e nulos separadamente
contagem_nan = unidades.map(lambda x: x is np.nan).sum() # Contagem de ausentes
contagem_none = unidades.map(lambda x: x is None).sum() # Contagem de nulos

print("Quantidade somente de ausentes por coluna:")
print(contagem_nan)

print("\nQuantidade somente de nulos por coluna:")
print(contagem_none)
print("-"*50)

# 3. Identificar valores inconsistentes ou fora do padrão esperado
print("Tipos de dados em cada coluna em unidades:") # Mostra os tipos de dados das colunas para ver se correspondem a proposta da coluna (Descrição > object)
print(unidades.dtypes)
print("-"*50)

# 4. Avaliar o tipo de dado (ex: texto onde deveria ser número)
valores_unicos = unidades['id'].unique() # Ver valores únicos da coluna 'descricao'
print(valores_unicos)

# 5. Gerar um resumo da qualidade geral dos dados

# Sem valores nulos ou ausentes

Total de duplicados em unidades: 0
Empty DataFrame
Columns: [id, nome_fantasia, status]
Index: []
--------------------------------------------------
Total de valores nulos por coluna em unidades:
id               0
nome_fantasia    0
status           0
dtype: int64
--------------------------------------------------
Total de valores ausentes por coluna em unidades:
id               0
nome_fantasia    0
status           0
dtype: int64
--------------------------------------------------
Quantidade somente de ausentes por coluna:
id               0
nome_fantasia    0
status           0
dtype: int64

Quantidade somente de nulos por coluna:
id               0
nome_fantasia    0
status           0
dtype: int64
--------------------------------------------------
Tipos de dados em cada coluna em unidades:
id                int64
nome_fantasia    object
status           object
dtype: object
--------------------------------------------------
[10003 10002 10001]


**Vendas**

In [87]:
# Visualização do DataFrame
vendas.head()

Unnamed: 0,codigo_empresa,tipo_pedido,centro_resultado,documento,codigo_cliente,codigo_parceiro,codigo_empregado,codigo_mecanico_empregado,data_emissao,hora_emissao,...,data_faturamento,placa,codigo_produto,quantidade,total,custo_medio,valor_desconto,campanha,origem,motivo_perda
0,2,PV,2,24560,4395,,56,,2023-03-21,12:10:07,...,2023-03-21,,194959,8.0,64.0,5.287,20.64,,,
1,1,PV,2,22433,236,,9,,2023-02-13,10:40:44,...,2023-04-27,,195052,6.0,75.0,5.2931,0.0,,,
2,2,PV,2,24560,4395,,56,,2023-03-21,12:10:07,...,2023-03-21,,164,3.0,75.0,15.355,16.8,,,
3,2,PV,2,24560,4395,,56,,2023-03-21,12:10:07,...,2023-03-21,,201,3.0,144.0,31.3017,54.72,,,
4,2,PV,2,24560,4395,,56,,2023-03-21,12:10:07,...,2023-03-21,,191696,2.0,60.0,15.365,11.84,,,


In [88]:
# Avaliar o tipo de dado (ex: texto onde deveria ser número)
valores_unicos = vendas['codigo_empresa'].unique() # Ver valores únicos da coluna 'descricao'
print(valores_unicos)

[2 1 3]


In [90]:
# Verifica linhas duplicadas (considerando TODAS as colunas)
duplicados = vendas.duplicated() # Confere se há linhas duplicadas
print(f"Total de duplicados em vendas: {duplicados.sum()}") # Faz a contagem de duplicatas
print(vendas[duplicados])  # Mostra os registros duplicados
print("-"*50)

# 2. Verificar se há dados ausentes ou nulos em colunas importantes
print("Total de valores nulos por coluna em vendas:") # Contagem de valores ausentes por coluna
print(vendas.isnull().sum())
print("-"*50)

print("Total de valores ausentes por coluna em vendas:") # Contagem de valores ausentes por coluna
print(vendas.isnull().sum())
print("-"*50)

# 2.1 Contagem de ausentes e nulos separadamente
contagem_nan = vendas.map(lambda x: x is np.nan).sum() # Contagem de ausentes
contagem_none = vendas.map(lambda x: x is None).sum() # Contagem de nulos

print("Quantidade somente de ausentes por coluna:")
print(contagem_nan)

print("\nQuantidade somente de nulos por coluna:")
print(contagem_none)
print("-"*50)

# 3. Identificar valores inconsistentes ou fora do padrão esperado
print("Tipos de dados em cada coluna em vendas:") # Mostra os tipos de dados das colunas para ver se correspondem a proposta da coluna (Descrição > object)
print(vendas.dtypes)
print("-"*50)

# 4. Avaliar o tipo de dado (ex: texto onde deveria ser número)
valores_unicos = vendas['codigo_empresa'].unique() # Ver valores únicos da coluna 'descricao'
print(valores_unicos)

# 5. Gerar um resumo da qualidade geral dos dados

# Muitas NaN;
# Colunas de quantidades precisam ser padronizadas assim como a Tota

Total de duplicados em vendas: 10
      codigo_empresa tipo_pedido  centro_resultado  documento  codigo_cliente  \
687                1          PV                 2      22153            6819   
1014               1          PV                14      23963             789   
2339               1          PV                 7      24175            2684   
3536               2          PV                 7      23183            6863   
3540               2          PV                 7      23183            6863   
4536               2          PV                 2      20540            6863   
8526               1          PV                 2      22440             236   
9010               1          PV                 2      19559             212   
9435               2          PV                 2      20347            4192   
9628               2          PV                 2      21819            6863   

      codigo_parceiro  codigo_empregado  codigo_mecanico_empregado  \
687 