### Limpeza da base de dados de notas fiscais


### Descri√ß√£o das Colunas - Base de Notas Fiscais

| Nome da Coluna           | Descri√ß√£o                                                                                  | Exemplo                                                                 |
|--------------------------|-------------------------------------------------------------------------------------------|-------------------------------------------------------------------------|
| **Numero nota fiscal**   | Identificador √∫nico da nota fiscal (documento fiscal).                                    | `566082`                                                               |
| **Data da venda**        | Data de emiss√£o da nota fiscal (formato DD/MM/AAAA).                                      | `17/06/2025`                                                           |
| **C√≥digo produto**       | C√≥digo √∫nico do produto vendido (deve corresponder ao `C√≥digo` na base de estoque).       | `33932`, `241`                                                         |
| **Descri√ß√£o do produto** | Nome/descri√ß√£o do produto conforme registrado na nota fiscal.                             | `"ENV 229X324 OU C/100 FILIPERSON"`, `"PASTA AZ OF LE TIGRADA FRAMA"`  |
| **Quantidade do produto**| Quantidade vendida do produto (unidades, caixas, kg, etc.).                              | `2.0`, `40.0`                                                          |
| **Valor unit√°rio**       | Pre√ßo unit√°rio do produto no momento da venda (sem descontos/acr√©scimos).                | `33.000000`, `9.450000`                                                |
| **Pre√ßo venda**          | Pre√ßo m√≠nimo de venda sugerido.                  | `27.476514`, `8.863195`                                                |
| **Pre√ßo de custo**       | Custo unit√°rio do produto no momento da compra (o custo da empresa para adquirir).                  | `24.409041`, `7.605561`                                                |
| **Valor da nota**        | Valor total da nota fiscal (somat√≥rio de todos os itens + impostos/fretes, se aplic√°vel).| `3895.94`                                                              |


In [1]:
import pandas as pd

In [2]:
df_vendas = pd.read_excel('bases/relatorio_notas.xlsx')

### Propriedades da base

In [3]:
print(f"Formato dos dados {df_vendas.shape}")

Formato dos dados (336739, 9)


In [34]:
len(df_vendas["Numero nota fiscal"].unique())

30521

In [4]:
df_vendas.columns.tolist()

['Numero nota fiscal',
 'Data da venda',
 'C√≥digo produto',
 'Descri√ß√£o do produto',
 'Quantidade do produto',
 'Valor unit√°rio',
 'Pre√ßo venda',
 'Pre√ßo de custo',
 'Valor da nota']

In [5]:
df_vendas.head()

Unnamed: 0,Numero nota fiscal,Data da venda,C√≥digo produto,Descri√ß√£o do produto,Quantidade do produto,Valor unit√°rio,Pre√ßo venda,Pre√ßo de custo,Valor da nota
0,566082,17/06/2025,33932,ENV 229X324 OU C/100 FILIPERSON,2.0,33.0,27.476514,24.409041,3895.94
1,566082,17/06/2025,29367,GUARDANAPO SNOB FS 33X30 50F SANTHER,5.0,2.9,2.499397,2.231242,3895.94
2,566082,17/06/2025,241,PASTA AZ OF LE TIGRADA FRAMA 356-11952,40.0,9.45,8.863195,7.605561,3895.94
3,566082,17/06/2025,32608,CALCULADORA MESA 12 DIG MASTERPRINT 1086,6.0,20.87,18.974913,17.051309,3895.94
4,566082,17/06/2025,18508,CAD BROCH UNIV STIFF AZ 96F JANDAIA,5.0,6.26,5.68085,4.830296,3895.94


In [6]:
df_vendas.dtypes

Numero nota fiscal         int64
Data da venda             object
C√≥digo produto             int64
Descri√ß√£o do produto      object
Quantidade do produto    float64
Valor unit√°rio           float64
Pre√ßo venda              float64
Pre√ßo de custo           float64
Valor da nota            float64
dtype: object

In [7]:
df_vendas.describe()

Unnamed: 0,Numero nota fiscal,C√≥digo produto,Quantidade do produto,Valor unit√°rio,Pre√ßo venda,Pre√ßo de custo,Valor da nota
count,336739.0,336739.0,336739.0,336739.0,336739.0,334515.0,333994.0
mean,480532.632603,22071.594784,15.671684,15.853359,13.092898,11.769463,2087.380438
std,180938.617261,11782.581172,85.143989,28.686929,23.675404,21.230737,3667.545385
min,401.0,5.0,-3125.0,0.0,0.0,0.0,0.0
25%,544228.0,11430.0,2.0,3.97,3.18796,2.833333,502.07
50%,551127.0,24781.0,5.0,8.19,6.671038,6.007989,1076.75
75%,558739.0,32304.0,12.0,18.82,15.22379,13.5304,2341.64
max,566082.0,38229.0,9764.0,1169.0,974.762703,880.340302,178016.72


In [8]:
print("Quantidade valores Nulos")
df_vendas.isnull().sum()

Quantidade valores Nulos


Numero nota fiscal          0
Data da venda               0
C√≥digo produto              0
Descri√ß√£o do produto        0
Quantidade do produto       0
Valor unit√°rio              0
Pre√ßo venda                 0
Pre√ßo de custo           2224
Valor da nota            2745
dtype: int64

In [9]:
print("Quantidade de valores zerados")
colunas_numericas = df_vendas.select_dtypes(include='number')
for coluna in colunas_numericas:
    at_zeros = (colunas_numericas[coluna] == 0).sum()
    print(f"\n{coluna} cont√©m {at_zeros} zeros")



Quantidade de valores zerados

Numero nota fiscal cont√©m 0 zeros

C√≥digo produto cont√©m 0 zeros

Quantidade do produto cont√©m 1749 zeros

Valor unit√°rio cont√©m 2017 zeros

Pre√ßo venda cont√©m 1916 zeros

Pre√ßo de custo cont√©m 1 zeros

Valor da nota cont√©m 1108 zeros


In [10]:
print("Quantidade de valores negativos")
for rotulo in colunas_numericas:
    qt_negativos = (colunas_numericas[rotulo] < 0).sum()
    print(f"\n{rotulo} cont√©m {qt_negativos} negativos")

Quantidade de valores negativos

Numero nota fiscal cont√©m 0 negativos

C√≥digo produto cont√©m 0 negativos

Quantidade do produto cont√©m 459 negativos

Valor unit√°rio cont√©m 0 negativos

Pre√ßo venda cont√©m 0 negativos

Pre√ßo de custo cont√©m 0 negativos

Valor da nota cont√©m 0 negativos


### An√°lise de Consist√™ncia e Decis√µes - Base de Vendas

#### **Regras de Neg√≥cio Validadas**
| Regra | Descri√ß√£o | Impacto no Modelo |
|-------|-----------|-------------------|
| **C√°lculo do Valor por Item** | `Valor unit√°rio` √ó `Quantidade produto` = Valor total do produto na nota. | Garante a correta agrega√ß√£o dos valores por item. |
| **C√°lculo do Valor da Nota** | Somat√≥rio do valor total de todos os itens = `Valor da nota`. | Notas com diverg√™ncia ser√£o sinalizadas para revis√£o. |
| **Exclus√£o de Campo** | `Pre√ßo venda` ser√° removido do modelo por ser apenas uma sugest√£o comercial. | Reduz ru√≠dos e simplifica a an√°lise de pre√ßos reais. |

---

#### **Problemas Identificados e Impactos**

1. **Pre√ßo de Custo Nulo**  
   - **Ocorr√™ncias**: 2.224 registros sem `Pre√ßo de custo`.  
   - **An√°lise**:  
     - Produtos, categorias e marcas afetadas ser√£o priorizadas por volume de vendas.  
     - Impacta o c√°lculo de margem de lucro para **itens em m√∫ltiplas notas fiscais**.  

2. **Notas com Valores Zerados**  
   | Campo Zerado | Ocorr√™ncias | Impacto |
   |-------------|------------|---------|
   | `Quantidade produto` | 1.749 | Itens inv√°lidos (exclus√£o necess√°ria). |
   | `Valor unit√°rio` | 2.017 | Distor√ß√£o no valor total da nota. |  
   - **Decis√£o**: Registros com esses campos zerados ser√£o **exclu√≠dos** do modelo.  

3. **Valores Negativos**  
   - **Ocorr√™ncias**: 459 registros com `Quantidade produto` negativa.  
   - **A√ß√£o**: Ser√£o excluidos da base, mas **exportados** para serem analisados separadamente.  

---

#### **Resumo de A√ß√µes para o Modelo**
| Etapa | Decis√£o | Justificativa |
|-------|---------|---------------|
| **Padroniza√ß√£o** | Validar `Valor da nota` vs. somat√≥rio dos itens. | Garantir integridade financeira. |
| **Limpeza** | Excluir registros com `Quantidade produto` ‚â§ 0 ou `Valor unit√°rio` = 0. | 0.5% total de notas impactadas Evitar distor√ß√µes nas recomenda√ß√µes. |
| **Substitui√ß√£o** | Preencher `Pre√ßo de custo` nulo com valores da base de estoque. | Permitir c√°lculo de margem. |
| **Exclus√£o** | Remover `Pre√ßo venda` (campo n√£o confi√°vel). | Foco em dados reais de transa√ß√£o. |

In [11]:
# Filtrar apenas as linhas com quantidade negativa
df_negativos = df_vendas[df_vendas['Quantidade do produto'] < 0]

# Contar produtos √∫nicos e notas fiscais impactadas
total_produtos_negativos = df_negativos['Descri√ß√£o do produto'].nunique()
total_notas_impactadas = df_negativos['Numero nota fiscal'].nunique()

# Agrupar por produto para ver a distribui√ß√£o
analise_produtos = df_negativos.groupby('Descri√ß√£o do produto').agg(
    Total_Quantidade_Negativa=('Quantidade do produto', 'sum'),
    Ocorrencias=('Quantidade do produto', 'count')
).sort_values('Total_Quantidade_Negativa')

print(f"üîç {len(df_negativos)} registros negativos afetam {total_notas_impactadas} notas fiscais e {total_produtos_negativos} produtos distintos.\n")
print("üìä Produtos com quantidades negativas:")
display(analise_produtos)

üîç 459 registros negativos afetam 49 notas fiscais e 337 produtos distintos.

üìä Produtos com quantidades negativas:


Unnamed: 0_level_0,Total_Quantidade_Negativa,Ocorrencias
Descri√ß√£o do produto,Unnamed: 1_level_1,Unnamed: 2_level_1
COPO 150ML TR C/100 FC,-3125.0,1
COLHER REF BR C/50 PRAFESTA 7024,-1400.0,2
COLHER SOB BR C/50 STRAW CSB620,-986.0,2
VELA ESTRELA PRATA C/4 TOP FESTAS,-720.0,2
PANO CHAO CRU 40X58 L3P2 ALGOBOM,-608.0,2
...,...,...
BL BINGO JORNAL 100F SERIE 16-30 TAMOIO,-1.0,1
BL REC 38X50 AM C/4 100F NOTEFIX 3M NFX3,-1.0,1
SABONETE ERVA DOCE 5L BEM LIMPIM,-1.0,1
TINTA GUACHE AM OU 250ML ACRILEX 505,-1.0,1


In [12]:
# gardando base com valores negativos para uma an√°lise posterior
analise_produtos.to_excel("produtos_com_quantidade_negativa.xlsx")

In [None]:
# Contagem para 'Quantidade do produto' zerada
qtde_zeros = (df_vendas['Quantidade do produto'] == 0).sum()
produtos_qtde_zero = df_vendas[df_vendas['Quantidade do produto'] == 0]['Quantidade do produto'].nunique()
notas_qtde_zero = df_vendas[df_vendas['Quantidade do produto'] == 0]['Numero nota fiscal'].nunique()

# Contagem para 'Valor unit√°rio' zerado
valor_zeros = (df_vendas['Valor unit√°rio'] == 0).sum()
produtos_valor_zero = df_vendas[df_vendas['Valor unit√°rio'] == 0]['Quantidade do produto'].nunique()
notas_valor_zero = df_vendas[df_vendas['Valor unit√°rio'] == 0]['Numero nota fiscal'].nunique()

# Resultado
print("üìä An√°lise de Valores Zerados:")
print(f"\n1. Quantidade do produto:")
print(f"- Registros zerados: {qtde_zeros}")
print(f"- Produtos impactados: {produtos_qtde_zero}")
print(f"- Notas fiscais impactadas: {notas_qtde_zero}")

print(f"\n2. Valor unit√°rio:")
print(f"- Registros zerados: {valor_zeros}")
print(f"- Produtos impactados: {produtos_valor_zero}")
print(f"- Notas fiscais impactadas: {notas_valor_zero}")

üìä An√°lise de Valores Zerados:

1. Quantidade do produto:
- Registros zerados: 1749
- Produtos impactados: 1
- Notas fiscais impactadas: 40

2. Valor unit√°rio:
- Registros zerados: 2017
- Produtos impactados: 29
- Notas fiscais impactadas: 101


In [14]:
# 1. Identificar notas fiscais problem√°ticas
notas_com_problemas = set()

# Notas com quantidades negativas
notas_com_problemas.update(
    df_vendas[df_vendas['Quantidade do produto'] < 0]['Numero nota fiscal'].unique()
)

# Notas com quantidades zeradas
notas_com_problemas.update(
    df_vendas[df_vendas['Quantidade do produto'] == 0]['Numero nota fiscal'].unique()
)

# Notas com valores unit√°rios zerados
notas_com_problemas.update(
    df_vendas[df_vendas['Valor unit√°rio'] == 0]['Numero nota fiscal'].unique()
)

# 2. Filtrar para manter APENAS notas SEM problemas
df_venda_limpo = df_vendas[~df_vendas['Numero nota fiscal'].isin(notas_com_problemas)].copy()

# 3. An√°lise de impacto
total_notas_originais = df_vendas['Numero nota fiscal'].nunique()
total_notas_limpas = df_venda_limpo['Numero nota fiscal'].nunique()
notas_removidas = total_notas_originais - total_notas_limpas

print(f"üìä Notas fiscais removidas: {notas_removidas}/{total_notas_originais} ({notas_removidas/total_notas_originais:.1%})")
print(f"üì¶ Registros originais: {len(df_vendas)}")
print(f"üßπ Registros ap√≥s limpeza: {len(df_venda_limpo)}")
print(f"üöÆ Registros removidos: {len(df_vendas) - len(df_venda_limpo)}")

üìä Notas fiscais removidas: 150/30521 (0.5%)
üì¶ Registros originais: 336739
üßπ Registros ap√≥s limpeza: 333804
üöÆ Registros removidos: 2935


In [15]:
df_venda_limpo.nunique()

Numero nota fiscal        30371
Data da venda               134
C√≥digo produto             9280
Descri√ß√£o do produto       9105
Quantidade do produto       494
Valor unit√°rio            16560
Pre√ßo venda              126645
Pre√ßo de custo             9689
Valor da nota             26163
dtype: int64

In [16]:
# 1. Verificar c√≥digos com m√∫ltiplas descri√ß√µes (problema grave)
codigos_problematicos = df_vendas.groupby('C√≥digo produto')['Descri√ß√£o do produto'].nunique()
codigos_com_erro = codigos_problematicos[codigos_problematicos > 1]

print(f"üö® {len(codigos_com_erro)} c√≥digos com m√∫ltiplas descri√ß√µes:")
display(codigos_com_erro.head())

# 2. Verificar c√≥digos sem descri√ß√£o (aus√™ncia de cadastro)
codigos_sem_descricao = df_vendas[df_vendas['Descri√ß√£o do produto'].isna()]['C√≥digo produto'].nunique()
print(f"\nüîç {codigos_sem_descricao} c√≥digos sem descri√ß√£o cadastrada.")

# 3. An√°lise de correspond√™ncia
print("\nüìä Rela√ß√£o C√≥digo-Descri√ß√£o:")
print(f"- C√≥digos √∫nicos: {df_vendas['C√≥digo produto'].nunique()}")
print(f"- Descri√ß√µes √∫nicas: {df_vendas['Descri√ß√£o do produto'].nunique()}")
print(f"- Diferen√ßa: {df_vendas['C√≥digo produto'].nunique() - df_vendas['Descri√ß√£o do produto'].nunique()}")

üö® 0 c√≥digos com m√∫ltiplas descri√ß√µes:


Series([], Name: Descri√ß√£o do produto, dtype: int64)


üîç 0 c√≥digos sem descri√ß√£o cadastrada.

üìä Rela√ß√£o C√≥digo-Descri√ß√£o:
- C√≥digos √∫nicos: 9434
- Descri√ß√µes √∫nicas: 9257
- Diferen√ßa: 177


In [17]:
# Agrupa descri√ß√µes e conta quantos c√≥digos √∫nicos cada uma tem
descricoes_problematicas = df_vendas.groupby('Descri√ß√£o do produto')['C√≥digo produto'].nunique()
descricoes_problematicas = descricoes_problematicas[descricoes_problematicas > 1].index.tolist()

print(f"üîç {len(descricoes_problematicas)} descri√ß√µes associadas a m√∫ltiplos c√≥digos.")

üîç 84 descri√ß√µes associadas a m√∫ltiplos c√≥digos.


In [18]:
# Filtra o DataFrame para manter apenas registros com descri√ß√µes problem√°ticas
df_problema = df_vendas[df_vendas['Descri√ß√£o do produto'].isin(descricoes_problematicas)]

In [19]:
# Conta quantas notas fiscais √∫nicas cont√™m esses registros
notas_impactadas = df_problema['Numero nota fiscal'].nunique()
total_notas = df_vendas['Numero nota fiscal'].nunique()

print(f"üìä Notas fiscais impactadas: {notas_impactadas}/{total_notas} ({notas_impactadas/total_notas:.1%})")

üìä Notas fiscais impactadas: 3546/30521 (11.6%)


In [20]:
df_problema.to_excel("notas_com_descricoes_ambiguas.xlsx", index=False)

In [21]:
# 1. Encontre descri√ß√µes associadas a m√∫ltiplos c√≥digos
descricoes_ambiguas = df_vendas.groupby('Descri√ß√£o do produto')['C√≥digo produto'].nunique()
descricoes_ambiguas = descricoes_ambiguas[descricoes_ambiguas > 1].index.tolist()

# 2. Filtre as notas fiscais que cont√™m essas descri√ß√µes
notas_com_problemas = df_vendas[df_vendas['Descri√ß√£o do produto'].isin(descricoes_ambiguas)]['Numero nota fiscal'].unique()

In [22]:
# 3. Crie um novo DataFrame EXCLUINDO as notas problem√°ticas
df_vendas_limpo = df_vendas[~df_vendas['Numero nota fiscal'].isin(notas_com_problemas)].copy()

In [23]:
# 4. Calcule o impacto
total_notas_originais = df_vendas['Numero nota fiscal'].nunique()
total_notas_limpas = df_vendas_limpo['Numero nota fiscal'].nunique()
notas_removidas = total_notas_originais - total_notas_limpas

print(f"üîç {len(descricoes_ambiguas)} descri√ß√µes amb√≠guas encontradas.")
print(f"üìä Notas fiscais removidas: {notas_removidas}/{total_notas_originais} ({notas_removidas/total_notas_originais:.2%})")
print(f"üì¶ Registros originais: {len(df_vendas)}")
print(f"üßπ Registros ap√≥s limpeza: {len(df_vendas_limpo)}")

üîç 84 descri√ß√µes amb√≠guas encontradas.
üìä Notas fiscais removidas: 3546/30521 (11.62%)
üì¶ Registros originais: 336739
üßπ Registros ap√≥s limpeza: 249032


In [24]:
# Tratar o valor da nota, somat√≥rio de quantidade de produto * valor unit√°rio
# calcular o valor total de cada produto por nota
df_vendas_limpo["Valor total produto"] = (df_venda_limpo["Quantidade do produto"] * df_venda_limpo["Valor unit√°rio"]).round(2)

In [25]:
# Passo 1: Calcular o valor total por nota fiscal
valor_por_nota = df_vendas_limpo.groupby('Numero nota fiscal')['Valor total produto'].sum().round(2)

# Passo 2: Mapear esse valor de volta para a coluna 'Valor da nota'
df_vendas_limpo['Valor da nota'] = df_vendas_limpo['Numero nota fiscal'].map(valor_por_nota)

# Verifica√ß√£o (opcional)
print("‚úÖ Valores atualizados com sucesso!")
print(f"Total de notas fiscais processadas: {len(valor_por_nota)}")

‚úÖ Valores atualizados com sucesso!
Total de notas fiscais processadas: 26975


In [26]:
df_vendas_limpo = df_vendas_limpo[["Numero nota fiscal", "Data da venda", "C√≥digo produto", "Descri√ß√£o do produto", "Quantidade do produto", "Valor unit√°rio", "Pre√ßo de custo", "Valor total produto", "Valor da nota"]]

In [27]:
# Arredonda as colunas espec√≠ficas para 2 casas decimais
df_vendas_limpo['Valor unit√°rio'] = df_vendas_limpo['Valor unit√°rio'].round(2)
df_vendas_limpo['Pre√ßo de custo'] = df_vendas_limpo['Pre√ßo de custo'].round(2)

In [28]:
df_vendas_limpo.to_excel("bases/bases_limpas/base_notas_limpa.xlsx", index=False)

In [37]:
df_vendas_limpo.nunique()

Numero nota fiscal       26975
Data da venda              135
C√≥digo produto            8735
Descri√ß√£o do produto      8735
Quantidade do produto      506
Valor unit√°rio            9028
Pre√ßo de custo            3621
Valor total produto      23828
Valor da nota            22506
dtype: int64