In [1]:
import pandas as pd

In [2]:
base_estoque = pd.read_excel("bases/bases_limpas/base_estoque_limpo.xlsx")
base_notas = pd.read_excel("bases/bases_limpas/base_notas_limpa.xlsx")

In [3]:
base_notas.columns.tolist()

['Numero nota fiscal',
 'Data da venda',
 'Código produto',
 'Descrição do produto',
 'Quantidade do produto',
 'Valor unitário',
 'Preço de custo',
 'Valor total produto',
 'Valor da nota']

In [4]:
base_estoque.columns.tolist()

['Código produto',
 'Produto',
 'Código da categoria',
 'Categoria',
 'Código da Marca',
 'Marca',
 'Preço de custo',
 'Quantidade estoque']

In [13]:
df = pd.merge(
    base_notas,
    base_estoque[["Código produto", "Código da categoria", "Categoria", "Código da Marca", "Marca", "Quantidade estoque"]],
    on='Código produto',
    how='inner' 
)

In [14]:
df.columns.tolist()

['Numero nota fiscal',
 'Data da venda',
 'Código produto',
 'Descrição do produto',
 'Quantidade do produto',
 'Valor unitário',
 'Preço de custo',
 'Valor total produto',
 'Valor da nota',
 'Código da categoria',
 'Categoria',
 'Código da Marca',
 'Marca',
 'Quantidade estoque']

In [7]:
df.nunique()

Numero nota fiscal       24353
Data da venda              135
Código produto            5634
Descrição do produto      5634
Quantidade do produto      420
Valor unitário            7885
Preço de custo            2833
Valor total produto      19702
Valor da nota            20794
Código da categoria        382
Categoria                  382
Código da Marca            305
Marca                      305
Quantidade estoque         995
dtype: int64

In [8]:
df.head(5)

Unnamed: 0,Numero nota fiscal,Data da venda,Código produto,Descrição do produto,Quantidade do produto,Valor unitário,Preço de custo,Valor total produto,Valor da nota,Código da categoria,Categoria,Código da Marca,Marca,Quantidade estoque
0,566082,17/06/2025,33932,ENV 229X324 OU C/100 FILIPERSON,2.0,33.0,24.41,66.0,4217.74,47,ENVELOPES ( ENV ),8389,FILIPERSON NACIONAL REFL IND COMÉRCIO DE PAP E...,2076
1,566082,17/06/2025,29367,GUARDANAPO SNOB FS 33X30 50F SANTHER,5.0,2.9,2.23,14.5,4217.74,27,GUARDANAPOS ( GDP ),8340,SANTHER FABRICA DE PAPEL SANTA THEREZINHA S/A,3475
2,566082,17/06/2025,241,PASTA AZ OF LE TIGRADA FRAMA 356-11952,40.0,9.45,7.61,378.0,4217.74,38,PASTAS ( PST ),185,FRAMA INDUSTRIA GRAFICA LTDA,2104
3,566082,17/06/2025,32608,CALCULADORA MESA 12 DIG MASTERPRINT 1086,6.0,20.87,17.05,125.22,4217.74,147,CALCULADORAS ( CLC ),4281,GRUPO MASTER COMERCIO IMPORTACAO E EXPORTACAO ...,61
4,566082,17/06/2025,25495,MARCA TEXTO AM C/12 MASTERPRINT MP612,2.0,11.3,8.72,22.6,4217.74,389,MARCA TEXTO ( MRT),4281,GRUPO MASTER COMERCIO IMPORTACAO E EXPORTACAO ...,293


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178107 entries, 0 to 178106
Data columns (total 14 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   Numero nota fiscal     178107 non-null  int64  
 1   Data da venda          178107 non-null  object 
 2   Código produto         178107 non-null  int64  
 3   Descrição do produto   178107 non-null  object 
 4   Quantidade do produto  178107 non-null  float64
 5   Valor unitário         178107 non-null  float64
 6   Preço de custo         177320 non-null  float64
 7   Valor total produto    177039 non-null  float64
 8   Valor da nota          178107 non-null  float64
 9   Código da categoria    178107 non-null  int64  
 10  Categoria              178107 non-null  object 
 11  Código da Marca        178107 non-null  int64  
 12  Marca                  178107 non-null  object 
 13  Quantidade estoque     178107 non-null  int64  
dtypes: float64(5), int64(5), object(4)
m

In [10]:
df["Data da venda"] = pd.to_datetime(df["Data da venda"], format='%d/%m/%Y')
df["Quantidade do produto"] = df["Quantidade do produto"].astype(int)
df["Código da categoria"] = df["Código da categoria"].astype(int)
df["Código da Marca"] = df["Código da Marca"].astype(int)
df["Quantidade estoque"] = df["Quantidade estoque"].astype(int)


In [11]:
df.dtypes

Numero nota fiscal                int64
Data da venda            datetime64[ns]
Código produto                    int64
Descrição do produto             object
Quantidade do produto             int64
Valor unitário                  float64
Preço de custo                  float64
Valor total produto             float64
Valor da nota                   float64
Código da categoria               int64
Categoria                        object
Código da Marca                   int64
Marca                            object
Quantidade estoque                int64
dtype: object

In [12]:
df.isnull().sum()

Numero nota fiscal          0
Data da venda               0
Código produto              0
Descrição do produto        0
Quantidade do produto       0
Valor unitário              0
Preço de custo            787
Valor total produto      1068
Valor da nota               0
Código da categoria         0
Categoria                   0
Código da Marca             0
Marca                       0
Quantidade estoque          0
dtype: int64

In [16]:
# filtrar linhas onde o preço de custo é nulo
itens_sem_preco_custo = df[df["Preço de custo"].isna()]
# extrair os números das notas com itens problemáticos
notas_afetadas = itens_sem_preco_custo["Numero nota fiscal"].unique()
# contar quantas notas são impactadas
total_notas_afetadas = len(notas_afetadas)
total_notas_unicas = df["Numero nota fiscal"].nunique()
percentual_afetado = (total_notas_afetadas / total_notas_unicas) * 100

# Resultados
print(f"Total de notas fiscais afetadas: {total_notas_afetadas}")
print(f"Total de notas únicas no dataset: {total_notas_unicas}")
print(f"Percentual de notas afetadas: {percentual_afetado:.2f}%")

Total de notas fiscais afetadas: 68
Total de notas únicas no dataset: 24353
Percentual de notas afetadas: 0.28%


In [18]:
# 1. Lista das notas fiscais que têm pelo menos um item com "Preço de custo" nulo
notas_com_problema = df[df["Preço de custo"].isna()]["Numero nota fiscal"].unique()

# 2. Criar um novo DataFrame excluindo essas notas
df_completo_limpo = df[~df["Numero nota fiscal"].isin(notas_com_problema)]

# 3. Verificar se ainda há valores nulos em "Preço de custo"
print("Valores nulos restantes:", df_completo_limpo["Preço de custo"].isna().sum())

# 4. Comparar tamanhos antes e depois
print(f"Total de notas antes: {df['Numero nota fiscal'].nunique()}")
print(f"Total de notas depois: {df_completo_limpo['Numero nota fiscal'].nunique()}")

Valores nulos restantes: 0
Total de notas antes: 24353
Total de notas depois: 24285
