### Limpeza da base de dados de estoque 



### Descrição das Colunas - Base de Estoque

| Nome da Coluna           | Descrição                                                                                  | Exemplo                                                                 |
|--------------------------|-------------------------------------------------------------------------------------------|-------------------------------------------------------------------------|
| **Código**               | Identificador único do produto no sistema.                                                | `1`, `3`, `5`                                                          |
| **Produto**              | Nome/descrição do produto comercializado.                                                 | `"LAPIS Nº2 HB PT C/144 SERELEPE ECOLE"`, `"ACUCAR COMUM"`             |
| **Embalagem**            | Tipo de embalagem do produto (formato e quantidade por embalagem).                        | `"CX/1"` (Caixa com 1 unidade), `"KG/1"` (Kilograma unitário)          |
| **Unidade**              | Unidade de medida primária para venda ou controle.                                        | `"CX"` (Caixa), `"UN"` (Unidade), `"KG"` (Kilograma)                   |
| **Código da Marca**      | Identificador único da marca/fabricante do produto.                                       | `1` (Maria Geni), `4281` (Grupo Master)                                |
| **Marca**                | Nome da marca ou fornecedor do produto.                                                   | `"COMERCIO E IMPORTACAO SERTIC LTDA"`                           |
| **Quantidade estoque**   | Quantidade disponível em estoque (vazia indica registro sem dados).                       | `0`, `61`                                                              |
| **Preço de custo**       | Preço unitário de custo do produto (formato numérico).                                    | `9`, `1.48`, `2.5`                                                     |
| **Código da categoria**  | Identificador numérico da categoria do produto.                                           | `708` (Lápis), `199` (Açúcar)                                          |
| **Categoria**            | Nome da categoria do produto, com abreviação entre parênteses.                            | `"LAPIS ( LAP )"`,                                          |

In [1]:
import pandas as pd

In [2]:
df_estoque = pd.read_excel("bases/relatorio_produtos.xlsx")

### Propriedades da base

In [3]:
print(f"Formato dos dados {df_estoque.shape}")

Formato dos dados (37527, 10)


In [4]:
df_estoque.columns.to_list()

['Código',
 'Produto',
 'Embalagem',
 'Unidade',
 'Código da Marca',
 'Marca',
 'Quantidade estoque',
 'Preço de custo',
 'Código da categoria',
 'Categoria']

In [5]:
df_estoque.head()

Unnamed: 0,Código,Produto,Embalagem,Unidade,Código da Marca,Marca,Quantidade estoque,Preço de custo,Código da categoria,Categoria
0,1,LAPIS Nº2 HB PT C/144 SERELEPE ECOLE,CX/1,CX,1,MARIA GENI DISTRIB. DE ART. DE PAP. LTDA,0.0,9.0,708,LAPIS ( LAP )
1,3,CANETA HIDRO PONTA FINA PT CIS,UN/1,UN,1272,COMERCIO E IMPORTACAO SERTIC LTDA,,1.48,35011,CANETA HIDROGRAFICA (CNT)
2,4,BANDEIRINHAS JUNINAS MEGA,PC/1,PC,1,MARIA GENI DISTRIB. DE ART. DE PAP. LTDA,,2.7397,359,BANDEIRAS ( BDJ )
3,5,FITA IMP EPSON FX890 MASTERPRINT,UN/1,UN,4281,GRUPO MASTER COMERCIO IMPORTACAO E EXPORTACAO ...,61.0,10.54527,3,FITAS PARA IMPRESSORAS ( FTA )
4,6,ACUCAR COMUM,KG/1,KG,1,MARIA GENI DISTRIB. DE ART. DE PAP. LTDA,,2.5,199,AÇÚCAR


In [6]:
df_estoque.dtypes

Código                   int64
Produto                 object
Embalagem               object
Unidade                 object
Código da Marca          int64
Marca                   object
Quantidade estoque     float64
Preço de custo         float64
Código da categoria      int64
Categoria               object
dtype: object

In [7]:
df_estoque.describe()

Unnamed: 0,Código,Código da Marca,Quantidade estoque,Preço de custo,Código da categoria
count,37527.0,37527.0,31204.0,37527.0,37527.0
mean,19170.185413,4116.673302,112.105966,22.896258,2661.045034
std,11023.203749,19900.846543,1310.51486,431.449346,8705.304106
min,1.0,1.0,-4.0,0.0,1.0
25%,9616.5,995.0,0.0,2.524401,83.0
50%,19186.0,2712.0,0.0,6.880567,322.0
75%,28728.5,7346.0,20.0,16.858232,647.0
max,38230.0,901455.0,166112.0,79000.0,35157.0


In [8]:
print("Quantidade valores Nulos")
df_estoque.isnull().sum()

Quantidade valores Nulos


Código                    0
Produto                   0
Embalagem                 0
Unidade                   0
Código da Marca           0
Marca                     0
Quantidade estoque     6323
Preço de custo            0
Código da categoria       0
Categoria                 0
dtype: int64

In [9]:
print("Quantidade de valores zerados")
colunas_numericas = df_estoque.select_dtypes(include='number')
for rotulo in colunas_numericas:
    qt_zeros = (colunas_numericas[rotulo] == 0).sum()
    print(f"\n{rotulo} contém {qt_zeros} zeros")

Quantidade de valores zerados

Código contém 0 zeros

Código da Marca contém 0 zeros

Quantidade estoque contém 17001 zeros

Preço de custo contém 2063 zeros

Código da categoria contém 0 zeros


In [10]:
print("Quantidade de valores negativos")
for rotulo in colunas_numericas:
    qt_negativos = (colunas_numericas[rotulo] < 0).sum()
    print(f"\n{rotulo} contém {qt_negativos} negativos")

Quantidade de valores negativos

Código contém 0 negativos

Código da Marca contém 0 negativos

Quantidade estoque contém 2 negativos

Preço de custo contém 0 negativos

Código da categoria contém 0 negativos


### Tratamento inicial 

In [11]:
# Na coluna Quantidade estoque contém alguns valores nulos e negativos, estes serão convertidos para '0'.
df_estoque.loc[df_estoque["Quantidade estoque"] < 0, "Quantidade estoque"] = 0
df_estoque['Quantidade estoque'] = df_estoque['Quantidade estoque'].fillna(0)

In [12]:
# Separar somente as colunas que serão usadas no modelo
df_util_estoque = df_estoque[['Código', 'Produto', 'Código da categoria', 'Categoria', 'Código da Marca', 'Marca', 'Preço de custo', 'Quantidade estoque']]
df_estoque.head()

Unnamed: 0,Código,Produto,Embalagem,Unidade,Código da Marca,Marca,Quantidade estoque,Preço de custo,Código da categoria,Categoria
0,1,LAPIS Nº2 HB PT C/144 SERELEPE ECOLE,CX/1,CX,1,MARIA GENI DISTRIB. DE ART. DE PAP. LTDA,0.0,9.0,708,LAPIS ( LAP )
1,3,CANETA HIDRO PONTA FINA PT CIS,UN/1,UN,1272,COMERCIO E IMPORTACAO SERTIC LTDA,0.0,1.48,35011,CANETA HIDROGRAFICA (CNT)
2,4,BANDEIRINHAS JUNINAS MEGA,PC/1,PC,1,MARIA GENI DISTRIB. DE ART. DE PAP. LTDA,0.0,2.7397,359,BANDEIRAS ( BDJ )
3,5,FITA IMP EPSON FX890 MASTERPRINT,UN/1,UN,4281,GRUPO MASTER COMERCIO IMPORTACAO E EXPORTACAO ...,61.0,10.54527,3,FITAS PARA IMPRESSORAS ( FTA )
4,6,ACUCAR COMUM,KG/1,KG,1,MARIA GENI DISTRIB. DE ART. DE PAP. LTDA,0.0,2.5,199,AÇÚCAR


#### Para garantir a integridade dos dados e a eficácia do sistema de recomendação/cross-selling, é essencial verificar:

#### Unicidade dos Identificadores

Código: Cada valor deve ser único e corresponder a um único Produto.

Código da Marca: Deve ser único para cada Marca registrada.

Código da categoria: Deve ser único e vinculado a uma única Categoria.

In [13]:
df_util_estoque.nunique()

Código                 37527
Produto                36637
Código da categoria      747
Categoria                705
Código da Marca          892
Marca                    872
Preço de custo         25718
Quantidade estoque      1418
dtype: int64

#### Garantindo a integridade dos códigos e seus respectivas descrições

In [14]:
codigos_produtos = df_util_estoque['Código'].nunique()
produtos_unicos = df_util_estoque['Produto'].nunique()
print(f"{codigos_produtos} Código de Produtos Únicos")
print(f"{produtos_unicos} Produtos Únicos")

37527 Código de Produtos Únicos
36637 Produtos Únicos


In [15]:
# Verificando se há códigos duplicados associados a produtos diferentes
codigos_produtos_duplicados = df_util_estoque[df_util_estoque["Código"].duplicated(keep=False)]
resultado = codigos_produtos_duplicados.sort_values("Código")
if resultado.isnull:
    print("Não exitem códigos de produtos duplicados")
else:
    print("Existem códigos duplicados, erro crítico")

Não exitem códigos de produtos duplicados


In [16]:
# Remover todos os produtos cuja descrição contém mais de um código 
produto_multiplos_codigos = df_util_estoque.groupby("Produto")["Código"].nunique()
produtos_problemas = produto_multiplos_codigos[produto_multiplos_codigos > 1].index
df_util_estoque = df_util_estoque[~df_util_estoque["Produto"].isin(produtos_problemas)]

#### Garantindo a integridade dos códigos e suas respectivas categorias

In [17]:
codigos_categoria = df_util_estoque['Código da categoria'].nunique()
categorias_unicas = df_util_estoque['Categoria'].nunique()
print(f"{codigos_categoria} Código de Categoria Únicos")
print(f"{categorias_unicas} Categoria Únicos")

743 Código de Categoria Únicos
701 Categoria Únicos


In [18]:
# Verificando se há códigos duplicados associados a categorias diferentes
codigos_categorias_duplicados = df_util_estoque[df_util_estoque["Código da categoria"].duplicated(keep=False)]
resultado = codigos_categorias_duplicados.sort_values("Código da categoria")
if resultado.isnull:
    print("Não exitem códigos de Categorias duplicadas")
else:
    print("Existem códigos duplicados, erro crítico")

Não exitem códigos de Categorias duplicadas


In [19]:
# Remover todos as categorias cuja descrição contém mais de um código 
categoria_multiplos_codigos = df_util_estoque.groupby("Categoria")["Código da categoria"].nunique()
categorias_problemas = categoria_multiplos_codigos[categoria_multiplos_codigos > 1].index
df_util_estoque = df_util_estoque[~df_util_estoque["Categoria"].isin(categorias_problemas)]

#### Garantindo a integridade dos códigos e suas respectivas marcas

In [20]:
codigos_marca = df_util_estoque['Código da Marca'].nunique()
marcas_unicas = df_util_estoque['Marca'].nunique()
print(f"{codigos_marca} Código de marcas Únicos")
print(f"{marcas_unicas} Marcas Únicas")

832 Código de marcas Únicos
815 Marcas Únicas


In [21]:
# Verificando se há códigos duplicados associados a categorias diferentes
codigos_marcas_duplicados = df_util_estoque[df_util_estoque["Código da Marca"].duplicated(keep=False)]
resultado = codigos_marcas_duplicados.sort_values("Código da Marca")
if resultado.isnull:
    print("Não exitem códigos de Marcas duplicados")
else:
    print("Existem códigos duplicados, erro crítico")

Não exitem códigos de Marcas duplicados


In [22]:
# Remover todos as marcas cuja descrição contém mais de um código 
categoria_multiplos_codigos = df_util_estoque.groupby("Marca")["Código da Marca"].nunique()
categorias_problemas = categoria_multiplos_codigos[categoria_multiplos_codigos > 1].index
df_util_estoque = df_util_estoque[~df_util_estoque["Marca"].isin(categorias_problemas)]

##### Balanço das trataivas

In [23]:
df_util_estoque.nunique()

Código                 24486
Produto                24486
Código da categoria      651
Categoria                651
Código da Marca          798
Marca                    798
Preço de custo         16895
Quantidade estoque      1040
dtype: int64

In [24]:
print("Diferença entre códigos e descrições")
print(f"\nProduto: {codigos_produtos-produtos_unicos} formam excluidos {((codigos_produtos-produtos_unicos)*100 / codigos_produtos):.2f} %")
print(f"\nCategoria: {codigos_categoria-categorias_unicas} formam excluidos {((codigos_categoria-categorias_unicas)*100 / codigos_categoria):.2f} %")
print(f"\nMarca: {codigos_marca-marcas_unicas} formam excluidos {((codigos_marca-marcas_unicas)*100 / codigos_marca):.2f} %")
print(f"\nTotal base original {df_estoque.shape[0]}\nTotal base sem duplicatas {df_util_estoque.shape[0]}")
print(f"um exclusão de {((df_estoque.shape[0] - df_util_estoque.shape[0]) * 100 / df_estoque.shape[0]):.2f} % de registros duplicados")

Diferença entre códigos e descrições

Produto: 890 formam excluidos 2.37 %

Categoria: 42 formam excluidos 5.65 %

Marca: 17 formam excluidos 2.04 %

Total base original 37527
Total base sem duplicatas 24486
um exclusão de 34.75 % de registros duplicados


In [25]:
import pandas as pd

def verificar_limpeza_base(df, coluna_codigo='Código', coluna_produto='Produto'):
    """
    Verifica se a base tratada ainda precisa de ajustes.
    
    Retorna:
        Um relatório com problemas residuais.
    """
    # 1. Verifica duplicatas em combinação de código + produto (chave única)
    duplicatas_chave = df.duplicated(subset=[coluna_codigo, coluna_produto], keep=False)
    if duplicatas_chave.any():
        print(f"⚠️ **Atenção**: {duplicatas_chave.sum()} registros duplicados em 'Código + Produto'.")
        display(df[duplicatas_chave].sort_values(coluna_produto).head())
    else:
        print("✅ Sem duplicatas em 'Código + Produto'.")

    # 2. Verifica valores nulos em colunas críticas
    colunas_criticas = [coluna_codigo, coluna_produto, 'Categoria', 'Marca', 'Quantidade estoque']
    nulos = df[colunas_criticas].isnull().sum()
    if nulos.any():
        print("\n⚠️ **Valores nulos encontrados**:")
        display(nulos[nulos > 0])
    else:
        print("\n✅ Sem valores nulos em colunas críticas.")

    # 3. Verifica valores zerados/negativos no estoque
    estoque_zerado = (df['Quantidade estoque'] == 0).sum()
    estoque_negativo = (df['Quantidade estoque'] < 0).sum()
    if estoque_zerado > 0 or estoque_negativo > 0:
        print(f"\n⚠️ **Problemas no estoque**: {estoque_zerado} zerados e {estoque_negativo} negativos.")
    else:
        print("\n✅ Estoque sem valores zerados/negativos.")

    # 4. Verifica inconsistências entre código e produto
    produtos_por_codigo = df.groupby(coluna_codigo)[coluna_produto].nunique()
    codigos_problema = produtos_por_codigo[produtos_por_codigo > 1]
    if not codigos_problema.empty:
        print(f"\n⚠️ **Inconsistências**: {len(codigos_problema)} códigos com múltiplos produtos.")
        display(codigos_problema.head())
    else:
        print("\n✅ Todos os códigos têm apenas 1 produto associado.")

    # 5. Estatísticas finais
    print("\n📊 **Resumo final**:")
    print(f"- Registros totais: {len(df)}")
    print(f"- Produtos únicos: {df[coluna_produto].nunique()}")
    print(f"- Códigos únicos: {df[coluna_codigo].nunique()}")

# Uso:
verificar_limpeza_base(df_util_estoque)

✅ Sem duplicatas em 'Código + Produto'.

✅ Sem valores nulos em colunas críticas.

⚠️ **Problemas no estoque**: 15688 zerados e 0 negativos.

✅ Todos os códigos têm apenas 1 produto associado.

📊 **Resumo final**:
- Registros totais: 24486
- Produtos únicos: 24486
- Códigos únicos: 24486


In [26]:
df_util_estoque.dtypes

Código                   int64
Produto                 object
Código da categoria      int64
Categoria               object
Código da Marca          int64
Marca                   object
Preço de custo         float64
Quantidade estoque     float64
dtype: object

In [27]:
df_util_estoque = df_util_estoque.astype({
    'Quantidade estoque' : 'int64'
})
df_util_estoque["Preço de custo"] = df_util_estoque["Preço de custo"].round(2)

In [28]:
df_util_estoque.to_excel("bases/bases_limpas/base_estoque_limpo.xlsx", index=False)