### Limpeza da base de dados de estoque 



### Descri√ß√£o das Colunas - Base de Estoque

| Nome da Coluna           | Descri√ß√£o                                                                                  | Exemplo                                                                 |
|--------------------------|-------------------------------------------------------------------------------------------|-------------------------------------------------------------------------|
| **C√≥digo**               | Identificador √∫nico do produto no sistema.                                                | `1`, `3`, `5`                                                          |
| **Produto**              | Nome/descri√ß√£o do produto comercializado.                                                 | `"LAPIS N¬∫2 HB PT C/144 SERELEPE ECOLE"`, `"ACUCAR COMUM"`             |
| **Embalagem**            | Tipo de embalagem do produto (formato e quantidade por embalagem).                        | `"CX/1"` (Caixa com 1 unidade), `"KG/1"` (Kilograma unit√°rio)          |
| **Unidade**              | Unidade de medida prim√°ria para venda ou controle.                                        | `"CX"` (Caixa), `"UN"` (Unidade), `"KG"` (Kilograma)                   |
| **C√≥digo da Marca**      | Identificador √∫nico da marca/fabricante do produto.                                       | `1` (Maria Geni), `4281` (Grupo Master)                                |
| **Marca**                | Nome da marca ou fornecedor do produto.                                                   | `"COMERCIO E IMPORTACAO SERTIC LTDA"`                           |
| **Quantidade estoque**   | Quantidade dispon√≠vel em estoque (vazia indica registro sem dados).                       | `0`, `61`                                                              |
| **Pre√ßo de custo**       | Pre√ßo unit√°rio de custo do produto (formato num√©rico).                                    | `9`, `1.48`, `2.5`                                                     |
| **C√≥digo da categoria**  | Identificador num√©rico da categoria do produto.                                           | `708` (L√°pis), `199` (A√ß√∫car)                                          |
| **Categoria**            | Nome da categoria do produto, com abrevia√ß√£o entre par√™nteses.                            | `"LAPIS ( LAP )"`,                                          |

In [None]:
import pandas as pd

In [None]:
df_estoque = pd.read_excel("bases/relatorio_produtos.xlsx")

### Propriedades da base

In [None]:
print(f"Formato dos dados {df_estoque.shape}")

In [None]:
df_estoque.columns.to_list()

In [None]:
df_estoque.head()

In [None]:
df_estoque.dtypes

In [None]:
df_estoque.describe()

In [None]:
print("Quantidade valores Nulos")
df_estoque.isnull().sum()

In [None]:
print("Quantidade de valores zerados")
colunas_numericas = df_estoque.select_dtypes(include='number')
for rotulo in colunas_numericas:
    qt_zeros = (colunas_numericas[rotulo] == 0).sum()
    print(f"\n{rotulo} cont√©m {qt_zeros} zeros")

In [None]:
print("Quantidade de valores negativos")
for rotulo in colunas_numericas:
    qt_negativos = (colunas_numericas[rotulo] < 0).sum()
    print(f"\n{rotulo} cont√©m {qt_negativos} negativos")

### Tratamento inicial 

In [None]:
# Na coluna Quantidade estoque cont√©m alguns valores nulos e negativos, estes ser√£o convertidos para '0'.
df_estoque.loc[df_estoque["Quantidade estoque"] < 0, "Quantidade estoque"] = 0
df_estoque['Quantidade estoque'] = df_estoque['Quantidade estoque'].fillna(0)

In [None]:
# Separar somente as colunas que ser√£o usadas no modelo
df_util_estoque = df_estoque[['C√≥digo', 'Produto', 'C√≥digo da categoria', 'Categoria', 'C√≥digo da Marca', 'Marca', 'Pre√ßo de custo', 'Quantidade estoque']]
df_estoque.head()

#### Para garantir a integridade dos dados e a efic√°cia do sistema de recomenda√ß√£o/cross-selling, √© essencial verificar:

#### Unicidade dos Identificadores

C√≥digo: Cada valor deve ser √∫nico e corresponder a um √∫nico Produto.

C√≥digo da Marca: Deve ser √∫nico para cada Marca registrada.

C√≥digo da categoria: Deve ser √∫nico e vinculado a uma √∫nica Categoria.

In [None]:
df_util_estoque.nunique()

#### Garantindo a integridade dos c√≥digos e seus respectivas descri√ß√µes

In [None]:
codigos_produtos = df_util_estoque['C√≥digo'].nunique()
produtos_unicos = df_util_estoque['Produto'].nunique()
print(f"{codigos_produtos} C√≥digo de Produtos √önicos")
print(f"{produtos_unicos} Produtos √önicos")

In [None]:
# Verificando se h√° c√≥digos duplicados associados a produtos diferentes
codigos_produtos_duplicados = df_util_estoque[df_util_estoque["C√≥digo"].duplicated(keep=False)]
resultado = codigos_produtos_duplicados.sort_values("C√≥digo")
if resultado.isnull:
    print("N√£o exitem c√≥digos de produtos duplicados")
else:
    print("Existem c√≥digos duplicados, erro cr√≠tico")

In [None]:
# Remover todos os produtos cuja descri√ß√£o cont√©m mais de um c√≥digo 
produto_multiplos_codigos = df_util_estoque.groupby("Produto")["C√≥digo"].nunique()
produtos_problemas = produto_multiplos_codigos[produto_multiplos_codigos > 1].index
df_util_estoque = df_util_estoque[~df_util_estoque["Produto"].isin(produtos_problemas)]

#### Garantindo a integridade dos c√≥digos e suas respectivas categorias

In [None]:
codigos_categoria = df_util_estoque['C√≥digo da categoria'].nunique()
categorias_unicas = df_util_estoque['Categoria'].nunique()
print(f"{codigos_categoria} C√≥digo de Categoria √önicos")
print(f"{categorias_unicas} Categoria √önicos")

In [None]:
# Verificando se h√° c√≥digos duplicados associados a categorias diferentes
codigos_categorias_duplicados = df_util_estoque[df_util_estoque["C√≥digo da categoria"].duplicated(keep=False)]
resultado = codigos_categorias_duplicados.sort_values("C√≥digo da categoria")
if resultado.isnull:
    print("N√£o exitem c√≥digos de Categorias duplicadas")
else:
    print("Existem c√≥digos duplicados, erro cr√≠tico")

In [None]:
# Remover todos as categorias cuja descri√ß√£o cont√©m mais de um c√≥digo 
categoria_multiplos_codigos = df_util_estoque.groupby("Categoria")["C√≥digo da categoria"].nunique()
categorias_problemas = categoria_multiplos_codigos[categoria_multiplos_codigos > 1].index
df_util_estoque = df_util_estoque[~df_util_estoque["Categoria"].isin(categorias_problemas)]

#### Garantindo a integridade dos c√≥digos e suas respectivas marcas

In [None]:
codigos_marca = df_util_estoque['C√≥digo da Marca'].nunique()
marcas_unicas = df_util_estoque['Marca'].nunique()
print(f"{codigos_marca} C√≥digo de marcas √önicos")
print(f"{marcas_unicas} Marcas √önicas")

In [None]:
# Verificando se h√° c√≥digos duplicados associados a categorias diferentes
codigos_marcas_duplicados = df_util_estoque[df_util_estoque["C√≥digo da Marca"].duplicated(keep=False)]
resultado = codigos_marcas_duplicados.sort_values("C√≥digo da Marca")
if resultado.isnull:
    print("N√£o exitem c√≥digos de Marcas duplicados")
else:
    print("Existem c√≥digos duplicados, erro cr√≠tico")

In [None]:
# Remover todos as marcas cuja descri√ß√£o cont√©m mais de um c√≥digo 
categoria_multiplos_codigos = df_util_estoque.groupby("Marca")["C√≥digo da Marca"].nunique()
categorias_problemas = categoria_multiplos_codigos[categoria_multiplos_codigos > 1].index
df_util_estoque = df_util_estoque[~df_util_estoque["Marca"].isin(categorias_problemas)]

##### Balan√ßo das trataivas

In [None]:
df_util_estoque.nunique()

In [None]:
print("Diferen√ßa entre c√≥digos e descri√ß√µes")
print(f"\nProduto: {codigos_produtos-produtos_unicos} formam excluidos {((codigos_produtos-produtos_unicos)*100 / codigos_produtos):.2f} %")
print(f"\nCategoria: {codigos_categoria-categorias_unicas} formam excluidos {((codigos_categoria-categorias_unicas)*100 / codigos_categoria):.2f} %")
print(f"\nMarca: {codigos_marca-marcas_unicas} formam excluidos {((codigos_marca-marcas_unicas)*100 / codigos_marca):.2f} %")
print(f"\nTotal base original {df_estoque.shape[0]}\nTotal base sem duplicatas {df_util_estoque.shape[0]}")
print(f"um exclus√£o de {((df_estoque.shape[0] - df_util_estoque.shape[0]) * 100 / df_estoque.shape[0]):.2f} % de registros duplicados")

In [None]:
def verificar_limpeza_base(df, coluna_codigo='C√≥digo', coluna_produto='Produto'):
    """
    Verifica se a base tratada ainda precisa de ajustes.
    
    Retorna:
        Um relat√≥rio com problemas residuais.
    """
    # 1. Verifica duplicatas em combina√ß√£o de c√≥digo + produto (chave √∫nica)
    duplicatas_chave = df.duplicated(subset=[coluna_codigo, coluna_produto], keep=False)
    if duplicatas_chave.any():
        print(f"‚ö†Ô∏è **Aten√ß√£o**: {duplicatas_chave.sum()} registros duplicados em 'C√≥digo + Produto'.")
        display(df[duplicatas_chave].sort_values(coluna_produto).head())
    else:
        print("‚úÖ Sem duplicatas em 'C√≥digo + Produto'.")

    # 2. Verifica valores nulos em colunas cr√≠ticas
    colunas_criticas = [coluna_codigo, coluna_produto, 'Categoria', 'Marca', 'Quantidade estoque']
    nulos = df[colunas_criticas].isnull().sum()
    if nulos.any():
        print("\n‚ö†Ô∏è **Valores nulos encontrados**:")
        display(nulos[nulos > 0])
    else:
        print("\n‚úÖ Sem valores nulos em colunas cr√≠ticas.")

    # 3. Verifica valores zerados/negativos no estoque
    estoque_zerado = (df['Quantidade estoque'] == 0).sum()
    estoque_negativo = (df['Quantidade estoque'] < 0).sum()
    if estoque_zerado > 0 or estoque_negativo > 0:
        print(f"\n‚ö†Ô∏è **Problemas no estoque**: {estoque_zerado} zerados e {estoque_negativo} negativos.")
    else:
        print("\n‚úÖ Estoque sem valores zerados/negativos.")

    # 4. Verifica inconsist√™ncias entre c√≥digo e produto
    produtos_por_codigo = df.groupby(coluna_codigo)[coluna_produto].nunique()
    codigos_problema = produtos_por_codigo[produtos_por_codigo > 1]
    if not codigos_problema.empty:
        print(f"\n‚ö†Ô∏è **Inconsist√™ncias**: {len(codigos_problema)} c√≥digos com m√∫ltiplos produtos.")
        display(codigos_problema.head())
    else:
        print("\n‚úÖ Todos os c√≥digos t√™m apenas 1 produto associado.")

    # 5. Estat√≠sticas finais
    print("\nüìä **Resumo final**:")
    print(f"- Registros totais: {len(df)}")
    print(f"- Produtos √∫nicos: {df[coluna_produto].nunique()}")
    print(f"- C√≥digos √∫nicos: {df[coluna_codigo].nunique()}")

# Uso:
verificar_limpeza_base(df_util_estoque)

In [None]:
df_util_estoque.dtypes

In [None]:
df_util_estoque = df_util_estoque.astype({
    'Quantidade estoque' : 'int64'
})
df_util_estoque["Pre√ßo de custo"] = df_util_estoque["Pre√ßo de custo"].round(2)

In [None]:
df_util_estoque.rename(columns = {"C√≥digo" : "C√≥digo produto"}, inplace=True)

In [None]:
df_util_estoque.to_excel("bases/bases_limpas/base_estoque_limpo.xlsx", index=False)