## Configuração

In [1]:
import pandas as pd
from pathlib import Path

try:
    base_dir = Path(__file__).parent.resolve()
except NameError:
    base_dir = Path.cwd().resolve()

data_dir = base_dir / "data"
clean_data_dir = base_dir / "clean_data"
clean_data_dir.mkdir(parents=True, exist_ok=True)

arquivos = {
    "vendas": "fato_vendas.csv",
    "familia": "dim_familia_produtos.csv",
    "produtos": "dim_produtos.csv",
    "vendedor": "dim_vendedor.csv"
}
df_vendas = pd.read_csv(data_dir / arquivos["vendas"])
df_familia = pd.read_csv(data_dir / arquivos["familia"])
df_produtos = pd.read_csv(data_dir / arquivos["produtos"])
df_vendedor = pd.read_csv(data_dir / arquivos["vendedor"])

  df_vendas = pd.read_csv(data_dir / arquivos["vendas"])


## Informações gerais

In [2]:
df_vendas.info()
df_familia.info()
df_produtos.info()
df_vendedor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 207918 entries, 0 to 207917
Data columns (total 9 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   codigo_contrato        207918 non-null  object 
 1   data_venda             207918 non-null  object 
 2   codigo_produto         207918 non-null  int64  
 3   filial_venda           207918 non-null  int64  
 4   quantidade             207918 non-null  int64  
 5   valor_monetario_total  207918 non-null  float64
 6   valor_desconto         207918 non-null  float64
 7   codigo_vendedor        207918 non-null  int64  
 8   codigo_cliente         207902 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 14.3+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75 entries, 0 to 74
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   codigo_familia    75 non-null     object
 1  

## Valores nulos

In [3]:
def verificar_valores_nulos(df, nome):
    print(f"\nValores nulos em {nome}:")
    print(df.isnull().sum())

verificar_valores_nulos(df_vendas, "Fato Vendas")
verificar_valores_nulos(df_familia, "Dimensão Família")
verificar_valores_nulos(df_produtos, "Dimensão Produtos")
verificar_valores_nulos(df_vendedor, "Dimensão Vendedor")

df_vendas.fillna(0, inplace=True)
df_familia.fillna("Desconhecido", inplace=True)
df_produtos.fillna("Desconhecido", inplace=True)
df_vendedor.fillna("Sem Nome", inplace=True)


Valores nulos em Fato Vendas:
codigo_contrato           0
data_venda                0
codigo_produto            0
filial_venda              0
quantidade                0
valor_monetario_total     0
valor_desconto            0
codigo_vendedor           0
codigo_cliente           16
dtype: int64

Valores nulos em Dimensão Família:
codigo_familia      0
descricaofamilia    0
dtype: int64

Valores nulos em Dimensão Produtos:
codigo_produto            0
descricaoproduto          0
codigo_familia            0
preco_venda_unitario      0
custo_produto_unitario    0
dtype: int64

Valores nulos em Dimensão Vendedor:
codigo_vendedor    0
nome_vendedor      0
dtype: int64


## Tratamento

In [4]:
df_vendas.fillna(0, inplace=True)
df_familia.fillna("Desconhecido", inplace=True)
df_produtos.fillna("Desconhecido", inplace=True)
df_vendedor.fillna("Sem Nome", inplace=True)

## Duplicatas

In [5]:
def remover_duplicatas(df, nome):
    antes = len(df)
    df.drop_duplicates(inplace=True)
    depois = len(df)
    print(f"Removidas {antes - depois} duplicatas de {nome}.")

remover_duplicatas(df_vendas, "Fato Vendas")
remover_duplicatas(df_familia, "Dimensão Família")
remover_duplicatas(df_produtos, "Dimensão Produtos")
remover_duplicatas(df_vendedor, "Dimensão Vendedor")

Removidas 8 duplicatas de Fato Vendas.
Removidas 0 duplicatas de Dimensão Família.
Removidas 0 duplicatas de Dimensão Produtos.
Removidas 0 duplicatas de Dimensão Vendedor.


## Exportando

In [6]:
df_vendas.to_csv(clean_data_dir / "fato_vendas_limpo.csv", index=False)
df_familia.to_csv(clean_data_dir / "dim_familia_produtos_limpo.csv", index=False)
df_produtos.to_csv(clean_data_dir / "dim_produtos_limpo.csv", index=False)
df_vendedor.to_csv(clean_data_dir / "dim_vendedor_limpo.csv", index=False)
print(f"Arquivos salvos em: {clean_data_dir}")

Arquivos salvos em: /home/breno-luiz/Documents/EQUALS/main/clean_data
