In [1]:
import pandas as pd

In [16]:
def verificar_qualidade(df, nome):
    print(f"\n🔍 Análise de qualidade: {nome}")
    
    # 1. Tipos de dados
    print("\n📌 Tipos de dados:")
    print(df.dtypes)

    # 2. Missing values
    print("\n📉 Valores nulos por coluna:")
    print(df.isnull().sum())

    # 3. Duplicatas
    n_duplicates = df.duplicated().sum()
    print(f"\n📎 Linhas duplicadas: {n_duplicates}")

    # 4. Preview
    print("\n🔎 Amostra dos dados:")
    print(df.head())

# Verificar cada base

# verificar_qualidade(tb_vendas, 'tb_vendas')


In [21]:
def analisar_granularidade(df, nome_base, col_sku, col_loja, col_data):
    print(f"\n🔍 Análise de granularidade - {nome_base}")

    # Converter data se necessário
    if not pd.api.types.is_datetime64_any_dtype(df[col_data]):
        df[col_data] = pd.to_datetime(df[col_data])

    # 1. Número de linhas totais
    print(f"Total de linhas: {len(df)}")

    # 2. Quantas combinações únicas?
    print(f"Combinações únicas de [{col_sku}, {col_loja}, {col_data}]: {df[[col_sku, col_loja, col_data]].drop_duplicates().shape[0]}")

    # 3. Checar duplicações
    duplicated_rows = df.duplicated(subset=[col_sku, col_loja, col_data]).sum()
    print(f"Duplicações por [{col_sku}, {col_loja}, {col_data}]: {duplicated_rows}")

    # 4. Amostragem por SKU-loja
    print("\nExemplo de datas disponíveis para um SKU e loja:")
    exemplo = df[[col_sku, col_loja]].drop_duplicates().sample(1).iloc[0]
    exemplo_df = df[(df[col_sku] == exemplo[col_sku]) & (df[col_loja] == exemplo[col_loja])]
    print(exemplo_df.sort_values(by=col_data)[[col_data]])

    # 5. Frequência das datas
    freq = df[col_data].value_counts().sort_index()
    print("\nDistribuição de registros por data (top 10):")
    print(freq.head(10))

# Estoque

In [17]:
df_estoque = pd.read_csv('../data/raw/tb_estoques.csv')
verificar_qualidade(df_estoque, 'tb_estoques')


🔍 Análise de qualidade: tb_estoques

📌 Tipos de dados:
key_loja        int64
cod_produto     int64
dt_estoque     object
qt_estoque      int64
dtype: object

📉 Valores nulos por coluna:
key_loja       0
cod_produto    0
dt_estoque     0
qt_estoque     0
dtype: int64

📎 Linhas duplicadas: 0

🔎 Amostra dos dados:
   key_loja  cod_produto  dt_estoque  qt_estoque
0         1         1428  2024-03-18         108
1         1         1428  2024-12-13          24
2         1         1428  2024-07-30          33
3         1         1428  2024-07-22          34
4         1         1428  2024-07-29          34


In [22]:
analisar_granularidade(df_estoque, 'tb_estoques', 'cod_produto', 'key_loja', 'dt_estoque')


🔍 Análise de granularidade - tb_estoques
Total de linhas: 260966
Combinações únicas de [cod_produto, key_loja, dt_estoque]: 260966
Duplicações por [cod_produto, key_loja, dt_estoque]: 0

Exemplo de datas disponíveis para um SKU e loja:
       dt_estoque
124711 2024-01-01
124503 2024-01-02
124744 2024-01-03
124532 2024-01-04
124800 2024-01-05
...           ...
124759 2024-12-27
124614 2024-12-28
124770 2024-12-29
124681 2024-12-30
124534 2024-12-31

[366 rows x 1 columns]

Distribuição de registros por data (top 10):
dt_estoque
2024-01-01    693
2024-01-02    693
2024-01-03    693
2024-01-04    693
2024-01-05    693
2024-01-06    693
2024-01-07    693
2024-01-08    693
2024-01-09    693
2024-01-10    693
Name: count, dtype: int64


# Similares

In [18]:
df_similares = pd.read_csv('../data/raw/tb_similares.csv')
verificar_qualidade(df_similares, 'tb_similares')


🔍 Análise de qualidade: tb_similares

📌 Tipos de dados:
cod_material          int64
cod_material_recom    int64
ranking               int64
dtype: object

📉 Valores nulos por coluna:
cod_material          0
cod_material_recom    0
ranking               0
dtype: int64

📎 Linhas duplicadas: 0

🔎 Amostra dos dados:
   cod_material  cod_material_recom  ranking
0         48635               25472        1
1         50651               74932        1
2         48062               77684        1
3         49893               48730        1
4         49943               84203        1


# Vendas

In [19]:
df_vendas = pd.read_csv('../data/raw/tb_vendas.csv')
verificar_qualidade(df_vendas, 'tb_vendas')


🔍 Análise de qualidade: tb_vendas

📌 Tipos de dados:
dt_venda                  object
cod_pedido                 int64
canal                     object
des_estado_franquia       object
key_loja                   int64
cod_material               int64
categoria_produto        float64
sub_categoria_produto      int64
linha_produto              int64
vlr_venda_tabelado       float64
vlr_desconto             float64
dtype: object

📉 Valores nulos por coluna:
dt_venda                   0
cod_pedido                 0
canal                      0
des_estado_franquia        0
key_loja                   0
cod_material               0
categoria_produto         34
sub_categoria_produto      0
linha_produto              0
vlr_venda_tabelado         0
vlr_desconto             270
dtype: int64

📎 Linhas duplicadas: 0

🔎 Amostra dos dados:
     dt_venda  cod_pedido    canal des_estado_franquia  key_loja  \
0  2024-05-10   386761455    FISCO                  SP         1   
1  2024-03-25   377623716 

In [25]:
analisar_granularidade(df_vendas, 'tb_vendas', 'cod_material', 'key_loja', 'dt_venda')


🔍 Análise de granularidade - tb_vendas
Total de linhas: 203892
Combinações únicas de [cod_material, key_loja, dt_venda]: 56689
Duplicações por [cod_material, key_loja, dt_venda]: 147203

Exemplo de datas disponíveis para um SKU e loja:
        dt_venda
44488 2024-01-22
44530 2024-01-31
44686 2024-01-31
44889 2024-02-01
45041 2024-02-01
...          ...
44275 2024-11-13
45054 2024-11-13
44336 2024-11-22
45110 2024-11-25
44654 2024-12-04

[1269 rows x 1 columns]

Distribuição de registros por data (top 10):
dt_venda
2024-01-02    230
2024-01-03    388
2024-01-04    381
2024-01-05    544
2024-01-06    322
2024-01-08    536
2024-01-09    782
2024-01-10    639
2024-01-11    723
2024-01-12    824
Name: count, dtype: int64


In [13]:
df_vendas['dt_venda'].min(), df_vendas['dt_venda'].max()

('2024-01-02', '2024-12-31')

In [5]:
df_vendas['canal'].value_counts()

canal
FISCO      121822
DIGITAL     82070
Name: count, dtype: int64

In [6]:
df_vendas['des_estado_franquia'].value_counts()

des_estado_franquia
MG    71381
SE    46946
SP    39958
PR    19207
AL    15988
GO    10412
Name: count, dtype: int64

In [7]:
df_vendas['categoria_produto'].value_counts()

categoria_produto
217.0       151058
157293.0     50459
955075.0      2318
415068.0        23
Name: count, dtype: int64

In [8]:
df_vendas['sub_categoria_produto'].value_counts()

sub_categoria_produto
422944    149451
483679     43414
311781      8892
32688       2101
69341         34
Name: count, dtype: int64

In [9]:
df_vendas['linha_produto'].value_counts()

linha_produto
731659    67869
306420    47599
390554    34482
284036    18860
85436      8665
200277     6366
736254     4357
264366     4198
212257     3556
109471     2753
120030     2083
147447     1537
504928      776
511346      310
22428       261
880502      147
964633       34
991747       34
18214         5
Name: count, dtype: int64

In [11]:
df_vendas[['vlr_venda_tabelado', 'vlr_desconto']].describe()

Unnamed: 0,vlr_venda_tabelado,vlr_desconto
count,203892.0,203622.0
mean,511.179565,88.904899
std,1571.562003,476.918028
min,134.7,0.0
25%,230.7,0.0
50%,389.7,29.94
75%,497.4,97.14
max,284415.3,86711.04
