# Data Quality – olist_products

## Objetivo
Este notebook tem como objetivo avaliar e garantir a qualidade dos dados da tabela
`olist_products`, que representa o cadastro de produtos do e-commerce.

As validações realizadas aqui asseguram que os dados estejam consistentes, completos
e aptos para análises e enriquecimento com features geradas por IA em etapas posteriores
do pipeline de dados na Dadosfera.


In [None]:
import pandas as pd
from pathlib import Path

# Caminho base do projeto (raiz)
BASE_PATH = Path.cwd().parent

DATA_PATH = BASE_PATH / "data" / "raw" / "olist_products.csv"

print("Caminho do arquivo:", DATA_PATH)
print("Arquivo existe?", DATA_PATH.exists())

df = pd.read_csv(DATA_PATH)

print("Shape do dataset:", df.shape)
df.head()


Caminho do arquivo: /home/mateus/dadosfera/MATEUS_WILAMIL_DDFTEC_012026/data/raw/olist_products.csv
Arquivo existe? True
Shape do dataset: (32951, 9)


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


In [3]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32341 non-null  object 
 2   product_name_lenght         32341 non-null  float64
 3   product_description_lenght  32341 non-null  float64
 4   product_photos_qty          32341 non-null  float64
 5   product_weight_g            32949 non-null  float64
 6   product_length_cm           32949 non-null  float64
 7   product_height_cm           32949 non-null  float64
 8   product_width_cm            32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB


In [4]:
# 1. product_id deve ser único
assert df["product_id"].is_unique, "Existem product_id duplicados"

# 2. product_id não pode ser nulo
assert df["product_id"].notna().all(), "Existem product_id nulos"

# 3. Categoria pode ser nula, mas vamos medir
null_categories = df["product_category_name"].isna().sum()

print(f"Categorias nulas encontradas: {null_categories}")

# 4. Dimensões físicas não podem ser negativas
dimension_cols = [
    "product_weight_g",
    "product_length_cm",
    "product_height_cm",
    "product_width_cm"
]

for col in dimension_cols:
    assert (df[col].dropna() >= 0).all(), f"Valores negativos encontrados em {col}"

print("Validações de Data Quality concluídas com sucesso para olist_products ✅")


Categorias nulas encontradas: 610
Validações de Data Quality concluídas com sucesso para olist_products ✅


## Conclusão

Os dados da tabela `olist_products` apresentam boa qualidade geral.
As principais inconsistências identificadas estão relacionadas a valores
nulos em categorias, que podem ser tratadas posteriormente via enriquecimento
semântico utilizando LLMs.

O dataset está apto para ser utilizado nas próximas etapas do ciclo de vida
dos dados dentro da plataforma Dadosfera.
