# Data Quality – product_descriptions

## Objetivo
Este notebook valida a qualidade dos dados do dataset `product_descriptions`,
gerado sinteticamente para representar descrições textuais de produtos.

Este dataset será utilizado em análises baseadas em IA Generativa e NLP,
sendo essencial garantir consistência, completude e integridade textual.


In [37]:
import pandas as pd
from pathlib import Path

# Caminho base do projeto (raiz)
BASE_PATH = Path.cwd().parent

DATA_PATH = BASE_PATH / "data" / "raw" / "product_descriptions.csv"

print("Caminho do arquivo:", DATA_PATH)
print("Arquivo existe?", DATA_PATH.exists())

df = pd.read_csv(DATA_PATH)

print("Shape do dataset:", df.shape)
df.head()


Caminho do arquivo: /home/mateus/dadosfera/MATEUS_WILAMIL_DDFTEC_012026/data/raw/product_descriptions.csv
Arquivo existe? True
Shape do dataset: (32951, 7)


Unnamed: 0,product_id,category,title,description,has_rfid,has_kickstand,has_mirror
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,Perfumaria Product,This product belongs to the perfumaria categor...,False,False,False
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,Artes Product,This product belongs to the artes category. It...,False,False,False
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,Esporte Lazer Product,This product belongs to the esporte_lazer cate...,False,False,False
3,cef67bcfe19066a932b7673e239eb23d,bebes,Bebes Product,This product belongs to the bebes category. It...,False,False,False
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,Utilidades Domesticas Product,This product belongs to the utilidades_domesti...,False,False,False


In [38]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   product_id     32951 non-null  object
 1   category       32951 non-null  object
 2   title          32951 non-null  object
 3   description    32951 non-null  object
 4   has_rfid       32951 non-null  bool  
 5   has_kickstand  32951 non-null  bool  
 6   has_mirror     32951 non-null  bool  
dtypes: bool(3), object(4)
memory usage: 1.1+ MB


In [39]:
# 1. product_id deve ser único
assert df["product_id"].is_unique, "Existem product_id duplicados"

# 2. product_id não pode ser nulo
assert df["product_id"].notna().all(), "Existem product_id nulos"

# 3. title não pode ser nulo ou vazio
assert df["title"].notna().all(), "Existem títulos nulos"
assert (df["title"].str.strip() != "").all(), "Existem títulos vazios"

# 4. description não pode ser nula ou vazia
assert df["description"].notna().all(), "Existem descrições nulas"
assert (df["description"].str.strip() != "").all(), "Existem descrições vazias"

# 5. Tamanho mínimo da descrição (heurística simples)
min_length = 30
assert (df["description"].str.len() >= min_length).all(), \
    "Existem descrições muito curtas"

print("Validações de Data Quality concluídas com sucesso para product_descriptions ✅")


Validações de Data Quality concluídas com sucesso para product_descriptions ✅


## Conclusão

O dataset `product_descriptions` apresenta qualidade adequada para uso em
processos de NLP e geração de features via LLMs.

As validações garantem integridade dos identificadores e qualidade mínima
do conteúdo textual, tornando o dataset apto para análises descritivas,
similaridade entre produtos e aplicações de IA Generativa na Dadosfera.
