# Product Descriptions – Synthetic Feature Generation

Este notebook tem como objetivo gerar descrições sintéticas e features estruturadas
a partir da base de produtos do e-commerce (Olist), simulando o processamento de
dados desestruturados com apoio de técnicas inspiradas em LLMs.

O resultado final é um dataset estruturado em formato CSV, pronto para ingestão
em plataformas analíticas como a Dadosfera, possibilitando análises descritivas,
modelagem de dados e visualizações.


In [5]:
# ==============================
# Setup do ambiente
# ==============================

import pandas as pd
from pathlib import Path


In [6]:
# ==============================
# Definição dos paths
# ==============================

BASE_PATH = Path("..")
DATA_RAW_PATH = BASE_PATH / "data" / "raw"

PRODUCTS_FILE = DATA_RAW_PATH / "olist_products.csv"
OUTPUT_FILE = DATA_RAW_PATH / "product_descriptions.csv"

print("Arquivo de entrada:", PRODUCTS_FILE)
print("Arquivo de saída:", OUTPUT_FILE)


Arquivo de entrada: ../data/raw/olist_products.csv
Arquivo de saída: ../data/raw/product_descriptions.csv


In [7]:
print(PRODUCTS_FILE.exists())


True


In [8]:
# ==============================
# Carregar dados de produtos
# ==============================

products_df = pd.read_csv(PRODUCTS_FILE)

print(f"Quantidade de produtos: {products_df.shape[0]}")
products_df.head()


Quantidade de produtos: 32951


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


In [9]:
# ==============================
# Tratamento de dados faltantes
# ==============================

products_df["product_category_name"] = (
    products_df["product_category_name"]
    .fillna("unknown")
    .astype(str)
)


In [10]:
# ==============================
# Função para gerar descrições sintéticas
# ==============================

def generate_product_description(product_id, category):
    title = f"{category.replace('_', ' ').title()} Product"

    description = (
        f"This product belongs to the {category} category. "
        f"It was designed focusing on quality, usability and cost-benefit, "
        f"meeting the needs of customers in e-commerce platforms."
    )

    return {
        "product_id": product_id,
        "category": category,
        "title": title,
        "description": description,
        "has_rfid": False,
        "has_kickstand": False,
        "has_mirror": False
    }


In [11]:
# ==============================
# Geração das descrições sintéticas
# ==============================

product_descriptions = []

for _, row in products_df.iterrows():
    product_descriptions.append(
        generate_product_description(
            product_id=row["product_id"],
            category=row["product_category_name"]
        )
    )

descriptions_df = pd.DataFrame(product_descriptions)

print(f"Descrições geradas: {descriptions_df.shape[0]}")
descriptions_df.head()


Descrições geradas: 32951


Unnamed: 0,product_id,category,title,description,has_rfid,has_kickstand,has_mirror
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,Perfumaria Product,This product belongs to the perfumaria categor...,False,False,False
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,Artes Product,This product belongs to the artes category. It...,False,False,False
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,Esporte Lazer Product,This product belongs to the esporte_lazer cate...,False,False,False
3,cef67bcfe19066a932b7673e239eb23d,bebes,Bebes Product,This product belongs to the bebes category. It...,False,False,False
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,Utilidades Domesticas Product,This product belongs to the utilidades_domesti...,False,False,False


In [12]:
# ==============================
# Validação dos dados gerados
# ==============================

descriptions_df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   product_id     32951 non-null  object
 1   category       32951 non-null  object
 2   title          32951 non-null  object
 3   description    32951 non-null  object
 4   has_rfid       32951 non-null  bool  
 5   has_kickstand  32951 non-null  bool  
 6   has_mirror     32951 non-null  bool  
dtypes: bool(3), object(4)
memory usage: 1.1+ MB


In [13]:
# ==============================
# Salvando dataset final em CSV
# ==============================

descriptions_df.to_csv(OUTPUT_FILE, index=False)

print("Arquivo CSV gerado com sucesso!")


Arquivo CSV gerado com sucesso!


## Resultado

O dataset `product_descriptions.csv` contém descrições sintéticas e features
estruturadas para todos os produtos da base original, possibilitando sua ingestão
em plataformas analíticas e uso em pipelines de dados, dashboards e aplicações
analíticas.
