In [65]:
# Base para gerar um arquivo de dados sintéticos para o trabalho de KDD, o contexto é de um e-commerce
# O arquivo gerado é um CSV com os seguintes campos:
# - id: identificador único do pedido
# - data: data do pedido
# - hora: hora do pedido
# - cliente: nome do cliente
# - produto: nome do produto
# - valor: valor do produto
# - quantidade: quantidade do produto
# - total: valor total do pedido
# - status: status do pedido (pago, cancelado, entregue, etc)
# - cidade: cidade do cliente
# - estado: estado do cliente
# - pais: país do cliente
# - cep: CEP do cliente
# - frete: valor do frete
# - pagamento: forma de pagamento (cartão, boleto, etc)
# - vendedor: nome do vendedor
# - categoria: categoria do produto
# - marca: marca do produto
# - modelo: modelo do produto
# - cor: cor do produto
# - tamanho: tamanho do produto
# - peso: peso do produto
# - altura: altura do produto
# - largura: largura do produto
# - comprimento: comprimento do produto

In [66]:
import random
import csv
import datetime
import os
import numpy as np
import pandas as pd

# Função para gerar um nome aleatório
def nome_aleatorio():
    nomes = ['ALYSON', 'DANIEL', 'DAVI', 'FILIPE', 'GABRIEL', 'GUSTAVO', 'JOÃO', 'JÚLIO', 'LUIZ', 'MAYCON', 'OTÁVIO', 'PEDRO', 'SERGIO', 'SÁVIO', 'VANESSA', 'VICTOR', 'WEMERSON']
    sobrenomes = ['BANDEIRA', 'CARDOSO', 'COSTA', 'CRUZ', 'DEMARQUE', 'LIMA', 'MASSI', 'NETO', 'NÁPOLES', 'OLIVEIRA', 'RODRIGUES', 'SANTOS', 'SILVA', 'SOARES']
    # Mudando nomes e sobrenomes para apenas a primeira letra maiúscula
    nomes = [n.lower() for n in nomes]
    sobrenomes = [s.lower() for s in sobrenomes]
    nomes = [n.capitalize() for n in nomes]
    sobrenomes = [s.capitalize() for s in sobrenomes]
    return random.choice(nomes) + ' ' + random.choice(sobrenomes)

# Função para gerar um CEP aleatório
def cep_aleatorio():
    return str(random.randint(10000000, 99999999))

# Função para gerar uma data aleatória
def data_aleatoria():
    return datetime.date(random.randint(2015, 2019), random.randint(1, 12), random.randint(1, 28))

# Função para gerar uma hora aleatória, a probabilidade de ser uma hora comercial é de 80%
def hora_aleatoria():
    # Definindo o intervalo de horas comerciais (8h às 18h)
    hora_comercial_inicio = 8
    hora_comercial_fim = 18
    
    # Gerando minutos e segundos aleatoriamente
    minutos = random.randint(0, 59)
    segundos = random.randint(0, 59)
    
    # Probabilidade de 80% para hora comercial
    if random.random() < 0.8:
        # Gera uma hora comercial aleatória
        hora = random.randint(hora_comercial_inicio, hora_comercial_fim)
    else:
        # Gera uma hora fora do horário comercial
        # Opção 1: Antes do horário comercial
        opcao1 = list(range(0, hora_comercial_inicio))
        # Opção 2: Depois do horário comercial
        opcao2 = list(range(hora_comercial_fim + 1, 24))
        # Unindo ambas as opções
        horas_nao_comerciais = opcao1 + opcao2
        # Selecionando uma hora aleatória não comercial
        hora = random.choice(horas_nao_comerciais)
    
    # Retorna a hora formatada com minutos e segundos
    return f"{hora:02d}:{minutos:02d}:{segundos:02d}"

# Função para gerar um peso aleatório
def peso_aleatorio(min, max):
    return round(random.uniform(min, max), 2)

# Função para gerar uma altura aleatória
def altura_aleatoria(min, max):
    return round(random.uniform(min, max), 2)

# Função para gerar uma largura aleatória
def largura_aleatoria(min, max):
    return round(random.uniform(min, max), 2)

# Função para gerar um comprimento aleatório
def comprimento_aleatorio(min, max):
    return round(random.uniform(min, max), 2)

# Função para gerar um valor de frete aleatório
def frete_aleatorio(min, max):
    return round(random.uniform(min, max), 2)

# Função para gerar um valor de pagamento aleatório
def pagamento_aleatorio():
    pagamentos = ['cartão', 'boleto', 'transferência', 'cheque']
    return random.choice(pagamentos)

# Função para gerar um status aleatório
def status_aleatorio():
    status = ['pago', 'cancelado', 'entregue', 'em trânsito', 'em separação', 'aguardando pagamento']
    return random.choice(status)

# Função para gerar uma categoria aleatória
def categoria_aleatoria():
    categorias = ['eletrônicos', 'informática', 'casa', 'móveis', 'roupas', 'calçados', 'acessórios', 'automotivo', 'beleza', 'saúde', 'alimentos', 'bebidas', 'esportes', 'lazer', 'brinquedos', 'petshop', 'livros', 'papelaria', 'artigos para festas']
    return random.choice(categorias)

# Função para gerar uma marca aleatória
def marca_aleatoria(categoria):
    if categoria == 'eletrônicos' or categoria == 'informática':
        marcas = ['Samsung', 'Apple', 'Motorola', 'LG', 'Sony', 'Philips', 'Panasonic']
    elif categoria == 'casa':
        #Marcas de produtos para casa
        marcas = ['Electrolux', 'Brastemp', 'Consul', 'Philco', 'Mondial', 'Black & Decker', 'Tramontina', 'Cuisinart', 'Oster', 'Britânia']
    elif categoria == 'móveis':
        #Marcas de móveis
        marcas = ['Todeschini', 'Santos Andirá', 'Móveis Carraro', 'Móveis Henn', 'Móveis Kappesberg', 'Móveis Rudnick', 'Móveis Simonetti', 'Móveis Poquema', 'Móveis Matic', 'Móveis Estrela']
    elif categoria == 'roupas' or categoria == 'calçados':
        #Marcas de roupas e calçados
        marcas = ['Adidas', 'Nike', 'Puma', 'Fila', 'Reebok', 'Vans', 'Converse', 'Mizuno', 'Asics', 'Olympikus']
    elif categoria == 'acessórios':
        #Marcas de acessórios
        marcas = ['Puma', 'Nike', 'Adidas', 'Fila', 'Oakley']
    elif categoria == 'automotivo':
        #Marcas de produtos automotivos
        marcas = ['Bosch', 'Moura', 'Heliar', 'Magnetron', 'Pioneer', 'Pirelli', 'Goodyear', 'Bridgestone', 'Michelin', 'Firestone']
    elif categoria == 'beleza' or categoria == 'saúde':
        #Marcas de produtos de beleza e saúde
        marcas = ['Natura', 'Avon', 'O Boticário', 'Eudora', 'Jequiti', 'Mary Kay', 'Hinode', 'Dove', 'Rexona', 'Colgate']
    elif categoria == 'alimentos':
        #Marcas de alimentos e bebidas
        marcas = ['Nestlé', 'Coca-Cola', 'Pepsi', 'Unilever', 'Bauducco', 'Sadia', 'Perdigão', 'JBS', 'Marfrig']
    elif categoria == 'bebidas':
        marcas = ['Coca-Cola', 'Pepsi','Ambev', 'Heineken']
    elif categoria == 'esportes' or categoria == 'lazer':
        #Marcas de produtos esportivos e de lazer
        marcas = ['Nike', 'Adidas', 'Puma', 'Fila', 'Reebok', 'Vans', 'Converse', 'Mizuno', 'Asics', 'Olympikus']
    elif categoria == 'brinquedos' or categoria == 'petshop':
        #Marcas de brinquedos e petshop
        marcas = ['Mattel', 'Estrela', 'Grow', 'Hasbro', 'Ri Happy', 'Petz',
                    'Petland', 'Petzoo', 'Petlove', 'Petland']
    elif categoria == 'livros' or categoria == 'papelaria':
        #Marcas de livros e papelaria
        marcas = ['Saraiva', 'Cultura', 'Amazon', 'Submarino', 'Americanas', 'Casas Bahia', 'Ponto Frio', 'Extra', 'Walmart', 'Riachuelo']
    elif categoria == 'artigos para festas':
        #Marcas de artigos para festas
        marcas = ['Festcolor', 'Regina Festas', 'Cromus', 'Piffer', 'Aluá Festas', 'Magazine 25', 'Festa Box', 'Festas Criativas', 'Festas Mix', 'Festas e Descartáveis']
    else:
        marcas = ['ERRO -'+ categoria +'-']
    return random.choice(marcas)

# Função para gerar um modelo aleatório
def modelo_aleatorio(marcas, categoria):
    if categoria == 'eletrônicos' or categoria == 'informática':
        modelos = ['Smart TV', 'Notebook', 'Desktop', 'Tablet', 'Impressora', 'Monitor', 'Smartphone', 'Câmera', 'Fone de Ouvido', 'Caixa de Som']
    elif categoria == 'casa':
        #Modelos de produtos para casa
        modelos = ['Frost Free', 'Inverter', 'Duplex', 'Side by Side', 'Top Load', 'Front Load', 'Micro-ondas', 'Forno Elétrico', 'Liquidificador', 'Batedeira']
    elif categoria == 'móveis':
        #Modelos de móveis
        modelos = ['Mesa', 'Cadeira', 'Sofá', 'Cama', 'Armário', 'Escrivaninha', 'Cômoda', 'Rack', 'Estante', 'Guarda-roupa']
    elif categoria == 'roupas':
        #Modelos de roupas e calçados
        modelos = ['Camiseta', 'Calça', 'Vestido', 'Saia', 'Blusa']
    elif categoria == 'calçados':
        modelos = ['Tênis', 'Sapato', 'Sandália', 'Chinelo', 'Bota']
    elif categoria == 'acessórios':
        #Modelos de acessórios
        modelos = ['Bolsa', 'Mochila', 'Carteira', 'Óculos', 'Relógio', 'Boné', 'Chapéu', 'Cinto', 'Pulseira', 'Colar']
    elif categoria == 'automotivo':
        #Modelos de produtos automotivos
        modelos = ['Bateria', 'Pneu', 'Óleo', 'Filtro', 'Lâmpada', 'Som', 'Alarme', 'Farol', 'Retrovisor', 'Banco']
    elif categoria == 'beleza' or categoria == 'saúde':
        #Modelos de produtos de beleza e saúde
        modelos = ['Maquiagem', 'Cabelo', 'Unhas', 'Perfume', 'Sabonete', 'Shampoo', 'Condicionador', 'Creme', 'Desodorante', 'Escova']
    elif categoria == 'alimentos':
        if marcas == 'Nestlé' or marcas == 'Coca-Cola' or marcas == 'Pepsi':
            modelos = ['Chocolate', 'Doce', 'Salgado', 'Biscoito', 'Salgadinho', 'Refrigerante', 'Suco', 'Água', 'Leite', 'Café']
        else:
            modelos = ['Carne', 'Frango', 'Peixe']
    elif categoria == 'bebidas':
        if marcas == 'Coca-Cola' or marcas == 'Pepsi':
            modelos = ['Refrigerante', 'Suco', 'Água', 'Energético', 'Isotônico']
        else:
            modelos = ['Cerveja', 'Vinho', 'Espumante', 'Champanhe']
    elif categoria == 'esportes' or categoria == 'lazer':
        #Modelos de produtos esportivos e de lazer
        modelos = ['Bola', 'Rede', 'Raquete', 'Bicicleta', 'Skate']
    elif categoria == 'brinquedos' or categoria == 'petshop':
        #Modelos de brinquedos e petshop
        modelos = ['Boneca', 'Carrinho', 'Jogo', 'Pelúcia', 'Bloco', 'Ração', 'Brinquedo', 'Coleira', 'Cama', 'Casinha']
    elif categoria == 'livros':
        #Modelos de livros e papelaria
        modelos = ['e-book', 'romance', 'ficção', 'biografia', 'autoajuda', 'infantil', 'caneta', 'lápis', 'borracha']
    elif categoria == 'papelaria':
        modelos = ['caderno', 'caneta', 'lápis', 'borracha', 'apontador', 'régua', 'tesoura', 'cola', 'papel', 'fita']
    elif categoria == 'artigos para festas':
        #Modelos de artigos para festas
        modelos = ['Decoração', 'Descartável', 'Fantasia', 'Balão', 'Painel', 'Chapéu', 'Convite', 'Lembrancinha', 'Enfeite', 'Vela']
    else:
        # modelos = ['Outros']
        modelos = ["ERRO" +categoria]
    return random.choice(modelos)

# Função para gerar uma cor aleatória
def cor_aleatoria(categoria):
    if categoria == 'eletrônicos' or categoria == 'informática':
        cores = ['preto', 'branco', 'cinza', 'prata', 'dourado', 'azul', 'verde', 'vermelho', 'amarelo', 'laranja', 'rosa', 'roxo', 'marrom', 'bege', 'creme', 'branco']
    elif categoria == 'casa':
        cores = ['preto', 'branco', 'cinza', 'prata', 'dourado', 'azul', 'verde', 'vermelho', 'amarelo', 'laranja', 'rosa', 'roxo', 'marrom', 'bege', 'creme', 'branco']
    elif categoria == 'móveis':
        cores = ['preto', 'branco', 'cinza', 'prata', 'dourado', 'azul', 'verde', 'vermelho', 'amarelo', 'laranja', 'rosa', 'roxo', 'marrom', 'bege', 'creme', 'branco']
    elif categoria == 'roupas':
        cores = ['preto', 'branco', 'cinza', 'prata', 'dourado', 'azul', 'verde', 'vermelho', 'amarelo', 'laranja', 'rosa', 'roxo', 'marrom', 'bege', 'creme', 'branco']
    elif categoria == 'calçados':
        cores = ['preto', 'branco', 'cinza', 'prata', 'dourado', 'azul', 'verde', 'vermelho', 'amarelo', 'laranja', 'rosa', 'roxo', 'marrom', 'bege', 'creme', 'branco']
    elif categoria == 'acessórios':
        cores = ['preto', 'branco', 'cinza', 'prata', 'dourado', 'azul', 'verde', 'vermelho', 'amarelo', 'laranja', 'rosa', 'roxo', 'marrom', 'bege', 'creme', 'branco']
    else:
        cores = ['']
    return random.choice(cores)

# Função para gerar um tamanho aleatório
def tamanho_aleatorio(categoria):
    if categoria == 'roupas':
        tamanhos = ['PP', 'P', 'M', 'G', 'GG']
    elif categoria == 'calçados':
        tamanhos = ['34', '35', '36', '37', '38', '39', '40', '41', '42', '43', '44']
    elif categoria == 'acessórios':
        tamanhos = ['Único']
    elif categoria == 'esportes':
        tamanhos = ['PP', 'P', 'M', 'G', 'GG']
    else:
        tamanhos = [' ']
    return random.choice(tamanhos)

# Função para gerar um valor total
def total_aleatorio(valor, quantidade):
    return round(valor * quantidade, 2)

# Função para gerar uma quantidade aleatória
def quantidade_aleatoria():
    return random.randint(1, 10)

# Função para gerar um estado aleatório
def estado_aleatorio():
    estados = ['AC', 'AL', 'AP', 'AM', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MT', 'MS', 'MG', 'PA', 'PB', 'PR', 'PE', 'PI', 'RJ', 'RN', 'RS', 'RO', 'RR', 'SC', 'SP', 'SE', 'TO']
    return random.choice(estados)

# Função para gerar um país aleatório, as probabilidades são de 95% para Brasil e 5% para outros países
def pais_aleatorio():
    paises = ['Brasil', 'Argentina', 'Uruguai', 'Paraguai', 'Chile', 'Colômbia']
    return np.random.choice(paises, p=[0.95, 0.01, 0.01, 0.01, 0.01, 0.01])

# Função para gerar um vendedor aleatório
def vendedor_aleatorio():
    vendedores = ['Loja 1', 'Loja 2', 'Loja 3']
    return random.choice(vendedores)


# Função para gerar um valor aleatório
def valor_aleatorio(modelo, categoria):
    if categoria == 'eletrônicos' or categoria == 'informática':
        valores = [random.uniform(500, 5000), random.uniform(1000, 10000), random.uniform(1500, 15000)]
    elif categoria == 'casa':
        valores = [random.uniform(500, 5000), random.uniform(1000, 10000), random.uniform(1500, 15000)]
    elif categoria == 'móveis':
        valores = [random.uniform(500, 5000), random.uniform(1000, 10000), random.uniform(1500, 15000)]
    elif categoria == 'roupas':
        valores = [random.uniform(50, 500), random.uniform(100, 1000), random.uniform(150, 1500)]
    elif categoria == 'calçados':
        valores = [random.uniform(50, 500), random.uniform(100, 1000), random.uniform(150, 1500)]
    elif categoria == 'acessórios':
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    elif categoria == 'automotivo':
        valores = [random.uniform(50, 500), random.uniform(100, 1000), random.uniform(150, 1500)]
    elif categoria == 'beleza':
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    elif categoria == 'saúde':
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    elif categoria == 'alimentos':
        valores = [random.uniform(5, 50), random.uniform(10, 100), random.uniform(15, 150)]
    elif categoria == 'bebidas':
        valores = [random.uniform(5, 50), random.uniform(10, 100), random.uniform(15, 150)]
    elif categoria == 'esportes':
        valores = [random.uniform(50, 500), random.uniform(100, 1000), random.uniform(150, 1500)]
    elif categoria == 'lazer':
        valores = [random.uniform(50, 500), random.uniform(100, 1000), random.uniform(150, 1500)]
    elif categoria == 'brinquedos':
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    elif categoria == 'petshop':
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    elif categoria == 'livros':
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    elif categoria == 'papelaria':
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    elif categoria == 'artigos para festas':
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    else:
        valores = [random.uniform(10, 100), random.uniform(20, 200), random.uniform(30, 300)]
    return np.round(random.choice(valores),2)

# Função para gerar um produto aleatório
def produto_aleatorio(categoria, marca, modelo, cor, tamanho):
    return modelo + ' ' + marca


In [67]:
# Função para gerar um arquivo de dados sintéticos, esses dados são gerados aleatoriamente com incosistências e ruídos
def gerar_dados_sinteticos(nome_arquivo, quantidade):
    with open(nome_arquivo, 'w', newline='') as csvfile:
        fieldnames = ['id', 'data', 'hora', 'cliente', 'produto', 'valor', 'quantidade', 'total', 'status', 'cidade', 'estado', 'pais', 'cep', 'frete', 'pagamento', 'vendedor', 'categoria', 'marca', 'modelo', 'cor', 'tamanho', 'peso', 'altura', 'largura', 'comprimento']
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()
        for i in range(quantidade):
            id = i + 1
            data = data_aleatoria()
            hora = hora_aleatoria()
            cliente = nome_aleatorio()
            categoria = categoria_aleatoria()
            marca = marca_aleatoria(categoria)
            modelo = modelo_aleatorio(marca, categoria)
            cor = cor_aleatoria()
            tamanho = tamanho_aleatorio()
            produto = produto_aleatorio(categoria, marca, modelo, cor, tamanho)
            valor = valor_aleatorio(10, 10000)
            quantidade = quantidade_aleatoria()
            total = total_aleatorio(valor, quantidade)
            status = status_aleatorio()
            cidade = 'Cidade'
            estado = estado_aleatorio()
            pais = pais_aleatorio()
            cep = cep_aleatorio()
            frete = frete_aleatorio(0, 100)
            pagamento = pagamento_aleatorio()
            vendedor = vendedor_aleatorio()
            peso = peso_aleatorio(0.1, 100)
            altura = altura_aleatoria(0.1, 100)
            largura = largura_aleatoria(0.1, 100)
            comprimento = comprimento_aleatorio(0.1, 100)
            writer.writerow({'id': id, 'data': data, 'hora': hora, 'cliente': cliente, 'produto': produto, 'valor': valor, 'quantidade': quantidade, 'total': total, 'status': status, 'cidade': cidade, 'estado': estado, 'pais': pais, 'cep': cep, 'frete': frete, 'pagamento': pagamento, 'vendedor': vendedor, 'categoria': categoria, 'marca': marca, 'modelo': modelo, 'cor': cor, 'tamanho': tamanho, 'peso': peso, 'altura': altura, 'largura': largura, 'comprimento': comprimento})

# Função para gerar um arquivo de dados sintéticos, esses dados são gerados aleatoriamente com incosistências e ruídos
def gerar_dados_sinteticos_pandas(nome_arquivo, quantidadeLinhas):
    id = []
    data = []
    hora = []
    cliente = []
    produto = []
    valor = []
    quantidade = []
    total = []
    status = []
    cidade = []
    estado = []
    pais = []
    cep = []
    frete = []
    pagamento = []
    vendedor = []
    categoria = []
    marca = []
    modelo = []
    cor = []
    tamanho = []
    peso = []
    altura = []
    largura = []
    comprimento = []

    for i in range(quantidadeLinhas):
        id.append(i + 1)
        data.append(data_aleatoria())
        hora.append(hora_aleatoria())
        cliente.append(nome_aleatorio())
        categoria.append(categoria_aleatoria())
        marca.append(marca_aleatoria(categoria[i]))
        modelo.append(modelo_aleatorio(marca[i], categoria[i]))
        cor.append(cor_aleatoria(categoria[i]))
        tamanho.append(tamanho_aleatorio(modelo[i]))
        produto.append(produto_aleatorio(categoria[i], marca[i], modelo[i], cor[i], tamanho[i]))
        valor.append(valor_aleatorio(10, 10000))
        quantidade.append(quantidade_aleatoria())
        total.append(total_aleatorio(valor[i], quantidade[i]))
        status.append(status_aleatorio())
        cidade.append('Cidade')
        estado.append(estado_aleatorio())
        pais.append(pais_aleatorio())
        cep.append(cep_aleatorio())
        frete.append(frete_aleatorio(0, 100))
        pagamento.append(pagamento_aleatorio())
        vendedor.append(vendedor_aleatorio())
        peso.append(peso_aleatorio(0.1, 100))
        altura.append(altura_aleatoria(0.1, 100))
        largura.append(largura_aleatoria(0.1, 100))
        comprimento.append(comprimento_aleatorio(0.1, 100))

    return pd.DataFrame({'id': id, 'data': data, 'hora': hora, 'cliente': cliente, 'produto': produto, 'valor': valor, 'quantidade': quantidade, 'total': total, 'status': status, 'cidade': cidade, 'estado': estado, 'pais': pais, 'cep': cep, 'frete': frete, 'pagamento': pagamento, 'vendedor': vendedor, 'categoria': categoria, 'marca': marca, 'modelo': modelo, 'cor': cor, 'tamanho': tamanho, 'peso': peso, 'altura': altura, 'largura': largura, 'comprimento': comprimento})
    

In [68]:
df = gerar_dados_sinteticos_pandas('dados_sinteticos.csv', 50000)

#criando um novo dataframe apenas com os produtos do dataset e sua categoria
df_produtos = df[['produto', 'categoria']].drop_duplicates()
df_produtos['valor'] = np.nan
for i in range(len(df_produtos)):
    if df_produtos['categoria'].iloc[i] == 'lazer':
        df_produtos['valor'].iloc[i] = random.uniform(10, 100)
    elif df_produtos['categoria'].iloc[i] == 'saúde':
        df_produtos['valor'].iloc[i] = random.uniform(5, 50)
    elif df_produtos['categoria'].iloc[i] == 'brinquedos':
        df_produtos['valor'].iloc[i] = random.uniform(10, 100)
    elif df_produtos['categoria'].iloc[i] == 'esportes':
        df_produtos['valor'].iloc[i] = random.uniform(20, 200)
    elif df_produtos['categoria'].iloc[i] == 'alimentos':
        df_produtos['valor'].iloc[i] = random.uniform(1, 10)
    elif df_produtos['categoria'].iloc[i] == 'móveis':
        df_produtos['valor'].iloc[i] = random.uniform(50, 500)
    elif df_produtos['categoria'].iloc[i] == 'petshop':
        df_produtos['valor'].iloc[i] = random.uniform(5, 50)
    elif df_produtos['categoria'].iloc[i] == 'acessórios':
        df_produtos['valor'].iloc[i] = random.uniform(5, 50)
    elif df_produtos['categoria'].iloc[i] == 'casa':
        df_produtos['valor'].iloc[i] = random.uniform(50, 500)
    elif df_produtos['categoria'].iloc[i] == 'automotivo':
        df_produtos['valor'].iloc[i] = random.uniform(50, 500)
    elif df_produtos['categoria'].iloc[i] == 'papelaria':
        df_produtos['valor'].iloc[i] = random.uniform(5, 50)
    elif df_produtos['categoria'].iloc[i] == 'eletrônicos':
        df_produtos['valor'].iloc[i] = random.uniform(100, 1000)
    elif df_produtos['categoria'].iloc[i] == 'livros':
        df_produtos['valor'].iloc[i] = random.uniform(5, 50)
    elif df_produtos['categoria'].iloc[i] == 'bebidas':
        df_produtos['valor'].iloc[i] = random.uniform(1, 10)
    elif df_produtos['categoria'].iloc[i] == 'artigos para festas':
        df_produtos['valor'].iloc[i] = random.uniform(5, 50)
    elif df_produtos['categoria'].iloc[i] == 'informática':
        df_produtos['valor'].iloc[i] = random.uniform(100, 1000)
    elif df_produtos['categoria'].iloc[i] == 'roupas':
        df_produtos['valor'].iloc[i] = random.uniform(10, 100)
    elif df_produtos['categoria'].iloc[i] == 'beleza':
        df_produtos['valor'].iloc[i] = random.uniform(5, 50)
    elif df_produtos['categoria'].iloc[i] == 'calçados':
        df_produtos['valor'].iloc[i] = random.uniform(10, 100)
    else:
        df_produtos['valor'].iloc[i] = random.uniform(1, 1000)

df_produtos.to_csv("produtos.csv", index=False)


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df_produtos['valor'].iloc[i] = random.uniform(1, 10)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_produto

In [71]:
# Realiza o merge especificando as colunas
df = df.merge(df_produtos[['produto', 'valor']], on='produto', how='left', suffixes=('', '_novo'))

# Atualiza a coluna 'valor' com os valores da coluna 'valor_novo' onde não são nulos
df['valor'] = df['valor_novo'].fillna(df['valor'])

# Descarta a coluna 'valor_novo' após a atualização
df.drop(columns=['valor_novo'], inplace=True)

# Recalcula o valor total
df['total'] = df['valor'] * df['quantidade']

# Salva o DataFrame atualizado
df.to_csv("dados_sinteticos_com_erros_atualizado.csv", index=False)
