Data Generation 🛠️🪄🏭
Database Configuration

In [None]:
from faker import Faker  # Importa a biblioteca Faker para gerar dados falsos
import pandas as pd  # Importa a biblioteca Pandas para manipulação de dados
import numpy as np  # Importa a biblioteca NumPy para operações numéricas
import uuid  # Importa a biblioteca UUID para gerar identificadores únicos
from datetime import datetime  # Importa a classe datetime para manipulação de datas e horários
import sqlite3  # Importa a biblioteca SQLite para interação com bancos de dados SQLite

fake = Faker('pt_BR')  # Inicializa o Faker para gerar dados em português do Brasil

conn = sqlite3.connect('C:/Users/santo/Documents/GitHubPublished/DataScienceProject/database/ecommerceProject.db')  # Conecta ao banco de dados SQLite
cursor = conn.cursor()  # Cria um cursor para executar comandos SQL

numYears = 5  # Define o número de anos para gerar dados
customerBase = 1500  # Define o número inicial de clientes
customerGrowthRate = 0.2  # Define a taxa de crescimento de clientes (20%)
salesCustomerYear = 3  # Define o número de vendas por cliente por ano (inicial)
salesGrowthRate = 0.25  # Define a taxa de crescimento de vendas (25%)

# Define um dicionário de categorias e seus respectivos produtos
categoriesDict = {
    "Eletronicos": ["Smartphone X", "Tablet Y", "Fone Bluetooth", "TV 4K", "Smartwatch", "Carregador Turbo", "Caixa de Som Bluetooth"],
    "Computadores": ["Notebook Ultra", "PC Gamer", "Monitor Curvo", "Teclado Mecânico", "Mouse RGB", "Webcam Full HD", "SSD 1TB"],
    "Roupas": ["Camiseta Dry Fit", "Jaqueta Jeans", "Tênis Running", "Vestido Casual", "Boné Esportivo", "Mochila Casual", "Óculos de Sol"],
    "Livros": ["Python para Iniciantes", "Data Science Avançado", "O Poder do Hábito", "1984", "Mindset", "Clean Code", "A Arte da Guerra"],
    "Beleza": ["Perfume Elegance", "Kit Skincare", "Batom Matte", "Shampoo Orgânico", "Máscara Facial", "Base Líquida", "Protetor Solar"],
    "Automotivo": ["Pneu Aro 17", "Óleo Sintético", "Câmera de Ré", "Suporte Celular", "Capa para Banco", "Kit Ferramentas", "Lâmpada LED Automotiva"],
    "Brinquedos": ["Carrinho Controle Remoto", "Boneca Fashion", "Lego Criativo", "Quebra-Cabeça 1000pçs", "Jogo Educativo", "Playset Cozinha", "Bola de Vinil"],
    "Esportes": ["Bola de Futebol", "Raquete de Tênis", "Corda de Pular", "Mochila Esportiva", "Kit de Halteres", "Bicicleta Speed", "Luvas de Boxe"],
    "Moveis": ["Sofá Retrátil", "Mesa de Jantar", "Cadeira Gamer", "Guarda-Roupa 6 Portas", "Cama Box Queen", "Estante de Livros", "Mesa de Escritório"],
    "Eletrodomesticos": ["Geladeira Frost Free", "Micro-ondas Inox", "Máquina de Lavar", "Aspirador de Pó", "Fogão 5 Bocas", "Cafeteira Elétrica", "Liquidificador"],
    "Ferramentas": ["Furadeira Elétrica", "Chave de Fenda", "Serra Circular", "Martelo Reforçado", "Trena Digital", "Alicate Universal", "Kit Brocas"],
    "Petshop": ["Ração Premium", "Coleira Ajustável", "Brinquedo Interativo", "Cama para Cachorro", "Areia para Gato", "Shampoo para Pets", "Arranhador para Gatos"],
    "Perfumaria": ["Desodorante Roll-on", "Hidratante Corporal", "Shampoo Anticaspa", "Sabonete Líquido", "Óleo Capilar", "Condicionador Nutritivo", "Creme para Mãos"],
    "Papelaria": ["Caderno Universitário", "Caneta Esferográfica", "Marcador Permanente", "Papel Sulfite A4", "Planner Diário", "Grampeador", "Estojo Organizador"],
    "Games": ["Console NextGen", "Controle Sem Fio", "Teclado Gamer RGB", "Headset Surround", "Cadeira Gamer Pro", "Mousepad XL", "Cartão Presente PSN"]
}

Data Generation 🛠️🪄🏭
Customer

In [None]:
def generateCustomer(customerBase, customerGrowthRate, numYears):
    """Gera dados de clientes para um determinado número de anos, aplicando uma taxa de crescimento anual.

    Args:
        customerBase (int): O número inicial de clientes no primeiro ano.
        customerGrowthRate (float): A taxa de crescimento anual dos clientes (ex: 0.1 para 10%).
        numYears (int): O número de anos para gerar dados de clientes.

    Returns:
        pandas.DataFrame: Um DataFrame contendo os dados dos clientes gerados.
                         As colunas do DataFrame são: 'customer_id', 'customer_name', 'address', 'email', 'customer_birth_date'.
    """
    customerYear = [int(customerBase * (1 + customerGrowthRate) ** years) for years in range(numYears)]  # Calcula o número de clientes para cada ano
    all_customers_data = []  # Inicializa uma lista para armazenar os dados de todos os clientes

    for year, numCustomer in enumerate(customerYear):  # Itera sobre cada ano e o número de clientes correspondente
        for _ in range(numCustomer):  # Itera sobre cada cliente no ano atual
            customer_id = str(uuid.uuid4())  # Gera um UUID para o ID do cliente
            name = fake.name()  # Gera um nome aleatório para o cliente
            address = fake.address()  # Gera um endereço aleatório para o cliente
            email = fake.email()  # Gera um email aleatório para o cliente
            birth_date = fake.date_of_birth(minimum_age=18, maximum_age=80)  # Gera uma data de nascimento aleatória para o cliente
            all_customers_data.append({
                'customer_id': customer_id,
                'customer_name': name,
                'address': address,
                'email': email,
                'customer_birth_date': birth_date
            })  # Adiciona os dados do cliente à lista

    return pd.DataFrame(all_customers_data)  # Retorna um DataFrame com os dados de todos os clientes

Data Generation 🛠️🪄🏭
Sales

In [None]:
def generateSales(numYears, salesCustomerYear, salesGrowthRate, categoriesDict, df_customers, df_categories):
    """Gera dados de vendas para um determinado número de anos, aplicando uma taxa de crescimento anual.

    Args:
        numYears (int): O número de anos para gerar dados de vendas.
        salesCustomerYear (int): O número inicial de vendas por cliente por ano.
        salesGrowthRate (float): A taxa de crescimento anual das vendas (ex: 0.1 para 10%).
        categoriesDict (dict): Um dicionário contendo as categorias e seus produtos.
        df_customers (pd.DataFrame): Um DataFrame contendo os dados dos clientes.
        df_categories (pd.DataFrame): Um DataFrame contendo os dados das categorias.

    Returns:
        tuple: Uma tupla contendo:
            - ordersData (pd.DataFrame): Um DataFrame contendo os dados dos pedidos.
            - ordersItemsData (pd.DataFrame): Um DataFrame contendo os dados dos itens dos pedidos.
            - df_products (pd.DataFrame): Um DataFrame contendo os dados dos produtos.
    """
    ordersData = []  # Inicializa uma lista para armazenar os dados dos pedidos
    ordersItemsData = []  # Inicializa uma lista para armazenar os dados dos itens dos pedidos
    currentYear = datetime.now().year - numYears  # Calcula o ano inicial
    productsData = []  # Inicializa uma lista para armazenar os dados dos produtos

    # Gera os dados dos produtos
    for category_name, products in categoriesDict.items():  # Itera sobre as categorias e seus produtos
        category_id = df_categories[df_categories['category_name'] == category_name]['category_id'].values[0]  # Obtém o ID da categoria
        for product_name in products:  # Itera sobre os produtos da categoria
            product_id = str(uuid.uuid4())  # Gera um UUID para o ID do produto
            unit_price = np.round(np.random.uniform(25, 600), 2)  # Gera um preço unitário aleatório
            stock_quantity = np.random.randint(0, 300)  # Gera uma quantidade em estoque aleatória

            productsData.append({
                'product_name': product_name,
                'category_id': category_id,
                'product_id': product_id,
                'unit_price': unit_price,
                'stock_quantity': stock_quantity
            })  # Adiciona os dados do produto à lista

    df_products = pd.DataFrame(productsData)  # Cria um DataFrame com os dados dos produtos

    # Gera os dados dos pedidos
    for years in range(numYears):  # Itera sobre cada ano
        salesYear = int(salesCustomerYear * (1 + salesGrowthRate) ** years * len(df_customers))  # Calcula o número de vendas para o ano
        dateYear = pd.to_datetime([datetime(currentYear + years, 1, 1) + pd.to_timedelta(np.random.randint(0, 365), unit='D') for _ in range(salesYear)])  # Gera datas aleatórias para as vendas

        customer_ids = df_customers['customer_id'].sample(n=salesYear, replace=True).tolist()  # Seleciona IDs de clientes aleatórios para as vendas

        for date, customer_id in zip(dateYear, customer_ids):  # Itera sobre cada venda
            customer = df_customers[df_customers['customer_id'] == customer_id]  # Obtém os dados do cliente
            customer_name = customer['customer_name'].values[0]  # Obtém o nome do cliente
            address = customer['address'].values[0].split(',')[-1].strip()  # Obtém o endereço do cliente
            email = customer['email'].values[0]  # Obtém o email do cliente
            birthDate = customer['customer_birth_date'].values[0]  # Obtém a data de nascimento do cliente
            salesUUID = str(uuid.uuid4())  # Gera um UUID para o pedido

            numProducts = np.random.randint(1, 6)  # Gera um número aleatório de produtos no pedido
            totalSalesValue = 0  # Inicializa o valor total do pedido
            items = []  # Inicializa uma lista para armazenar os itens do pedido

            for _ in range(numProducts):  # Itera sobre cada produto no pedido
                product = df_products.sample(1)  # Seleciona um produto aleatório
                product_id = product['product_id'].values[0]  # Obtém o ID do produto
                product_name = product['product_name'].values[0]  # Obtém o nome do produto
                category_id = product['category_id'].values[0]  # Obtém o ID da categoria
                category_name = df_categories[df_categories['category_id'] == category_id]['category_name'].values[0]  # Obtém o nome da categoria
                unit_price = product['unit_price'].values[0]  # Obtém o preço unitário do produto
                stock_quantity = product['stock_quantity'].values[0]  # Obtém a quantidade em estoque do produto

                unitPrice = np.round(np.random.uniform(25, 600), 2)  # Gera um preço unitário aleatório para o item
                quantity = np.random.randint(1, 14)  # Gera uma quantidade aleatória para o item
                salesValue = quantity * unitPrice  # Calcula o valor total do item
                totalSalesValue += salesValue  # Adiciona o valor do item ao valor total do pedido
                itemsUUID = str(uuid.uuid4())  # Gera um UUID para o item do pedido

                itemData = {
                    'items_id': itemsUUID,
                    'order_id': salesUUID,
                    'category_name': category_name,
                    'category_id': category_id,
                    'product_name': product_name,
                    'product_id': product_id,
                    'order_quantity': quantity,
                    'unit_price': unitPrice,
                    'order_value': salesValue,
                    'stock_quantity': stock_quantity,
                }  # Cria um dicionário com os dados do item
                ordersItemsData.append(itemData)  # Adiciona os dados do item à lista de itens do pedido

            orderData = {
                'order_date': date,
                'customer_name': customer_name,
                'customer_id': customer_id,
                'address': address,
                'email': email,
                'customer_birth_date': birthDate,
                'order_id': salesUUID,
                'order_value': totalSalesValue,
            }  # Cria um dicionário com os dados do pedido
            ordersData.append(orderData)  # Adiciona os dados do pedido à lista de pedidos

    return pd.DataFrame(ordersData), pd.DataFrame(ordersItemsData), df_products  # Retorna os DataFrames com os dados dos pedidos, itens dos pedidos e produtos

Data Generation 🛠️🪄🏭
Categories

In [None]:
def generateCategories(categoriesDict):
    """Gera dados para a tabela de categorias.

    Args:
        categoriesDict (dict): Um dicionário onde as chaves são os nomes das categorias.

    Returns:
        pandas.DataFrame: Um DataFrame contendo os nomes e IDs das categorias.
    """
    categoriesData = []  # Inicializa uma lista para armazenar os dados das categorias
    for category_name in categoriesDict.keys():  # Itera sobre os nomes das categorias no dicionário
        category_id = str(uuid.uuid4())  # Gera um UUID para o ID da categoria
        categoriesData.append({'category_name': category_name, 'category_id': category_id})  # Adiciona os dados da categoria à lista

    return pd.DataFrame(categoriesData)  # Retorna um DataFrame com os dados das categorias

Data Generation 🛠️🪄🏭
DataFrame

In [None]:
df_customers = generateCustomer(customerBase, customerGrowthRate, numYears)  # Chama a função para gerar dados dos clientes
df_categories = generateCategories(categoriesDict) #Gera o dataframe de categorias
df_orders, df_order_items, df_products = generateSales(numYears, salesCustomerYear, salesGrowthRate, categoriesDict, df_customers, df_categories)  # Chama a função para gerar dados dos pedidos e itens dos pedidos

print('DataFrames criados com sucesso\n')

Data Generation 🛠️🪄🏭
Data type Columns

In [None]:
#df_customers = df_orders[['customer_id', 'customer_name', 'address', 'email', 'customer_birth_date']].drop_duplicates(subset=['customer_id'])  # Cria um DataFrame com informações dos clientes, removendo duplicatas
#df_products = df_order_items[['product_id', 'product_name', 'category_id', 'unit_price', 'stock_quantity']].drop_duplicates(subset=['product_id'])  # Cria um DataFrame com informações dos produtos, removendo duplicatas
#df_categories = generateCategories(categoriesDict)  # Chama a função para gerar o DataFrame com as categorias
dfOrder = df_orders[['order_id', 'order_value', 'customer_id', 'order_date']]  # Cria um DataFrame com informações dos pedidos
dfOrderItems = df_order_items[['items_id', 'product_id', 'order_id', 'unit_price', 'order_quantity']]  # Cria um DataFrame com informações dos itens dos pedidos

TEXT_PRIMARY_KEY = 'TEXT PRIMARY KEY'  # Define uma constante para o tipo de dado da chave primária (TEXT)

# Define os tipos de dados para cada coluna da tabela de clientes
dtypeCustomer = {
    'customer_id': TEXT_PRIMARY_KEY,
    'customer_name': 'TEXT',
    'address': 'TEXT',
    'email': 'TEXT',
    'customer_birth_date': 'date',
}

# Define os tipos de dados para cada coluna da tabela de pedidos
dtypeOrder = {
    'order_id': TEXT_PRIMARY_KEY,
    'order_value': 'REAL',
    'customer_id': 'TEXT',
    'order_date': 'date',
}

# Define os tipos de dados para cada coluna da tabela de produtos
dtypeProducts = {
    'product_id': TEXT_PRIMARY_KEY,
    'product_name': 'TEXT',
    'category_id': 'TEXT',
    'unit_price': 'REAL',
    'stock_quantity': 'INTEGER',
}

# Define os tipos de dados para cada coluna da tabela de categorias
dtypeCategories = {
    'category_name': 'TEXT',
    'category_id': TEXT_PRIMARY_KEY,
}

# Define os tipos de dados para cada coluna da tabela de itens dos pedidos
dtypeOrderItems = {
    'items_id': TEXT_PRIMARY_KEY,
    'product_id': 'TEXT',
    'order_id': 'TEXT',
    'unit_price': 'REAL',
    'order_quantity': 'INTEGER',
}

Data Generation 🛠️🪄🏭
Inserting Data into the Database

In [None]:
print(f"Número de linhas em df_orders antes de remover duplicatas: {len(df_orders)}")  # Imprime o número de linhas no DataFrame df_orders antes de remover duplicatas
df_orders = df_orders.drop_duplicates(subset=['order_id'])  # Remove as linhas duplicadas do DataFrame df_orders com base na coluna 'order_id'
print(f"Número de linhas em df_orders depois de remover duplicatas: {len(df_orders)}")  # Imprime o número de linhas no DataFrame df_orders depois de remover duplicatas
print(f"Número de order_id únicos em df_orders: {df_orders['order_id'].nunique()}")  # Imprime o número de valores únicos na coluna 'order_id' do DataFrame df_orders

print(f"Número de linhas em df_order_items antes de remover duplicatas: {len(df_order_items)}")  # Imprime o número de linhas no DataFrame df_order_items antes de remover duplicatas
df_order_items = df_order_items.drop_duplicates(subset=['items_id'])  # Remove as linhas duplicadas do DataFrame df_order_items com base na coluna 'items_id'
print(f"Número de linhas em df_order_items depois de remover duplicatas: {len(df_order_items)}")  # Imprime o número de linhas no DataFrame df_order_items depois de remover duplicatas
print(f"Número de items_id únicos em df_order_items: {df_order_items['items_id'].nunique()}")  # Imprime o número de valores únicos na coluna 'items_id' do DataFrame df_order_items

df_customers.to_sql('customers', conn, if_exists='replace', index=False, dtype=dtypeCustomer)  # Salva o DataFrame df_customers na tabela 'customers' do banco de dados
dfOrder.to_sql('orders', conn, if_exists='replace', index=False, dtype=dtypeOrder)  # Salva o DataFrame df_orders na tabela 'orders' do banco de dados
df_products.to_sql('products', conn, if_exists='replace', index=False, dtype=dtypeProducts)  # Salva o DataFrame df_products na tabela 'products' do banco de dados
df_categories.to_sql('categories', conn, if_exists='replace', index=False, dtype=dtypeCategories)  # Salva o DataFrame df_categories na tabela 'categories' do banco de dados
dfOrderItems.to_sql('order_items', conn, if_exists='replace', index=False, dtype=dtypeOrderItems)  # Salva o DataFrame df_order_items na tabela 'order_items' do banco de dados

# Define um dicionário com consultas SQL para selecionar as primeiras 5 linhas de cada tabela
dictQuery = {
    "queryCustomers": 'SELECT * FROM customers LIMIT 5',
    "queryOrders": 'SELECT * FROM orders LIMIT 5',
    "queryProducts": 'SELECT * FROM products LIMIT 5',
    "queryCategories": 'SELECT * FROM categories LIMIT 5',
    "queryOrderItens": 'SELECT * FROM order_items LIMIT 5'
}

def runQuery(queryKey, params=()):
    """Executa uma consulta SQL e retorna o resultado como um DataFrame.

    Args:
        queryKey (str): Chave da consulta no dicionário `dictQuery`.
        params (tuple, optional): Parâmetros para a consulta SQL. Padrão é ().

    Returns:
        pandas.DataFrame: DataFrame com o resultado da consulta.
    """
    query = dictQuery[queryKey]  # Obtém a consulta SQL do dicionário
    return pd.read_sql(query, conn, params=params)  # Executa a consulta e retorna o resultado como um DataFrame

tCustomers = runQuery("queryCustomers")  # Executa a consulta para obter as primeiras 5 linhas da tabela 'customers'
tOrders = runQuery("queryOrders")  # Executa a consulta para obter as primeiras 5 linhas da tabela 'orders'
tProducts = runQuery("queryProducts")  # Executa a consulta para obter as primeiras 5 linhas da tabela 'products'
tCategories = runQuery("queryCategories")  # Executa a consulta para obter as primeiras 5 linhas da tabela 'categories'
tOrderItens = runQuery("queryOrderItens")  # Executa a consulta para obter as primeiras 5 linhas da tabela 'order_items'

print('\nBanco de dados atualizado com sucesso')  # Imprime uma mensagem de sucesso

conn.close()  # Fecha a conexão com o banco de dados