<a href="https://colab.research.google.com/github/guifav/curso-ia-aplicada/blob/main/Gerador_de_Datasets.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Gerador de Datasets para Análise de Negócios
# Este script gera 5 conjuntos de dados CSV com exemplos realistas para diferentes áreas de negócios
# Cada dataset contém 500 linhas com diversos tipos de dados para exercícios de análise

import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta
import os

# Configuração para reprodutibilidade
np.random.seed(42)
random.seed(42)

# Função para criar diretório de saída
def criar_diretorio():
    diretorio = 'datasets_analise'
    if not os.path.exists(diretorio):
        os.makedirs(diretorio)
    return diretorio

# Função auxiliar para gerar datas sequenciais
def gerar_datas(data_inicio, num_dias):
    return [data_inicio + timedelta(days=i) for i in range(num_dias)]

# Função auxiliar para gerar séries temporais realistas com tendência e sazonalidade
def gerar_serie_temporal(n, base, tendencia=0, sazonalidade=0, ruido=1, sazonalidade_periodo=7):
    # Componente de tendência
    trend = np.linspace(0, n/100 * tendencia, n)

    # Componente de sazonalidade
    seasonality = np.sin(np.arange(n) * (2 * np.pi / sazonalidade_periodo)) * sazonalidade

    # Componente de ruído
    noise = np.random.normal(0, ruido, n)

    # Combinar componentes
    return base + trend + seasonality + noise

# 1. Dataset de Vendas de E-commerce
def gerar_dataset_vendas(num_linhas=500):
    print("Gerando dataset de vendas de e-commerce...")

    # Dados básicos
    data_inicio = datetime(2023, 1, 1)
    datas = gerar_datas(data_inicio, num_linhas)

    # Produtos e categorias
    produtos = [
        "Smartphone Galaxy X", "Notebook Pro 15", "Smart TV 50\"", "Headphone Bluetooth",
        "Tablet Ultra", "Console GameStation 5", "Câmera DSLR", "Smartwatch", "Caixa de Som Wireless",
        "Monitor 27\"", "Teclado Mecânico", "Mouse Gamer", "Fone de Ouvido TWS", "Hub USB-C",
        "Carregador Rápido", "Tripé para Câmera", "Power Bank", "SSD 1TB", "HDD Externo 4TB",
        "Roteador WiFi 6"
    ]

    categorias = ["Smartphones", "Computadores", "TVs e Áudio", "Acessórios", "Fotografia", "Armazenamento", "Periféricos"]

    # Métodos de pagamento e estados
    metodos_pagamento = ["Cartão de Crédito", "Cartão de Débito", "Boleto", "PIX", "PayPal"]
    estados = ["SP", "RJ", "MG", "PR", "SC", "RS", "BA", "PE", "CE", "DF", "GO", "AM", "PA"]
    status_pedido = ["Entregue", "Em Processamento", "Enviado", "Cancelado", "Devolvido"]

    # Gerar dados de vendas com tendência realista
    ids_pedido = [f"PED-{i+10000}" for i in range(num_linhas)]
    produtos_vendidos = [random.choice(produtos) for _ in range(num_linhas)]
    categorias_produtos = [random.choice(categorias) for _ in range(num_linhas)]

    # Preços dos produtos com alguma variação
    precos_base = {}
    for produto in produtos:
        if "Smartphone" in produto or "Notebook" in produto or "TV" in produto:
            precos_base[produto] = random.uniform(1500, 5000)
        elif "Console" in produto or "Câmera" in produto:
            precos_base[produto] = random.uniform(800, 2500)
        else:
            precos_base[produto] = random.uniform(50, 700)

    precos = [round(precos_base[produto] * random.uniform(0.95, 1.05), 2) for produto in produtos_vendidos]

    # Quantidades com probabilidade maior para quantidades menores
    quantidades = [int(np.random.choice([1, 2, 3, 4, 5], p=[0.6, 0.25, 0.1, 0.03, 0.02])) for _ in range(num_linhas)]

    # Valor total com alguns descontos aplicados
    valores_totais = []
    descontos = []

    for i in range(num_linhas):
        desconto_percentual = random.choice([0, 0, 0, 5, 10, 15, 20])
        descontos.append(desconto_percentual)

        preco_com_desconto = precos[i] * (1 - desconto_percentual/100)
        valor_total = round(preco_com_desconto * quantidades[i], 2)
        valores_totais.append(valor_total)

    # Outros campos
    metodos = [random.choice(metodos_pagamento) for _ in range(num_linhas)]
    estados_clientes = [random.choice(estados) for _ in range(num_linhas)]
    status = [np.random.choice(status_pedido, p=[0.75, 0.1, 0.05, 0.07, 0.03]) for _ in range(num_linhas)]

    # Dados do cliente (ID anonimizado)
    ids_cliente = [f"CLI-{random.randint(1000, 9999)}" for _ in range(num_linhas)]

    # Criar DataFrame
    df = pd.DataFrame({
        'ID_Pedido': ids_pedido,
        'Data': datas,
        'ID_Cliente': ids_cliente,
        'Produto': produtos_vendidos,
        'Categoria': categorias_produtos,
        'Preco_Unitario': precos,
        'Quantidade': quantidades,
        'Desconto_Percentual': descontos,
        'Valor_Total': valores_totais,
        'Metodo_Pagamento': metodos,
        'Estado': estados_clientes,
        'Status_Pedido': status
    })

    return df

# 2. Dataset de Marketing Digital
def gerar_dataset_marketing(num_linhas=500):
    print("Gerando dataset de marketing digital...")

    # Dados básicos
    data_inicio = datetime(2023, 1, 1)
    datas = gerar_datas(data_inicio, num_linhas)

    # Canais e campanhas
    canais = ["Google Ads", "Facebook Ads", "Instagram Ads", "Email Marketing", "LinkedIn Ads", "Orgânico", "Direto"]
    campanhas = [
        "Lançamento Produto X", "Promoção Sazonal", "Remarketing", "Branding",
        "Conversão", "Black Friday", "Natal", "Aquisição", "Fidelização", None
    ]

    # Distribuição de canais (alguns mais frequentes que outros)
    pesos_canais = [0.25, 0.2, 0.15, 0.15, 0.05, 0.15, 0.05]
    canais_marketing = np.random.choice(canais, num_linhas, p=pesos_canais)

    # Campanhas (algumas linhas sem campanha específica)
    campanhas_marketing = [random.choice(campanhas) for _ in range(num_linhas)]

    # Gerar métricas com relações realistas
    # Impressões (base variável por canal)
    impressoes_base = {
        "Google Ads": 500, "Facebook Ads": 1200, "Instagram Ads": 1000,
        "Email Marketing": 3000, "LinkedIn Ads": 300, "Orgânico": 200, "Direto": 0
    }

    impressoes = [int(impressoes_base[canal] * random.uniform(0.7, 1.3)) for canal in canais_marketing]

    # Cliques com CTR realista por canal
    ctr_medio = {
        "Google Ads": 0.035, "Facebook Ads": 0.02, "Instagram Ads": 0.015,
        "Email Marketing": 0.03, "LinkedIn Ads": 0.025, "Orgânico": 0.04, "Direto": 0
    }

    cliques = []
    for i, canal in enumerate(canais_marketing):
        ctr = ctr_medio[canal] * random.uniform(0.7, 1.3)
        if canal == "Direto":
            cliques.append(int(random.uniform(10, 50)))
        else:
            cliques.append(min(int(impressoes[i] * ctr), impressoes[i]))

    # Conversões com taxa de conversão realista
    conv_medio = {
        "Google Ads": 0.05, "Facebook Ads": 0.03, "Instagram Ads": 0.02,
        "Email Marketing": 0.08, "LinkedIn Ads": 0.04, "Orgânico": 0.03, "Direto": 0.06
    }

    conversoes = []
    for i, canal in enumerate(canais_marketing):
        taxa_conv = conv_medio[canal] * random.uniform(0.6, 1.4)
        conversoes.append(min(int(cliques[i] * taxa_conv), cliques[i]))

    # Receita com valor médio de pedido realista
    valor_medio_pedido = {
        "Google Ads": 250, "Facebook Ads": 180, "Instagram Ads": 150,
        "Email Marketing": 220, "LinkedIn Ads": 350, "Orgânico": 200, "Direto": 230
    }

    receita = []
    for i, canal in enumerate(canais_marketing):
        if conversoes[i] > 0:
            valor_medio = valor_medio_pedido[canal] * random.uniform(0.8, 1.2)
            receita.append(round(conversoes[i] * valor_medio, 2))
        else:
            receita.append(0.0)

    # Custos de marketing
    cpc_medio = {
        "Google Ads": 2.5, "Facebook Ads": 1.2, "Instagram Ads": 1.0,
        "Email Marketing": 0.1, "LinkedIn Ads": 3.8, "Orgânico": 0.0, "Direto": 0.0
    }

    custo = []
    for i, canal in enumerate(canais_marketing):
        if canal in ["Orgânico", "Direto"]:
            custo.append(0.0)
        else:
            cpc = cpc_medio[canal] * random.uniform(0.85, 1.15)
            custo.append(round(cliques[i] * cpc, 2))

    # ROI e CPA (métricas derivadas)
    roi = []
    cpa = []

    for i in range(num_linhas):
        if custo[i] > 0:
            roi.append(round((receita[i] - custo[i]) / custo[i] * 100, 2))
            if conversoes[i] > 0:
                cpa.append(round(custo[i] / conversoes[i], 2))
            else:
                cpa.append(None)
        else:
            roi.append(None)
            cpa.append(None)

    # Criar DataFrame
    df = pd.DataFrame({
        'Data': datas,
        'Canal': canais_marketing,
        'Campanha': campanhas_marketing,
        'Impressoes': impressoes,
        'Cliques': cliques,
        'CTR': [round(c/i, 4) if i > 0 else 0 for c, i in zip(cliques, impressoes)],
        'Conversoes': conversoes,
        'Taxa_Conversao': [round(c/cl, 4) if cl > 0 else 0 for c, cl in zip(conversoes, cliques)],
        'Receita': receita,
        'Custo': custo,
        'ROI': roi,
        'CPA': cpa,
        'Dispositivo': np.random.choice(["Mobile", "Desktop", "Tablet"], num_linhas, p=[0.6, 0.35, 0.05])
    })

    return df

# 3. Dataset Financeiro (Métricas de Empresa)
def gerar_dataset_financeiro(num_linhas=500):
    print("Gerando dataset financeiro...")

    # Para métricas financeiras, vamos gerar dados diários por 500 dias
    data_inicio = datetime(2022, 1, 1)
    datas = gerar_datas(data_inicio, num_linhas)

    # Departamentos e centros de custo
    departamentos = ["Vendas", "Marketing", "P&D", "Administrativo", "Operações", "TI", "RH", "Financeiro"]
    centros_custo = ["CC001", "CC002", "CC003", "CC004", "CC005", "CC006", "CC007", "CC008"]

    # Gerar dados com tendências e sazonalidades realistas

    # Receita com tendência de crescimento e sazonalidade semanal
    receita_base = 50000
    receita = gerar_serie_temporal(num_linhas, receita_base, tendencia=5, sazonalidade=5000, ruido=3000, sazonalidade_periodo=30)

    # Custo com crescimento menor que a receita
    custo_base = 35000
    custo = gerar_serie_temporal(num_linhas, custo_base, tendencia=3, sazonalidade=2000, ruido=2000, sazonalidade_periodo=30)

    # Garantir que os valores sejam positivos
    receita = np.maximum(receita, 20000)
    custo = np.maximum(custo, 15000)

    # Calcular lucro
    lucro = receita - custo

    # Margem
    margem = lucro / receita * 100

    # ROI diário
    roi_diario = lucro / custo * 100

    # Fluxo de caixa (com alguma variação independente)
    fluxo_caixa = lucro + np.random.normal(0, 5000, num_linhas)

    # Dívida (com tendência de queda suave)
    divida_inicial = 500000
    reducao_media = 200  # Redução média por dia
    divida = [max(0, divida_inicial - i * reducao_media + random.uniform(-1000, 1000)) for i in range(num_linhas)]

    # Investimentos (aumentando gradualmente)
    investimento_base = 10000
    investimentos = gerar_serie_temporal(num_linhas, investimento_base, tendencia=2, sazonalidade=1000, ruido=2000, sazonalidade_periodo=90)
    investimentos = np.maximum(investimentos, 5000)

    # Número de funcionários (mudando ocasionalmente)
    num_funcionarios = []
    funcionarios_atual = 120

    for i in range(num_linhas):
        if random.random() < 0.03:  # 3% de chance de mudar o número de funcionários
            mudanca = random.choice([-2, -1, 1, 2, 3])
            funcionarios_atual += mudanca
        num_funcionarios.append(funcionarios_atual)

    # Custo por funcionário
    custo_por_funcionario = [round(c / f, 2) for c, f in zip(custo, num_funcionarios)]

    # Departamentos alocados para cada dia (para despesas)
    dept_alocados = [random.choice(departamentos) for _ in range(num_linhas)]
    cc_alocados = [random.choice(centros_custo) for _ in range(num_linhas)]

    # Criar DataFrame
    df = pd.DataFrame({
        'Data': datas,
        'Receita': [round(r, 2) for r in receita],
        'Custo': [round(c, 2) for c in custo],
        'Lucro': [round(l, 2) for l in lucro],
        'Margem_Percentual': [round(m, 2) for m in margem],
        'ROI': [round(r, 2) for r in roi_diario],
        'Fluxo_Caixa': [round(f, 2) for f in fluxo_caixa],
        'Divida_Total': [round(d, 2) for d in divida],
        'Investimentos': [round(i, 2) for i in investimentos],
        'Num_Funcionarios': num_funcionarios,
        'Custo_Por_Funcionario': custo_por_funcionario,
        'Departamento': dept_alocados,
        'Centro_Custo': cc_alocados
    })

    return df

# 4. Dataset de Recursos Humanos
def gerar_dataset_rh(num_linhas=500):
    print("Gerando dataset de recursos humanos...")

    # Vamos criar um dataset com dados de funcionários
    # Nomes aleatórios para anonimização
    nomes = ["Funcionário " + str(i+1) for i in range(num_linhas)]
    ids = ["EMP-" + str(i+1000) for i in range(num_linhas)]

    # Departamentos e cargos
    departamentos = ["Vendas", "Marketing", "TI", "RH", "Financeiro", "Operações", "Administrativo", "P&D"]

    cargos = {
        "Vendas": ["Vendedor Jr", "Vendedor Pleno", "Vendedor Sr", "Gerente de Vendas", "Diretor de Vendas"],
        "Marketing": ["Analista de Marketing Jr", "Analista de Marketing Pleno", "Analista de Marketing Sr", "Gerente de Marketing", "Diretor de Marketing"],
        "TI": ["Desenvolvedor Jr", "Desenvolvedor Pleno", "Desenvolvedor Sr", "Arquiteto de Software", "Gerente de TI", "CTO"],
        "RH": ["Assistente de RH", "Analista de RH", "Especialista de RH", "Gerente de RH", "Diretor de RH"],
        "Financeiro": ["Assistente Financeiro", "Analista Financeiro", "Contador", "Controller", "Gerente Financeiro", "CFO"],
        "Operações": ["Assistente Operacional", "Analista de Operações", "Coordenador de Operações", "Gerente de Operações", "COO"],
        "Administrativo": ["Assistente Administrativo", "Analista Administrativo", "Coordenador Administrativo", "Gerente Administrativo"],
        "P&D": ["Pesquisador Jr", "Pesquisador Pleno", "Pesquisador Sr", "Gerente de P&D", "Diretor de P&D"]
    }

    # Gerar dados de departamento e cargo
    departamentos_funcionarios = [random.choice(departamentos) for _ in range(num_linhas)]

    cargos_funcionarios = []
    niveis_funcionarios = []

    for dept in departamentos_funcionarios:
        cargo = random.choice(cargos[dept])
        cargos_funcionarios.append(cargo)

        if "Jr" in cargo or "Assistente" in cargo:
            niveis_funcionarios.append("Junior")
        elif "Pleno" in cargo or "Analista" in cargo:
            niveis_funcionarios.append("Pleno")
        elif "Sr" in cargo or "Especialista" in cargo or "Coordenador" in cargo:
            niveis_funcionarios.append("Sênior")
        elif "Gerente" in cargo:
            niveis_funcionarios.append("Gerência")
        else:
            niveis_funcionarios.append("Diretoria")

    # Tempo de empresa (em meses)
    tempo_empresa = [random.randint(1, 120) for _ in range(num_linhas)]

    # Idade (relacionada com nível)
    idades = []
    for nivel in niveis_funcionarios:
        if nivel == "Junior":
            idades.append(random.randint(22, 30))
        elif nivel == "Pleno":
            idades.append(random.randint(25, 35))
        elif nivel == "Sênior":
            idades.append(random.randint(30, 45))
        elif nivel == "Gerência":
            idades.append(random.randint(35, 50))
        else:  # Diretoria
            idades.append(random.randint(40, 60))

    # Salários (baseados em cargo e tempo de empresa)
    salarios_base = {
        "Junior": 3500,
        "Pleno": 5500,
        "Sênior": 8500,
        "Gerência": 12000,
        "Diretoria": 20000
    }

    salarios = []
    for i, nivel in enumerate(niveis_funcionarios):
        # Adicionar variação baseada no tempo de empresa
        fator_tempo = 1 + (tempo_empresa[i] / 120) * 0.5  # Até 50% a mais pelo tempo

        # Adicionar variação aleatória
        fator_aleatorio = random.uniform(0.9, 1.1)

        salario = salarios_base[nivel] * fator_tempo * fator_aleatorio
        salarios.append(round(salario, 2))

    # Performance (1-5)
    performance = [random.choices([1, 2, 3, 4, 5], weights=[0.05, 0.1, 0.35, 0.35, 0.15])[0] for _ in range(num_linhas)]

    # Satisfação (1-10)
    satisfacao = []
    for perf in performance:
        # Correlação entre performance e satisfação, mas não perfeita
        base_satisfacao = perf * 1.5  # Escala para 1-10
        satisfacao.append(min(10, max(1, round(base_satisfacao + random.uniform(-2, 2)))))

    # Turnover (funcionários que saíram = True)
    turnover = []
    for i, satisf in enumerate(satisfacao):
        if satisf <= 3:
            # Maior chance de sair se insatisfeito
            prob_sair = 0.7
        elif satisf <= 5:
            prob_sair = 0.4
        elif satisf <= 7:
            prob_sair = 0.2
        else:
            prob_sair = 0.05

        turnover.append(random.random() < prob_sair)

    # Dias de ausência por ano
    ausencias = []
    for sat in satisfacao:
        if sat <= 3:
            ausencias.append(random.randint(10, 20))
        elif sat <= 6:
            ausencias.append(random.randint(5, 15))
        else:
            ausencias.append(random.randint(1, 10))

    # Treinamentos completados
    treinamentos = []
    for perf in performance:
        if perf >= 4:
            treinamentos.append(random.randint(3, 8))
        elif perf >= 3:
            treinamentos.append(random.randint(2, 5))
        else:
            treinamentos.append(random.randint(0, 3))

    # Local de trabalho
    locais = ["Presencial", "Remoto", "Híbrido"]
    local_trabalho = np.random.choice(locais, num_linhas, p=[0.3, 0.4, 0.3])

    # Gênero (simplificado)
    generos = np.random.choice(["Masculino", "Feminino"], num_linhas, p=[0.52, 0.48])

    # Criar DataFrame
    df = pd.DataFrame({
        'ID_Funcionario': ids,
        'Nome': nomes,
        'Idade': idades,
        'Genero': generos,
        'Departamento': departamentos_funcionarios,
        'Cargo': cargos_funcionarios,
        'Nivel': niveis_funcionarios,
        'Tempo_Empresa_Meses': tempo_empresa,
        'Salario': salarios,
        'Performance': performance,
        'Satisfacao': satisfacao,
        'Ausencias_Anuais': ausencias,
        'Treinamentos_Completados': treinamentos,
        'Local_Trabalho': local_trabalho,
        'Turnover': turnover
    })

    return df

# 5. Dataset de Operações e Logística
def gerar_dataset_operacoes(num_linhas=500):
    print("Gerando dataset de operações e logística...")

    # Dados básicos
    data_inicio = datetime(2023, 1, 1)
    datas = gerar_datas(data_inicio, num_linhas)

    # Produtos e categorias
    produtos = [
        "Produto A", "Produto B", "Produto C", "Produto D", "Produto E",
        "Produto F", "Produto G", "Produto H", "Produto I", "Produto J"
    ]

    categorias = ["Categoria 1", "Categoria 2", "Categoria 3", "Categoria 4"]

    # Centros de distribuição e destinos
    centros_distribuicao = ["CD São Paulo", "CD Rio de Janeiro", "CD Belo Horizonte", "CD Curitiba", "CD Recife"]
    destinos = ["São Paulo", "Rio de Janeiro", "Belo Horizonte", "Curitiba", "Salvador", "Recife", "Fortaleza", "Brasília", "Porto Alegre", "Manaus"]

    # Transportadoras
    transportadoras = ["Transportadora A", "Transportadora B", "Transportadora C", "Transportadora D"]

    # Gerar dados
    ids_pedido = [f"PED-{i+20000}" for i in range(num_linhas)]
    produtos_enviados = [random.choice(produtos) for _ in range(num_linhas)]
    categorias_produtos = [random.choice(categorias) for _ in range(num_linhas)]

    # Origem e destino
    origens = [random.choice(centros_distribuicao) for _ in range(num_linhas)]
    destinos_envio = [random.choice(destinos) for _ in range(num_linhas)]

    # Distâncias (km) baseadas em origem e destino
    distancias = []
    for origem, destino in zip(origens, destinos_envio):
        # Distância base entre 100 e 2000 km
        dist_base = random.randint(100, 2000)

        # Ajuste baseado em origem/destino para consistência
        if origem.split()[1] == destino:
            dist_base = random.randint(10, 50)  # Mesma cidade

        distancias.append(dist_base)

    # Pesos (kg)
    pesos = [round(random.uniform(0.5, 100), 2) for _ in range(num_linhas)]

    # Transportadora alocada
    transportadoras_alocadas = [random.choice(transportadoras) for _ in range(num_linhas)]

    # Custo de frete baseado em distância e peso
    custos_frete = []
    for dist, peso in zip(distancias, pesos):
        custo_base = dist * 0.01  # R$0.01 por km
        custo_peso = peso * 0.5   # R$0.50 por kg
        custos_frete.append(round(custo_base + custo_peso + random.uniform(-10, 10), 2))

    # Tempo de entrega (dias) baseado principalmente na distância
    tempos_entrega = []
    for dist in distancias:
        if dist < 50:
            tempos_entrega.append(random.randint(1, 2))
        elif dist < 200:
            tempos_entrega.append(random.randint(1, 3))
        elif dist < 500:
            tempos_entrega.append(random.randint(2, 4))
        elif dist < 1000:
            tempos_entrega.append(random.randint(3, 5))
        else:
            tempos_entrega.append(random.randint(4, 7))

    # Status da entrega
    status_opcoes = ["Entregue", "Em Trânsito", "Atrasado", "Extraviado", "Aguardando Retirada"]
    status_pesos = [0.7, 0.15, 0.1, 0.03, 0.02]
    status_entrega = np.random.choice(status_opcoes, num_linhas, p=status_pesos)

    # Atraso (em dias)
    atrasos = []
    for status, tempo in zip(status_entrega, tempos_entrega):
        if status == "Atrasado":
            atrasos.append(random.randint(1, 5))
        elif status == "Extraviado":
            atrasos.append(random.randint(5, 15))
        else:
            atrasos.append(0)

    # Avaliação do cliente (1-5 estrelas)
    avaliacoes = []
    for status, atraso in zip(status_entrega, atrasos):
        if status == "Entregue":
            if atraso == 0:
                avaliacoes.append(random.choices([3, 4, 5], weights=[0.1, 0.3, 0.6])[0])
            else:
                avaliacoes.append(random.choices([1, 2, 3, 4], weights=[0.3, 0.4, 0.2, 0.1])[0])
        elif status == "Atrasado":
            avaliacoes.append(random.choices([1, 2, 3], weights=[0.5, 0.3, 0.2])[0])
        elif status == "Extraviado":
            avaliacoes.append(1)
        else:
            avaliacoes.append(None)  # Sem avaliação para pedidos em trânsito ou aguardando

    # Custo total operacional
    custos_operacionais = []
    for custo, peso, dist in zip(custos_frete, pesos, distancias):
        # Custo operacional inclui frete + manuseio + seguro
        custo_manuseio = peso * 0.3  # R$0.30 por kg
        custo_seguro = dist * 0.005   # R$0.005 por km

        custos_operacionais.append(round(custo + custo_manuseio + custo_seguro, 2))

    # Método de envio
    metodos_envio = ["Padrão", "Expresso", "Econômico", "Premium"]
    metodos = np.random.choice(metodos_envio, num_linhas, p=[0.6, 0.2, 0.15, 0.05])

    # Criar DataFrame
    df = pd.DataFrame({
        'ID_Pedido': ids_pedido,
        'Data_Envio': datas,
        'Produto': produtos_enviados,
        'Categoria': categorias_produtos,
        'Peso_KG': pesos,
        'Origem': origens,
        'Destino': destinos_envio,
        'Distancia_KM': distancias,
        'Transportadora': transportadoras_alocadas,
        'Metodo_Envio': metodos,
        'Custo_Frete': custos_frete,
        'Custo_Operacional_Total': custos_operacionais,
        'Tempo_Entrega_Previsto_Dias': tempos_entrega,
        'Status': status_entrega,
        'Dias_Atraso': atrasos,
        'Avaliacao_Cliente': avaliacoes
    })

    return df

# Função principal para gerar todos os datasets
def gerar_todos_datasets(diretorio='datasets_analise', num_linhas=500):
    """
    Gera todos os datasets e salva em CSV no diretório especificado

    Args:
        diretorio (str): Diretório para salvar os arquivos
        num_linhas (int): Número de linhas por dataset

    Returns:
        dict: Dicionário com todos os dataframes gerados
    """
    # Criar diretório se não existir
    if not os.path.exists(diretorio):
        os.makedirs(diretorio)
        print(f"Diretório '{diretorio}' criado.")

    # Gerar datasets
    df_vendas = gerar_dataset_vendas(num_linhas)
    df_marketing = gerar_dataset_marketing(num_linhas)
    df_financeiro = gerar_dataset_financeiro(num_linhas)
    df_rh = gerar_dataset_rh(num_linhas)
    df_operacoes = gerar_dataset_operacoes(num_linhas)

    # Salvar arquivos
    df_vendas.to_csv(f"{diretorio}/vendas_ecommerce.csv", index=False)
    df_marketing.to_csv(f"{diretorio}/marketing_digital.csv", index=False)
    df_financeiro.to_csv(f"{diretorio}/metricas_financeiras.csv", index=False)
    df_rh.to_csv(f"{diretorio}/recursos_humanos.csv", index=False)
    df_operacoes.to_csv(f"{diretorio}/operacoes_logistica.csv", index=False)

    print(f"\nTodos os datasets foram gerados e salvos no diretório '{diretorio}'!")
    print(f"Arquivos gerados:")
    print(f"1. vendas_ecommerce.csv - {len(df_vendas)} linhas")
    print(f"2. marketing_digital.csv - {len(df_marketing)} linhas")
    print(f"3. metricas_financeiras.csv - {len(df_financeiro)} linhas")
    print(f"4. recursos_humanos.csv - {len(df_rh)} linhas")
    print(f"5. operacoes_logistica.csv - {len(df_operacoes)} linhas")

    # Retornar os dataframes em um dicionário
    return {
        "vendas_ecommerce": df_vendas,
        "marketing_digital": df_marketing,
        "metricas_financeiras": df_financeiro,
        "recursos_humanos": df_rh,
        "operacoes_logistica": df_operacoes
    }

# Executar geração de datasets no Google Colab
if __name__ == "__main__":
    # Exibir mensagem de início
    print("="*70)
    print("GERADOR DE DATASETS PARA ANÁLISE DE NEGÓCIOS COM IA")
    print("="*70)
    print("Este script irá gerar 5 datasets diferentes com dados realistas para")
    print("exercícios de análise de dados em contextos de negócios.\n")

    # Opções configuráveis
    num_linhas = 500  # Número de linhas por dataset
    diretorio = 'datasets_analise'  # Diretório para salvar os arquivos

    print(f"Configurações:")
    print(f"- Número de linhas por dataset: {num_linhas}")
    print(f"- Diretório para salvar: '{diretorio}'")
    print("\nIniciando geração de datasets...\n")

    # Gerar todos os datasets
    datasets = gerar_todos_datasets(diretorio, num_linhas)

    # Visualizar amostras
    print("\n\nAmostras dos datasets gerados:")
    for nome, df in datasets.items():
        print(f"\n{'-'*30}")
        print(f"Amostra de {nome}:")
        print(f"{'-'*30}")
        print(df.head(3))

    print("\n\nProcesso concluído com sucesso!")
    print("Os datasets estão prontos para serem utilizados nos exercícios de análise.")

    # No Google Colab, mostrar como fazer o download dos arquivos
    try:
        import google.colab
        print("\nPara baixar os arquivos no Google Colab, execute o seguinte código:")
        print("\nfrom google.colab import files")
        for arquivo in ["vendas_ecommerce.csv", "marketing_digital.csv", "metricas_financeiras.csv",
                         "recursos_humanos.csv", "operacoes_logistica.csv"]:
            print(f"files.download('{diretorio}/{arquivo}')")
    except:
        pass