CIDADES


In [0]:
%pip install faker

from faker import Faker
from pyspark.sql import Row

fake = Faker('pt_BR')
data = [
    Row(
        cidade_id=fake.random_int(min=1, max=9999),
        nome=fake.city(),
        uf=fake.estado_sigla(),
        status_registro=1,
        data_criacao=fake.date_this_decade().isoformat(),
        data_atualizacao=fake.date_this_decade().isoformat()
    )
    for _ in range(10)
]

df = spark.createDataFrame(data)
display(df)

In [0]:
from pyspark.sql import Row
import random

enderecos_data = []
for row in df.collect():
    for _ in range(3):
        data_criacao = fake.date_time_this_decade()
        data_atualizacao = data_criacao if random.random() < 0.7 else None
        enderecos_data.append(
            Row(
                CEP=fake.postcode(),
                logradouro=fake.street_suffix() if random.random() < 0.8 else None,
                endereco=fake.street_name() if random.random() < 0.9 else None,
                cidade_id=row.cidade_id,
                status_registro=bool(random.getrandbits(1)),
                data_criacao=data_criacao,
                data_atualizacao=data_atualizacao
            )
        )

df_enderecos = spark.createDataFrame(enderecos_data)
display(df_enderecos)

In [0]:
from pyspark.sql import Row
import random
from datetime import timedelta

categorias = [
    "RESTAURANTE", "SUPERMERCADO", "FARMACIA", "PADARIA", "LOJA DE ROUPAS",
    "POSTO DE GASOLINA", "ACADEMIA", "PIZZARIA", "BAR", "SALAO DE BELEZA"
]
status_categorias = ["A", "B", "D", "P", "H"]

categoria_data = []
for i, desc in enumerate(categorias, start=1):
    data_criacao = fake.date_time_this_decade()
    data_atualizacao = (
        data_criacao + timedelta(days=random.randint(1, 100))
        if random.random() < 0.5 else None
    )
    categoria_data.append(
        Row(
            categoria_id=i,
            desc_categoria=desc,
            status_categoria=random.choice(status_categorias),
            status_registro=bool(random.getrandbits(1)),
            data_criacao=data_criacao,
            data_atualizacao=data_atualizacao
        )
    )

df_categoria_estabelecimentos = spark.createDataFrame(categoria_data)
display(df_categoria_estabelecimentos)

In [0]:
from pyspark.sql import Row
from datetime import timedelta

tipos_fiscais = [
    ("MEI", "Microempreendedor Individual"),
    ("LTDA", "Sociedade Limitada"),
    ("EIRELI", "Empresa Individual de Responsabilidade Limitada"),
    ("EI", "Empresário Individual"),
    ("SA", "Sociedade Anônima"),
    ("SIMPLES", "Simples Nacional"),
    ("SCP", "Sociedade em Conta de Participação"),
    ("SNC", "Sociedade em Nome Coletivo"),
    ("SLU", "Sociedade Limitada Unipessoal"),
    ("ME", "Microempresa")
]

tipo_fiscal_data = []
for i, (code, desc) in enumerate(tipos_fiscais, start=1):
    data_criacao = fake.date_time_this_decade()
    data_atualizacao = (
        data_criacao + timedelta(days=random.randint(1, 100))
        if random.random() < 0.5 else None
    )
    tipo_fiscal_data.append(
        Row(
            fiscal_id=i,
            code_fiscal=code,
            desc_fiscal=desc,
            status_registro=bool(random.getrandbits(1)),
            data_criacao=data_criacao,
            data_atualizacao=data_atualizacao
        )
    )

df_tipo_fiscal = spark.createDataFrame(tipo_fiscal_data)
display(df_tipo_fiscal)

In [0]:
from pyspark.sql import Row
import random

estabelecimentos_data = []
enderecos = df_enderecos.collect()
categorias = df_categoria_estabelecimentos.collect()
fiscais = df_tipo_fiscal.collect()
status_estab = ["A", "B", "D", "P", "H"]

for i in range(1, 21):
    endereco = random.choice(enderecos)
    categoria = random.choice(categorias)
    fiscal = random.choice(fiscais)
    data_criacao = fake.date_time_this_decade()
    data_atualizacao = (
        data_criacao if random.random() < 0.7 else None
    )
    estabelecimentos_data.append(
        Row(
            estab_id=i,
            num_cnpj=fake.cnpj(),
            razao_social=fake.company(),
            nome_fantasia=fake.company_suffix() if random.random() < 0.8 else None,
            categoria_id=categoria.categoria_id,
            fiscal_id=fiscal.fiscal_id,
            CEP=endereco.CEP,
            numero_endereco=str(fake.building_number()) if random.random() < 0.9 else None,
            complemento="",
            status_estabelecimento=random.choice(status_estab),
            status_registro=bool(random.getrandbits(1)),
            data_criacao=data_criacao,
            data_atualizacao=data_atualizacao
        )
    )

display(estabelecimentos_data)

In [0]:
from pyspark.sql import Row
import random
from datetime import timedelta

fabricantes_nomes = [
    "Stone Pagamentos", "Cielo", "Rede", "Getnet", "PagSeguro"
]
status_pos_list = ["A", "B", "D", "P", "H"]

fabricantes_data = []
for i, nome in enumerate(fabricantes_nomes, start=1):
    data_criacao = fake.date_time_this_decade()
    data_atualizacao = (
        data_criacao + timedelta(days=random.randint(1, 100))
        if random.random() < 0.5 else None
    )
    fabricantes_data.append(
        Row(
            fabricante_id=i,
            nome_fabricante=nome,
            status_pos=random.choice(status_pos_list),
            status_registro=bool(random.getrandbits(1)),
            data_criacao=data_criacao,
            data_atualizacao=data_atualizacao
        )
    )

df_fabricantes_pos = spark.createDataFrame(fabricantes_data)
display(df_fabricantes_pos)

In [0]:
from pyspark.sql import Row
import random
from datetime import timedelta

modelos_pos = [
    "Ingenico Move/5000", "Verifone VX 520", "PAX A920", "Gertec PPC930", "Ingenico iWL250",
    "Verifone VX 680", "PAX D210", "Gertec MP35P", "Ingenico Desk/5000", "Verifone V200c"
]
tecnologias_pos = [
    "NFC", "Chip", "Magstripe", "QR Code", "Bluetooth", "Wi-Fi", "3G", "4G", None
]
fabricantes = df_fabricantes_pos.collect()
status_pos_list = ["A", "B", "D", "P", "H"]

ponto_venda_data = []
for i in range(1, 21):
    modelo = random.choice(modelos_pos)
    tecnologia = random.choice(tecnologias_pos)
    fabricante = random.choice(fabricantes)
    data_criacao = fake.date_time_this_decade()
    data_atualizacao = (
        data_criacao + timedelta(days=random.randint(1, 100))
        if random.random() < 0.5 else None
    )
    ponto_venda_data.append(
        Row(
            pos_id=i,
            modelo_pos=modelo,
            tecnologia_pos=tecnologia,
            fabricante_id=fabricante.fabricante_id,
            status_pos=random.choice(status_pos_list),
            status_registro=bool(random.getrandbits(1)),
            data_criacao=data_criacao,
            data_atualizacao=data_atualizacao
        )
    )

df_ponto_venda = spark.createDataFrame(ponto_venda_data)
display(df_ponto_venda)

In [0]:
from pyspark.sql import Row
import random
from datetime import timedelta

estabelecimentos = estabelecimentos_data  # já é uma lista de Row
pos_list = df_ponto_venda.collect()
status_estab_pos_list = ["A", "B", "D", "P", "H", "R"]

estab_pos_data = []
estab_pos_id = 1

for estab in estabelecimentos:
    num_pos = random.randint(1, 3)
    pos_ids = random.sample([p.pos_id for p in pos_list], k=num_pos)
    for pos_id in pos_ids:
        data_criacao = fake.date_time_this_decade()
        data_ativacao = data_criacao + timedelta(days=random.randint(0, 30)) if random.random() < 0.8 else None
        data_desativacao = (
            data_ativacao + timedelta(days=random.randint(1, 365))
            if data_ativacao and random.random() < 0.2 else None
        )
        data_atualizacao = (
            data_criacao + timedelta(days=random.randint(1, 100))
            if random.random() < 0.5 else None
        )
        permite_debito = bool(random.getrandbits(1))
        permite_credito = bool(random.getrandbits(1))
        if permite_credito:
            num_parcela = random.randint(1, 3)
            num_parcela_juros = random.randint(4, 10)
        else:
            num_parcela = None
            num_parcela_juros = None
        # Regra de taxa de juros conforme pedido
        if permite_credito and num_parcela > 3:
            taxa_juros = 10.0
        else:
            taxa_juros = 0.0
        taxa_mdr = round(random.uniform(1.0, 4.0), 2)
        taxa_rav = round(random.uniform(0.5, 3.0), 2)
        equipamento_alugado = random.choice([1, 2])
        status_estab_pos = random.choice(status_estab_pos_list)
        status_registro = bool(random.getrandbits(1))
        estab_pos_data.append(
            Row(
                estab_pos_id=estab_pos_id,
                estab_id=estab.estab_id,
                pos_id=pos_id,
                data_ativacao=data_ativacao,
                data_desativacao=data_desativacao,
                permite_debito=permite_debito,
                permite_credito=permite_credito,
                num_parcela=num_parcela,
                num_parcela_juros=num_parcela_juros,
                taxa_juros=taxa_juros,
                taxa_mdr=taxa_mdr,
                taxa_rav=taxa_rav,
                equipamento_alugado=equipamento_alugado,
                status_estab_pos=status_estab_pos,
                status_registro=status_registro,
                data_criacao=data_criacao,
                data_atualizacao=data_atualizacao
            )
        )
        estab_pos_id += 1
        if estab_pos_id > 100:
            break
    if estab_pos_id > 100:
        break

df_estabelecimento_pos = spark.createDataFrame(estab_pos_data)
display(df_estabelecimento_pos)

In [0]:
from pyspark.sql import Row
import random
from datetime import timedelta

bandeiras_cartao = ["Visa", "Mastercard", "Elo", "Hipercard", "Amex", "Cabal", "Sorocred", None]
status_transacao_list = ["A", "P", "C", "N"]

# Map estab_pos_id to (permite_credito, num_parcela, num_parcela_juros)
estab_pos_info = {
    row.estab_pos_id: (row.permite_credito, row.num_parcela, row.num_parcela_juros)
    for row in df_estabelecimento_pos.collect()
}
estab_pos_ids = list(estab_pos_info.keys())
transacoes_data = []

for i in range(1, 1001):
    estab_pos_id = random.choice(estab_pos_ids)
    permite_credito, num_parcela, num_parcela_juros = estab_pos_info[estab_pos_id]
    data_transacao = fake.date_time_this_decade()
    valor_transacao = round(random.uniform(10.0, 2000.0), 2)
    tipo_transacao = random.choice([0, 1])  # 0 = Débito, 1 = Crédito

    if tipo_transacao == 0 or not permite_credito:
        num_parcelas = 0
    else:
        # Respeita o limite de parcelas permitido pelo estabelecimento
        max_parcelas = num_parcela if num_parcela is not None else 1
        max_parcelas = max(1, max_parcelas)
        num_parcelas = random.randint(1, max_parcelas)

    bandeira_cartao = random.choice(bandeiras_cartao)
    bin_cartao = fake.credit_card_number()[:6] if bandeira_cartao else None
    status_transacao = random.choice(status_transacao_list)
    status_registro = bool(random.getrandbits(1))
    data_criacao = data_transacao - timedelta(days=random.randint(0, 10))
    data_atualizacao = (
        data_criacao + timedelta(days=random.randint(1, 10))
        if random.random() < 0.3 else None
    )
    transacoes_data.append(
        Row(
            transacao_id=i,
            estab_pos_id=estab_pos_id,
            data_transacao=data_transacao,
            valor_transacao=valor_transacao,
            tipo_transacao=tipo_transacao,
            num_parcelas=num_parcelas,
            bandeira_cartao=bandeira_cartao,
            bin_cartao=bin_cartao,
            status_transacao=status_transacao,
            status_registro=status_registro,
            data_criacao=data_criacao,
            data_atualizacao=data_atualizacao
        )
    )

df_transacoes = spark.createDataFrame(transacoes_data)
display(df_transacoes)

In [0]:
from pyspark.sql import Row
import random
from datetime import timedelta

transacoes_parcelas_data = []
status_parcela_list = ["A", "P", "X"]

# Seleciona as transações de crédito, garantindo que 394 e 405 estejam presentes
transacoes_parcelas = (
    df_transacoes
    .filter("num_parcelas > 0")
    .orderBy("transacao_id")
    .limit(100)
    .collect()
)

# Garante que as transações 394 e 405 estejam na lista
ids_necessarios = {394, 405}
transacoes_ids = {t.transacao_id for t in transacoes_parcelas}
faltantes = ids_necessarios - transacoes_ids
if faltantes:
    transacoes_faltantes = (
        df_transacoes
        .filter((col("transacao_id").isin([int(i) for i in faltantes])) & (col("num_parcelas") > 0))
        .collect()
    )
    transacoes_parcelas += [t for t in transacoes_faltantes if t.transacao_id not in transacoes_ids]

transacao_parc_id = 1
for trans in transacoes_parcelas:
    valor_total = trans.valor_transacao
    # Força 8 parcelas para transacao_id 394
    if trans.transacao_id == 394:
        num_parcelas = 8
    else:
        num_parcelas = trans.num_parcelas
    data_base = trans.data_transacao
    for codigo_parcela in range(1, num_parcelas + 1):
        valor_parcela = round(valor_total / num_parcelas, 2)
        valor_juros = round(valor_parcela * random.uniform(0.01, 0.05), 2)
        valor_mdr = round(valor_parcela * random.uniform(0.01, 0.04), 2)
        data_vencimento = data_base + timedelta(days=30 * codigo_parcela)
        status_parcela = random.choice(status_parcela_list)
        status_registro = bool(random.getrandbits(1))
        data_criacao = data_base - timedelta(days=random.randint(0, 5))
        data_atualizacao = (
            data_criacao + timedelta(days=random.randint(1, 5))
            if random.random() < 0.3 else None
        )
        transacoes_parcelas_data.append(
            Row(
                transacao_parc_id=transacao_parc_id,
                transacao_id=trans.transacao_id,
                codigo_parcela=codigo_parcela,
                valor_parcela=valor_parcela,
                valor_juros=valor_juros,
                valor_mdr=valor_mdr,
                data_vencimento=data_vencimento,
                status_parcela=status_parcela,
                status_registro=status_registro,
                data_criacao=data_criacao,
                data_atualizacao=data_atualizacao
            )
        )
        transacao_parc_id += 1
        if transacao_parc_id > 100:
            break
    if transacao_parc_id > 100:
        break

df_transacoes_parcelas = spark.createDataFrame(transacoes_parcelas_data)
display(df_transacoes_parcelas)

In [0]:
from pyspark.sql import Row
import random
from datetime import timedelta

status_antecipacao_list = ["A", "B", "R", "P"]

# Seleciona aleatoriamente algumas parcelas para antecipação
parcelas = df_transacoes_parcelas.collect()
num_antecipacoes = min(40, len(parcelas))
parcelas_antecipadas = random.sample(parcelas, num_antecipacoes)

antecipacoes_data = []
antecipacao_id = 1

for parcela in parcelas_antecipadas:
    dias_antecipados = random.randint(1, 25)
    data_vencimento_original = parcela.data_vencimento
    data_vencimento_antecipado = data_vencimento_original - timedelta(days=dias_antecipados)
    valor_parcela = parcela.valor_parcela
    valor_juros = parcela.valor_juros
    valor_mdr = parcela.valor_mdr
    valor_rav = round(valor_parcela * random.uniform(0.01, 0.03), 2)
    valor_liquido = round(valor_parcela - valor_juros - valor_mdr - valor_rav, 2)
    status_antecipacao = random.choice(status_antecipacao_list)
    status_registro = bool(random.getrandbits(1))
    data_criacao = data_vencimento_antecipado - timedelta(days=random.randint(0, 5))
    data_atualizacao = (
        data_criacao + timedelta(days=random.randint(1, 5))
        if random.random() < 0.3 else None
    )
    antecipacoes_data.append(
        Row(
            antecipacao_id=antecipacao_id,
            transacao_parc_id=parcela.transacao_parc_id,
            valor_parcela=valor_parcela,
            valor_juros=valor_juros,
            valor_mdr=valor_mdr,
            valor_rav=valor_rav,
            valor_liquido=valor_liquido,
            data_vencimento_original=data_vencimento_original,
            data_vencimento_antecipado=data_vencimento_antecipado,
            nr_dias_antecipados=dias_antecipados,
            status_antecipacao=status_antecipacao,
            status_registro=status_registro,
            data_criacao=data_criacao,
            data_atualizacao=data_atualizacao
        )
    )
    antecipacao_id += 1

df_antecipacoes = spark.createDataFrame(antecipacoes_data)
display(df_antecipacoes)

In [0]:
from pyspark.sql import Row
import random
from datetime import timedelta

# Coleta transações de débito (num_parcelas == 0) e parcelas de crédito (num_parcelas > 0)
transacoes_debito = (
    df_transacoes
    .filter("num_parcelas == 0")
    .orderBy("data_transacao")
    .limit(100)
    .collect()
)

parcelas_credito = df_transacoes_parcelas.orderBy("data_vencimento").limit(100).collect()

# Junta e embaralha para simular agrupamentos de recebimentos
transacoes_recebiveis = [
    {
        "tipo": "debito",
        "transacao_id": t.transacao_id,
        "estab_pos_id": t.estab_pos_id,
        "data_recebimento": t.data_transacao.date(),
        "valor_bruto": t.valor_transacao,
        "valor_juros": 0.0,
        "valor_mdr": round(t.valor_transacao * random.uniform(0.01, 0.04), 2),
        "valor_rav": 0.0,
    }
    for t in transacoes_debito
] + [
    {
        "tipo": "credito",
        "transacao_id": p.transacao_id,
        "transacao_parc_id": p.transacao_parc_id,
        "estab_pos_id": (
            df_transacoes
            .filter(f"transacao_id = {p.transacao_id}")
            .select("estab_pos_id")
            .first()
            .estab_pos_id
        ),
        "data_recebimento": p.data_vencimento.date(),
        "valor_bruto": p.valor_parcela + p.valor_juros,
        "valor_juros": p.valor_juros,
        "valor_mdr": p.valor_mdr,
        "valor_rav": round(p.valor_parcela * random.uniform(0.01, 0.03), 2),
    }
    for p in parcelas_credito
]

random.shuffle(transacoes_recebiveis)

# Agrupa por estabelecimento e data_recebimento para simular títulos
estab_pos_to_estab = {
    row.estab_pos_id: row.estab_id
    for row in df_estabelecimento_pos.collect()
}

recebimentos_data = []
recebimento_id = 1
num_recebimento = 1000

agrupados = {}
for t in transacoes_recebiveis:
    estab_id = estab_pos_to_estab[t["estab_pos_id"]]
    key = (estab_id, t["data_recebimento"])
    if key not in agrupados:
        agrupados[key] = []
    agrupados[key].append(t)

for (estab_id, data_recebimento), trans_list in list(agrupados.items())[:50]:
    quantidade_transacoes = len(trans_list)
    valor_titulo_bruto = sum(t["valor_bruto"] for t in trans_list)
    valor_mdr = sum(t["valor_mdr"] for t in trans_list)
    valor_rav = sum(t["valor_rav"] for t in trans_list)
    valor_pos = round(random.uniform(0, 50), 2) if random.random() < 0.2 else 0.0
    valor_liquido = round(valor_titulo_bruto - valor_mdr - valor_rav - valor_pos, 2)
    status_recebimento = random.choice(["A", "C"])
    status_registro = bool(random.getrandbits(1))
    data_criacao = data_recebimento - timedelta(days=random.randint(0, 5))
    data_atualizacao = (
        data_criacao + timedelta(days=random.randint(1, 5))
        if random.random() < 0.3 else None
    )
    recebimentos_data.append(
        Row(
            recebimento_id=recebimento_id,
            num_recebimento=num_recebimento,
            data_recebimento=data_recebimento,
            estab_id=str(estab_id),
            quantidade_transacoes=quantidade_transacoes,
            valor_titulo_bruto=valor_titulo_bruto,
            valor_mdr=valor_mdr,
            valor_rav=valor_rav,
            valor_pos=valor_pos,
            valor_liquido=valor_liquido,
            status_recebimento=status_recebimento,
            status_registro=status_registro,
            data_criacao=data_criacao,
            data_atualizacao=data_atualizacao
        )
    )
    recebimento_id += 1
    num_recebimento += 1

df_recebimentos = spark.createDataFrame(recebimentos_data)
display(df_recebimentos)

In [0]:
from pyspark.sql.functions import col, lit, monotonically_increasing_id

# Cria um dicionário para mapear (estab_id, data_recebimento) para recebimento_id
recebimento_map = {
    (int(row.estab_id), row.data_recebimento): row.recebimento_id
    for row in df_recebimentos.collect()
}

# Cria um dicionário para mapear transacao_id para transacao_parc_id (para crédito)
transacao_parc_map = {
    (row.transacao_id, row.data_vencimento.date()): row.transacao_parc_id
    for row in df_transacoes_parcelas.collect()
}

# Lista para armazenar os registros Recebimento_Transacoes
recebimento_trn_data = []
recebimento_trn_id = 1

for row in df_recebimentos.collect():
    estab_id = int(row.estab_id)
    data_recebimento = row.data_recebimento
    recebimento_id = row.recebimento_id

    # Busca transações de débito
    debito_transacoes = [
        t for t in df_transacoes
        .filter((col("estab_pos_id").isin(
            [k for k, v in estab_pos_to_estab.items() if v == estab_id]
        )) & (col("num_parcelas") == 0) & (col("data_transacao").cast("date") == data_recebimento))
        .collect()
    ]
    # Não há transacao_parc_id para débito, então pula

    # Busca parcelas de crédito
    credito_parcelas = [
        p for p in df_transacoes_parcelas
        .filter((col("data_vencimento").cast("date") == data_recebimento))
        .join(df_transacoes, "transacao_id")
        .filter(col("estab_pos_id").isin(
            [k for k, v in estab_pos_to_estab.items() if v == estab_id]
        ))
        .select("transacao_parc_id", "status_registro", "data_criacao", "data_atualizacao")
        .collect()
    ]

    for p in credito_parcelas:
        recebimento_trn_data.append(
            Row(
                recebimento_trn_id=recebimento_trn_id,
                recebimento_id=recebimento_id,
                transacao_parc_id=p.transacao_parc_id,
                status_registro=p.status_registro,
                data_criacao=p.data_criacao,
                data_atualizacao=p.data_atualizacao
            )
        )
        recebimento_trn_id += 1

df_recebimento_transacoes = spark.createDataFrame(recebimento_trn_data)
display(df_recebimento_transacoes)