In [None]:
import random

def gerar_valor():
    return round(random.uniform(10, 1000), 2)

def gerar_linha_digitavel_personalizada(codigo_banco, moeda='9', valor=None):
    valor = valor or gerar_valor()
    codigo_inicial = f"{codigo_banco:03d}{moeda}"
    bloco1 = codigo_inicial + ''.join(str(random.randint(0, 9)) for _ in range(5))
    bloco2 = ''.join(str(random.randint(0, 9)) for _ in range(10))
    bloco3 = ''.join(str(random.randint(0, 9)) for _ in range(10))
    dv = str(random.randint(0, 9))
    valor_formatado = f"{int(valor * 100):014d}"
    linha = f"{bloco1[:5]}.{bloco1[5:]} {bloco2[:5]}.{bloco2[5:]} {bloco3[:5]}.{bloco3[5:]} {dv} {valor_formatado}"
    return linha, valor

def gerar_regra_moeda(banco, verdadeiro=True, agencia=""):
    """Regra 1: código da moeda (posição 4) deve ser '9'"""
    if verdadeiro:
        linha, valor = gerar_linha_digitavel_personalizada(banco['codigo'], moeda='9')
        label = 1
    else:
        moeda_errada = random.choice([str(i) for i in range(10) if i != 9])
        linha, valor = gerar_linha_digitavel_personalizada(banco['codigo'], moeda=moeda_errada)
        label = 0
    return {
        "banco": banco['nome'],
        "codigoBanco": banco['codigo'],
        "agencia": int(agencia) if agencia != "" else None,
        "linhaDigitavel": linha,
        "valor": valor,
        "label": label
    }

def gerar_regra_codigo_na_linha(banco, verdadeiro=True, agencia=""):
    """Regra 2: os 3 primeiros dígitos da linha devem ser o código do banco"""
    if verdadeiro:
        linha, valor = gerar_linha_digitavel_personalizada(banco['codigo'])
        label = 1
    else:
        codigo_errado = random.choice([i for i in range(1, 999) if i != banco['codigo']])
        linha, valor = gerar_linha_digitavel_personalizada(codigo_errado)
        label = 0
    return {
        "banco": banco['nome'],
        "codigoBanco": banco['codigo'],
        "agencia": int(agencia) if agencia != "" else None,
        "linhaDigitavel": linha,
        "valor": valor,
        "label": label
    }

def gerar_regra_nome_codigo(banco, verdadeiro=True, agencia=""):
    """
    Regra 1: o nome do banco deve corresponder ao código informado
    - Se verdadeiro, retorna o nome e código corretos
    - Se falso, retorna o nome correto com código aleatório diferente
    """
    if verdadeiro:
        codigo = banco['codigo']
        nome = banco['nome']
        label = 1
    else:
        codigos_possiveis = [i for i in range(1, 1000) if i != banco['codigo']]
        codigo = random.choice(codigos_possiveis)
        nome = banco['nome']
        label = 0

    linha, valor = gerar_linha_digitavel_personalizada(codigo)

    return {
        "banco": nome,
        "codigoBanco": codigo,
        "agencia": int(agencia) if agencia != "" else None,
        "linhaDigitavel": linha,
        "valor": valor,
        "label": label
    }


def gerar_regra_valor(banco, verdadeiro=True, agencia=""):
    """Regra 4: o valor no fim deve corresponder ao valor formatado"""
    valor = gerar_valor()
    linha, _ = gerar_linha_digitavel_personalizada(banco['codigo'], valor=valor)
    partes = linha.split(' ')
    if verdadeiro:
        label = 1
    else:
        valor_adulterado = f"{int((valor + 1) * 100):014d}"
        partes[-1] = valor_adulterado
        linha = ' '.join(partes)
        label = 0
    return {
        "banco": banco['nome'],
        "codigoBanco": banco['codigo'],
        "agencia": int(agencia) if agencia != "" else None,
        "linhaDigitavel": linha,
        "valor": valor,
        "label": label
    }

def gerar_regra_agencia(banco, agencia_valida, verdadeiro=True):
    """
    Regra 5: a agência pertence ao banco?
    """
    agencias_validas = banco['agencias']
    
    if verdadeiro:
        agencia = agencia_valida
        label = 1
    else:
        possiveis = [i for i in range(1000, 9999) if i not in agencias_validas]
        agencia = random.choice(possiveis)
        label = 0

    linha, valor = gerar_linha_digitavel_personalizada(banco['codigo'])

    return {
        "banco": banco['nome'],
        "codigoBanco": banco['codigo'],
        "agencia": int(agencia) if agencia != "" else None,
        "linhaDigitavel": linha,
        "valor": valor,
        "label": label
    }


In [None]:
banco_teste = {
    "nome": "BANCO TESTE S.A.",
    "codigo": 123,
    "agencias": [1111, 2222, 3333]
}

exemplos = []

for agencia in banco_teste['agencias']:
    #for _ in range(10):
        exemplos.append(gerar_regra_moeda(banco_teste, True, agencia))
        exemplos.append(gerar_regra_moeda(banco_teste, False, agencia))
        exemplos.append(gerar_regra_nome_codigo(banco_teste, True, agencia))
        exemplos.append(gerar_regra_nome_codigo(banco_teste, False, agencia))
        exemplos.append(gerar_regra_codigo_na_linha(banco_teste, True, agencia))
        exemplos.append(gerar_regra_codigo_na_linha(banco_teste, False, agencia))
        exemplos.append(gerar_regra_valor(banco_teste, True, agencia))
        exemplos.append(gerar_regra_valor(banco_teste, False, agencia))
        exemplos.append(gerar_regra_agencia(banco_teste, agencia, True))
        exemplos.append(gerar_regra_agencia(banco_teste, agencia, False))

print(f"Total de exemplos gerados: {len(exemplos)}")

for ex in exemplos:
    print(ex)


Total de exemplos gerados: 30
{'banco': 'BANCO TESTE S.A.', 'codigoBanco': 123, 'agencia': 1111, 'linhaDigitavel': '12396.8008 54728.31758 29932.13906 2 00000000024761', 'valor': 247.61, 'label': 1}
{'banco': 'BANCO TESTE S.A.', 'codigoBanco': 123, 'agencia': 1111, 'linhaDigitavel': '12385.3980 41685.12823 73652.37495 2 00000000035207', 'valor': 352.07, 'label': 0}
{'banco': 'BANCO TESTE S.A.', 'codigoBanco': 123, 'agencia': 1111, 'linhaDigitavel': '12391.3766 79939.51395 82542.34069 8 00000000088373', 'valor': 883.73, 'label': 1}
{'banco': 'BANCO TESTE S.A.', 'codigoBanco': 332, 'agencia': 1111, 'linhaDigitavel': '33293.0811 29913.02598 33993.88842 7 00000000095809', 'valor': 958.09, 'label': 0}
{'banco': 'BANCO TESTE S.A.', 'codigoBanco': 123, 'agencia': 1111, 'linhaDigitavel': '12394.0486 91845.58463 66345.65726 9 00000000060757', 'valor': 607.57, 'label': 1}
{'banco': 'BANCO TESTE S.A.', 'codigoBanco': 123, 'agencia': 1111, 'linhaDigitavel': '19098.3722 24888.51474 14856.46502 5 00

In [5]:
import pandas as pd
import csv

df = pd.read_csv("dados/base_bancos_agencias.csv")

def limpar_agencias(lista):
    return [a for a in lista if pd.notna(a) and a != 0]

agrupado = df.groupby(['nomeBanco', 'codigoBanco'])['agencia'].apply(list).reset_index()
agrupado['agencias_validas'] = agrupado['agencia'].apply(limpar_agencias)

bancos_com_agencia = agrupado[agrupado['agencias_validas'].apply(len) > 0]
bancos_sem_agencia = agrupado[agrupado['agencias_validas'].apply(len) == 0]


print("\n===== VERIFICAÇÃO DE TIPOS E VALORES =====")
print("Tipos únicos na coluna agencia:", df['agencia'].map(type).unique())
print("Valores únicos da coluna agencia (amostra):", df['agencia'].dropna().unique()[:10])


print("\nTotal geral de bancos únicos:", df[['nomeBanco', 'codigoBanco']].drop_duplicates().shape[0])
print("Total de linhas no dataframe original:", df.shape[0])


print(f"Total de bancos com agência: {len(bancos_com_agencia)}")
print(f"Total de bancos sem agência: {len(bancos_sem_agencia)}")

with open("sem_agencia.csv", mode="w", newline='', encoding="utf-8") as arquivo:
    writer = csv.writer(arquivo)
    writer.writerow(["exemplo"])

    for _, row in bancos_sem_agencia.iterrows():
        banco_dict = {
            "nome": row['nomeBanco'],
            "codigo": row['codigoBanco'],
            "agencias": []
        }

        for _ in range(10):
            writer.writerow([gerar_regra_moeda(banco_dict, True)])
            writer.writerow([gerar_regra_moeda(banco_dict, False)])
            writer.writerow([gerar_regra_nome_codigo(banco_dict, True)])
            writer.writerow([gerar_regra_nome_codigo(banco_dict, False)])
            writer.writerow([gerar_regra_codigo_na_linha(banco_dict, True)])
            writer.writerow([gerar_regra_codigo_na_linha(banco_dict, False)])
            writer.writerow([gerar_regra_valor(banco_dict, True)])
            writer.writerow([gerar_regra_valor(banco_dict, False)])

print("Arquivo 'sem_agencia.csv' gerado com sucesso!")

contador = 0
parte = 1
arquivo = open(f"com_agencia_parte_{parte:03}.csv", mode="w", newline='', encoding="utf-8")
writer = csv.writer(arquivo)
writer.writerow(["exemplo"])

bancos_com_agencia = bancos_com_agencia.reset_index(drop=True)

total_bancos = len(bancos_com_agencia)

for i, row in bancos_com_agencia.iterrows():

    print(f"[{i+1}/{total_bancos}] Banco com agência detectado: {nome} - Total agências: {len(agencias)}")

    nome = row['nomeBanco']
    codigo = row['codigoBanco']
    agencias = row['agencias_validas']

    banco_dict = {
        "nome": nome,
        "codigo": codigo,
        "agencias": agencias
    }

    print(f"[✓] Banco com agência detectado: {nome} - Total agências: {len(agencias)}")

    for j, agencia in enumerate(agencias):
    
        print(f"Gerando exemplos para {nome}, agência {agencia} ({j+1}/{len(agencias)} agências para este banco)")

        for _ in range(10):
            exemplos = [
                gerar_regra_moeda(banco_dict, True, agencia),
                gerar_regra_moeda(banco_dict, False, agencia),
                gerar_regra_nome_codigo(banco_dict, True, agencia),
                gerar_regra_nome_codigo(banco_dict, False, agencia),
                gerar_regra_codigo_na_linha(banco_dict, True, agencia),
                gerar_regra_codigo_na_linha(banco_dict, False, agencia),
                gerar_regra_valor(banco_dict, True, agencia),
                gerar_regra_valor(banco_dict, False, agencia),
                gerar_regra_agencia(banco_dict, agencia, True),
                gerar_regra_agencia(banco_dict, agencia, False),
            ]
            for ex in exemplos:
                if not ex:
                    print(f"[!] Exemplo vazio para {nome}, agência {agencia}")
                writer.writerow([ex])
                contador += 1

arquivo.close()
print("Arquivo 'com_agencia_teste' gerado com sucesso!")



===== VERIFICAÇÃO DE TIPOS E VALORES =====
Tipos únicos na coluna agencia: [<class 'float'>]
Valores únicos da coluna agencia (amostra): [ 0.  1.  4.  6. 33.  9. 12. 13. 14. 15.]

Total geral de bancos únicos: 260
Total de linhas no dataframe original: 15971
Total de bancos com agência: 96
Total de bancos sem agência: 164
Arquivo 'sem_agencia.csv' gerado com sucesso!
[1/96] Banco com agência detectado: BANCO CITIBANK S.A. - Total agências: 10
[✓] Banco com agência detectado: BANCO ABC BRASIL S.A. - Total agências: 12
Gerando exemplos para BANCO ABC BRASIL S.A., agência 1.0 (1/12 agências para este banco)
Gerando exemplos para BANCO ABC BRASIL S.A., agência 4.0 (2/12 agências para este banco)
Gerando exemplos para BANCO ABC BRASIL S.A., agência 6.0 (3/12 agências para este banco)
Gerando exemplos para BANCO ABC BRASIL S.A., agência 33.0 (4/12 agências para este banco)
Gerando exemplos para BANCO ABC BRASIL S.A., agência 9.0 (5/12 agências para este banco)
Gerando exemplos para BANCO AB

KeyboardInterrupt: 

In [None]:
import pandas as pd
import csv
import os
import random

df = pd.read_csv("dados/base_bancos_agencias.csv")

bancos_com_mais_agencias = (
    df[df['agencia'].notna() & (df['agencia'] != 0)]
    .groupby(['nomeBanco', 'codigoBanco'])['agencia']
    .nunique()
    .reset_index(name='quantidade_agencias')
    .sort_values(by='quantidade_agencias', ascending=False)
    .head(15)
)

os.makedirs("saida", exist_ok=True)

with open("saida/top_bancos_com_agencias.csv", mode="w", newline='', encoding="utf-8") as arquivo:
    writer = csv.writer(arquivo)
    writer.writerow(["exemplo", "nome_banco", "codigo_banco", "agencia"])

    for _, banco in bancos_com_mais_agencias.iterrows():
        nome = banco['nomeBanco']
        codigo = banco['codigoBanco']

        agencias = (
            df[(df['nomeBanco'] == nome) & 
               (df['codigoBanco'] == codigo) & 
               df['agencia'].notna() & 
               (df['agencia'] != 0)]
            ['agencia']
            .dropna()
            .unique()
            .tolist()
        )

        agencias = agencias[:10]

        banco_dict = {
            "nome": nome,
            "codigo": codigo,
            "agencias": agencias
        }

        for agencia in agencias:
            for _ in range(10):
                exemplos = [
                    gerar_regra_moeda(banco_dict, True, agencia),
                    gerar_regra_moeda(banco_dict, False, agencia),
                    gerar_regra_nome_codigo(banco_dict, True, agencia),
                    gerar_regra_nome_codigo(banco_dict, False, agencia),
                    gerar_regra_codigo_na_linha(banco_dict, True, agencia),
                    gerar_regra_codigo_na_linha(banco_dict, False, agencia),
                    gerar_regra_valor(banco_dict, True, agencia),
                    gerar_regra_valor(banco_dict, False, agencia),
                    gerar_regra_agencia(banco_dict, agencia, True),
                    gerar_regra_agencia(banco_dict, agencia, False),
                ]
                for ex in exemplos:
                    if not ex:
                        print(f"[!] Exemplo vazio para {nome}, agência {agencia}")
                    writer.writerow([ex, nome, codigo, agencia])

print("✅ Arquivo único gerado: 'saida/top_bancos_com_agencias.csv'")


✅ Arquivo único gerado: 'saida/top_bancos_com_agencias.csv'
