In [1]:
import pandas as pd
import random
from datetime import datetime, timedelta

In [2]:
# Função para gerar uma lista de CPFs únicos
def gerar_lista_cpfs_unicos(n):
    cpfs_unicos = set()
    while len(cpfs_unicos) < n:
        cpf = [random.randint(0, 9) for _ in range(9)]
    
        # Calculando os dígitos verificadores
        s = sum(x * y for x, y in zip(cpf, range(10, 1, -1)))
        d1 = (s * 10) % 11
        cpf.append(d1 if d1 < 10 else 0)
        
        s = sum(x * y for x, y in zip(cpf, range(11, 1, -1)))
        d2 = (s * 10) % 11
        cpf.append(d2 if d2 < 10 else 0)
        
        # Formatar o CPF
        cpf_str = ''.join(map(str, cpf))
        cpf_formatado = f"{cpf_str[:3]}.{cpf_str[3:6]}.{cpf_str[6:9]}-{cpf_str[9:]}"
        
        cpfs_unicos.add(cpf_formatado)
    
    return list(cpfs_unicos)

# Lista de nomes e sobrenomes fictícios
nomes = ['João', 'Marcelo','Maria', 'Pedro', 'Ana', 'José', 'Irani', 'Carlos', 'Rosimeri', 'Gabriel', 'Priscila', 'Igor', 'Leticia', 'Telma', 'Noemi', 'Alexandre', 'Daniel', 'Gloria', 'Fatima', 'Augusto', 'Samuel']
sobrenomes = ['Silva', 'Prenda','Santos', 'Oliveira', 'Souza', 'Costa', 'Pereira', 'Rodrigues', 'Cristina', 'Cunha', 'Ferreira',"Sant' Anna", 'Maia', 'Albernaz','Matos'] 

# Criando a lista de CPFs únicos
cpfs_unicos = gerar_lista_cpfs_unicos(1000000)

# Criando a base de dados
dados = []
for _ in range(1000000):
    nome = random.choice(nomes) + ' ' + random.choice(sobrenomes) + ' ' + random.choice(sobrenomes)
    idade = random.randint(18, 80)
    valor_emprestimo = random.randint(20000, 150000)
    cpf = cpfs_unicos.pop()
    dados.append([nome, idade, valor_emprestimo, cpf])

# Criando o DataFrame com os dados
df = pd.DataFrame(dados, columns=['NOME', 'IDADE', 'VALOR_EMPRESTIMO', 'CPF'])

print(df.head())


                       NOME  IDADE  VALOR_EMPRESTIMO             CPF
0         Irani Cunha Cunha     18            110769  511.114.034-49
1  Carlos Sant' Anna Santos     71             27729  376.037.070-56
2          Igor Silva Silva     30             54210  855.359.228-62
3  Fatima Ferreira Cristina     60            148321  237.797.344-27
4       Leticia Matos Silva     61             70199  386.129.620-99


In [3]:
# Criando a coluna de datas
data_atual = datetime.now()
primeiro_dia_mes_atual = data_atual.replace(day=1)
datas = [primeiro_dia_mes_atual + timedelta(days=random.randint(0, (data_atual - primeiro_dia_mes_atual).days)) for _ in range(len(df))]
df['DATA'] = datas
df['DATA'] = df['DATA'].dt.date


In [4]:
prazos_anos = [random.randint(1, 10) for _ in range(len(df))]

# Convertendo os prazos de anos para meses
prazos_meses = [ano * 12 for ano in prazos_anos]

# Adicionando a coluna de prazos em meses ao DataFrame
df['PRAZO'] = prazos_meses

In [5]:
# Filtrar apenas as linhas com CPFs duplicados
df_duplicados = df[df.duplicated(subset='CPF', keep=False)]
df_duplicados.shape[0]


0

In [24]:
df['PARCELA'] = ((df['VALOR_EMPRESTIMO'] * 0.0097 * df['PRAZO'] + df['VALOR_EMPRESTIMO']).round(2) / df['PRAZO']).round(2)

In [25]:
df

Unnamed: 0,NOME,IDADE,VALOR_EMPRESTIMO,CPF,DATA,PRAZO,PARCELA
0,Rosimeri Cunha Cunha,56,130712,961.311.762-80,2024-04-07,120,2357.17
1,Alexandre Cunha Pereira,51,134701,403.411.196-87,2024-04-07,24,6919.14
2,Carlos Costa Costa,50,111432,827.363.450-70,2024-04-08,60,2938.09
3,Alexandre Cunha Silva,59,22127,831.348.781-00,2024-04-05,24,1136.59
4,Noemi Albernaz Matos,26,96847,143.420.807-96,2024-04-11,12,9010.00
...,...,...,...,...,...,...,...
999995,José Rodrigues Pereira,27,47942,729.067.657-24,2024-04-04,60,1264.07
999996,Telma Souza Silva,67,132073,534.948.891-04,2024-04-09,36,4949.80
999997,Augusto Santos Rodrigues,29,128816,796.778.943-15,2024-04-05,12,11984.18
999998,Pedro Costa Maia,44,139967,036.591.903-90,2024-04-04,12,13021.60
