In [3]:
import pandas as pd
from faker import Faker
import random
import string
import unidecode

In [5]:
def gerar_nome_com_variacao(nome):
    """Gera um nome com variação de maiúsculas e minúsculas."""
    palavras = nome.split()
    nome_modificado = []
    for palavra in palavras:
        if random.random() < 0.5:
            nome_modificado.append(palavra.title())  # Primeira letra maiúscula
        elif random.random() < 0.2:
            nome_modificado.append(palavra.upper())  # Todas as letras maiúsculas
        else:
            nome_modificado.append(palavra.lower())  # Todas as letras minúsculas
    return " ".join(nome_modificado)

def gerar_data_nascimento():
    ano = random.randint(1950, 2005)  # Ajustar o intervalo de anos conforme necessário
    mes = random.randint(1, 12)
    dia = random.randint(1, 28)  # Simplificando para 28 dias para evitar cálculos de dias em meses diferentes
    return f"{ano}-{mes:02d}-{dia:02d}"

def gerar_telefone():
    """Gera um telefone celular ou fixo."""
    if random.random() < 0.5:  # 50% de chance de ser celular ou fixo
        # Gerando telefone celular no formato (XX) 9XXXX-XXXX
        celular = f"({random.randint(11, 99)}) 9{random.randint(1000, 9999)}-{random.randint(1000, 9999)}"
        return celular
    else:
        # Gerando telefone fixo no formato (XX) XXXX-XXXX
        fixo = f"({random.randint(11, 99)}) {random.randint(2000, 5999)}-{random.randint(1000, 9999)}"
        return fixo

def formatar_logradouro(logradouro):
    """Formata o logradouro com variações de maiúsculas e minúsculas e adiciona caracteres especiais."""
    logradouro_modificado = gerar_nome_com_variacao(logradouro)
    if random.random() < 0.2:  # 20% de chance de adicionar tabulação
        logradouro_modificado = "\t" + logradouro_modificado
    if random.random() < 0.1:  # 10% de chance de adicionar quebra de linha
        logradouro_modificado = logradouro_modificado + "\n"
    return logradouro_modificado

def formatar_bairro(bairro):
    """Formata o bairro com variações de maiúsculas e minúsculas e adiciona caracteres especiais."""
    bairro_modificado = gerar_nome_com_variacao(bairro)
    if random.random() < 0.2:  # 20% de chance de adicionar tabulação
        bairro_modificado = "\t" + bairro_modificado
    if random.random() < 0.1:  # 10% de chance de adicionar quebra de linha
        bairro_modificado = bairro_modificado + "\n"
    return bairro_modificado

def gerar_email_valido(nome):
    """Gera um e-mail válido baseado no nome."""
    nome_sem_acentos = unidecode.unidecode(nome).replace(" ", ".").lower()
    dominio = random.choice(["gmail.com", "outlook.com", "yahoo.com.br", "empresa.com.br"])
    return f"{nome_sem_acentos}@{dominio}"

def gerar_email_invalido():
    """Gera um e-mail inválido com padrões incorretos."""
    tipos_invalidez = [
        lambda: f"{''.join(random.choices(string.ascii_letters, k=8))}@",  # Sem domínio
        lambda: f"@{random.choice(['gmail.com', 'outlook.com'])}",  # Sem nome
        lambda: f"{''.join(random.choices(string.ascii_letters, k=8))}#{random.choice(['gmail', 'outlook'])}.com",  # Uso de caractere inválido
        lambda: f"{''.join(random.choices(string.ascii_letters, k=8))}gmail.com"  # Sem arroba (@)
    ]
    return random.choice(tipos_invalidez)()

def gerar_email(nome):
    """Decide aleatoriamente entre gerar um e-mail válido ou inválido."""
    if random.random() < 0.8:  # 80% de chance de ser um e-mail válido
        return gerar_email_valido(nome)
    else:  # 20% de chance de ser um e-mail inválido
        return gerar_email_invalido()

# Criando um objeto Faker para a língua portuguesa
fake = Faker('pt_BR')

# Criando um DataFrame vazio
data = {
    'Nome': [],
    'Data de Nascimento': [],
    'Gênero': [],
    'Telefone': [],
    'E-mail': [],  # Adicionando o campo de e-mail
    'Logradouro': [],
    'Número': [],
    'Bairro': [],
    'Cidade': [],
    'Estado': [],
    'CEP': []
}

# Gerando 30000 linhas de dados
for _ in range(30000):
    nome = gerar_nome_com_variacao(fake.name())
    data['Nome'].append(nome)
    data['Data de Nascimento'].append(gerar_data_nascimento())
    data['Gênero'].append(random.choice(['Masculino', 'Feminino']))
    data['Telefone'].append(gerar_telefone())
    data['E-mail'].append(gerar_email(nome))  # Gerando e-mail
    data['Logradouro'].append(formatar_logradouro(fake.street_name()))
    data['Número'].append(random.randint(1, 1000))
    data['Bairro'].append(formatar_bairro(fake.street_name()))
    data['Cidade'].append(fake.city())
    data['Estado'].append(fake.state())
    data['CEP'].append(fake.postcode())

# Criando o DataFrame
df = pd.DataFrame(data)

# Exibindo as primeiras 5 linhas
print(df.head())

# Salvando em um arquivo CSV
df.to_csv('./inputs_massateste/massatesteleads2.csv', index=False)


                Nome Data de Nascimento     Gênero         Telefone  \
0       kevin Garcia         1964-08-28   Feminino   (55) 5317-3474   
1         Lunna dias         1988-06-28  Masculino   (62) 3333-1292   
2        liam Vieira         1968-11-13   Feminino  (14) 98590-1980   
3  srta. Alana Pires         1969-10-10   Feminino   (87) 4902-9703   
4      Diego ribeiro         1988-03-15   Feminino  (30) 93450-4944   

                          E-mail                    Logradouro  Número  \
0       kevin.garcia@outlook.com  Núcleo Alexandre Casa grande     152   
1         lunna.dias@outlook.com               \testação LOPES     422   
2     liam.vieira@empresa.com.br          chácara Caio moreira     313   
3  srta..alana.pires@outlook.com           Residencial Azevedo     824   
4   diego.ribeiro@empresa.com.br        Pátio DE Casa grande\n     785   

                      Bairro               Cidade             Estado  \
0       feira Mariana pastor       Pimenta do Sul     Ri