## Geração do Dataset para Treinamento
<hr>
<p style="text-align: justify;">Para a geração dos dados que serão utilizados no treinamento do modelo pré-treinado, será utilizada a biblioteca <strong>Faker</strong>. A <strong>Faker </strong>permite criar dados fictícios, como nomes, endereços, CPF e RG, ideais para o treinamento de modelos sem a necessidade de utilizar informações reais, que não podem ser divulgadas, como é o caso do CPF e do RG.</p>

<p style="text-align: justify;">Além disso, a escolha pela <strong>Faker</strong> se deve ao fato de que os datasets disponibilizados por entidades governamentais, como o DataSUS (que contém dados de saúde) e o IBGE (que oferece informações geográficas e censitárias), geralmente são restritos a informações específicas e não contemplam dados típicos de cadastro, como nome, login e senha fictícios. Dessa forma, a Faker se torna uma alternativa prática e segura para suprir essa necessidade.</p>



### 0. Instalação da Biblioteca Faker

In [4]:
pip install faker

Collecting fakerNote: you may need to restart the kernel to use updated packages.

  Downloading faker-37.1.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.1.0-py3-none-any.whl (1.9 MB)
   ---------------------------------------- 0.0/1.9 MB ? eta -:--:--
   ---------------------------------------- 1.9/1.9 MB 21.2 MB/s eta 0:00:00
Installing collected packages: faker
Successfully installed faker-37.1.0


### 1. Geração dos Dados 


In [34]:
from faker import Faker
import pandas as pd
import random
import string

# Inicializa o Faker com localização brasileira
fake = Faker('pt_BR')

# Função para gerar números de telefone celular no padrão brasileiro: (XX) 9XXXX-XXXX
def gerar_telefone_celular():
    ddd = fake.numerify(text="##")  
    numero = '9' + fake.numerify(text="####-####")  
    return f"({ddd}) {numero[:5]}{numero[5:]}"  

# Função para gerar um login aleatório com letras e números
def gerar_login():
    letras = ''.join(random.choice(string.ascii_lowercase) for _ in range(random.randint(4, 8)))
    numeros = ''.join(random.choice(string.digits) for _ in range(random.randint(2, 4)))
    return letras + numeros 

# Geração de uma lista de dicionários contendo dados pseudo-reais
data = [{
    'Nome': fake.name(),
    'Nascimento': fake.date_of_birth().strftime('%Y-%m-%d'),
    'CPF': fake.cpf(),
    'RG': fake.rg(),
    'Endereço': fake.address().replace('\n', ', '),
    'Telefone': gerar_telefone_celular(),
    'Login': gerar_login(),
    'Senha': fake.password()
} for _ in range(1000)]


df = pd.DataFrame(data)

df.to_csv('../dataset/generated_data.csv', index=False, encoding='utf-8')

### 2. Visualização dos Dados Gerados

In [41]:
df

Unnamed: 0,Nome,Nascimento,CPF,RG,Endereço,Telefone,Login,Senha
0,Hadassa Pereira,1962-10-16,129.685.704-20,812560346,"Quadra Sá, 893, São José, 23314869 Lopes das F...",(67) 95961-1883,eldwgbxl187,CP0Gk6u7+#
1,José Pimenta,1959-06-19,701.235.498-41,028765138,"Jardim de Siqueira, 68, Caetano Furquim, 63647...",(40) 98416-3591,ijcrwtsi977,t$6iZySN_2
2,Dr. Lucas Fernandes,2009-05-23,946.513.287-09,531876421,"Chácara Mendonça, 39, Santa Inês, 80425-898 Cu...",(20) 97085-7985,zgwecwl908,YDVOg90g&@
3,Matteo da Rosa,1914-03-19,058.691.374-20,087465218,"Jardim de Cassiano, 72, Nova Floresta, 55686-0...",(52) 98108-7007,ovwa0758,dV$11Xa$6p
4,Luna Dias,2014-05-28,970.216.854-67,23457186X,"Favela Melo, 138, Nova America, 20442-459 Silv...",(11) 97183-8924,kejc3405,E4zR$lmd(x
...,...,...,...,...,...,...,...,...
995,Daniela Guerra,1947-10-10,376.102.958-68,724560130,"Ladeira Maysa Andrade, Nova Gameleira, 1403038...",(95) 99545-4236,thvym10,PGFG@4UrAt
996,Theo Silveira,1957-07-10,185.043.962-15,685314200,"Sítio de Farias, 2, Providencia, 99638283 Cast...",(51) 98371-1111,syybnqb4822,^xJtp5WkrW
997,Sr. João Felipe Santos,2018-05-30,203.497.815-32,071324689,"Estrada Rocha, 3, Vila Bandeirantes, 65641224 ...",(02) 99069-6426,lcbze75,Pb3gjPpjS%
998,Milena Cardoso,1921-12-12,923.846.710-22,384652013,"Viela Lucca Rocha, Santa Terezinha, 32335917 C...",(08) 95139-4082,uaxaf577,N@25gTppOm
