# Geração de Dados Sintéticos com Faker, random e pandas

#### O objetivo é simular um conjunto de dados de clientes brasileiros, com informações como nome, CPF, idade, endereço, telefone e e-mail, utilizando bibliotecas Python para geração e organização dos dados.

### 1. Importando Bibliotecas

- `Pandas` - Biblioteca para manipulação e análise de dados tabulares.
> - `pd.DataFrame()` - cria uma tabela com os dados gerados
> - `df.to_csv()` - exporta os dados para um arquivo .csv
> - `pd.set_option()` - configurações de exibição no terminal

- `Faker` - Biblioteca especializada em gerar dados sintéticos realistas, como nomes, CPFs, endereços, datas, etc.
> - `Faker('pt_BR')` - gera dados no formato brasileiro
> - `faker.name()` - nome completo
> - `faker.cpf()` - CPF válido
> - `faker.date_of_birth()` - data de nascimento com controle de idade
> - `faker.address() / faker.state()` - endereço e estado brasileiros

- `random` - Biblioteca nativa do Python para gerar números aleatórios.
> - `random.randint(18, 60)` - gera uma idade entre 18 e 60 anos


In [None]:
import pandas as pd
import random
from faker import Faker

### 2. Inicializando gerador de dados


Define o idioma como português do Brasil.

In [None]:
faker = Faker('pt_BR')

### 3. Gerando dados fictícios

Gera registros com informações variadas de clientes.

In [None]:
dados_pessoas = []

for _ in range(10):
    nome = faker.name()
    cpf = faker.cpf()
    idade = random.randint(18, 60)
    data = faker.date_of_birth(minimum_age=idade, maximum_age=idade).strftime('%d/%m/%Y')
    endereco = faker.address()
    estado = faker.state()
    pais = 'Brasil'

    pessoa = {
        'nome': nome,
        'cpf': cpf,
        'idade': idade,
        'data': data,
        'endereco': endereco,
        'estado': estado,
        'pais': pais,
    }

    dados_pessoas.append(pessoa)

### 4. Criando DataFrame com os dados

Organiza os dados em formato tabular.

In [None]:
df_pessoas = pd.DataFrame(dados_pessoas)
print(df_pessoas)

### 5. Configurando exibição no notebook

Ajusta as opções de exibição para mostrar o conteúdo completo no terminal, sem truncamentos

In [None]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', None)

### 6. Visualizando os dados gerados

Exibe todos os registros gerados.

In [None]:
print(df_pessoas.to_string())

### 7. Exportando os dados para CSV

Salva os dados em um arquivo chamado
`clientes.csv`.

In [None]:
df_pessoas.to_csv('clientes.csv')

#### Considerações Técnicas

- Gerar dados sintéticos é uma prática comum para testes, protótipos e treinamentos, especialmente quando dados reais não estão disponíveis ou não podem ser compartilhados.
- O uso de faker.date_of_birth(minimum_age=idade) garante que a idade e a data estejam coerentes.
- Exportar para CSV permite reaproveitar os dados em outros notebooks ou ferramentas como Excel, Power BI ou SQL.