## Criando dados sintéticos com Faker
Quando se precisa de uma certa quantidade de dados (para testar modelos, etc) em determinados formatos, é possível utilizar-se dados criados de maneira sintética. [`Faker`](https://github.com/joke2k/faker) é uma biblioteca de Python para este fim.

`Faker` tem uma grande quantidade de opções e inclusive pode criar diversos dados localizados em português. Recomendo ler a [documentação](https://faker.readthedocs.io/en/master/).

Aqui estou criando um *dataset* rápido, com os seguintes dados: 

- **Cliente** representado pelo **CPF**
- **Loja** representado pelo **CNPJ**
- **Gasto** representado por um valor de ponto flutuante com duas casas decimais

*É possível criar valores direto em moeda, usando a função* `pricetag`, *como* **R$XXX,XX** *mas o dado é uma string e para minha necessidade eu precisava de valores float*

In [None]:
import random
import pandas as pd
from faker import Faker

Aqui inicializa-se o [gerador *faker*](https://faker.readthedocs.io/en/master/#basic-usage) e informa-se um [*seed*](https://faker.readthedocs.io/en/master/#seeding-the-generator) para que os valores gerados sejam o mesmo em todas as execuções.

In [2]:
fake = Faker(['pt-BR'])
Faker.seed(69)

### Necessidades:

- Criar uma lista com 250 CPFs  
- Criar uma lista com 100 CNPJs  
- Criar mil registros, randômicos, das listas de CPF e CNPJ
- Atribuir um valor monetário para cada um destes mil registros.

In [3]:
# função para criar CPFs
def create_CPF(n):
    CPF = []
    for _ in range(0, n):
        CPF.append(fake.cpf())
    return CPF

In [4]:
# criando uma lista com 200 CPFs
CPFs = create_CPF(200)

In [5]:
# Dez primeiros itens da lista de CPFs
CPFs[:10]

['012.947.538-60',
 '769.842.301-87',
 '619.285.430-06',
 '831.094.672-40',
 '018.796.453-00',
 '271.596.308-40',
 '194.352.876-46',
 '734.918.526-09',
 '679.254.081-11',
 '860.735.194-00']

In [6]:
# Função para criar CNPJs
def create_CNPJ(n):
    CNPJ = []
    for _ in range(0, n):
        CNPJ.append(fake.cnpj())
    return CNPJ

In [7]:
# criando uma lista com 100 CNPJs
CNPJs = create_CNPJ(100)

In [8]:
# Dez primeiros itens da lista de CNPJs
CNPJs[:10]

['43.508.297/0001-03',
 '53.670.982/0001-95',
 '39.406.187/0001-63',
 '72.834.910/0001-80',
 '79.160.284/0001-33',
 '42.059.183/0001-60',
 '05.897.624/0001-77',
 '41.035.296/0001-63',
 '03.254.817/0001-84',
 '52.486.931/0001-45']

In [9]:
# Função para criar valores numéricos
def create_valor(n):
    valor = []
    for _ in range(0, n):
        valor.append(fake.pyfloat(right_digits=2, positive=True, min_value=5.0, max_value=10000.0))
    return valor

In [10]:
# Criando mil valores numéricos
valores = create_valor(1000)

In [11]:
# Dez primeiros itens da lista de valores
valores[:10]

[4308.82,
 9535.3,
 8017.95,
 9354.9,
 438.96,
 4517.74,
 4953.91,
 2422.62,
 9857.25,
 7383.14]

Agora crio uma lista de transações. Cada transação tem:
- um CPF aleatório da lista de 250
- um CNPJ aleatório da lista de 100
- um valor aleatório da lista de 1000

In [12]:
transacoes = []
for _ in range(0, 1000):
    transacao = []
    cliente = random.choice(CPFs)
    loja = random.choice(CNPJs)
    gasto = random.choice(valores)
    transacao = [cliente, loja, gasto]
    transacoes.append(transacao)

In [13]:
# listando as dez primeiras transações geradas
transacoes[:10]

[['435.960.871-39', '75.208.346/0001-89', 2808.94],
 ['853.716.942-00', '68.472.395/0001-69', 7977.66],
 ['683.125.049-15', '09.218.563/0001-25', 4551.1],
 ['035.469.781-10', '60.258.917/0001-12', 2871.6],
 ['729.063.841-78', '52.486.931/0001-45', 5826.28],
 ['871.509.624-67', '32.694.758/0001-63', 6052.26],
 ['369.182.457-91', '68.043.529/0001-26', 2779.72],
 ['923.581.670-02', '79.821.503/0001-88', 5324.42],
 ['408.639.251-89', '39.406.187/0001-63', 7460.78],
 ['894.125.076-58', '64.578.391/0001-09', 115.66]]

Transformando a lista de transações em um *dataframe* do Pandas

In [14]:
compras = pd.DataFrame(transacoes, columns =['Cliente', 'Loja', 'Gasto'])
compras.head(10)

Unnamed: 0,Cliente,Loja,Gasto
0,435.960.871-39,75.208.346/0001-89,2808.94
1,853.716.942-00,68.472.395/0001-69,7977.66
2,683.125.049-15,09.218.563/0001-25,4551.1
3,035.469.781-10,60.258.917/0001-12,2871.6
4,729.063.841-78,52.486.931/0001-45,5826.28
5,871.509.624-67,32.694.758/0001-63,6052.26
6,369.182.457-91,68.043.529/0001-26,2779.72
7,923.581.670-02,79.821.503/0001-88,5324.42
8,408.639.251-89,39.406.187/0001-63,7460.78
9,894.125.076-58,64.578.391/0001-09,115.66


In [15]:
compras.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Cliente  1000 non-null   object 
 1   Loja     1000 non-null   object 
 2   Gasto    1000 non-null   float64
dtypes: float64(1), object(2)
memory usage: 23.6+ KB
