# Gerando Dados Falsos com Faker

Python fornece uma biblioteca **open-source**, também conhecida como [Faker](https://faker.readthedocs.io/en/master/https://faker.readthedocs.io/en/master/), que ajuda o usuário a construir o seu conjunto de dados. 

Podemos gerar dados aleatórios usando atributos aleatórios como **nome**, **idade**, **localização** e muitos mais. A biblioteca Faker oferece suporte a diversos locais e idiomas úteis para gerar dados baseados na sua localidade. 

Podemos utilizar esses dados do Faker para ajustar modelos de machine learning, testar a resistência de um modelo, criar um banco de dados experimental e muito mais. Podemos gerar dados dependendo de nossos requisitos. 

Neste notebook, entenderemos o Faker e suas funções e criaremos nosso próprio Dataset.

## Instalando Faker

Antes de começarmos a trabalhar no Faker, é necessário instalarmos a biblioteca. Podemos fazer isso usando o instalador [pip](https://pypi.org/project/pip/) no prompt de comando ou terminal, conforme mostrado abaixo:

```
pip install faker  
```

## Importando Bibliotecas Necessárias

Para descobrir várias funções da biblioteca Faker, devemos importar a biblioteca faker. 

Também estamos importando a biblioteca pandas, pois faremos algumas operações no Dataset.

In [1]:
from faker import Faker
import pandas as pd

## Usando Funções

Assim que terminarmos de importar as bibliotecas necessárias, vamos tentar usar várias funções disponíveis na biblioteca Faker. Para realizar tal atividade, temos que instanciar um objeto Faker com o auxílio de uma variável conforme mostrado abaixo:

In [2]:
amostra = Faker()  
print(amostra)

<faker.proxy.Faker object at 0x7fbfc6f9fc10>


Agora que temos o objeto **amostra** podemos facilmente gerar dados.

Vamos começar gerando um nome:

In [3]:
print(f"Seu Nome é: {amostra.name()}")  

Seu Nome é: Kristopher Molina


Data de Nascimento:

In [4]:
print(f"Seu nascimento é em {amostra.date_of_birth()}")

Seu nascimento é em 1926-03-10


Endereço:

In [5]:
print(f"Seu endereço é: {amostra.address()}")

Seu endereço é: 12054 Vazquez Meadows Suite 961
Port Jennifer, ME 93410


País:

In [6]:
print(f"Seu país é: {amostra.country()}")

Seu país é: Ethiopia


Email:

In [7]:
print(f"Seu email é: {amostra.email()}")

Seu email é: bradleypratt@lang-hernandez.net


Também podemos gerar informações de acordo com diferentes localidades e regiões em diferentes idiomas. Tudo o que precisamos fazer é mencionar o idioma que desejamos.

In [8]:
sample = Faker('pt_br')  

In [9]:
for _ in range(10):  
    print(sample.name())  

Davi Lucas Martins
Anthony Vieira
Thales Correia
Julia da Cruz
Luigi Pires
Maria Eduarda Vieira
Sophie Freitas
Cauã Monteiro
Júlia Araújo
Sr. Davi da Rosa


Também podemos gerar nossos próprios textos ou frases usando funções como texto e frases.

Vamos considerar o exemplo a seguir para entender como essas funções funcionam.

In [10]:
print(f"Texto: {sample.text()}")   
print(f"Sentence: {sample.sentence()}")  

Texto: Repudiandae aperiam eius dolorem hic perspiciatis nobis. Labore omnis dolorem inventore.
Sentence: Nesciunt velit repellendus.


Além disso, o módulo Faker também fornece uma função para gerar os perfis completos para diferentes pessoas não existentes, em vez de gerar nomes e endereços separadamente. Essa função é conhecida como função **profile** e gera um perfil falso de uma pessoa.

Vamos considerar o exemplo a seguir para entender o comportamento desta função:

In [11]:
print(f"Perfil Completo: {sample.profile()}")  

Perfil Completo: {'job': 'Letrista', 'company': 'Duarte Ltda.', 'ssn': '08742516307', 'residence': 'Residencial Rafael Farias, 9\nLiberdade\n00429-813 Caldeira da Praia / CE', 'current_location': (Decimal('-48.768407'), Decimal('60.896277')), 'blood_group': 'B+', 'website': ['http://teixeira.br/', 'https://santos.br/', 'http://www.viana.br/', 'http://www.fernandes.com/'], 'username': 'unascimento', 'name': 'Dr. Pedro Miguel Costela', 'sex': 'M', 'address': 'Núcleo de Ferreira, 7\nSão Francisco Das Chagas\n13680-090 Rezende / PA', 'mail': 'otavio85@bol.com.br', 'birthdate': datetime.date(1932, 3, 16)}


## Criando um Conjunto de Dados Falso

Como descobrimos a maioria das funções e já trabalhamos na função de profile, vamos tentar gerar um conjunto de dados contendo perfis falsos de 20 pessoas únicas. Para armazenar esses perfis em um **DataFrame**, usaremos a biblioteca pandas.

In [12]:
dados = [sample.profile() for _ in range(20)]  
df = pd.DataFrame(dados)
df.head(9)

Unnamed: 0,job,company,ssn,residence,current_location,blood_group,website,username,name,sex,address,mail,birthdate
0,Repórter,Pereira Almeida e Filhos,12936708559,Praça Francisco Dias\nMantiqueira\n36449729 da...,"(-82.2432365, 174.512792)",B-,"[https://moreira.br/, http://www.lopes.com/, h...",gustavo-henrique64,Ana Julia Pires,F,"Largo Moraes, 64\nVila Suzana Primeira Seção\n...",isisda-cruz@hotmail.com,1968-05-08
1,Ortopedista,Rodrigues,52980317659,"Chácara de Lopes, 8\nNossa Senhora Da Conceiçã...","(-24.081178, -23.111544)",AB+,"[http://fernandes.net/, https://viana.com/, ht...",knovaes,Guilherme Monteiro,M,"Trevo Lopes, 462\nAcaiaca\n94526-132 Martins d...",costadavi-luiz@yahoo.com.br,1975-06-07
2,Dançarino,da Conceição Moraes e Filhos,45809762310,"Alameda Davi Luiz Barbosa, 973\nVila Nova\n581...","(87.5386115, -45.403479)",AB-,"[http://castro.net/, http://www.da.br/, http:/...",isabelnascimento,Alexia Melo,F,"Jardim Ramos, 58\nIpe\n88831565 da Cunha da Ma...",bramos@ig.com.br,1979-07-07
3,Escrivão,Mendes,39124765007,"Rua de da Conceição, 86\nCamponesa 2ª Seção\n0...","(17.3598725, -0.597174)",AB+,"[http://cardoso.com/, http://www.freitas.br/, ...",teixeiramiguel,Luiz Otávio Gonçalves,M,"Avenida da Cruz, 56\nVila Santa Rosa\n69024561...",eloahvieira@bol.com.br,1957-01-24
4,Protesista,Moreira Rodrigues S.A.,82017453960,"Passarela de Moura, 9\nJoão Alfredo\n02595-860...","(67.756709, 93.912120)",AB-,"[https://www.lima.com/, https://www.jesus.com/...",augusto80,Valentina Mendes,F,"Residencial Alice Viana, 768\nVila Calafate\n7...",lucas-gabrielmoura@hotmail.com,1970-03-04
5,Desembargador de justiça,Santos,96037215499,"Conjunto Oliveira, 4\nLaranjeiras\n29019-652 G...","(15.704599, 82.561746)",O+,"[https://melo.net/, http://almeida.br/]",davisilva,Antônio da Paz,M,"Lago de Moreira, 161\nMarajó\n39046840 Teixeir...",fcosta@bol.com.br,1927-07-19
6,Pecuarista,da Rocha,23089617595,"Viela Rezende, 55\nGrotinha\n90707-797 da Rosa...","(-88.478204, 125.764363)",A-,"[https://www.almeida.com/, http://www.ribeiro....",rda-costa,Yuri da Paz,M,"Recanto Dias, 372\nVila Engenho Nogueira\n7033...",ian38@bol.com.br,1948-05-15
7,Coveiro/Sepultador,Moura,12439786519,"Jardim Rafaela Pinto, 39\nChácara Leonina\n894...","(53.288959, 177.637613)",A+,"[https://www.moraes.net/, https://www.peixoto....",cbarbosa,André Freitas,M,"Passarela Heloísa da Mata, 23\nVitoria Da Conq...",fernandasilva@uol.com.br,2013-08-13
8,Soldado,Vieira Duarte e Filhos,29387645100,"Jardim da Rosa, 81\nVila Aeroporto\n06858745 B...","(40.001005, 74.842750)",AB+,"[https://www.vieira.com/, https://dias.br/, ht...",laura09,Ana Luiza Moura,F,"Vereda Stella Pires, 54\nDas Industrias I\n646...",silvaamanda@uol.com.br,1925-06-07


Podemos também gerar quantidades grandes de dados e armazenar em um **defaultdict** e posteriormente construir um DataFrame.

Vejamos um exemplo:

In [13]:
from collections import defaultdict

fake = Faker('es')

fake_data = defaultdict(list)

for _ in range(1000):
    fake_data["nome"].append(fake.first_name())
    fake_data["sobrenome"].append(fake.last_name())
    fake_data["profissão"].append(fake.job())
    fake_data["nascimento"].append(fake.date_of_birth())
    fake_data["país"].append(fake.country())

In [14]:
print(fake_data['nome'][:10])

['Jerónimo', 'Merche', 'Martirio', 'Wálter', 'Concepción', 'Salvador', 'Valerio', 'Nereida', 'Julio César', 'Lalo']


In [15]:
print(fake_data['sobrenome'][:10])

['Rueda', 'Múgica', 'Campoy', 'Dalmau', 'Tormo', 'Castellanos', 'Casals', 'Araujo', 'Carrillo', 'Briones']


In [16]:
print(fake_data['profissão'][:10])

['Designer, ceramics/pottery', 'Designer, exhibition/display', 'Magazine features editor', 'Investment banker, corporate', 'Therapist, drama', 'Exhibition designer', 'Museum/gallery exhibitions officer', 'Air traffic controller', 'Armed forces logistics/support/administrative officer', 'Exhibitions officer, museum/gallery']


In [17]:
print(fake_data['nascimento'][:10])

[datetime.date(1949, 4, 14), datetime.date(1951, 11, 15), datetime.date(1973, 2, 4), datetime.date(1958, 6, 1), datetime.date(1949, 12, 20), datetime.date(2003, 8, 24), datetime.date(1993, 2, 19), datetime.date(2018, 7, 29), datetime.date(1914, 11, 14), datetime.date(1971, 5, 5)]


In [18]:
print(fake_data['país'][:10])

['Emiratos Árabes Unidos', 'Belice', 'Congo', 'Togo', 'Burundi', 'Serbia', 'Burundi', 'Noruega', 'Canadá', 'República Checa']


In [19]:
df_fake_data = pd.DataFrame(fake_data)
df_fake_data.head(10)

Unnamed: 0,nome,sobrenome,profissão,nascimento,país
0,Jerónimo,Rueda,"Designer, ceramics/pottery",1949-04-14,Emiratos Árabes Unidos
1,Merche,Múgica,"Designer, exhibition/display",1951-11-15,Belice
2,Martirio,Campoy,Magazine features editor,1973-02-04,Congo
3,Wálter,Dalmau,"Investment banker, corporate",1958-06-01,Togo
4,Concepción,Tormo,"Therapist, drama",1949-12-20,Burundi
5,Salvador,Castellanos,Exhibition designer,2003-08-24,Serbia
6,Valerio,Casals,Museum/gallery exhibitions officer,1993-02-19,Burundi
7,Nereida,Araujo,Air traffic controller,2018-07-29,Noruega
8,Julio César,Carrillo,Armed forces logistics/support/administrative ...,1914-11-14,Canadá
9,Lalo,Briones,"Exhibitions officer, museum/gallery",1971-05-05,República Checa


In [20]:
df_fake_data['id'] = df_fake_data.index

In [21]:
df_fake_data.tail()

Unnamed: 0,nome,sobrenome,profissão,nascimento,país,id
995,Emigdio,Solana,"Lighting technician, broadcasting/film/video",1921-11-04,Ghana,995
996,Maricela,Pacheco,Warehouse manager,1905-09-08,Malawi,996
997,Fabio,Cortes,Graphic designer,1952-10-23,Eslovenia,997
998,Germán,Baeza,Toxicologist,1974-07-28,Hungría,998
999,Modesto,Garrido,Furniture conservator/restorer,2015-03-12,Armenia,999


## Adicionando Dados Gerados ao Banco de Dados

Para esta tarefa vamos usar a biblioteca **SQLAlchemy**.

**Importante**: Ao usar esse notebook pela primeira vez é possível que você obtenha erros ao executar as consultas, isso é devido ao fato de que os dados são gerados aleatoriamente. Por este motivo, devemos adaptar as consultas (queries).

Criaremos um banco de dados chamado de **pessoas** e vamos definir uma tabela de nome **pessoa** ao qual iremos inserir os nossos dados falsos gerados através da biblioteca pandas.

In [22]:
from sqlalchemy.ext.automap import automap_base
from sqlalchemy import create_engine
from sqlalchemy.orm import Session

Base = automap_base()
engine = create_engine('sqlite:///pessoas.db', echo=True)
Base.prepare(engine, reflect=True)
df_fake_data.to_sql('pessoa', con=engine, index=False)
session = Session(engine)

2021-06-16 19:54:01,801 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2021-06-16 19:54:01,802 INFO sqlalchemy.engine.Engine [raw sql] ()
2021-06-16 19:54:01,808 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("pessoa")
2021-06-16 19:54:01,809 INFO sqlalchemy.engine.Engine [raw sql] ()
2021-06-16 19:54:01,811 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("pessoa")
2021-06-16 19:54:01,812 INFO sqlalchemy.engine.Engine [raw sql] ()
2021-06-16 19:54:01,819 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2021-06-16 19:54:01,821 INFO sqlalchemy.engine.Engine 
CREATE TABLE pessoa (
	nome TEXT, 
	sobrenome TEXT, 
	"profissão" TEXT, 
	nascimento DATE, 
	"país" TEXT, 
	id BIGINT
)


2021-06-16 19:54:01,822 INFO sqlalchemy.engine.Engine [no key 0.00105s] ()
2021-06-16 19:54:01,932 INFO sqlalchemy.engine.Engine COMMIT
2021-06-16 19:54:01,935 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2021-06-16 19:54:01,953 INFO sqlalchemy.engine.Engin

Agora que temos a tabela **pessoa** criada, podemos selecionar os dados diretamente do banco de dados através da biblioteca pandas.

In [23]:
sql_df = pd.read_sql(
    "SELECT * FROM pessoa",
    con=engine,
)
sql_df.head()

2021-06-16 19:54:04,934 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("SELECT * FROM pessoa")
2021-06-16 19:54:04,939 INFO sqlalchemy.engine.Engine [raw sql] ()
2021-06-16 19:54:04,949 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("SELECT * FROM pessoa")
2021-06-16 19:54:04,955 INFO sqlalchemy.engine.Engine [raw sql] ()
2021-06-16 19:54:04,963 INFO sqlalchemy.engine.Engine SELECT * FROM pessoa
2021-06-16 19:54:04,967 INFO sqlalchemy.engine.Engine [raw sql] ()


Unnamed: 0,nome,sobrenome,profissão,nascimento,país,id
0,Jerónimo,Rueda,"Designer, ceramics/pottery",1949-04-14,Emiratos Árabes Unidos,0
1,Merche,Múgica,"Designer, exhibition/display",1951-11-15,Belice,1
2,Martirio,Campoy,Magazine features editor,1973-02-04,Congo,2
3,Wálter,Dalmau,"Investment banker, corporate",1958-06-01,Togo,3
4,Concepción,Tormo,"Therapist, drama",1949-12-20,Burundi,4


Para podemos trabalhar com estes dados na biblioteca SQLAlchemy, precisamos mapeá-los através de seu **ORM**.

In [24]:
from sqlalchemy import Column, Integer, String

class Pessoa(Base):
    __tablename__ = "pessoa"

    id = Column(Integer, primary_key=True)
    nome = Column(String)
    sobrenome = Column(String)
    profissão = Column(String)
    nascimento = Column(String)
    país = Column(String)

In [25]:
Pessoa.__table__

Table('pessoa', MetaData(), Column('id', Integer(), table=<pessoa>, primary_key=True, nullable=False), Column('nome', String(), table=<pessoa>), Column('sobrenome', String(), table=<pessoa>), Column('profissão', String(), table=<pessoa>), Column('nascimento', String(), table=<pessoa>), Column('país', String(), table=<pessoa>), schema=None)

In [26]:
Pessoa.prepare()

E agora podemos executar consultas:

In [27]:
pessoas = session.query(Pessoa).all()

2021-06-16 19:54:12,623 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2021-06-16 19:54:12,627 INFO sqlalchemy.engine.Engine SELECT pessoa.id AS pessoa_id, pessoa.nome AS pessoa_nome, pessoa.sobrenome AS pessoa_sobrenome, pessoa."profissão" AS "pessoa_profissão", pessoa.nascimento AS pessoa_nascimento, pessoa."país" AS "pessoa_país" 
FROM pessoa
2021-06-16 19:54:12,629 INFO sqlalchemy.engine.Engine [generated in 0.00224s] ()


Número total de pessoas na tabela **pessoa**:

In [28]:
len(pessoas)

1000

Selecionar a pessoa cujo nome é **Merche**:

In [29]:
merche = session.query(Pessoa).filter_by(nome='Merche').first()
print(merche.sobrenome)

2021-06-16 19:54:30,385 INFO sqlalchemy.engine.Engine SELECT pessoa.id AS pessoa_id, pessoa.nome AS pessoa_nome, pessoa.sobrenome AS pessoa_sobrenome, pessoa."profissão" AS "pessoa_profissão", pessoa.nascimento AS pessoa_nascimento, pessoa."país" AS "pessoa_país" 
FROM pessoa 
WHERE pessoa.nome = ?
 LIMIT ? OFFSET ?
2021-06-16 19:54:30,387 INFO sqlalchemy.engine.Engine [generated in 0.00197s] ('Merche', 1, 0)
Múgica


Com **inspect** podemos inspecionar o nosso banco de dados para saber detalhes sobre ele.

In [30]:
from sqlalchemy import inspect

inspector = inspect(engine)
table_names = inspector.get_table_names()
print(table_names)

2021-06-16 19:54:38,062 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2021-06-16 19:54:38,064 INFO sqlalchemy.engine.Engine [raw sql] ()
['pessoa']


In [31]:
inspector.get_columns('pessoa')

2021-06-16 19:54:38,860 INFO sqlalchemy.engine.Engine PRAGMA main.table_xinfo("pessoa")
2021-06-16 19:54:38,865 INFO sqlalchemy.engine.Engine [raw sql] ()


[{'name': 'nome',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': 'auto',
  'primary_key': 0},
 {'name': 'sobrenome',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': 'auto',
  'primary_key': 0},
 {'name': 'profissão',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': 'auto',
  'primary_key': 0},
 {'name': 'nascimento',
  'type': DATE(),
  'nullable': True,
  'default': None,
  'autoincrement': 'auto',
  'primary_key': 0},
 {'name': 'país',
  'type': TEXT(),
  'nullable': True,
  'default': None,
  'autoincrement': 'auto',
  'primary_key': 0},
 {'name': 'id',
  'type': BIGINT(),
  'nullable': True,
  'default': None,
  'autoincrement': 'auto',
  'primary_key': 0}]

Para finalizarmos este exercício, vamos selecionar apenas as pessoas nascidas entre 1985 e 1988 de nossos dados falsos.

In [32]:
from sqlalchemy import and_

pessoas = session.query(Pessoa).filter(and_(Pessoa.nascimento <= '1988-01-17', Pessoa.nascimento >= '1985-01-17'))

In [33]:
for pessoa in pessoas:
    print(pessoa.nome)

2021-06-16 19:54:45,690 INFO sqlalchemy.engine.Engine SELECT pessoa.id AS pessoa_id, pessoa.nome AS pessoa_nome, pessoa.sobrenome AS pessoa_sobrenome, pessoa."profissão" AS "pessoa_profissão", pessoa.nascimento AS pessoa_nascimento, pessoa."país" AS "pessoa_país" 
FROM pessoa 
WHERE pessoa.nascimento <= ? AND pessoa.nascimento >= ?
2021-06-16 19:54:45,692 INFO sqlalchemy.engine.Engine [generated in 0.00252s] ('1988-01-17', '1985-01-17')
Isaac
Luis Ángel
Gilberto
Verónica
Nilo
Juanito
Ascensión
Casemiro
Pedro
Sosimo
Vanesa
Matías
Josefina
Angelita
Nuria
Ruth
Melisa
Sandalio
Pedro
Bernardino
Manu
Juan Francisco
Flora
Nuria
Juanito
Julie
Rolando
Jose Manuel


Vamos confirmar a data de nascimento de **Isaac** para ver se está de acordo com a nossa restrição.

In [34]:
isaac = session.query(Pessoa).filter_by(nome='Isaac').first()
print(isaac.nascimento)

2021-06-16 19:54:57,816 INFO sqlalchemy.engine.Engine SELECT pessoa.id AS pessoa_id, pessoa.nome AS pessoa_nome, pessoa.sobrenome AS pessoa_sobrenome, pessoa."profissão" AS "pessoa_profissão", pessoa.nascimento AS pessoa_nascimento, pessoa."país" AS "pessoa_país" 
FROM pessoa 
WHERE pessoa.nome = ?
 LIMIT ? OFFSET ?
2021-06-16 19:54:57,818 INFO sqlalchemy.engine.Engine [cached since 27.43s ago] ('Isaac', 1, 0)
1986-09-11
