In [36]:
import pandas as pd
import numpy as np
from faker import Faker
import random

In [37]:
fake = Faker('pt_BR')
Faker.seed(42)
random.seed(42)

In [38]:
# Função para simular erros de dados
def introduce_errors(row):
    # Introduzir valores nulos
    if random.random() < 0.1:
        row['Salário'] = np.nan
    if random.random() < 0.1:
        row['Idade'] = np.nan
    
    # Introduzir outliers
    if random.random() < 0.05:
        row['Idade'] = random.choice([-5, 120, 150])  # Outliers
    if random.random() < 0.05:
        row['Salário'] = random.choice([-100.0, 999999.99])  # Outliers
    
    # Introduzir formatações incorretas
    if random.random() < 0.05:
        row['Data_Nascimento'] = fake.date(pattern="%d/%m/%Y")  # Formato dd/mm/yyyy
    if random.random() < 0.05:
        row['Email'] = row['Email'].replace('@', '')  # Remove o '@' para simular e-mail incorreto
    
    return row


In [39]:
# Lista para armazenar os dados simulados
data = []

In [40]:
# Gerar 20 registros com Faker
for _ in range(1000):
    # Gerar dados reais
    nome = fake.name()
    idade = random.randint(18, 80)  # Idade entre 18 e 80 anos
    salario = round(random.uniform(1500, 10000), 2)  # Salário entre 1500 e 10000
    data_nascimento = fake.date_of_birth(minimum_age=18, maximum_age=80).strftime("%Y-%m-%d")
    email = fake.email()
    valor_compra = round(random.uniform(100, 5000), 2)  # Valor da compra entre 100 e 5000
    data_transacao = fake.date_this_year().strftime("%Y-%m-%d")
    
    # Criar uma linha do dataset
    row = {
        'ID_Cliente': _ + 1,
        'Nome': nome,
        'Idade': idade,
        'Salário': salario,
        'Data_Nascimento': data_nascimento,
        'Email': email,
        'Valor_Compra': valor_compra,
        'Data_Transacao': data_transacao
    }
    
    # Introduzir erros no dado
    row = introduce_errors(row)
    
    # Adicionar a linha ao dataset
    data.append(row)

In [41]:
# Criar um DataFrame a partir da lista de dados simulados
df = pd.DataFrame(data)

# Mostrar o DataFrame
print(df)

     ID_Cliente                    Nome  Idade  Salário Data_Nascimento  \
0             1            Brenda Alves   58.0  2446.31      1990-06-08   
1             2      Dra. Aurora Pastor    NaN  1753.28      1970-04-19   
2             3     Gael Henrique Silva   55.0  3864.62      1984-08-29   
3             4         Emanuel Sampaio   24.0  2288.34      1970-05-05   
4             5  Luiz Henrique Ferreira   42.0  2169.80      1981-10-02   
..          ...                     ...    ...      ...             ...   
995         996        Evelyn Gonçalves   49.0  6176.05      1946-02-05   
996         997          Nicole Azevedo   71.0  8517.93      19/01/2016   
997         998          Antony Pereira   21.0  7265.64      1950-01-18   
998         999   João Gabriel Cassiano   33.0  6749.71      1971-06-24   
999        1000           Helena Macedo   45.0  3186.51      1987-08-12   

                                Email  Valor_Compra Data_Transacao  
0          pietrocarvalho@exam

In [42]:
# Salvando o DataFrame em um arquivo CSV
df.to_csv('dataset_simulado.csv', index=False)