In [105]:
from faker import Faker
from faker.providers import BaseProvider
import pandas as pd
import random
import numpy as np
from scipy.stats.mstats import winsorize



In [106]:
fake = Faker('pt_BR')

In [107]:
#Custom provider para setores de trabalho
class industriaProvider(BaseProvider):
    setores = {
        "tecnologia": "Tecnologia da Informação",
        "saude": "Saúde",
        "educacao": "Educação",
        "financas": "Finanças",
        "varejo": "Varejo",
        "manufatura": "Indústria Manufatureira",
        "construcao": "Construção Civil",
        "agricultura": "Agricultura",
        "logistica": "Transporte e Logística",
        "telecom": "Telecomunicações",
        "energia": "Energia",
        "midia": "Mídia e Entretenimento",
        "turismo": "Hotelaria e Turismo",
        "juridico": "Serviços Jurídicos",
        "rh": "Recursos Humanos",
        "marketing": "Marketing e Publicidade",
        "pesquisa": "Pesquisa e Desenvolvimento",
        "farmaceutica": "Farmacêutica",
        "automotivo": "Automotivo",
        "alimentos": "Alimentação e Bebidas",
        "consultoria": "Consultoria Empresarial",
        "seguros": "Seguros",
        "imobiliario": "Imobiliário",
        "mineracao": "Mineração",
        "petroleo": "Petróleo e Gás",
        "ambiental": "Serviços Ambientais",
        "aeroespacial": "Aeroespacial",
        "biotecnologia": "Biotecnologia",
        "comercio_exterior": "Comércio Exterior",
        "servicos_financeiros": "Serviços Financeiros",
        "setor_publico": "Administração Pública",
        "ong": "Organizações Sem Fins Lucrativos",
        "esportes": "Esportes e Recreação",
        "cultura": "Artes e Cultura",
        "seguranca": "Segurança e Vigilância"
    }

    faixas_salariais = {
        "tecnologia": "8000-15000",
        "saude": "6000-12000",
        "educacao": "3000-7000",
        "financas": "7000-14000",
        "varejo": "2000-5000",
        "manufatura": "3000-8000",
        "construcao": "3000-9000",
        "agricultura": "2500-6000",
        "logistica": "3000-7000",
        "telecom": "5000-10000",
        "energia": "6000-12000",
        "midia": "4000-9000",
        "turismo": "2500-6000",
        "juridico": "7000-15000",
        "rh": "4000-9000",
        "marketing": "4000-10000",
        "pesquisa": "6000-12000",
        "farmaceutica": "5000-11000",
        "automotivo": "4000-9000",
        "alimentos": "3000-7000",
        "consultoria": "7000-14000",
        "seguros": "4000-9000",
        "imobiliario": "4000-10000",
        "mineracao": "4000-10000",
        "petroleo": "8000-15000",
        "ambiental": "4000-8000",
        "aeroespacial": "8000-15000",
        "biotecnologia": "7000-13000",
        "comercio_exterior": "5000-10000",
        "servicos_financeiros": "6000-12000",
        "setor_publico": "4000-9000",
        "ong": "3000-6000",
        "esportes": "2500-6000",
        "cultura": "2500-6000",
        "seguranca": "2000-5000"
    }

    def industria(self) -> str:
        return random.choice(list(self.setores.values()))

    def range_salarial(self, setor: str = None) -> str:
        if setor:
            setor_chave = next((k for k, v in self.setores.items() if v == setor), None)
            if setor_chave and setor_chave in self.faixas_salariais:
                return self.faixas_salariais[setor_chave]
        return random.choice(list(self.faixas_salariais.values()))

fake.add_provider(industriaProvider)


In [108]:
mean_return = 0.24
std_dev = 0.10

synthetic_data = np.random.normal(loc=mean_return, scale=std_dev, size=1000)
cleaned_data = winsorize(synthetic_data, limits=[0.01, 0.01])

# Adding varying volatility
crisis_periods = np.random.choice([0.10, 0.30], size=1000, p=[0.9, 0.1])
synthetic_data = np.random.normal(loc=mean_return, scale=crisis_periods)

print(synthetic_data)

In [109]:
def create_rows(num=1):
    output = [{"name":fake.name(),
                "Endereço":fake.address(),
                "Nome":fake.name(),
                "CPF":fake.cpf(),
                "Setor de Trabalho":(setor := fake.industria()),
                "Faixa Salarial":fake.range_salarial(setor),
                "Nascimento":fake.date_of_birth(minimum_age=18, maximum_age=65).strftime('%d/%m/%Y'),
                "Placa":fake.license_plate(),
                "RENAVAM":fake.vin(),
                "randomdata":random.randint(1000,2000)} for x in range(num)]
    return output

In [110]:
create_rows(10)

[{'name': 'Mathias Pires',
  'Endereço': 'Favela Camargo, 284\nPindorama\n82137129 Borges / PB',
  'Nome': 'André Monteiro',
  'CPF': '216.395.748-91',
  'Setor de Trabalho': 'Agricultura',
  'Faixa Salarial': '2500-6000',
  'Nascimento': '23/04/1969',
  'Placa': 'VVH-9V22',
  'RENAVAM': 'L2TCZA5J9JHJE2GN1',
  'randomdata': 1004},
 {'name': 'Dr. Enzo Aparecida',
  'Endereço': 'Rodovia Mendonça, 567\nVila São Dimas\n20773470 Vasconcelos Alegre / PE',
  'Nome': 'Olívia Montenegro',
  'CPF': '048.975.316-75',
  'Setor de Trabalho': 'Construção Civil',
  'Faixa Salarial': '3000-9000',
  'Nascimento': '22/12/2000',
  'Placa': 'QJQ-5I79',
  'RENAVAM': '87VF8J320KUUC5NX0',
  'randomdata': 1158},
 {'name': 'Srta. Luara Lima',
  'Endereço': 'Alameda de Cavalcante\nNazare\n79811726 Silveira / AC',
  'Nome': 'Marina da Conceição',
  'CPF': '275.389.640-29',
  'Setor de Trabalho': 'Transporte e Logística',
  'Faixa Salarial': '3000-7000',
  'Nascimento': '20/08/1975',
  'Placa': 'KHS-8C26',
  'REN