In [1]:
from faker import Faker
import random
import pandas as pd


In [2]:

# Inicializando o Faker
fake = Faker('pt_BR')

# Dicionário de cargos com setores e faixas salariais apropriadas
cargos_setores_salarios = {
    'Analista de Dados': ('TI', 5000, 12000),
    'Engenheiro de Software': ('TI', 8000, 20000),
    'Gerente de Projetos': ('Operações', 10000, 25000),
    'Diretor Financeiro': ('Financeiro', 15000, 40000),
    'Analista de RH': ('Recursos Humanos', 4000, 10000),
    'Desenvolvedor Web': ('TI', 5000, 15000),
    'Cientista de Dados': ('TI', 9000, 25000),
    'Designer UX': ('Marketing', 5000, 14000),
    'Administrador de Redes': ('TI', 6000, 14000),
    'Consultor de Negócios': ('Vendas', 7000, 18000),
    'Gerente de Vendas': ('Vendas', 9000, 22000),
    'Analista Financeiro': ('Financeiro', 6000, 15000),
    'Especialista em Logística': ('Logística', 5000, 13000),
    'Pesquisador de Mercado': ('Pesquisa e Desenvolvimento', 5000, 12000),
    'Coordenador de Marketing': ('Marketing', 8000, 18000)
}

# Gerando os dados
dados = []
for i in range(1, 15987):
    sexo = random.choice(['Masculino', 'Feminino'])
    nome = fake.name_male() if sexo == 'Masculino' else fake.name_female()

    data_nascimento = fake.date_of_birth(minimum_age=18, maximum_age=65).strftime('%Y-%m-%d')
    
    # Escolhendo um cargo e obtendo setor e faixa salarial correspondentes
    cargo, (setor, salario_min, salario_max) = random.choice(list(cargos_setores_salarios.items()))
    salario = round(random.uniform(salario_min, salario_max), 2)

    id_funcionario = i  # ID sequencial
    
    dados.append([id_funcionario, nome, data_nascimento, cargo, salario, sexo, setor])

# Criando DataFrame
colunas = ['ID', 'Nome', 'Data de Nascimento', 'Cargo', 'Salário', 'Sexo', 'Setor de Atuação']
df = pd.DataFrame(dados, columns=colunas)

# Exibir algumas linhas do DataFrame
df.head()



Unnamed: 0,ID,Nome,Data de Nascimento,Cargo,Salário,Sexo,Setor de Atuação
0,1,Maria Luísa Vasconcelos,1982-09-25,Administrador de Redes,11741.42,Feminino,TI
1,2,Sr. Léo Aragão,1988-03-16,Analista de Dados,8811.35,Masculino,TI
2,3,Esther Teixeira,1992-12-03,Especialista em Logística,11473.27,Feminino,Logística
3,4,Mateus Martins,1985-11-28,Analista Financeiro,8025.21,Masculino,Financeiro
4,5,Bento Sales,1968-11-18,Coordenador de Marketing,10034.75,Masculino,Marketing


In [6]:
start_date = pd.to_datetime("2010-01-01")
end_date = pd.to_datetime("2025-12-31")
days_between = (end_date - start_date).days

df["Data_admissao"] = [start_date + pd.Timedelta(days=random.randint(0, days_between)) for _ in range(len(df))]


In [7]:
# Cria a coluna "data_demissão" inicializada com NaT (Not a Time) para todas as linhas
df["data_demissão"] = pd.NaT

# Seleciona aleatoriamente 30% dos índices do DataFrame
demission_indices = df.sample(frac=0.3, random_state=42).index

# Para cada linha selecionada, gera uma data de demissão que seja maior ou igual à Data_admissao
for idx in demission_indices:
    adm_date = df.loc[idx, "Data_admissao"]
    # Calcula o número de dias disponíveis entre a admissão e a data final (end_date)
    max_days = (end_date - adm_date).days
    # Gera um número aleatório de dias entre 0 e max_days
    random_days = random.randint(0, max_days)
    df.loc[idx, "data_demissão"] = adm_date + pd.Timedelta(days=random_days)

In [8]:
df.head()

Unnamed: 0,ID,Nome,Data de Nascimento,Cargo,Salário,Sexo,Setor de Atuação,Data_admissao,data_demissão
0,1,Maria Luísa Vasconcelos,1982-09-25,Administrador de Redes,11741.42,Feminino,TI,2025-10-10,2025-12-26
1,2,Sr. Léo Aragão,1988-03-16,Analista de Dados,8811.35,Masculino,TI,2016-12-21,NaT
2,3,Esther Teixeira,1992-12-03,Especialista em Logística,11473.27,Feminino,Logística,2015-11-14,NaT
3,4,Mateus Martins,1985-11-28,Analista Financeiro,8025.21,Masculino,Financeiro,2023-07-17,2024-05-30
4,5,Bento Sales,1968-11-18,Coordenador de Marketing,10034.75,Masculino,Marketing,2018-10-03,NaT
