In [15]:
import pandas as pd
import numpy as np
import missingno as msno
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [26]:
def gerar_dataframe(qtd=100_000, seed=42):
    np.random.seed(seed)

    # Gerar IDs únicos
    #np.random.seed(seed)
    id_funcionario = np.arange(1, qtd + 1)
    idade = np.random.randint(18, 60, size=qtd)

    # Definir probabilidades para Gênero
    prob_masculino = 0.45
    prob_feminino = 0.35
    prob_nao_informar_genero = 0.20
    genero_choices = ['Masculino', 'Feminino', 'Prefiro não informar']
    genero_probs = [prob_masculino, prob_feminino, prob_nao_informar_genero]

    # Gerar coluna Gênero
    genero = np.random.choice(genero_choices, size=qtd, p=genero_probs)

    estado_civil = np.random.choice(['Solteiro(a)', 'Casado(a)', 'Divorciado(a)', 'Prefiro não informar'], size=qtd)
    escolaridade = np.random.choice(['Ensino Médio', 'Graduação', 'Pós', 'Mestrado', 'Doutorado', 'Prefiro não informar'], size=qtd)
    cor_raca = np.random.choice(['Branca', 'Preta', 'Parda', 'Amarela', 'Indígena', 'Prefiro não informar'], size=qtd)
    pcd = np.random.choice(['Sim', 'Não'], size=qtd, p=[0.05, 0.95])
    estado_uf = np.random.choice(['SP', 'RJ', 'MG', 'BA', 'RS', 'CE', 'DF', 'PE', 'AM','MT','PR','AL','SC', ' ','Não informado'], size=qtd)

    # Profissionais
    area_formacao = np.random.choice(['Cientista de Dados/Data Scientist', 'Desenvolvedor', 'Engenharia de Software', 'Marketing',
                                      'RH','Product Manager/ Product Owner (PM/APM/DPM/GPM/PO)','Analista de Dados/Data Analyst',
                                      'Administrativo', 'Financeiro', 'Vendas', 'Pesquisa e Desenvolvimento',
                                      'Engenharia de Dados/Data Engineer', 'UX/UI', 'Suporte Técnico',
                                      'Prefiro não informar'], size=qtd)

    departamento = np.random.choice(['Vendas', 'RH', 'TI', 'Pesquisa', 'Negorcio'], size=qtd)
    cargo = np.random.choice(['Especialista','Gestor?','Cargo como Gestor?','Tempo de experiencia na área','Gerente', 'Senior', 'Pleno', 'Junior', 'Estagiário','Prefiro não informar'], size=qtd)
    envolvimento_no_trabalho = np.random.randint(1, 5, size=qtd)
    anos_na_empresa = np.random.randint(0, 41, size=qtd)

    # Compensação
    salario_mensal = np.random.randint(1500, 25000, size=qtd)
    faixa_salarial = pd.cut(salario_mensal, bins=[0, 3000, 7000, 12000, 18000, np.inf],
                            labels=['Muito baixa', 'Baixa', 'Média', 'Alta', 'Muito alta'])
    aumento_salarial = np.random.randint(0, 30, size=qtd)
    nivel_opcao_acao = np.random.randint(0, 4, size=qtd)

    # Satisfação
    satisfacao_trabalho = np.random.randint(1, 6, size=qtd)
    satisfacao_ambiente = np.random.randint(1, 6, size=qtd)
    satisfacao_relacionamento = np.random.randint(1, 6, size=qtd)

    # Estilo de vida
    hora_extra = np.random.choice(['Sim', 'Não'], size=qtd, p=[0.3, 0.7])
    equilibrio_vida_trabalho = np.random.randint(1, 5, size=qtd)
    viagem_negocios = np.random.choice(['Nunca', 'Raramente', 'Frequentemente'], size=qtd)
    distancia_casa = np.random.randint(1, 50, size=qtd)

    # Desempenho
    avaliacao_desempenho = np.random.choice([3, 4], size=qtd, p=[0.9, 0.1])
    treinamentos_ano = np.random.randint(0, 6, size=qtd)

    # Mudança de empreg?
    pretende_mudar = np.random.choice(['Sim', 'Não', 'Prefiro não informar'], size=qtd, p=[0.3, 0.6, 0.1])
    motivo_mudanca = np.random.choice([
        'Salário', 'Home Office', 'Ambiente de trabalho',
        'Desenvolvimento profissional', 'Mudança de cidade', 'Não responder'], size=qtd)

    # Target: Saiu da empresa (desbalanceado)
    saiu_da_empresa = np.random.choice(['Sim', 'Não'], size=qtd, p=[0.16, 0.84])
    saiu_da_empresa = pd.Categorical(saiu_da_empresa, categories=['Sim', 'Não'], ordered=True)

    # Criar DataFrame
    df = pd.DataFrame({
        'ID Funcionario': id_funcionario,
        'Idade': idade,
        'Gênero': genero,
        'Estado Civil': estado_civil,
        'Escolaridade': escolaridade,
        'Cor/Raça': cor_raca,
        'PCD': pcd,
        'Estado/UF': estado_uf,
        'Área de Formação': area_formacao,
        'Departamento': departamento,
        'Cargo': cargo,
        'Envolvimento no Trabalho': envolvimento_no_trabalho,
        'Anos na Empresa': anos_na_empresa,
        'Salário Mensal': salario_mensal,
        'Faixa Salarial': faixa_salarial,
        'Aumento Salarial (%)': aumento_salarial,
        'Nível de Opção de Ação': nivel_opcao_acao,
        'Satisfação no Trabalho': satisfacao_trabalho,
        'Satisfação com o Ambiente de Trabalho': satisfacao_ambiente,
        'Satisfação com Relacionamento no Trabalho': satisfacao_relacionamento,
        'Hora Extra': hora_extra,
        'Equilíbrio Vida-Trabalho': equilibrio_vida_trabalho,
        'Viagem a Negócios': viagem_negocios,
        'Distância Casa (km)': distancia_casa,
        'Avaliação de Desempenho (1-5)': avaliacao_desempenho,
        'Treinamentos por Ano': treinamentos_ano,
        'Pretende Mudar de Emprego?': pretende_mudar,
        'Motivo da Mudança de Emprego': motivo_mudanca,
        'Saiu da Empresa?': saiu_da_empresa
    })

     # === Adicionar "sujeira" para simular dados reais ===

    # Inserir valores nulos
    for col in ['SalárioMensal', 'ÁreaFormação', 'SatisfaçãoTrabalho', 'AnosNaEmpresa']:
        n_nan = int(qtd * 0.05)
        nan_indices = np.random.choice(df.index, n_nan, replace=False)
        df.loc[nan_indices, col] = np.nan

    # Inserir valores negativos
    for col in ['Salário Mensal', 'Anos na Empresa', 'Idade', 'Envolvimento no Trabalho', 'Aumento Salarial (%)', 'Nível de Opção de Ação', 'Satisfação no Trabalho', 'Satisfação com o Ambiente de Trabalho', 'Satisfação com Relacionamento no Trabalho', 'Equilíbrio Vida-Trabalho', 'Distância Casa (km)', 'Avaliação de Desempenho (1-5)', 'Treinamentos por Ano']:
        n_neg = int(qtd * 0.01)
        neg_indices = np.random.choice(df.index, n_neg, replace=False)
        if col in ['Salário Mensal', 'Anos na Empresa', 'Idade', 'Envolvimento no Trabalho', 'Aumento Salarial (%)', 'Nível de Opção de Ação', 'Satisfação no Trabalho', 'Satisfação com o Ambiente de Trabalho', 'Satisfação com Relacionamento no Trabalho', 'Equilíbrio Vida-Trabalho', 'Distância Casa (km)', 'Avaliação de Desempenho (1-5)', 'Treinamentos por Ano']: # Check if column is numeric before inserting negative values
        
             df.loc[neg_indices, col] = df.loc[neg_indices, col] * -1

    # Adicionar erros de digitação ou variações
    variations_area = {
        'Desenvolvedor': ['Desenvolvedor ', 'Dev', 'desenvolvedor'],
        'Cientista de Dados/Data Scientist': ['Cientista de Dados', 'Data Scientist', 'DS']
    }

    for original_value, new_values in variations_area.items():
        indices = df[df['Área de Formação'] == original_value].sample(frac=0.1, replace=False, random_state=seed).index
        if not indices.empty:
            df.loc[indices, 'Área de Formação'] = np.random.choice(new_values, size=len(indices))

    invalid_uf_indices = df.sample(frac=0.005, replace=False, random_state=seed).index
    if not invalid_uf_indices.empty:
        df.loc[invalid_uf_indices, 'Estado/UF'] = 'XX'

    # Adicionar Outliers em Colunas Numéricas
    outlier_indices_high_salary = df.sample(frac=0.001, replace=False, random_state=seed).index
    if not outlier_indices_high_salary.empty:
        df.loc[outlier_indices_high_salary, 'Salário Mensal'] = np.random.randint(50000, 100000, size=len(outlier_indices_high_salary))

    # Inserir alguns valores muito altos para AnosNaEmpresa (mais do que a idade)
    young_employees = df[df['Idade'] < 30]
    if not young_employees.empty:
        outlier_indices_years_company = young_employees.sample(frac=0.001, replace=False, random_state=seed).index
        if not outlier_indices_years_company.empty:
             df.loc[outlier_indices_years_company, 'Anos na Empresa'] = df.loc[outlier_indices_years_company, 'Idade'] + np.random.randint(5, 15, size=len(outlier_indices_years_company))


    # Fazer com que 'TempoCargo' seja maior que 'AnosNaEmpresa' para alguns registros
    inconsistent_time_indices = df.sample(frac=0.005, replace=False, random_state=seed).index
    if not inconsistent_time_indices.empty:
        valid_indices = inconsistent_time_indices[df.loc[inconsistent_time_indices, 'Anos na Empresa'].notna() & (df.loc[inconsistent_time_indices, 'Anos na Empresa'] >= 0)]
        if not valid_indices.empty:
            df.loc[valid_indices, 'Cargo'] = df.loc[valid_indices, 'Anos na Empresa'] + np.random.randint(1, 5, size=len(valid_indices))


    return df

In [27]:
df_funcionarios = gerar_dataframe(qtd=100_000, seed=42)

In [28]:
df_funcionarios.head(5)

Unnamed: 0,ID Funcionario,Idade,Gênero,Estado Civil,Escolaridade,Cor/Raça,PCD,Estado/UF,Área de Formação,Departamento,...,Distância Casa (km),Avaliação de Desempenho (1-5),Treinamentos por Ano,Pretende Mudar de Emprego?,Motivo da Mudança de Emprego,Saiu da Empresa?,SalárioMensal,ÁreaFormação,SatisfaçãoTrabalho,AnosNaEmpresa
0,1,56,Masculino,Solteiro(a),Mestrado,Parda,Não,AL,Engenharia de Dados/Data Engineer,Vendas,...,21,3,5,Não,Não responder,Não,,,,
1,2,46,Prefiro não informar,Solteiro(a),Doutorado,Indígena,Não,DF,Pesquisa e Desenvolvimento,Negorcio,...,39,3,1,Não,Desenvolvimento profissional,Não,,,,
2,3,32,Masculino,Casado(a),Mestrado,Indígena,Não,BA,Analista de Dados/Data Analyst,Negorcio,...,29,3,3,Não,Salário,Não,,,,
3,4,25,Masculino,Solteiro(a),Ensino Médio,Branca,Não,CE,Marketing,TI,...,11,3,5,Não,Salário,Não,,,,
4,5,38,Masculino,Prefiro não informar,Prefiro não informar,Preta,Não,RS,Prefiro não informar,RH,...,17,3,0,Prefiro não informar,Desenvolvimento profissional,Não,,,,


In [29]:
display(df_funcionarios.columns)

Index(['ID Funcionario', 'Idade', 'Gênero', 'Estado Civil', 'Escolaridade',
       'Cor/Raça', 'PCD', 'Estado/UF', 'Área de Formação', 'Departamento',
       'Cargo', 'Envolvimento no Trabalho', 'Anos na Empresa',
       'Salário Mensal', 'Faixa Salarial', 'Aumento Salarial (%)',
       'Nível de Opção de Ação', 'Satisfação no Trabalho',
       'Satisfação com o Ambiente de Trabalho',
       'Satisfação com Relacionamento no Trabalho', 'Hora Extra',
       'Equilíbrio Vida-Trabalho', 'Viagem a Negócios', 'Distância Casa (km)',
       'Avaliação de Desempenho (1-5)', 'Treinamentos por Ano',
       'Pretende Mudar de Emprego?', 'Motivo da Mudança de Emprego',
       'Saiu da Empresa?', 'SalárioMensal', 'ÁreaFormação',
       'SatisfaçãoTrabalho', 'AnosNaEmpresa'],
      dtype='object')