## Criando as planilhas

Bem, pensando no problema, a empresa fictícia está tendo dificuldades em gerir os dados das planilhas do RH, então é preciso prepara-las para importar no sistema novo. Vou começar criando as planilhas com os dados gerados pelo Faker. Uma planilha que vou chamar de **"rh_main"** precisa conter as informações pessoais dos funcionários. Ela vai servir de base, com ela podemos posteriormente usar o merge e pegar uma informação necessária em outra planilha por exemplo. 

#### Criando rh_main

Preparei o arquivo previamente no Excel com esse cabeçalho:

![rh_main cabeçalho](rh_main_exemplo.JPG)

Vamos verificar todas as colunas e em seguida preencher com o Faker. Algumas colunas por serem mais específicas não vou utilizar o faker. Para esses casos vamos criar uma lista com alguns valores e usar o **random.choice** para selecionar.

> NOTA: É importante lembrar que o FAKER vai gerar dados que não fazem o menor sentido, como um funcionário que foi contratado antes de nascer. Mas isso não será um problema porque não é o foco do trabalho.

In [11]:
'''Importando todos os pacotes'''
import pandas as pd
import numpy as np
import random
from faker import Faker

# Verificando todas as colunas da rh_main
df = pd.read_excel('rh_main.xlsx')

print(df.columns)

Index(['Setor', 'Nome Funcionário', 'Nome Cargo', 'Dt. Admissão', 'Situação',
       'Dt. Demissão', 'Salário', 'Adcional', 'Vinc.Empreg.', 'Gestor',
       'Dt. Nascimento', 'Trabalho', 'Sexo', 'Est. Civil', 'CPF', 'RG',
       'UF-RG', 'Dt.Emiss.RG', 'Endereço', 'Celular', 'E-Mail',
       'Nacionalidade', 'Pai', 'Mãe', 'Grau de Instrução'],
      dtype='object')


In [2]:
# Atribuindo o faker a uma variável
fake = Faker('pt_BR') # A string 'pt_BR' faz o faker retornar dados em português

# Criando uma lista vazia para preencher as colunas do dataframe
nome_funcionario = []
data_nascimento = []
dt_admissao = []
valores_real = []
doc_9 = []
doc_8 = []
celular = []
cargo = []
endereco = []
email = []
pai = []
mae = []

# Utilizando o loop for para criar mais de uma entrada com o Faker
for _ in range(280):
    nome_funcionario.append(fake.name())
    dt_admissao.append(fake.date())
    valores_real.append(fake.random_number(digits=4, fix_len=True))
    doc_9.append(fake.random_number(digits=9, fix_len=True))
    doc_8.append(fake.random_number(digits=8, fix_len=True))
    celular.append(fake.phone_number())
    cargo.append(fake.job())
    email.append(fake.email())
    data_nascimento.append(fake.date())
    endereco.append(fake.address())
    pai.append(fake.name_male())
    mae.append(fake.name_female())

# Agora preenchedo as colunas com as listas geradas
df['Nome Funcionário'] = nome_funcionario
df['Dt. Admissão'] = dt_admissao
df['Nome Cargo'] = cargo
df['Salário'] = valores_real
df['E-Mail'] = email
df['Dt. Nascimento'] = data_nascimento
df['CPF'] = doc_9
df['RG'] = doc_8
df['Dt.Emiss.RG'] = data_nascimento
df['Endereço'] = endereco
df['Celular'] = celular
df['Pai'] = pai
df['Mãe'] = mae 
df['Situação'] = 'Ativo'
df['Nacionalidade'] = 'Brasileiro(a)'

# Agora vamos ver o resultado da planilha do RH
df.head(5)

Unnamed: 0,Setor,Nome Funcionário,Nome Cargo,Dt. Admissão,Situação,Dt. Demissão,Salário,Adcional,Vinc.Empreg.,Gestor,...,RG,UF-RG,Dt.Emiss.RG,Endereço,Celular,E-Mail,Nacionalidade,Pai,Mãe,Grau de Instrução
0,Vendas,Luiza Teixeira,Papiloscopista,2000-02-28,Ativo,,3650,,PJ,Joana Gomes,...,11825598,SP,2013-05-23,"Residencial de Silveira, 845\nLagoinha\n503098...",(051) 6938 3328,rramos@example.net,Brasileiro(a),Dr. Pietro Rodrigues,Luna Almeida,Médio
1,RH,Sophie da Paz,Gerente de banco,2022-11-19,Ativo,,8331,,CLT,Cecília Moraes,...,37199199,MG,1997-09-16,Travessa Davi Pinto\nNova Suíça\n69188924 Cunh...,+55 (011) 0167 5065,rafaela74@example.com,Brasileiro(a),Thiago Silva,Srta. Olivia Campos,Médio
2,Administrativo,Leandro Oliveira,Peixeiro,2005-11-28,Ativo,,8548,,PJ,Brenda Gomes,...,51224005,SP,2016-08-11,"Vereda Ana Duarte, 9\nJardim São José\n54344-6...",(081) 5553 4365,da-mataluiz-gustavo@example.com,Brasileiro(a),Henrique Pereira,Daniela Farias,Médio
3,Marketing,Bruna Souza,Agricultor,1997-01-22,Ativo,,8953,,PJ,Thiago Correia,...,41647270,BA,1988-04-12,"Praça de Ribeiro, 64\nBarão Homem De Melo 3ª S...",(061) 5852-1413,yasmin54@example.com,Brasileiro(a),Dr. Cauê Fogaça,Sra. Maria Cavalcanti,Superior
4,RH,Srta. Vitória da Rocha,Hematologista,1985-03-12,Ativo,,3832,,PJ,Sr. Bruno Correia,...,49324340,MG,1995-09-21,"Trecho Azevedo, 728\nVila Novo São Lucas\n7424...",+55 84 6016 7615,juan13@example.org,Brasileiro(a),Cauã da Rosa,Dra. Maria Julia Santos,Superior


In [3]:
# Agora com a maioria das planilhas preenchidas vamos usar o random para terminar de fazer o serviço.
# Cada lista vai servir para uma coluna no DF.
setores = ['Marketing', 'TI', 'RH', 'Vendas', 'Administrativo']
vinc_emp = ['CLT', 'PJ']
sexo = ['Masculino', 'Feminino', 'Outro']
est_civil = ['Casado(a)', 'Solteiro(a)', 'Divorciado(a)', 'Viúvo(a)']
formacao = ['Fundamental','Médio', 'Superior']
rg_uf = ['MG', 'SP', 'BA', 'RJ']

# Usando o método choices do random, é possível preencher a coluna, so informar a lista com os valores e o tamanho.
df['Setor'] = random.choices(setores, k=280)
df['Vinc.Empreg.'] = random.choices(vinc_emp, k=280)
df['Sexo'] = random.choices(sexo, k=280)
df['Est. Civil'] = random.choices(est_civil, k=280)
df['Grau de Instrução'] = random.choices(formacao, k=280)
df['UF-RG'] = random.choices(rg_uf, k=280)

# Para preencher a coluna de gestor, vamos escolher aleatoriamente um funcionário 
df['Gestor'] = random.choices(df['Nome Funcionário'], k=280)

# df.to_excel('rh_main.xlsx', index=False) 

# Agora vamos ver o resultado da planilha do RH
pd.set_option('display.max_columns', 30) # Exibe todas as colunas
df.head(5) # Mostra as 5 primeiras linhas

Unnamed: 0,Setor,Nome Funcionário,Nome Cargo,Dt. Admissão,Situação,Dt. Demissão,Salário,Adcional,Vinc.Empreg.,Gestor,Dt. Nascimento,Trabalho,Sexo,Est. Civil,CPF,RG,UF-RG,Dt.Emiss.RG,Endereço,Celular,E-Mail,Nacionalidade,Pai,Mãe,Grau de Instrução
0,RH,Luiza Teixeira,Papiloscopista,2000-02-28,Ativo,,3650,,PJ,Lorena Novaes,2013-05-23,,Masculino,Viúvo(a),334552802,11825598,RJ,2013-05-23,"Residencial de Silveira, 845\nLagoinha\n503098...",(051) 6938 3328,rramos@example.net,Brasileiro(a),Dr. Pietro Rodrigues,Luna Almeida,Fundamental
1,TI,Sophie da Paz,Gerente de banco,2022-11-19,Ativo,,8331,,CLT,Nicolas Rocha,1997-09-16,,Outro,Solteiro(a),935593694,37199199,RJ,1997-09-16,Travessa Davi Pinto\nNova Suíça\n69188924 Cunh...,+55 (011) 0167 5065,rafaela74@example.com,Brasileiro(a),Thiago Silva,Srta. Olivia Campos,Médio
2,Marketing,Leandro Oliveira,Peixeiro,2005-11-28,Ativo,,8548,,CLT,Pietra da Paz,2016-08-11,,Masculino,Viúvo(a),235269730,51224005,RJ,2016-08-11,"Vereda Ana Duarte, 9\nJardim São José\n54344-6...",(081) 5553 4365,da-mataluiz-gustavo@example.com,Brasileiro(a),Henrique Pereira,Daniela Farias,Superior
3,Vendas,Bruna Souza,Agricultor,1997-01-22,Ativo,,8953,,PJ,Rafael Sales,1988-04-12,,Outro,Viúvo(a),455857817,41647270,RJ,1988-04-12,"Praça de Ribeiro, 64\nBarão Homem De Melo 3ª S...",(061) 5852-1413,yasmin54@example.com,Brasileiro(a),Dr. Cauê Fogaça,Sra. Maria Cavalcanti,Superior
4,Marketing,Srta. Vitória da Rocha,Hematologista,1985-03-12,Ativo,,3832,,PJ,Sophia Cunha,1995-09-21,,Outro,Viúvo(a),999942442,49324340,RJ,1995-09-21,"Trecho Azevedo, 728\nVila Novo São Lucas\n7424...",+55 84 6016 7615,juan13@example.org,Brasileiro(a),Cauã da Rosa,Dra. Maria Julia Santos,Superior


### Criando a planilha 'cargos'

Agora que temos a planilha principal do RH com todos os dados é possível criar as demais. No página do GitHub do projeto você encontra todas. A próxima planilha é a de cargos, aqui mostra todos os cargos da empresa e qual setor esse cargo atua e um informação extra é em qual filial da empresa esse cargo está atrelado.  

In [4]:
# Aqui vamos usar muito da planilha ja produzida. 
df_cargos = pd.DataFrame({
    'Filial': df['UF-RG'],
    'Setor': df['Setor'],
    'COD-CARGO': random.choices(df['Salário'], k=280), # Aproveitando a planilha com os salários
    'Nome Cargo': df['Nome Cargo']
})

# Salvando a planilha nova
# df_cargos.to_excel('cargos.xlsx', index=False)

df_cargos.head(5)

Unnamed: 0,Filial,Setor,COD-CARGO,Nome Cargo
0,RJ,RH,3819,Papiloscopista
1,RJ,TI,3140,Gerente de banco
2,RJ,Marketing,2860,Peixeiro
3,RJ,Vendas,4508,Agricultor
4,RJ,Marketing,5271,Hematologista


### Criando a planilha raca_cor_dependentes

Outra planilha que pode fazer parte do processo e suas informações não estão presentes na planilha principal. Se o funcionário possui dependentes e a declaração de raça e cor. Aqui vamos usar alguns dados da planilha principal e criar novos.

In [9]:
# Preenchendo as colunas com os seguintes valores aleatorios
raca_cor = ['Preto(a)', 'Pardo(a)', 'Branco(a)', 'Indígena']
parentesco = ['Filho(a) menos de 21 anos', 'Filho(a) mais de 21 anos', 'Casado(a)']

# Gerando os nomes, datas de aniversario e cps dos dependentes
def fake_dados(nome_lista,data_lista,cpf_lista,tamanho):
    '''
    Cria dados fake para os dependentes,
    de acordo com o tamanho da lista desejada.
    '''
    for i in range(tamanho):
        nome_lista.append(fake.name())
        data_lista.append(fake.date())
        cpf_lista.append(fake.random_number(digits=8, fix_len=True))


# Criando as listas e aplicando a função 
nome1 = []
data1 = []
cpf1 = []
fake_dados(nome1,data1,cpf1,163)

nome2 = []
data2 = []
cpf2 = []
fake_dados(nome2,data2,cpf2,78)

nome3 = []
data3 = []
cpf3 = []
fake_dados(nome3,data3,cpf3,20)


# Criando a nova planilha com os dados da rh_main
raca_cor_dependentes = pd.DataFrame({
    'Nome Funcionário': df['Nome Funcionário'],
    'Raça/Cor': random.choices(raca_cor, k=280),
    'Nome Dependente 1': pd.Series(random.choices(nome1, k=163)),
    'Nascimento Dependente 1': pd.Series(random.choices(data1, k=163)),
    'CPF Dependente 1': pd.Series(random.choices(cpf1, k=163)),
    'Parentesco Dependente 1':  pd.Series(random.choices(parentesco, k=163)),
    'Nome Dependente 2': pd.Series(random.choices(nome2, k=78)),
    'Nascimento Dependente 2': pd.Series(random.choices(data2, k=78)),
    'CPF Dependente 2': pd.Series(random.choices(cpf2, k=78)),
    'Parentesco Dependente 2': pd.Series(random.choices(parentesco, k=78)),
    'Nome Dependente 3': pd.Series(random.choices(nome3, k=20)),
    'Nascimento Dependente 3': pd.Series(random.choices(data3, k=20)),
    'CPF Dependente 3': pd.Series(random.choices(cpf3, k=20)),
    'Parentesco Dependente 3': pd.Series(random.choices(parentesco, k=20)),
})

# Salvando a planilha nova
# raca_cor_dependentes.to_excel('raca_cor_dependentes.xlsx', index=False)

# Exibindo o resultado
raca_cor_dependentes.head(5)

Unnamed: 0,Nome Funcionário,Raça/Cor,Nome Dependente 1,Nascimento Dependente 1,CPF Dependente 1,Parentesco Dependente 1,Nome Dependente 2,Nascimento Dependente 2,CPF Dependente 2,Parentesco Dependente 2,Nome Dependente 3,Nascimento Dependente 3,CPF Dependente 3,Parentesco Dependente 3
0,Luiza Teixeira,Preto(a),Julia Alves,1993-04-27,67369183.0,Casado(a),Julia Dias,2005-10-19,48192558.0,Filho(a) menos de 21 anos,Erick Santos,1991-11-11,73168484.0,Filho(a) mais de 21 anos
1,Sophie da Paz,Branco(a),Luna da Cruz,2023-01-23,61412061.0,Casado(a),Caroline Araújo,1989-03-22,30114802.0,Filho(a) mais de 21 anos,Sr. Vicente Rocha,1986-02-25,51398926.0,Filho(a) menos de 21 anos
2,Leandro Oliveira,Indígena,Laura Novaes,1981-01-17,26406311.0,Casado(a),Daniela Dias,1975-03-12,55332374.0,Casado(a),Catarina Moreira,1979-02-13,27735252.0,Casado(a)
3,Bruna Souza,Preto(a),Sr. Anthony das Neves,2004-12-24,51014395.0,Filho(a) mais de 21 anos,Giovanna Vieira,2009-05-20,46229358.0,Filho(a) menos de 21 anos,Felipe da Cruz,1991-12-09,28314073.0,Filho(a) mais de 21 anos
4,Srta. Vitória da Rocha,Pardo(a),Larissa Fogaça,1973-02-12,62239885.0,Filho(a) mais de 21 anos,Giovanna Vieira,2021-05-20,53504254.0,Casado(a),Felipe da Cruz,1991-12-09,52878863.0,Filho(a) mais de 21 anos


### Histórico dos Funcionários

Por fim as últimas planilhas são referentes ao histórico do funcionário e a férias. Exemplo se um funcionário teve o salário atualizado, ou se ele mudou de cargo dentro da empresa, todas as informações estão presentes em uma outra planilha. Assim também ocorre com as planilhas de férias, onde devem mostrar o período e os dias tirados. 

Essas duas planilhas vão ser populadas diretamente no excel. Elas vão possuir uma outra formatação, afim de aumentar o grau de dificuldade ao importa-las para o pandas. Como mencionado assim, todas as planilhas geradas aqui e também essas duas novas, vão estar no GitHub do projeto.

Vou mostrar um exemplo de como essas planilhas são. 

##### Histórico dos Empregados
![historico_empregado](historico_empregados.JPG)


##### Férias dos Empregados
![historico_ferias](historico_ferias.JPG)