## Criando as planilhas

Bem, pensando no problema, a empresa fictícia está tendo dificuldades em gerir os dados das planilhas do RH, então é preciso prepara-las para importar no sistema novo. Vou começar criando as planilhas com os dados gerados pelo Faker. Uma planilha que vou chamar de **"rh_main"** precisa conter as informações pessoais dos funcionários. Ela vai servir de base, com ela podemos posteriormente usar o merge e pegar uma informação necessária em outra planilha por exemplo. 

#### Criando rh_main

Preparei o arquivo previamente no Excel com esse cabeçalho:

![rh_main cabeçalho](imagens/rh_main_exemplo.JPG)

Vamos verificar todas as colunas e em seguida preencher com o Faker. Algumas colunas por serem mais específicas não vou utilizar o faker. Para esses casos vamos criar uma lista com alguns valores e usar o **random.choice** para selecionar.

> NOTA: É importante lembrar que o FAKER vai gerar dados que não fazem o menor sentido, como um funcionário que foi contratado antes de nascer. Mas isso não será um problema porque não é o foco do trabalho.

In [1]:
'''Importando todos os pacotes'''
import pandas as pd
import numpy as np
import random
from faker import Faker

# Verificando todas as colunas da rh_main
df = pd.read_excel('planilhas\\rh_main.xlsx')

print(df.columns)

Index(['Setor', 'Nome Funcionário', 'Nome Cargo', 'Dt. Admissão', 'Situação',
       'Dt. Demissão', 'Salário', 'Adcional', 'Vinc.Empreg.', 'Gestor',
       'Dt. Nascimento', 'Trabalho', 'Sexo', 'Est. Civil', 'CPF', 'RG',
       'UF-RG', 'Dt.Emiss.RG', 'Endereço', 'Celular', 'E-Mail',
       'Nacionalidade', 'Pai', 'Mãe', 'Grau de Instrução'],
      dtype='object')


In [2]:
# Atribuindo o faker a uma variável
fake = Faker('pt_BR') # A string 'pt_BR' faz o faker retornar dados em português

# Criando uma lista vazia para preencher as colunas do dataframe
nome_funcionario = []
data_nascimento = []
dt_admissao = []
valores_real = []
doc_9 = []
doc_8 = []
celular = []
cargo = []
endereco = []
email = []
pai = []
mae = []

# Utilizando o loop for para criar mais de uma entrada com o Faker
for _ in range(280):
    nome_funcionario.append(fake.name())
    dt_admissao.append(fake.date())
    valores_real.append(fake.random_number(digits=4, fix_len=True))
    doc_9.append(fake.random_number(digits=9, fix_len=True))
    doc_8.append(fake.random_number(digits=8, fix_len=True))
    celular.append(fake.phone_number())
    cargo.append(fake.job())
    email.append(fake.email())
    data_nascimento.append(fake.date())
    endereco.append(fake.address())
    pai.append(fake.name_male())
    mae.append(fake.name_female())

# Agora preenchedo as colunas com as listas geradas
df['Nome Funcionário'] = nome_funcionario
df['Dt. Admissão'] = dt_admissao
df['Nome Cargo'] = cargo
df['Salário'] = valores_real
df['E-Mail'] = email
df['Dt. Nascimento'] = data_nascimento
df['CPF'] = doc_9
df['RG'] = doc_8
df['Dt.Emiss.RG'] = data_nascimento
df['Endereço'] = endereco
df['Celular'] = celular
df['Pai'] = pai
df['Mãe'] = mae 
df['Situação'] = 'Ativo'
df['Nacionalidade'] = 'Brasileiro(a)'

# Agora vamos ver o resultado da planilha do RH
df.head(5)

Unnamed: 0,Setor,Nome Funcionário,Nome Cargo,Dt. Admissão,Situação,Dt. Demissão,Salário,Adcional,Vinc.Empreg.,Gestor,...,RG,UF-RG,Dt.Emiss.RG,Endereço,Celular,E-Mail,Nacionalidade,Pai,Mãe,Grau de Instrução
0,RH,Thomas Monteiro,Profissional de áudio,1979-06-05,Ativo,,7347,,PJ,Lorena Novaes,...,89117164,RJ,1977-02-13,"Área da Cruz, 55\nVila Aeroporto Jaraguá\n6135...",0800 267 6321,heloisasilva@example.com,Brasileiro(a),Levi Duarte,Luana Nunes,Fundamental
1,TI,Eloah Viana,Juiz de futebol,1986-11-16,Ativo,,9664,,CLT,Nicolas Rocha,...,55923800,RJ,2006-10-26,"Trevo de Freitas, 51\nBarão Homem De Melo 2ª S...",+55 (031) 8140 3012,ribeiroisis@example.org,Brasileiro(a),Alexandre Monteiro,Emanuelly Cardoso,Médio
2,Marketing,Laís Nunes,Profissional de reciclagem,2004-10-07,Ativo,,4722,,CLT,Pietra da Paz,...,89546796,RJ,2001-12-28,Distrito Emanuel Silveira\nBoa União 1ª Seção\...,+55 (051) 0923 4512,luana63@example.net,Brasileiro(a),Ryan Duarte,Cecília Silva,Superior
3,Vendas,Vitor Lima,Clarinetista,1982-10-14,Ativo,,7840,,PJ,Rafael Sales,...,39264366,RJ,2002-07-31,"Avenida de da Mota, 17\nEsplanada\n85508573 da...",(084) 0020 8479,luna23@example.net,Brasileiro(a),Davi Lucas Ribeiro,Ana Sophia Novaes,Superior
4,Marketing,Ana Laura Gonçalves,Radioterapêutico,1972-12-27,Ativo,,4009,,PJ,Sophia Cunha,...,74944895,RJ,2003-12-21,"Lagoa Barros, 916\nSenhor Dos Passos\n84140162...",+55 (061) 0062-5734,ana-vitoria81@example.net,Brasileiro(a),Davi Lucca Lopes,Isadora Farias,Superior


In [3]:
# Agora com a maioria das planilhas preenchidas vamos usar o random para terminar de fazer o serviço.
# Cada lista vai servir para uma coluna no DF.
setores = ['Marketing', 'TI', 'RH', 'Vendas', 'Administrativo']
vinc_emp = ['CLT', 'PJ']
sexo = ['Masculino', 'Feminino', 'Outro']
est_civil = ['Casado(a)', 'Solteiro(a)', 'Divorciado(a)', 'Viúvo(a)']
formacao = ['Fundamental','Médio', 'Superior']
rg_uf = ['MG', 'SP', 'BA', 'RJ']

# Usando o método choices do random, é possível preencher a coluna, so informar a lista com os valores e o tamanho.
df['Setor'] = random.choices(setores, k=280)
df['Vinc.Empreg.'] = random.choices(vinc_emp, k=280)
df['Sexo'] = random.choices(sexo, k=280)
df['Est. Civil'] = random.choices(est_civil, k=280)
df['Grau de Instrução'] = random.choices(formacao, k=280)
df['UF-RG'] = random.choices(rg_uf, k=280)

# Para preencher a coluna de gestor, vamos escolher aleatoriamente um funcionário 
df['Gestor'] = random.choices(df['Nome Funcionário'], k=280)

# df.to_excel('rh_main.xlsx', index=False) 

# Agora vamos ver o resultado da planilha do RH
pd.set_option('display.max_columns', 30) # Exibe todas as colunas
df.head(5) # Mostra as 5 primeiras linhas

Unnamed: 0,Setor,Nome Funcionário,Nome Cargo,Dt. Admissão,Situação,Dt. Demissão,Salário,Adcional,Vinc.Empreg.,Gestor,Dt. Nascimento,Trabalho,Sexo,Est. Civil,CPF,RG,UF-RG,Dt.Emiss.RG,Endereço,Celular,E-Mail,Nacionalidade,Pai,Mãe,Grau de Instrução
0,Marketing,Thomas Monteiro,Profissional de áudio,1979-06-05,Ativo,,7347,,PJ,Vitor Hugo Moraes,1977-02-13,,Outro,Solteiro(a),697171510,89117164,MG,1977-02-13,"Área da Cruz, 55\nVila Aeroporto Jaraguá\n6135...",0800 267 6321,heloisasilva@example.com,Brasileiro(a),Levi Duarte,Luana Nunes,Superior
1,RH,Eloah Viana,Juiz de futebol,1986-11-16,Ativo,,9664,,CLT,Diego Novaes,2006-10-26,,Outro,Solteiro(a),522347719,55923800,MG,2006-10-26,"Trevo de Freitas, 51\nBarão Homem De Melo 2ª S...",+55 (031) 8140 3012,ribeiroisis@example.org,Brasileiro(a),Alexandre Monteiro,Emanuelly Cardoso,Fundamental
2,Administrativo,Laís Nunes,Profissional de reciclagem,2004-10-07,Ativo,,4722,,CLT,Rafael da Mata,2001-12-28,,Outro,Casado(a),639766621,89546796,SP,2001-12-28,Distrito Emanuel Silveira\nBoa União 1ª Seção\...,+55 (051) 0923 4512,luana63@example.net,Brasileiro(a),Ryan Duarte,Cecília Silva,Médio
3,RH,Vitor Lima,Clarinetista,1982-10-14,Ativo,,7840,,CLT,Marcos Vinicius Freitas,2002-07-31,,Feminino,Viúvo(a),939194035,39264366,RJ,2002-07-31,"Avenida de da Mota, 17\nEsplanada\n85508573 da...",(084) 0020 8479,luna23@example.net,Brasileiro(a),Davi Lucas Ribeiro,Ana Sophia Novaes,Superior
4,Vendas,Ana Laura Gonçalves,Radioterapêutico,1972-12-27,Ativo,,4009,,CLT,Emanuella Alves,2003-12-21,,Masculino,Divorciado(a),679265154,74944895,MG,2003-12-21,"Lagoa Barros, 916\nSenhor Dos Passos\n84140162...",+55 (061) 0062-5734,ana-vitoria81@example.net,Brasileiro(a),Davi Lucca Lopes,Isadora Farias,Superior


### Criando a planilha 'cargos'

Agora que temos a planilha principal do RH com todos os dados é possível criar as demais. No página do GitHub do projeto você encontra todas. A próxima planilha é a de cargos, aqui mostra todos os cargos da empresa e qual setor esse cargo atua e um informação extra é em qual filial da empresa esse cargo está atrelado.  

In [4]:
# Aqui vamos usar muito da planilha ja produzida. 
df_cargos = pd.DataFrame({
    'Filial': df['UF-RG'],
    'Setor': df['Setor'],
    'COD-CARGO': random.choices(df['Salário'], k=280), # Aproveitando a planilha com os salários
    'Nome Cargo': df['Nome Cargo']
})

# Salvando a planilha nova
# df_cargos.to_excel('cargos.xlsx', index=False)

df_cargos.head(5)

Unnamed: 0,Filial,Setor,COD-CARGO,Nome Cargo
0,MG,Marketing,1735,Profissional de áudio
1,MG,RH,7709,Juiz de futebol
2,SP,Administrativo,7730,Profissional de reciclagem
3,RJ,RH,6085,Clarinetista
4,MG,Vendas,9842,Radioterapêutico


### Criando a planilha raca_cor_dependentes

Outra planilha que pode fazer parte do processo e suas informações não estão presentes na planilha principal. Se o funcionário possui dependentes e a declaração de raça e cor. Aqui vamos usar alguns dados da planilha principal e criar novos.

In [5]:
# Preenchendo as colunas com os seguintes valores aleatorios
raca_cor = ['Preto(a)', 'Pardo(a)', 'Branco(a)', 'Indígena']
parentesco = ['Filho(a) menos de 21 anos', 'Filho(a) mais de 21 anos', 'Casado(a)']

# Gerando os nomes, datas de aniversario e cps dos dependentes
def fake_dados(nome_lista,data_lista,cpf_lista,tamanho):
    '''
    Cria dados fake para os dependentes,
    de acordo com o tamanho da lista desejada.
    '''
    for i in range(tamanho):
        nome_lista.append(fake.name())
        data_lista.append(fake.date())
        cpf_lista.append(fake.random_number(digits=8, fix_len=True))


# Criando as listas e aplicando a função 
nome1 = []
data1 = []
cpf1 = []
fake_dados(nome1,data1,cpf1,163)

nome2 = []
data2 = []
cpf2 = []
fake_dados(nome2,data2,cpf2,78)

nome3 = []
data3 = []
cpf3 = []
fake_dados(nome3,data3,cpf3,20)


# Criando a nova planilha com os dados da rh_main
raca_cor_dependentes = pd.DataFrame({
    'Nome Funcionário': df['Nome Funcionário'],
    'Raça/Cor': random.choices(raca_cor, k=280),
    'Nome Dependente 1': pd.Series(random.choices(nome1, k=163)),
    'Nascimento Dependente 1': pd.Series(random.choices(data1, k=163)),
    'CPF Dependente 1': pd.Series(random.choices(cpf1, k=163)),
    'Parentesco Dependente 1':  pd.Series(random.choices(parentesco, k=163)),
    'Nome Dependente 2': pd.Series(random.choices(nome2, k=78)),
    'Nascimento Dependente 2': pd.Series(random.choices(data2, k=78)),
    'CPF Dependente 2': pd.Series(random.choices(cpf2, k=78)),
    'Parentesco Dependente 2': pd.Series(random.choices(parentesco, k=78)),
    'Nome Dependente 3': pd.Series(random.choices(nome3, k=20)),
    'Nascimento Dependente 3': pd.Series(random.choices(data3, k=20)),
    'CPF Dependente 3': pd.Series(random.choices(cpf3, k=20)),
    'Parentesco Dependente 3': pd.Series(random.choices(parentesco, k=20)),
})

# Salvando a planilha nova
# raca_cor_dependentes.to_excel('raca_cor_dependentes.xlsx', index=False)

# Exibindo o resultado
raca_cor_dependentes.head(5)

Unnamed: 0,Nome Funcionário,Raça/Cor,Nome Dependente 1,Nascimento Dependente 1,CPF Dependente 1,Parentesco Dependente 1,Nome Dependente 2,Nascimento Dependente 2,CPF Dependente 2,Parentesco Dependente 2,Nome Dependente 3,Nascimento Dependente 3,CPF Dependente 3,Parentesco Dependente 3
0,Thomas Monteiro,Indígena,Lorena Costa,1987-08-02,10423285.0,Filho(a) menos de 21 anos,Mariane Dias,1996-09-05,64866707.0,Casado(a),Ana Carolina da Rosa,1979-08-26,26176186.0,Filho(a) menos de 21 anos
1,Eloah Viana,Indígena,Laura Costa,1977-07-13,22871663.0,Filho(a) menos de 21 anos,Srta. Sabrina Castro,2004-03-31,71586410.0,Filho(a) menos de 21 anos,Ana Laura Gonçalves,2008-04-25,50196877.0,Filho(a) mais de 21 anos
2,Laís Nunes,Pardo(a),Augusto Peixoto,1988-09-05,32894569.0,Filho(a) mais de 21 anos,Dr. Davi Lucas Pereira,2000-01-04,15661104.0,Casado(a),Isadora Lopes,2021-02-08,36386559.0,Casado(a)
3,Vitor Lima,Preto(a),Melissa Santos,1971-01-17,67283177.0,Casado(a),Marcelo Fogaça,2003-07-09,63380804.0,Casado(a),Lucca Souza,2016-01-25,10750543.0,Filho(a) mais de 21 anos
4,Ana Laura Gonçalves,Indígena,Marcos Vinicius Lopes,1992-06-14,59398720.0,Casado(a),Maria Julia Viana,2022-06-14,62594356.0,Filho(a) mais de 21 anos,Isadora Lopes,2011-02-07,38821279.0,Casado(a)


### Histórico dos Funcionários

Por fim as últimas planilhas são referentes ao histórico do funcionário e a férias. Exemplo se um funcionário teve o salário atualizado, ou se ele mudou de cargo dentro da empresa, todas as informações estão presentes em uma outra planilha. Assim também ocorre com as planilhas de férias, onde devem mostrar o período e os dias tirados. 

Essas duas planilhas vão ser populadas diretamente no excel. Elas vão possuir uma outra formatação, afim de aumentar o grau de dificuldade ao importa-las para o pandas. Como mencionado assim, todas as planilhas geradas aqui e também essas duas novas, vão estar no GitHub do projeto.

Vou mostrar um exemplo de como essas planilhas são. 

##### Histórico dos Empregados
![historico_empregado](imagens/historico_empregados.JPG)


##### Férias dos Empregados
![historico_ferias](imagens/historico_ferias.JPG)