## Criando as planilhas

Bem, pensando no problema, a empresa fictícia está tendo dificuldades em gerir os dados das planilhas do RH, então é preciso prepara-las para importar no sistema novo. Vou começar criando as planilhas com os dados gerados pelo Faker. Uma planilha que vou chamar de **"rh_main"** precisa conter as informações pessoais dos funcionários. Ela vai servir de base, com ela posso posteriormente usar o merge e pegar uma informação necessária em outra planilha por exemplo. 

#### Criando rh_main

Também seria possível criar as colunas usando o método do pandas: pd.Dataframe (Muito utilizano no projeto)

Mas, preparei o arquivo previamente no Excel com esse cabeçalho:

![rh_main cabeçalho](imagens/rh_main_exemplo.JPG)

Vou verificar todas as colunas e em seguida preencher com o Faker. Algumas colunas por serem mais específicas não vou utilizar essa biblioteca. Para esses casos vamos criar uma lista com alguns valores e usar o **random.choice** para selecionar.

> NOTA: É importante lembrar que o FAKER vai gerar dados que não fazem o menor sentido, como um funcionário que foi contratado antes de nascer. Mas isso não será um problema porque não é o foco do trabalho.

In [1]:
'''Importando todos os pacotes'''
import pandas as pd
import numpy as np
import random
from faker import Faker

# Verificando todas as colunas da rh_main
df = pd.read_excel('planilhas\\rh_main.xlsx')

print(df.columns)

Index(['Setor', 'Nome Funcionário', 'Nome Cargo', 'Dt. Admissão', 'Situação',
       'Dt. Demissão', 'Salário', 'Adcional', 'Vinc.Empreg.', 'Gestor',
       'Dt. Nascimento', 'Trabalho', 'Sexo', 'Est. Civil', 'CPF', 'RG',
       'UF-RG', 'Dt.Emiss.RG', 'Endereço', 'Celular', 'E-Mail',
       'Nacionalidade', 'Pai', 'Mãe', 'Grau de Instrução'],
      dtype='object')


In [2]:
# Atribuindo o faker a uma variável
fake = Faker('pt_BR') # A string 'pt_BR' faz o faker retornar dados em português

# Criando uma lista vazia para preencher as colunas do dataframe
nome_funcionario = []
data_nascimento = []
dt_admissao = []
valores_real = []
doc_11 = []
doc_8 = []
celular = []
cargo = []
endereco = []
email = []
pai = []
mae = []

# Utilizando o loop for para criar mais de uma entrada com o Faker
for _ in range(1100):
    nome_funcionario.append(fake.name())
    dt_admissao.append(fake.date())
    valores_real.append(fake.random_number(digits=4, fix_len=True))
    doc_11.append(fake.random_number(digits=11, fix_len=True))
    doc_8.append(fake.random_number(digits=8, fix_len=True))
    celular.append(fake.phone_number())
    cargo.append(fake.job())
    email.append(fake.email())
    data_nascimento.append(fake.date())
    endereco.append(fake.address())
    pai.append(fake.name_male())
    mae.append(fake.name_female())

# Agora preenchedo as colunas com as listas geradas
df['Nome Funcionário'] = nome_funcionario
df['Dt. Admissão'] = dt_admissao
df['Nome Cargo'] = cargo
df['Salário'] = valores_real
df['E-Mail'] = email
df['Dt. Nascimento'] = data_nascimento
df['CPF'] = doc_11
df['RG'] = doc_8
df['Dt.Emiss.RG'] = data_nascimento
df['Endereço'] = endereco
df['Celular'] = celular
df['Pai'] = pai
df['Mãe'] = mae 
df['Situação'] = 'Ativo'
df['Nacionalidade'] = 'Brasileiro(a)'

# Agora vamos ver o resultado da planilha do RH
df.head(5)

Unnamed: 0,Setor,Nome Funcionário,Nome Cargo,Dt. Admissão,Situação,Dt. Demissão,Salário,Adcional,Vinc.Empreg.,Gestor,...,RG,UF-RG,Dt.Emiss.RG,Endereço,Celular,E-Mail,Nacionalidade,Pai,Mãe,Grau de Instrução
0,Administrativo,Lucas Gabriel da Rosa,Auxiliar de serviços gerais,2014-05-23,Ativo,,8406,,CLT,Otávio Dias,...,59530754,MG,1972-05-19,"Esplanada Novaes, 17\nDona Clara\n14010-821 Cu...",+55 (081) 0623-4078,viniciussales@example.com,Brasileiro(a),Thomas Teixeira,Srta. Juliana da Conceição,Fundamental
1,Administrativo,Clarice Almeida,Montador de negativos,1981-10-27,Ativo,,1251,,PJ,Heitor Duarte,...,58917100,RJ,2018-02-21,Ladeira de Gonçalves\nVila Fumec\n00081-863 Ca...,(021) 1104-9825,vrezende@example.net,Brasileiro(a),Igor da Cruz,Maitê da Cruz,Superior
2,Marketing,João Lucas Cunha,Agente de defesa sanitária,1993-06-25,Ativo,,4634,,CLT,Dra. Clarice Pereira,...,23612766,SP,2005-04-28,"Residencial Luiz Henrique Ramos, 124\nVila Nov...",+55 11 5068 0895,isabellapeixoto@example.net,Brasileiro(a),Matheus Vieira,Yasmin Aragão,Médio
3,Marketing,Cecília Fogaça,Mestre cervejeiro,2006-02-02,Ativo,,5529,,CLT,João Lucas Cardoso,...,69434628,BA,1987-02-06,"Praça de Rezende, 38\nCaiçaras\n61521803 Araúj...",(061) 7064-1466,luizacosta@example.net,Brasileiro(a),Sr. Isaac da Cruz,Esther Souza,Superior
4,Administrativo,Isadora Cavalcanti,Designer gráfico,2018-09-08,Ativo,,4413,,PJ,Danilo Peixoto,...,49289584,BA,2013-02-14,"Praia de Souza, 19\nCentro\n81589-994 da Mota ...",+55 71 5348-5632,caio52@example.com,Brasileiro(a),Vicente Duarte,Maria Alice Costela,Superior


In [3]:
# Agora com a maioria das planilhas preenchidas vamos usar o random para terminar de fazer o serviço.
# Cada lista vai servir para uma coluna no DF.
setores = ['Marketing', 'TI', 'RH', 'Vendas', 'Administrativo']
vinc_emp = ['CLT', 'PJ']
sexo = ['Masculino', 'Feminino', 'Outro']
est_civil = ['Casado(a)', 'Solteiro(a)', 'Divorciado(a)', 'Viúvo(a)']
formacao = ['Fundamental','Médio', 'Superior']
rg_uf = ['MG', 'SP', 'BA', 'RJ']

# Usando o método choices do random, é possível preencher a coluna, so informar a lista com os valores e o tamanho.
df['Setor'] = random.choices(setores, k=1100)
df['Vinc.Empreg.'] = random.choices(vinc_emp, k=1100)
df['Sexo'] = random.choices(sexo, k=1100)
df['Est. Civil'] = random.choices(est_civil, k=1100)
df['Grau de Instrução'] = random.choices(formacao, k=1100)
df['UF-RG'] = random.choices(rg_uf, k=1100)

# Para preencher a coluna de gestor, vamos escolher aleatoriamente um funcionário 
df['Gestor'] = random.choices(df['Nome Funcionário'], k=1100)

# Salva o dataframe
df.to_excel('rh_main.xlsx', index=False) 

# Agora vamos ver o resultado da planilha do RH
pd.set_option('display.max_columns', 30) # Exibe todas as colunas
df.head(5) # Mostra as 5 primeiras linhas

Unnamed: 0,Setor,Nome Funcionário,Nome Cargo,Dt. Admissão,Situação,Dt. Demissão,Salário,Adcional,Vinc.Empreg.,Gestor,Dt. Nascimento,Trabalho,Sexo,Est. Civil,CPF,RG,UF-RG,Dt.Emiss.RG,Endereço,Celular,E-Mail,Nacionalidade,Pai,Mãe,Grau de Instrução
0,Marketing,Lucas Gabriel da Rosa,Auxiliar de serviços gerais,2014-05-23,Ativo,,8406,,CLT,Ana Clara Novaes,1972-05-19,,Feminino,Casado(a),42116450377,59530754,MG,1972-05-19,"Esplanada Novaes, 17\nDona Clara\n14010-821 Cu...",+55 (081) 0623-4078,viniciussales@example.com,Brasileiro(a),Thomas Teixeira,Srta. Juliana da Conceição,Superior
1,TI,Clarice Almeida,Montador de negativos,1981-10-27,Ativo,,1251,,PJ,Sr. Lucas Gabriel Cardoso,2018-02-21,,Feminino,Viúvo(a),78286620035,58917100,MG,2018-02-21,Ladeira de Gonçalves\nVila Fumec\n00081-863 Ca...,(021) 1104-9825,vrezende@example.net,Brasileiro(a),Igor da Cruz,Maitê da Cruz,Superior
2,RH,João Lucas Cunha,Agente de defesa sanitária,1993-06-25,Ativo,,4634,,CLT,Sr. Luiz Henrique Lima,2005-04-28,,Feminino,Casado(a),71222935371,23612766,SP,2005-04-28,"Residencial Luiz Henrique Ramos, 124\nVila Nov...",+55 11 5068 0895,isabellapeixoto@example.net,Brasileiro(a),Matheus Vieira,Yasmin Aragão,Médio
3,Administrativo,Cecília Fogaça,Mestre cervejeiro,2006-02-02,Ativo,,5529,,PJ,João Miguel Aragão,1987-02-06,,Masculino,Casado(a),37308822484,69434628,MG,1987-02-06,"Praça de Rezende, 38\nCaiçaras\n61521803 Araúj...",(061) 7064-1466,luizacosta@example.net,Brasileiro(a),Sr. Isaac da Cruz,Esther Souza,Superior
4,RH,Isadora Cavalcanti,Designer gráfico,2018-09-08,Ativo,,4413,,CLT,Laura Oliveira,2013-02-14,,Feminino,Divorciado(a),22628655033,49289584,RJ,2013-02-14,"Praia de Souza, 19\nCentro\n81589-994 da Mota ...",+55 71 5348-5632,caio52@example.com,Brasileiro(a),Vicente Duarte,Maria Alice Costela,Superior


### Criando a planilha cargos

Agora que temos a planilha principal do RH com todos os dados é possível criar as demais. No página do GitHub do projeto você encontra todas. A próxima planilha é a de cargos, aqui mostra todos os cargos da empresa e qual setor esse cargo atua e um informação extra é em qual filial da empresa esse cargo está atrelado.  

In [4]:
# Aqui vamos usar muito da planilha ja produzida. 
df_cargos = pd.DataFrame({
    'Filial': df['UF-RG'],
    'Setor': df['Setor'],
    'COD-CARGO': random.choices(df['Salário'], k=1100), # Aproveitando a planilha com os salários
    'Nome Cargo': df['Nome Cargo']
})

# Salvando a planilha nova
df_cargos.to_excel('cargos.xlsx', index=False)

df_cargos.head(5)

Unnamed: 0,Filial,Setor,COD-CARGO,Nome Cargo
0,MG,Marketing,5785,Auxiliar de serviços gerais
1,MG,TI,4187,Montador de negativos
2,SP,RH,4331,Agente de defesa sanitária
3,MG,Administrativo,4479,Mestre cervejeiro
4,RJ,RH,6599,Designer gráfico


### Criando a planilha raca_cor_dependentes

Outra planilha que pode fazer parte do processo e suas informações não estão presentes na planilha principal. Se o funcionário possui dependentes e a declaração de raça e cor. Aqui vamos usar alguns dados da planilha principal e criar novos.

In [5]:
# Preenchendo as colunas com os seguintes valores aleatorios
raca_cor = ['Preto(a)', 'Pardo(a)', 'Branco(a)', 'Indígena']
parentesco = ['Filho(a) menos de 21 anos', 'Filho(a) mais de 21 anos', 'Casado(a)']

# Gerando os nomes, datas de aniversario e cps dos dependentes
def fake_dados(nome_lista,data_lista,cpf_lista,tamanho):
    '''
    Cria dados fake para os dependentes,
    de acordo com o tamanho da lista desejada.
    '''
    for i in range(tamanho):
        nome_lista.append(fake.name())
        data_lista.append(fake.date())
        cpf_lista.append(fake.random_number(digits=11, fix_len=True))


# Criando as listas e aplicando a função 
nome1 = []
data1 = []
cpf1 = []
fake_dados(nome1,data1,cpf1,730)

nome2 = []
data2 = []
cpf2 = []
fake_dados(nome2,data2,cpf2,643)

nome3 = []
data3 = []
cpf3 = []
fake_dados(nome3,data3,cpf3,139)


# Criando a nova planilha com os dados da rh_main
raca_cor_dependentes = pd.DataFrame({
    'Nome Funcionário': df['Nome Funcionário'],
    'Raça/Cor': random.choices(raca_cor, k=1100),
    'Nome Dependente 1': pd.Series(random.choices(nome1, k=730)),
    'Nascimento Dependente 1': pd.Series(random.choices(data1, k=730)),
    'CPF Dependente 1': pd.Series(random.choices(cpf1, k=730)),
    'Parentesco Dependente 1':  pd.Series(random.choices(parentesco, k=730)),
    'Nome Dependente 2': pd.Series(random.choices(nome2, k=643)),
    'Nascimento Dependente 2': pd.Series(random.choices(data2, k=643)),
    'CPF Dependente 2': pd.Series(random.choices(cpf2, k=643)),
    'Parentesco Dependente 2': pd.Series(random.choices(parentesco, k=643)),
    'Nome Dependente 3': pd.Series(random.choices(nome3, k=139)),
    'Nascimento Dependente 3': pd.Series(random.choices(data3, k=139)),
    'CPF Dependente 3': pd.Series(random.choices(cpf3, k=139)),
    'Parentesco Dependente 3': pd.Series(random.choices(parentesco, k=139)),
})

# Salvando a planilha nova
raca_cor_dependentes.to_excel('raca_cor_dependentes.xlsx', index=False)

# Exibindo o resultado
raca_cor_dependentes.head(5)

Unnamed: 0,Nome Funcionário,Raça/Cor,Nome Dependente 1,Nascimento Dependente 1,CPF Dependente 1,Parentesco Dependente 1,Nome Dependente 2,Nascimento Dependente 2,CPF Dependente 2,Parentesco Dependente 2,Nome Dependente 3,Nascimento Dependente 3,CPF Dependente 3,Parentesco Dependente 3
0,Lucas Gabriel da Rosa,Branco(a),Gabrielly Lopes,1979-10-31,40784260000.0,Filho(a) menos de 21 anos,Maria Gomes,2013-02-18,72162930000.0,Filho(a) menos de 21 anos,Nina Campos,1993-08-02,74435570000.0,Filho(a) menos de 21 anos
1,Clarice Almeida,Branco(a),Sophie Nunes,2003-07-04,88215580000.0,Filho(a) mais de 21 anos,Alana da Costa,2020-12-12,49898150000.0,Filho(a) mais de 21 anos,Luiz Gustavo Lopes,1999-10-15,49379170000.0,Filho(a) mais de 21 anos
2,João Lucas Cunha,Preto(a),Cecília Duarte,2019-07-25,33383150000.0,Filho(a) mais de 21 anos,Renan Rodrigues,1986-05-31,42491700000.0,Casado(a),Gabriel Ribeiro,2012-12-28,65896250000.0,Casado(a)
3,Cecília Fogaça,Preto(a),Matheus Rezende,2004-05-18,78384200000.0,Filho(a) menos de 21 anos,Francisco Ribeiro,2004-12-02,63746540000.0,Casado(a),Luiz Fernando Ferreira,1992-08-17,13995300000.0,Filho(a) mais de 21 anos
4,Isadora Cavalcanti,Preto(a),Lavínia da Mota,2021-01-03,90655320000.0,Filho(a) menos de 21 anos,Sr. Henrique Duarte,1999-03-15,25731780000.0,Filho(a) menos de 21 anos,João Miguel Pires,1999-12-23,49379170000.0,Filho(a) menos de 21 anos


### Histórico dos Funcionários

Por fim as últimas planilhas são referentes ao histórico do funcionário e a férias. Exemplo se um funcionário teve o salário atualizado, ou se ele mudou de cargo dentro da empresa, todas as informações estão presentes em uma outra planilha. Assim também ocorre com as planilhas de férias, onde devem mostrar o período e os dias tirados. 

Essas duas planilhas vão ser populadas diretamente no excel. Elas vão possuir uma outra formatação, afim de aumentar o grau de dificuldade ao importa-las para o pandas. Como mencionado assim, todas as planilhas geradas aqui e também essas duas novas, vão estar no GitHub do projeto.

Vou mostrar um exemplo de como essas planilhas são. 

> NOTA: Os nomes fictícios dos funcionários nas imagens abaixo, não são os mesmos das planilhas que vou trabalhar. Como esse script foi alterado, novos nomes foram gerados.

##### Histórico dos Empregados
![historico_empregado](imagens/historico_empregados.JPG)


##### Férias dos Empregados
![historico_ferias](imagens/historico_ferias.JPG)