## Vamos realizar o ETL de um relatório que o RH gerou para um setor de sua empresa

Este relatório se trata da relação de colaboradores que realizaram, ou não, os treinamentos corporativos.
Nosso objetivo é simplificar o relatório de modo que apenas os nomes daqueles que não realizaram o treinamento apareçam.

### Adquirindo as bibliotécas necessárias

In [None]:
%pip install pandas
%pip install openpyxl
%pip install numpy
%pip install xlsxwriter

### Extract (Extração)
Vamos utilizar o relatório enviado pelo RH em excel
treinamentos.xlsx

In [63]:
import pandas as pd
import numpy as np
import xlsxwriter

# aqui usamos o pandas para realziar a leitura do excel
df = pd.read_excel('treinamentos.xlsx')

# mostrar as 5 primeiras linhas para garantir que o pandas está lendo o excel 
df.head()

Unnamed: 0,ID,COLABORADOR,CARGO,DEPARTAMENTO,CURSO,STATUS
0,1,Laura Barbosa,ANL DESENV SR,TI,Segurança da Informação,realizado
1,2,Gabriel Ferreira,ANL DESENV JR,Marketing,Segurança da Informação,realizado
2,3,Isabella Ribeiro,ANL DESENV PL,TI,Segurança da Informação,vencido
3,4,Marcos Almeida,ANL ADMINISTRATIVO,TI,Segurança da Informação,vencido
4,5,Beatriz Carvalho,ANL ADMINISTRATIVO,TI,Segurança da Informação,vencido


### Transform (Transformação)

Precisamos apenas a informação das pessoas que estão com o curso vencido.
Para isso vamos aplicar um filtro na coluna status

In [64]:
# definindo quais colunas vamos utilizar para realizar o filtro.
#
columns = ['ID', 'COLABORADOR', 'DEPARTAMENTO', 'STATUS']

# filtrando departamentos.
#
departamento_TI = df[columns].where(df['DEPARTAMENTO'] == 'TI')
departamento_Marketing = df[columns]. where(df['DEPARTAMENTO'] == 'Marketing')

# filtrando por status 'vencidos'.
#
vencidos_TI = departamento_TI[columns].where(departamento_TI['STATUS'] == 'vencido')
vencidos_Marketing = departamento_Marketing[columns].where(departamento_Marketing['STATUS'] == 'vencido')

# removendo as linas NaN e salvando na variável que vamos gerar um novo excel.
#
vencidos_TI = vencidos_TI.dropna()
vencidos_Marketing = vencidos_Marketing.dropna()

# verificando se os filtros foram realizados com sucesso.
#
print(vencidos_TI)
print(vencidos_Marketing)

      ID       COLABORADOR DEPARTAMENTO   STATUS
2    3.0  Isabella Ribeiro           TI  vencido
3    4.0    Marcos Almeida           TI  vencido
4    5.0  Beatriz Carvalho           TI  vencido
11  12.0    Matheus Castro           TI  vencido
13  14.0   Rafaela Miranda           TI  vencido
17  18.0      Raquel Costa           TI  vencido
20  21.0    Maria da Silva           TI  vencido
23  24.0       Pedro Gomes           TI  vencido
26  27.0   Sofia Rodrigues           TI  vencido
28  29.0      Pedro Prates           TI  vencido
31  32.0       Sofia Costa           TI  vencido
      ID      COLABORADOR DEPARTAMENTO   STATUS
5    6.0  Lucas Gonçalves    Marketing  vencido
12  13.0   Mariana Santos    Marketing  vencido
33  34.0      Pedro sousa    Marketing  vencido


### Load (Carregamento)
Aqui salvamos outra planilha para encaminhar 

In [65]:
# salvar cada filtra em uma planilha separada
vencidos_TI.to_excel('Vencidos_TI.xlsx')
vencidos_Marketing.to_excel('vencidos_Marketing.xlsx')

print("Planilhas geradas com sucesso!")

Planilhas geradas com sucesso!


In [66]:
# caso o RH queira manter um controle melhor vamos salvar em uma única planilha para simplificar consultas futuras
geral = pd.ExcelWriter('Controle_Geral.xlsx', engine='xlsxwriter')
vencidos_Marketing.to_excel(geral, sheet_name='Marketing')
vencidos_TI.to_excel(geral, sheet_name='TI')

geral.close()

print("Planilha gerada com sucesso! O RH agradece")

Planilha gerada com sucesso! O RH agradece
