[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/nataliafonseca/etl_folha/blob/main/script/notebook.ipynb)

In [4]:
# Importações
import sqlalchemy
import pandas as pd
import numpy as np


In [5]:
# Criação da engine do sql alchemy para a tabela
db_connection = sqlalchemy.create_engine(
    'postgresql+pg8000://postgres:123456@localhost:5433/folhadb',
    client_encoding='utf8',
)


# 1. Extract


In [6]:
# Extração da tabela cargos para dataframe do pandas
cargos_df = pd.read_sql('SELECT * FROM folha.cargos', db_connection)
cargos_df


Unnamed: 0,cod_cargo,dsc_cargo,cod_carreira


In [7]:
# Extração da tabela carreiras para dataframe do pandas
carreiras_df = pd.read_sql('SELECT * FROM folha.carreiras', db_connection)
carreiras_df


Unnamed: 0,cod_carreira,dsc_carreira


In [8]:
# Extração da tabela unidades para dataframe do pandas
unidades_df = pd.read_sql('SELECT * FROM folha.unidades', db_connection)
unidades_df


Unnamed: 0,cod_und,dsc_und,cid_und,uf_und
0,1,Campus Farolândia,Aracaju,SE
1,2,Campus Centro,Aracaju,SE
2,3,Clínica Odontológica,Aracaju,SE
3,4,Polo Petrolina,Petrolina,PE
4,5,Campus Zona Sul,Recife,PE


In [9]:
# Extração da tabela setores para dataframe do pandas
setores_df = pd.read_sql('SELECT * FROM folha.setores', db_connection)
setores_df


Unnamed: 0,cod_setor,dsc_setor,cod_und,cod_colab_chefe
0,5,DAAF,4,6188
1,6,DAAF,2,6141
2,7,DFI,4,6188
3,8,DIM,4,6188
4,9,DNG,4,6188
5,10,DRH,3,5870
6,11,DMK,4,6188
7,12,ASSJUR,3,5870
8,13,COMPESE,3,5870
9,14,PÓS-GRADUAÇÃO,4,6188


In [10]:
# Extração da tabela evolucoes_funcionais para dataframe do pandas
evolucoes_funcionais_df = pd.read_sql(
    'SELECT * FROM folha.evolucoes_funcionais', db_connection
)
evolucoes_funcionais_df


Unnamed: 0,cod_colab,dat_ini,cod_setor,cod_cargo


In [11]:
# Extração da tabela colaboradores para dataframe do pandas
colaboradores_df = pd.read_sql(
    'SELECT * FROM folha.colaboradores', db_connection
)
colaboradores_df


Unnamed: 0,cod_colab,nom_colab,dat_nasc,dat_admissao
0,3837,NADJA *****,1959-01-31,1984-01-31
1,3471,ALTAIR *****,1952-06-02,1977-06-02
2,3544,MARIA *****,1964-07-30,1989-07-30
3,3767,CLAUDIO *****,1974-07-31,1999-07-31
4,3840,DANIEL *****,1979-06-22,2004-06-22
5,3769,ROSIVALDO *****,1956-06-04,1981-06-04
6,2741,JURANDI *****,1960-05-21,1985-05-21
7,2614,JULIO *****,1957-08-14,1982-08-14
8,2633,TANIA *****,1965-07-07,1990-07-07
9,2635,TEREZA *****,1966-12-24,1991-12-24


In [12]:
# Extração da tabela lancamentos para dataframe do pandas
lancamentos_df = pd.read_sql('SELECT * FROM folha.lancamentos', db_connection)
lancamentos_df


Unnamed: 0,ano,mes,tpo_folha,cod_rubrica,cod_colab,dat_lanc,val_lanc


In [13]:
# Extração da tabela folhas_pagamentos para dataframe do pandas
folhas_pagamentos_df = pd.read_sql(
    'SELECT * FROM folha.folhas_pagamentos', db_connection
)
folhas_pagamentos_df


Unnamed: 0,ano,mes,tpo_folha,dsc_folha


In [14]:
# Extração da tabela rubricas para dataframe do pandas
rubricas_df = pd.read_sql('SELECT * FROM folha.rubricas', db_connection)
rubricas_df


Unnamed: 0,cod_rubrica,dsc_rubrica,tpo_rubrica,cod_grupo


In [15]:
# Extração da tabela grupos_rubricas para dataframe do pandas
grupos_rubricas_df = pd.read_sql(
    'SELECT * FROM folha.grupos_rubricas', db_connection
)
grupos_rubricas_df


Unnamed: 0,cod_grupo,dsc_grupo


# 2. Transform


## dm_cargos


In [16]:
# Merge de cargos e carreiras
dm_cargos_df = pd.merge(
    left=cargos_df, right=carreiras_df, how='left', on='cod_carreira'
)
dm_cargos_df


Unnamed: 0,cod_cargo,dsc_cargo,cod_carreira,dsc_carreira


In [17]:
# Remoção da linha cod_carreira
dm_cargos_df.drop(columns=['cod_carreira'], inplace=True)
dm_cargos_df


Unnamed: 0,cod_cargo,dsc_cargo,dsc_carreira


## dm_setores


In [18]:
# Merge de setores e unidades
dm_setores_df = pd.merge(
    left=setores_df, right=unidades_df, how='left', on='cod_und'
)
dm_setores_df


Unnamed: 0,cod_setor,dsc_setor,cod_und,cod_colab_chefe,dsc_und,cid_und,uf_und
0,5,DAAF,4,6188,Polo Petrolina,Petrolina,PE
1,6,DAAF,2,6141,Campus Centro,Aracaju,SE
2,7,DFI,4,6188,Polo Petrolina,Petrolina,PE
3,8,DIM,4,6188,Polo Petrolina,Petrolina,PE
4,9,DNG,4,6188,Polo Petrolina,Petrolina,PE
5,10,DRH,3,5870,Clínica Odontológica,Aracaju,SE
6,11,DMK,4,6188,Polo Petrolina,Petrolina,PE
7,12,ASSJUR,3,5870,Clínica Odontológica,Aracaju,SE
8,13,COMPESE,3,5870,Clínica Odontológica,Aracaju,SE
9,14,PÓS-GRADUAÇÃO,4,6188,Polo Petrolina,Petrolina,PE


In [19]:
# Renomeando colunas
dm_setores_df.rename(
    columns={
        'dsc_und': 'dsc_unidade',
        'cid_und': 'cidade_unidade',
        'uf_und': 'uf_unidade',
    },
    inplace=True,
)
dm_setores_df


Unnamed: 0,cod_setor,dsc_setor,cod_und,cod_colab_chefe,dsc_unidade,cidade_unidade,uf_unidade
0,5,DAAF,4,6188,Polo Petrolina,Petrolina,PE
1,6,DAAF,2,6141,Campus Centro,Aracaju,SE
2,7,DFI,4,6188,Polo Petrolina,Petrolina,PE
3,8,DIM,4,6188,Polo Petrolina,Petrolina,PE
4,9,DNG,4,6188,Polo Petrolina,Petrolina,PE
5,10,DRH,3,5870,Clínica Odontológica,Aracaju,SE
6,11,DMK,4,6188,Polo Petrolina,Petrolina,PE
7,12,ASSJUR,3,5870,Clínica Odontológica,Aracaju,SE
8,13,COMPESE,3,5870,Clínica Odontológica,Aracaju,SE
9,14,PÓS-GRADUAÇÃO,4,6188,Polo Petrolina,Petrolina,PE


In [20]:
# Remoção das linhas cod_und e cod_colab_chefe
dm_setores_df.drop(columns=['cod_und', 'cod_colab_chefe'], inplace=True)
dm_setores_df


Unnamed: 0,cod_setor,dsc_setor,dsc_unidade,cidade_unidade,uf_unidade
0,5,DAAF,Polo Petrolina,Petrolina,PE
1,6,DAAF,Campus Centro,Aracaju,SE
2,7,DFI,Polo Petrolina,Petrolina,PE
3,8,DIM,Polo Petrolina,Petrolina,PE
4,9,DNG,Polo Petrolina,Petrolina,PE
5,10,DRH,Clínica Odontológica,Aracaju,SE
6,11,DMK,Polo Petrolina,Petrolina,PE
7,12,ASSJUR,Clínica Odontológica,Aracaju,SE
8,13,COMPESE,Clínica Odontológica,Aracaju,SE
9,14,PÓS-GRADUAÇÃO,Polo Petrolina,Petrolina,PE


## dm_rubricas


In [21]:
# Merge de rubricas e grupos_rubricas
dm_rubricas_df = pd.merge(
    left=rubricas_df, right=grupos_rubricas_df, how='left', on='cod_grupo'
)
dm_rubricas_df


Unnamed: 0,cod_rubrica,dsc_rubrica,tpo_rubrica,cod_grupo,dsc_grupo


In [22]:
# Remoção da linha cod_grupo
dm_rubricas_df.drop(columns=['cod_grupo'], inplace=True)
dm_rubricas_df


Unnamed: 0,cod_rubrica,dsc_rubrica,tpo_rubrica,dsc_grupo


## dm_faixas_etarias


In [23]:
# Criação do dataframe dm_faixas_etárias
dm_faixas_etarias_df = pd.DataFrame(
    {
        'cod_faixa': [1, 2, 3, 4],
        'dsc_faixa': [
            'até 21 anos',
            'de 21 a 30 anos',
            'de 31 a 45 anos',
            'acima de 45 anos',
        ],
        'idade_inicial': [0, 22, 31, 45],
        'idade_final': [21, 30, 45, 100],
    }
)
dm_faixas_etarias_df

Unnamed: 0,cod_faixa,dsc_faixa,idade_inicial,idade_final
0,1,até 21 anos,0,21
1,2,de 21 a 30 anos,22,30
2,3,de 31 a 45 anos,31,45
3,4,acima de 45 anos,45,100


## dm_tempos_servicos

In [24]:
# Criação da do dataframe dm_tempo_servicos
dm_tempos_servicos_df = pd.DataFrame(
    {
        'cod_tempo_serv': [1, 2, 3, 4, 5],
        'dsc_tempo_serv': [
            'até 1 ano',
            'de 1 a 10 anos',
            'de 11 a 20 anos',
            'de 21 a 30 anos',
            'acima de 31 anos',
        ],
        'ano_inicial': [0, 1, 11, 21, 31],
        'ano_final': [0, 10, 20, 30, 100],
    }
)
dm_tempos_servicos_df

Unnamed: 0,cod_tempo_serv,dsc_tempo_serv,ano_inicial,ano_final
0,1,até 1 ano,0,0
1,2,de 1 a 10 anos,1,10
2,3,de 11 a 20 anos,11,20
3,4,de 21 a 30 anos,21,30
4,5,acima de 31 anos,31,100


## dm_tempos_folhas

In [25]:
# Criação da do dataframe dm_tempos_folhas a partir de folhas_pagamentos, removendo as linha tpo_folha e dsc_folha
dm_tempos_folhas_df = folhas_pagamentos_df.drop(columns=['tpo_folha', 'dsc_folha'], inplace=False)
dm_tempos_folhas_df


Unnamed: 0,ano,mes


In [26]:
# Criação da coluna id_ano_mes a partir de ano e mês
dm_tempos_folhas_df['id_ano_mes'] = (dm_tempos_folhas_df['ano'].astype(str) + dm_tempos_folhas_df['mes'].astype(str)).astype(int)
dm_tempos_folhas_df


Unnamed: 0,ano,mes,id_ano_mes


## ft_lancamentos

In [27]:
# Merge das tabelas lancamentos, folhas_pagamento, colaboradores e evoluções funcionais
ft_lancamentos_df = pd.merge(left=lancamentos_df, right=folhas_pagamentos_df, how='left', on=['ano', 'mes', 'tpo_folha'])
ft_lancamentos_df = pd.merge(left=ft_lancamentos_df, right=colaboradores_df, how='left', on='cod_colab')
ft_lancamentos_df = pd.merge(left=ft_lancamentos_df, right=evolucoes_funcionais_df, how='right', on='cod_colab')
ft_lancamentos_df


Unnamed: 0,cod_rubrica,dat_lanc,val_lanc,ano,mes,tpo_folha,dsc_folha,nom_colab,dat_nasc,dat_admissao,cod_colab,dat_ini,cod_setor,cod_cargo


In [28]:
# Criação da coluna id_ano_mes a partir de ano e mês
ft_lancamentos_df['id_ano_mes'] = (ft_lancamentos_df['ano'].astype(str) + ft_lancamentos_df['mes'].astype(str)).astype(int)
ft_lancamentos_df


Unnamed: 0,cod_rubrica,dat_lanc,val_lanc,ano,mes,tpo_folha,dsc_folha,nom_colab,dat_nasc,dat_admissao,cod_colab,dat_ini,cod_setor,cod_cargo,id_ano_mes


In [29]:
# Coluna cod_faixa
# Criação da coluna idade_colab a partir da data de nascimento do colaborador e data do lançamento
ft_lancamentos_df['idade_colab'] = (pd.to_datetime(ft_lancamentos_df['dat_lanc']) - pd.to_datetime(ft_lancamentos_df['dat_nasc'])) // np.timedelta64(1, 'Y')

# Função para obter o cod_faixa a partir da idade_colab
def get_cod_faixa(idade_colab):
    list_cod_faixa = []
    for idade in idade_colab:
        if idade < 21: 
            list_cod_faixa.append(1)
        elif idade <= 30:
            list_cod_faixa.append(2)
        elif idade <= 45:
            list_cod_faixa.append(3)
        else:
            list_cod_faixa.append(4)
    return list_cod_faixa

ft_lancamentos_df['cod_faixa'] = get_cod_faixa(ft_lancamentos_df['idade_colab'])
ft_lancamentos_df


Unnamed: 0,cod_rubrica,dat_lanc,val_lanc,ano,mes,tpo_folha,dsc_folha,nom_colab,dat_nasc,dat_admissao,cod_colab,dat_ini,cod_setor,cod_cargo,id_ano_mes,idade_colab,cod_faixa


In [30]:
# Coluna cod_temp_serv
# Criação da coluna tempo_serv a partir da data de admissão do colaborador e data do lançamento
ft_lancamentos_df['tempo_serv'] = (pd.to_datetime(ft_lancamentos_df['dat_lanc']) - pd.to_datetime(ft_lancamentos_df['dat_admissao'])) // np.timedelta64(1, 'Y')

# Função para obter o cod_temp_serv a partir do tempo_serv
def get_cod_tempo_serv(tempo_serv):
    list_tempo_serv = []
    for idade in tempo_serv:
        if idade  == 0: 
            list_tempo_serv.append(1)
        elif idade <= 10:
            list_tempo_serv.append(2)
        elif idade <= 20:
            list_tempo_serv.append(3)
        elif idade <= 30:
            list_tempo_serv.append(4)
        else:
            list_tempo_serv.append(5)
    return list_tempo_serv

ft_lancamentos_df['cod_tempo_serv'] = get_cod_tempo_serv(ft_lancamentos_df['tempo_serv'])
ft_lancamentos_df


Unnamed: 0,cod_rubrica,dat_lanc,val_lanc,ano,mes,tpo_folha,dsc_folha,nom_colab,dat_nasc,dat_admissao,cod_colab,dat_ini,cod_setor,cod_cargo,id_ano_mes,idade_colab,cod_faixa,tempo_serv,cod_tempo_serv


In [31]:
# Remoção de colunas desnecessárias
ft_lancamentos_df.drop(columns=['dat_lanc', 'ano', 'mes', 'tpo_folha', 'dsc_folha', 'nom_colab', 'dat_nasc', 'dat_admissao', 'cod_colab', 'dat_ini', 'tempo_serv'], inplace=True)
ft_lancamentos_df


Unnamed: 0,cod_rubrica,val_lanc,cod_setor,cod_cargo,id_ano_mes,idade_colab,cod_faixa,cod_tempo_serv


In [32]:
# Renomeando val_lanc para total_lanc
ft_lancamentos_df.rename(columns={'val_lanc': 'total_lanc'}, inplace=True)
ft_lancamentos_df


Unnamed: 0,cod_rubrica,total_lanc,cod_setor,cod_cargo,id_ano_mes,idade_colab,cod_faixa,cod_tempo_serv


In [33]:
# Reordenação das colunas
ft_lancamentos_df = ft_lancamentos_df[['cod_rubrica', 'cod_setor', 'cod_cargo', 'cod_faixa', 'cod_tempo_serv', 'id_ano_mes', 'total_lanc']]
ft_lancamentos_df


Unnamed: 0,cod_rubrica,cod_setor,cod_cargo,cod_faixa,cod_tempo_serv,id_ano_mes,total_lanc


In [34]:
# Criação das colunas valor_bruto, valor_desconto e valor_liquido  #FIXME
ft_lancamentos_df['valor_bruto'] = ft_lancamentos_df['total_lanc']
ft_lancamentos_df['valor_desconto'] = ft_lancamentos_df['total_lanc'] * 0.1
ft_lancamentos_df['valor_liquido'] = ft_lancamentos_df['valor_bruto'] - ft_lancamentos_df['valor_desconto']
ft_lancamentos_df

Unnamed: 0,cod_rubrica,cod_setor,cod_cargo,cod_faixa,cod_tempo_serv,id_ano_mes,total_lanc,valor_bruto,valor_desconto,valor_liquido


# 3. Load

In [35]:
# Função para calculo do chunksize
def get_chunksize(table_columns):
    cs = 2097 // len(table_columns)
    cs = (1000 if cs > 1000 else cs)
    return cs


In [36]:
# Exportação do dataframe dm_cargos_df do pandas para a tabela dm_cargos
dm_cargos_df.to_sql(
    name='dm_cargos',
    schema='folhadw',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_cargos_df.columns),
)


0

In [37]:
# Exportação do dataframe dm_setores_df do pandas para a tabela dm_setores
dm_setores_df.to_sql(
    name='dm_setores',
    schema='folhadw',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_setores_df.columns),
)


53

In [38]:
# Exportação do dataframe dm_rubricas_df do pandas para a tabela dm_rubricas
dm_rubricas_df.to_sql(
    name='dm_rubricas',
    schema='folhadw',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_rubricas_df.columns),
)


0

In [39]:
# Exportação do dataframe dm_faixas_etarias_df do pandas para a tabela dm_faixas_etarias
dm_faixas_etarias_df.to_sql(
    name='dm_faixas_etarias',
    schema='folhadw',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_faixas_etarias_df.columns),
)


4

In [40]:
# Exportação do dataframe dm_tempos_servicos_df do pandas para a tabela dm_tempos_servicos
dm_tempos_servicos_df.to_sql(
    name='dm_tempos_servicos',
    schema='folhadw',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_tempos_servicos_df.columns),
)


5

In [41]:
# Exportação do dataframe dm_tempos_folhas_df do pandas para a tabela dm_tempos_folhas
dm_tempos_folhas_df.to_sql(
    name='dm_tempos_folhas',
    schema='folhadw',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(dm_tempos_folhas_df.columns),
)


0

In [42]:
# Exportação do dataframe ft_lancamentos_df do pandas para a tabela ft_lancamentos
ft_lancamentos_df.to_sql(
    name='ft_lancamentos',
    schema='folhadw',
    con=db_connection,
    index=False,
    if_exists='append',
    chunksize=get_chunksize(ft_lancamentos_df.columns),
)


0