# Case Técnico - H:Data // Matheus Tenório

## 1. Importação de Bibliotecas e Configurações

In [99]:
import pandas as pd

import psycopg2
from sqlalchemy import create_engine

In [100]:
pd.options.display.max_columns = 200

## 2. Coleta de informações

In [101]:
origin = pd.read_excel('../data/finance-data-received.xlsx') # Aba principal da planilha
normalization_accounts = pd.read_excel('../data/finance-data-received.xlsx', sheet_name='DEPARA_CONTAS_FINANC') # Aba de normalização de contas
normalization_costs = pd.read_excel('../data/finance-data-received.xlsx', sheet_name='DEPARA_CENTRO_CUSTOS') # Aba de normalização de centro de custos

In [102]:
origin.shape

(3535, 15)

In [103]:
origin.head(10)

Unnamed: 0,ID,CONTA,CENTRO DE CUSTO,MÊS REFERÊNCIA,DATA VENCIMENTO,FORNECEDOR,NOTA FISCAL,VALOR TOTAL,VALOR PARCELA,CONSIDERAÇÕES LANÇAMENTO,STATUS,DATA PAGAMENTO,VALOR REALIZADO,CONTA BANCARIA,FORMA DE PAGAMENTO
0,6.0,MATERIAL DESCARTAVEL (CONSUMO DE MATERIAIS GER...,Farmacia,2023-03-01,2023-04-28,FORNECEDOR 444,18185,15.0,15.0,Materiais Descartaveis Cozinha,PAGO,2023-04-01,15.0,GERAL,
1,7.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,Tecnologia Informacao,2023-03-01,2023-03-10,FORNECEDOR 183,136874,36.53,36.53,Material de manutencao predial,PAGO,2023-03-01,36.53,GERAL,
2,8.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,Ambulatorio,2023-03-01,2023-03-27,FORNECEDOR 183,137186,328.58,328.58,Material de manutencao predial,PAGO,2023-03-01,328.58,GERAL,
3,9.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,UTI,2023-03-01,2023-04-24,FORNECEDOR 183,137186,328.58,328.58,Material de manutencao predial,PAGO,2023-04-01,328.58,GERAL,
4,10.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,Ambulatorio,2023-03-01,2023-05-22,FORNECEDOR 183,137186,328.58,328.58,Fechadura,PAGO,2023-05-01,328.58,GERAL,
5,11.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,Ambulatorio,2023-03-01,2023-06-19,FORNECEDOR 183,137186,328.56,328.56,Material de manutencao predial,PAGO,2023-06-01,328.56,GERAL,
6,12.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,Pronto Atendimento,2023-03-01,2023-05-22,FORNECEDOR 183,138556,120.9,120.9,Fechadura,PAGO,2023-05-01,120.9,GERAL,
7,13.0,MATERIAL HIGIENIZACAO (CONSUMO DE MATERIAIS GE...,Ambulatorio,2023-03-01,2023-04-21,FORNECEDOR 416,2680,280.04,280.04,Material de limpeza e higiene,PAGO,2023-04-01,280.04,GERAL,
8,14.0,SERV.OBRAS E REFORMAS (MANUTENCAO E ASSISTENCI...,Geral,2023-03-01,2023-01-04,FORNECEDOR 27,20231,3120.0,3120.0,REFORMA,PAGO,2023-01-01,3120.0,GERAL,
9,15.0,SERV.OBRAS E REFORMAS (MANUTENCAO E ASSISTENCI...,Pronto Atendimento,2023-03-01,2023-01-09,FORNECEDOR 27,2023 02,4310.0,4310.0,REFORMA,PAGO,2023-01-01,4310.0,GERAL,


In [104]:
origin.columns

Index(['ID', 'CONTA', 'CENTRO DE CUSTO', 'MÊS REFERÊNCIA', 'DATA VENCIMENTO',
       'FORNECEDOR', 'NOTA FISCAL', 'VALOR TOTAL', 'VALOR PARCELA',
       'CONSIDERAÇÕES LANÇAMENTO', 'STATUS', 'DATA PAGAMENTO',
       'VALOR REALIZADO', 'CONTA BANCARIA', 'FORMA DE PAGAMENTO'],
      dtype='object')

In [105]:
origin.dtypes

ID                                 float64
CONTA                               object
CENTRO DE CUSTO                     object
MÊS REFERÊNCIA              datetime64[ns]
DATA VENCIMENTO             datetime64[ns]
FORNECEDOR                          object
NOTA FISCAL                         object
VALOR TOTAL                        float64
VALOR PARCELA                      float64
CONSIDERAÇÕES LANÇAMENTO            object
STATUS                              object
DATA PAGAMENTO              datetime64[ns]
VALOR REALIZADO                    float64
CONTA BANCARIA                      object
FORMA DE PAGAMENTO                 float64
dtype: object

## 3. Enriquecimento // Tratamento de dados

#### 3.1 Enriquecimento de dados de contas

In [106]:
# Criação de duas novas colunas, Categoria da Conta e ID Categoria da Conta, visando trazer os dados da aba de normalização de contas
accounts_index = list(origin.columns).index('CONTA')

origin.insert(accounts_index + 1, 'ID Categoria Conta', '')
origin.insert(accounts_index + 2, 'Categoria Conta', '')

In [107]:
# Loop for para popular as duas colunas baseado nos dados que temos na aba de normalização de contas

for index, row in origin.iterrows():
    if row['CONTA'] in normalization_accounts['ds_conta_financeira'].values:
        match = normalization_accounts[normalization_accounts['ds_conta_financeira'] == row['CONTA']]
        
        category = match.iloc[0]['ds_normal_conta_financeira']
        category_id = match.iloc[0]['sk_normal_conta_financeira']
        
        origin.at[index, 'Categoria Conta'] = category
        origin.at[index, 'ID Categoria Conta'] = category_id

In [108]:
# Checagem do resultado
origin.head(10)

Unnamed: 0,ID,CONTA,ID Categoria Conta,Categoria Conta,CENTRO DE CUSTO,MÊS REFERÊNCIA,DATA VENCIMENTO,FORNECEDOR,NOTA FISCAL,VALOR TOTAL,VALOR PARCELA,CONSIDERAÇÕES LANÇAMENTO,STATUS,DATA PAGAMENTO,VALOR REALIZADO,CONTA BANCARIA,FORMA DE PAGAMENTO
0,6.0,MATERIAL DESCARTAVEL (CONSUMO DE MATERIAIS GER...,11,CONSUMO DE MATERIAIS GERAIS,Farmacia,2023-03-01,2023-04-28,FORNECEDOR 444,18185,15.0,15.0,Materiais Descartaveis Cozinha,PAGO,2023-04-01,15.0,GERAL,
1,7.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Tecnologia Informacao,2023-03-01,2023-03-10,FORNECEDOR 183,136874,36.53,36.53,Material de manutencao predial,PAGO,2023-03-01,36.53,GERAL,
2,8.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,2023-03-01,2023-03-27,FORNECEDOR 183,137186,328.58,328.58,Material de manutencao predial,PAGO,2023-03-01,328.58,GERAL,
3,9.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,UTI,2023-03-01,2023-04-24,FORNECEDOR 183,137186,328.58,328.58,Material de manutencao predial,PAGO,2023-04-01,328.58,GERAL,
4,10.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,2023-03-01,2023-05-22,FORNECEDOR 183,137186,328.58,328.58,Fechadura,PAGO,2023-05-01,328.58,GERAL,
5,11.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,2023-03-01,2023-06-19,FORNECEDOR 183,137186,328.56,328.56,Material de manutencao predial,PAGO,2023-06-01,328.56,GERAL,
6,12.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Pronto Atendimento,2023-03-01,2023-05-22,FORNECEDOR 183,138556,120.9,120.9,Fechadura,PAGO,2023-05-01,120.9,GERAL,
7,13.0,MATERIAL HIGIENIZACAO (CONSUMO DE MATERIAIS GE...,11,CONSUMO DE MATERIAIS GERAIS,Ambulatorio,2023-03-01,2023-04-21,FORNECEDOR 416,2680,280.04,280.04,Material de limpeza e higiene,PAGO,2023-04-01,280.04,GERAL,
8,14.0,SERV.OBRAS E REFORMAS (MANUTENCAO E ASSISTENCI...,14,MANUTENCAO E ASSISTENCIA TECNICA,Geral,2023-03-01,2023-01-04,FORNECEDOR 27,20231,3120.0,3120.0,REFORMA,PAGO,2023-01-01,3120.0,GERAL,
9,15.0,SERV.OBRAS E REFORMAS (MANUTENCAO E ASSISTENCI...,14,MANUTENCAO E ASSISTENCIA TECNICA,Pronto Atendimento,2023-03-01,2023-01-09,FORNECEDOR 27,2023 02,4310.0,4310.0,REFORMA,PAGO,2023-01-01,4310.0,GERAL,


#### 3.2 Enriquecimento de dados de centro de custos

In [109]:
# Criação de duas novas colunas, Categoria CC e ID Categoria CC, visando trazer os dados da aba de normalização de contas
costs_index = list(origin.columns).index('CENTRO DE CUSTO')

origin.insert(costs_index + 1, 'ID Categoria CC', '')
origin.insert(costs_index + 1, 'Categoria CC', '')

In [110]:
# Loop for para popular as duas colunas baseado nos dados que temos na aba de normalização de contas

for index, row in origin.iterrows():
    if row['CENTRO DE CUSTO'] in normalization_costs['ds_normal_centro_custo'].values:
        match = normalization_costs[normalization_costs['ds_normal_centro_custo'] == row['CENTRO DE CUSTO']]
        
        category_id = match.iloc[0]['sk_normal_centro_custo']
        category_id = match.iloc[0]['ds_normal_centro_custo']
        
        origin.at[index, 'ID Categoria CC'] = category_id
        origin.at[index, 'Categoria CC'] = category

In [111]:
origin.head(10)

Unnamed: 0,ID,CONTA,ID Categoria Conta,Categoria Conta,CENTRO DE CUSTO,Categoria CC,ID Categoria CC,MÊS REFERÊNCIA,DATA VENCIMENTO,FORNECEDOR,NOTA FISCAL,VALOR TOTAL,VALOR PARCELA,CONSIDERAÇÕES LANÇAMENTO,STATUS,DATA PAGAMENTO,VALOR REALIZADO,CONTA BANCARIA,FORMA DE PAGAMENTO
0,6.0,MATERIAL DESCARTAVEL (CONSUMO DE MATERIAIS GER...,11,CONSUMO DE MATERIAIS GERAIS,Farmacia,DEDUCOES DE RECEITA,Farmacia,2023-03-01,2023-04-28,FORNECEDOR 444,18185,15.0,15.0,Materiais Descartaveis Cozinha,PAGO,2023-04-01,15.0,GERAL,
1,7.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Tecnologia Informacao,DEDUCOES DE RECEITA,Tecnologia Informacao,2023-03-01,2023-03-10,FORNECEDOR 183,136874,36.53,36.53,Material de manutencao predial,PAGO,2023-03-01,36.53,GERAL,
2,8.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,DEDUCOES DE RECEITA,Ambulatorio,2023-03-01,2023-03-27,FORNECEDOR 183,137186,328.58,328.58,Material de manutencao predial,PAGO,2023-03-01,328.58,GERAL,
3,9.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,UTI,DEDUCOES DE RECEITA,UTI,2023-03-01,2023-04-24,FORNECEDOR 183,137186,328.58,328.58,Material de manutencao predial,PAGO,2023-04-01,328.58,GERAL,
4,10.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,DEDUCOES DE RECEITA,Ambulatorio,2023-03-01,2023-05-22,FORNECEDOR 183,137186,328.58,328.58,Fechadura,PAGO,2023-05-01,328.58,GERAL,
5,11.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,DEDUCOES DE RECEITA,Ambulatorio,2023-03-01,2023-06-19,FORNECEDOR 183,137186,328.56,328.56,Material de manutencao predial,PAGO,2023-06-01,328.56,GERAL,
6,12.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Pronto Atendimento,DEDUCOES DE RECEITA,Pronto Atendimento,2023-03-01,2023-05-22,FORNECEDOR 183,138556,120.9,120.9,Fechadura,PAGO,2023-05-01,120.9,GERAL,
7,13.0,MATERIAL HIGIENIZACAO (CONSUMO DE MATERIAIS GE...,11,CONSUMO DE MATERIAIS GERAIS,Ambulatorio,DEDUCOES DE RECEITA,Ambulatorio,2023-03-01,2023-04-21,FORNECEDOR 416,2680,280.04,280.04,Material de limpeza e higiene,PAGO,2023-04-01,280.04,GERAL,
8,14.0,SERV.OBRAS E REFORMAS (MANUTENCAO E ASSISTENCI...,14,MANUTENCAO E ASSISTENCIA TECNICA,Geral,DEDUCOES DE RECEITA,Geral,2023-03-01,2023-01-04,FORNECEDOR 27,20231,3120.0,3120.0,REFORMA,PAGO,2023-01-01,3120.0,GERAL,
9,15.0,SERV.OBRAS E REFORMAS (MANUTENCAO E ASSISTENCI...,14,MANUTENCAO E ASSISTENCIA TECNICA,Pronto Atendimento,DEDUCOES DE RECEITA,Pronto Atendimento,2023-03-01,2023-01-09,FORNECEDOR 27,2023 02,4310.0,4310.0,REFORMA,PAGO,2023-01-01,4310.0,GERAL,


## 4. Exportação de dados para tabela única

In [112]:
origin.to_excel('../data/Tabelão.xlsx', index=False)

## 5. Exportação de dados DW // PostgreSQL

Execute o seguinte comando (necessita do docker) no diretório raíz do projeto para subir um container PostgreSQL no formato fornecido de acordo com [o formato fornecido](./data/finance-data-hdata.xlsx) de Arquitetura Completa.

`docker-compose up -d`

O [script](../scripts/setup.sql) configura o banco de dados e cria as tabelas vazias de acordo com o schema fornecido

In [113]:
# Criar conexão com db
pgconn = psycopg2.connect(
    host='localhost',
    user='hdata_user',
    password='hdata_pass',
    database='hdata_db'
)

In [114]:
# Criar cursor para executar comandos SQL
pgcursor = pgconn.cursor()

In [115]:
origin.head(10)

Unnamed: 0,ID,CONTA,ID Categoria Conta,Categoria Conta,CENTRO DE CUSTO,Categoria CC,ID Categoria CC,MÊS REFERÊNCIA,DATA VENCIMENTO,FORNECEDOR,NOTA FISCAL,VALOR TOTAL,VALOR PARCELA,CONSIDERAÇÕES LANÇAMENTO,STATUS,DATA PAGAMENTO,VALOR REALIZADO,CONTA BANCARIA,FORMA DE PAGAMENTO
0,6.0,MATERIAL DESCARTAVEL (CONSUMO DE MATERIAIS GER...,11,CONSUMO DE MATERIAIS GERAIS,Farmacia,DEDUCOES DE RECEITA,Farmacia,2023-03-01,2023-04-28,FORNECEDOR 444,18185,15.0,15.0,Materiais Descartaveis Cozinha,PAGO,2023-04-01,15.0,GERAL,
1,7.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Tecnologia Informacao,DEDUCOES DE RECEITA,Tecnologia Informacao,2023-03-01,2023-03-10,FORNECEDOR 183,136874,36.53,36.53,Material de manutencao predial,PAGO,2023-03-01,36.53,GERAL,
2,8.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,DEDUCOES DE RECEITA,Ambulatorio,2023-03-01,2023-03-27,FORNECEDOR 183,137186,328.58,328.58,Material de manutencao predial,PAGO,2023-03-01,328.58,GERAL,
3,9.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,UTI,DEDUCOES DE RECEITA,UTI,2023-03-01,2023-04-24,FORNECEDOR 183,137186,328.58,328.58,Material de manutencao predial,PAGO,2023-04-01,328.58,GERAL,
4,10.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,DEDUCOES DE RECEITA,Ambulatorio,2023-03-01,2023-05-22,FORNECEDOR 183,137186,328.58,328.58,Fechadura,PAGO,2023-05-01,328.58,GERAL,
5,11.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Ambulatorio,DEDUCOES DE RECEITA,Ambulatorio,2023-03-01,2023-06-19,FORNECEDOR 183,137186,328.56,328.56,Material de manutencao predial,PAGO,2023-06-01,328.56,GERAL,
6,12.0,PECAS E MATERIAIS DE MANUTENCAO - PREDIAL (MAN...,14,MANUTENCAO E ASSISTENCIA TECNICA,Pronto Atendimento,DEDUCOES DE RECEITA,Pronto Atendimento,2023-03-01,2023-05-22,FORNECEDOR 183,138556,120.9,120.9,Fechadura,PAGO,2023-05-01,120.9,GERAL,
7,13.0,MATERIAL HIGIENIZACAO (CONSUMO DE MATERIAIS GE...,11,CONSUMO DE MATERIAIS GERAIS,Ambulatorio,DEDUCOES DE RECEITA,Ambulatorio,2023-03-01,2023-04-21,FORNECEDOR 416,2680,280.04,280.04,Material de limpeza e higiene,PAGO,2023-04-01,280.04,GERAL,
8,14.0,SERV.OBRAS E REFORMAS (MANUTENCAO E ASSISTENCI...,14,MANUTENCAO E ASSISTENCIA TECNICA,Geral,DEDUCOES DE RECEITA,Geral,2023-03-01,2023-01-04,FORNECEDOR 27,20231,3120.0,3120.0,REFORMA,PAGO,2023-01-01,3120.0,GERAL,
9,15.0,SERV.OBRAS E REFORMAS (MANUTENCAO E ASSISTENCI...,14,MANUTENCAO E ASSISTENCIA TECNICA,Pronto Atendimento,DEDUCOES DE RECEITA,Pronto Atendimento,2023-03-01,2023-01-09,FORNECEDOR 27,2023 02,4310.0,4310.0,REFORMA,PAGO,2023-01-01,4310.0,GERAL,


In [119]:
# Mapeamento de colunas da planilha (Chave) para as tabelas/colunas do DW (valor) no formato de tuplas (tabela, coluna)

column_mapping = {
    'CONTA': ('dim_conta_financeira', 'ds_conta_financeira'),
    'ID Categoria Conta': ('depara_conta_financeira', 'sk_normal_conta_financeira'),
    'Categoria Conta': ('depara_conta_financeira', 'ds_normal_conta_financeira'),
    'CENTRO DE CUSTO': ('depara_centro_custos', 'ds_normal_centro_custos'),
    'Categoria CC': ('depara_centro_custos', 'ds_normal_centro_custos'),
    'ID Categoria CC': ('dim_centro_custos', 'sk_normal_centro_custos'),
    'MÊS REFERÊNCIA': ('fato_lancamento', 'dt_mes_referencia'),
    'DATA VENCIMENTO': ('fato_lancamento', 'dt_vencimento'),
    'FORNECEDOR': ('dim_fornecedor', 'ds_fornecedor'),
    'NOTA FISCAL': ('fato_lancamento', 'cd_nf_doc'),
    'VALOR TOTAL': ('fato_lancamento', 'vl_total_nf'),
    'CONSIDERAÇÕES LANÇAMENTO': ('fato_lancamento', 'ds_observacao'),
    'STATUS': ('fato_lancamento', 'tp_situacao'),
    'DATA PAGAMENTO': ('fato_lancamento', 'dt_realizacao'),
    'VALOR REALIZADO': ('fato_lancamento', 'vl_realizacao'),
}

In [120]:
engine = create_engine('postgresql+psycopg2://hdata_user:hdata_pass@localhost/hdata_db')

In [121]:
for column_name, (table_name, table_column) in column_mapping.items():
    
    origin_subset = origin[[column_name]]
    origin_subset = origin_subset.rename(columns={column_name: table_column})

In [122]:
try:
    origin_subset.to_sql(table_name, engine, if_exists='append', index=False)
    print(f"DataFrame carregado com sucesso.")
except Exception as e:
    print(f"Erro ao carregar DataFrame na tabela {table_name}: {e}")

DataFrame carregado com sucesso na tabela fato_lancamento.
