# Convertendo Tabelas

A biblioteca pandas possui vários métodos de importação de dados, incluindo um para leitura de arquivos .xlsx

In [1]:
import pandas as pd
fonte = pd.read_excel('STG_FNT_ITT.xlsx')
fonte

Unnamed: 0,ID_STG_FNT_ITT,NUM_CNPJ,NUM_CMP_CNPJ,NOM_COM,NOM_RAZ_SCL,DAT_INC_DBO
0,137,2427884087,2805,NMN,NMN,2019-12-19 13:43:41.914
1,183,12182674487,2635,NMN,NMN,2019-12-19 13:43:41.914
2,197,16167328168,1802,NMN,NMN,2019-12-19 13:43:41.914
3,267,279925978,2329,NMN,NMN,2019-12-19 13:43:41.914
4,322,20579036860,2397,NMN,NMN,2019-12-19 13:43:41.914
...,...,...,...,...,...,...
1003,87,11901046588,1972,NMN,NMN,2019-12-19 13:43:41.914
1004,105,17765603364,13056,NMN,NMN,2019-12-19 13:43:41.914
1005,118,17765603364,165138,NMN,NMN,2019-12-19 13:43:41.914
1006,124,17765603364,238697,NMN,NMN,2019-12-19 13:43:41.914


## Padronização das tabelas

A variável 'fonte' é um DataFrame do pandas. O padrão de nomes para as tabelas (ou DataFrames, no pandas) é o seguinte:

In [2]:
padrão = pd.read_csv('padrao_tabelas.csv', sep = ';')
padrão

Unnamed: 0,nome_original,nome_utilizado,tipo
0,STG_FNT_ITT,fonte,tabela
1,STG_MDL,modalidade,tabela
2,STG_MVT_CRD,movimento,tabela
3,STG_OPR_ITT,operacao,tabela
4,STG_PGT,pagamento,tabela


Além disso, foram adicionadas linhas referentes aos nomes da colunas que serão salvas nos Dataframes. Apenas as colunas mais relevantes foram renomeadas.

In [3]:
padrão.head(8)

Unnamed: 0,nome_original,nome_utilizado,tipo
0,STG_FNT_ITT,fonte,tabela
1,STG_MDL,modalidade,tabela
2,STG_MVT_CRD,movimento,tabela
3,STG_OPR_ITT,operacao,tabela
4,STG_PGT,pagamento,tabela


## Renomeando as colunas

As colunas são nomeadas no atributo DataFrame.columns. Para a tabela fonte, vou renomear para dar um exemplo

In [4]:
fonte.columns

Index(['ID_STG_FNT_ITT', 'NUM_CNPJ', 'NUM_CMP_CNPJ', 'NOM_COM', 'NOM_RAZ_SCL',
       'DAT_INC_DBO'],
      dtype='object')

Para reatribuir as colunas do DataFrame, basta:

In [5]:
fonte.columns = ['id_fonte', 'cnpj', 'complemento', 'NOM_COM', 'NOM_RAZ_SCL', 'DAT_INC_DBO']
fonte.head()

Unnamed: 0,id_fonte,cnpj,complemento,NOM_COM,NOM_RAZ_SCL,DAT_INC_DBO
0,137,2427884087,2805,NMN,NMN,2019-12-19 13:43:41.914
1,183,12182674487,2635,NMN,NMN,2019-12-19 13:43:41.914
2,197,16167328168,1802,NMN,NMN,2019-12-19 13:43:41.914
3,267,279925978,2329,NMN,NMN,2019-12-19 13:43:41.914
4,322,20579036860,2397,NMN,NMN,2019-12-19 13:43:41.914


## Definindo o padrão de colunas

Defini os nomes abaixo para as colunas ao lado dos originais, para faciliar a digitação no momento de programar nossos algoritmos

In [6]:
padrao_colunas = pd.read_csv('padrao_colunas.csv', sep = ';')
padrao_colunas

Unnamed: 0,Nome original,Nome utilizado,Tabela
0,ID_STG_FNT_ITT,id_fonte,fonte
1,NUM_CNPJ,cnpj,fonte
2,NUM_CMP_CNPJ,complemento,fonte
3,ID_STG_MDL,id_mod,modalidade
4,COD_MDL,codigo_mod,modalidade
5,DES_MDL,descri_mod,modalidade
6,ID_STG_MVT_CRD,id_movi,movimentacao
7,VLR_SDO_UTZ_CRD_RTO,vlr_saldo,movimentacao
8,VLR_TOT_FAT,vlr_total_fat,movimentacao
9,VLR_MIM_FAT,vlr_min_fat,movimentacao


## Alterando as colunas

Primeiramente, gerando os DataFramas das tabelas faltantes

In [7]:
modalidade = pd.read_excel('STG_MDL.xlsx')
pagamento = pd.read_excel('STG_PGT.xlsx')
movimento = pd.read_excel('STG_MVT_CRD.xlsx')
operacao = pd.read_excel('STG_OPR_ITT.xlsx')

Após isso, redefinindo o atributo "columns"

In [8]:
print(modalidade.columns, '\n')
print(pagamento.columns, '\n')
print(movimento.columns, '\n')
print(operacao.columns, '\n')

Index(['ID_STG_MDL', 'COD_MDL', 'DES_MDL', 'DAT_INC_DBO'], dtype='object') 

Index(['ID_STG_PGT', 'VLR_PGT_FAT', 'DAT_VCT', 'COD_MDL', 'QTD_CLI_CAD_POS',
       'QTD_PGT', 'ID_FNT_ITT', 'DES_TIP_PSS', 'DAT_RSS_FNT_ITT',
       'DAT_INC_DBO'],
      dtype='object') 

Index(['ID_STG_MVT_CRD', 'VLR_SDO_UTZ_CRD_RTO', 'VLR_TOT_FAT', 'VLR_MIM_FAT',
       'VLR_PCL_FAT', 'QTD_CLI_CAD_POS', 'QTD_MVT', 'DES_TIP_PSS',
       'ID_FNT_ITT', 'COD_MDL', 'DAT_RSS_FNT_ITT', 'DAT_INC_DBO'],
      dtype='object') 

Index(['ID_STG_OPR_ITT', 'VLR_CTRD_CSC', 'QTD_PCL', 'VLR_SDO_DDR',
       'QTD_CLI_CAD_POS', 'QTD_OPR', 'ID_FNT_ITT', 'ID_MDL', 'DES_TIP_PSS',
       'DAT_RSS_FNT_ITT', 'DAT_INC_DBO'],
      dtype='object') 



In [9]:
modalidade.columns = ['id_mod', 'codigo_mod', 'descri_mod', 'DAT_INC_DBO']
pagamento.columns = ['id_pagamento', 'vlr_pago', 'data_vencimento', 'codigo_mod', 'qtd_clientes',
       'qtd_pagamento', 'id_fonte', 'tipo_pessoa', 'DAT_RSS_FNT_ITT',
       'DAT_INC_DBO']
movimento.columns = ['id_movi', 'vlr_saldo', 'vlr_total_fat', 'vlr_min_fat',
       'vlr_parcela_fat', 'qtd_clientes', 'qtd_movi', 'tipo_pessoa',
       'id_fonte', 'codigo_mod', 'DAT_RSS_FNT_ITT', 'DAT_INC_DBO']
operacao.columns = ['id_operacao', 'vlr_contrato', 'qtd_parcelas', 'vlr_devido',
       'qtd_clientes', 'qtd_operacao', 'id_fonte', 'id_mod', 'tipo_pessoa',
       'DAT_RSS_FNT_ITT', 'DAT_INC_DBO']

Por fim, como ficam os DataFrames

In [10]:
modalidade.head()

Unnamed: 0,id_mod,codigo_mod,descri_mod,DAT_INC_DBO
0,17,E02,ADIANTAMENTO DEPOSITANTE,2019-12-19 13:37:34.759
1,13,B99,OUTROS FINANCIAMENTOS,2019-12-19 13:37:34.759
2,15,D01,CARTAO DE CREDITO,2019-12-19 13:37:34.759
3,19,G01,TITULOS DESCONTADOS,2019-12-19 13:37:34.759
4,2,A02,EMPRESTIMO - CAPITAL DE GIRO,2019-12-19 13:37:34.759


In [11]:
pagamento.head()

Unnamed: 0,id_pagamento,vlr_pago,data_vencimento,codigo_mod,qtd_clientes,qtd_pagamento,id_fonte,tipo_pessoa,DAT_RSS_FNT_ITT,DAT_INC_DBO
0,451,515711,16082022,A04,22,22,67,F,2020-01-16,2020-01-17 17:50:42.746
1,452,60763,26102020,A99,2,2,67,F,2020-01-16,2020-01-17 17:50:42.746
2,453,8588195,24022019,G01,22,22,67,F,2020-01-16,2020-01-17 17:50:42.746
3,454,369084,24062018,B99,16,23,67,F,2020-01-16,2020-01-17 17:50:42.746
4,455,13054,20022021,B99,1,1,67,F,2020-01-16,2020-01-17 17:50:42.746


In [12]:
movimento.head()

Unnamed: 0,id_movi,vlr_saldo,vlr_total_fat,vlr_min_fat,vlr_parcela_fat,qtd_clientes,qtd_movi,tipo_pessoa,id_fonte,codigo_mod,DAT_RSS_FNT_ITT,DAT_INC_DBO
0,1,,,,45955170000.0,37186,677272,F,67,C01,2020-01-16,2020-01-17 17:49:17.524
1,2,,,,73872370000.0,307070,2741111,F,67,B99,2020-01-16,2020-01-17 17:49:17.524
2,3,,,,2868181000.0,601,1964,F,67,B01,2020-01-16,2020-01-17 17:49:17.524
3,4,,,,61112510000.0,18820,244041,F,67,B03,2020-01-16,2020-01-17 17:49:17.524
4,5,,,,2152609.0,2,4,F,67,F01,2020-01-16,2020-01-17 17:49:17.524


In [13]:
operacao.head()

Unnamed: 0,id_operacao,vlr_contrato,qtd_parcelas,vlr_devido,qtd_clientes,qtd_operacao,id_fonte,id_mod,tipo_pessoa,DAT_RSS_FNT_ITT,DAT_INC_DBO
0,1,,45,,341,358,67,A04,F,2020-01-16,2020-01-27 10:49:48.15
1,2,,63,,103,108,67,B99,F,2020-01-16,2020-01-27 10:49:48.15
2,3,,22,,15,16,67,B05,F,2020-01-16,2020-01-27 10:49:48.15
3,4,,48,,9,9,67,B03,F,2020-01-16,2020-01-27 10:49:48.15
4,5,,290,,3,3,67,B03,F,2020-01-16,2020-01-27 10:49:48.15


In [14]:
fonte.head()

Unnamed: 0,id_fonte,cnpj,complemento,NOM_COM,NOM_RAZ_SCL,DAT_INC_DBO
0,137,2427884087,2805,NMN,NMN,2019-12-19 13:43:41.914
1,183,12182674487,2635,NMN,NMN,2019-12-19 13:43:41.914
2,197,16167328168,1802,NMN,NMN,2019-12-19 13:43:41.914
3,267,279925978,2329,NMN,NMN,2019-12-19 13:43:41.914
4,322,20579036860,2397,NMN,NMN,2019-12-19 13:43:41.914
