In [1]:
from IPython.core.display import HTML
display(HTML("<style>pre { white-space: pre !important; }</style>"))

In [2]:
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf
from pyspark.sql import functions as f

In [5]:
spark = SparkSession.builder.getOrCreate()
spark.conf.set("spark.sql.shuffle.partitions",spark.sparkContext.defaultParallelism)
spark.conf.set('spark.sql.legacy.parquet.datetimeRebaseModeInRead', 'LEGACY')
spark.conf.set('spark.sql.legacy.parquet.int96RebaseModeInWrite', 'LEGACY')
spark.conf.set('spark.sql.legacy.parquet.datetimeRebaseModeInWrite', 'LEGACY')

In [6]:
spark.sparkContext.getConf().getAll()

[('spark.executor.id', 'driver'),
 ('spark.driver.port', '33939'),
 ('spark.driver.host', 'localhost'),
 ('spark.driver.memory', '16g'),
 ('spark.app.name', 'PySparkShell'),
 ('spark.sql.warehouse.dir', 'file:/home/bosco/spark-etl/spark-warehouse'),
 ('spark.sql.catalogImplementation', 'hive'),
 ('spark.rdd.compress', 'True'),
 ('spark.serializer.objectStreamReset', '100'),
 ('spark.master', 'local[*]'),
 ('spark.submit.pyFiles', ''),
 ('spark.submit.deployMode', 'client'),
 ('spark.app.id', 'local-1621155509797'),
 ('spark.ui.showConsoleProgress', 'true'),
 ('spark.app.startTime', '1621155508203')]

In [7]:
%%sh
ls ~/

auxpe.zip
bolsa_auxpe.zip
bolsa.zip
dw_dri_parquet
pagamento.zip
projeto.zip
spark-3.1.1-bin-hadoop2.7.tgz
spark-etl
Untitled.ipynb


In [8]:
dwd_calendario = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_CALENDARIO.parquet')
dwd_edital = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_EDITAL.parquet')
dwd_elemento_despesa = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_ELEMENTO_DESPESA.parquet')
dwd_geografia = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_GEOGRAFIA.parquet')
dwd_instituicao_ensino = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_INSTITUICAO_ENSINO.parquet')
dwd_modalidade_bolsa = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_MODALIDADE_BOLSA.parquet')
dwd_moeda = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_MOEDA.parquet')
dwd_pessoa = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_PESSOA.parquet')
dwd_processo_projeto = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_PROCESSO_PROJETO.parquet')
dwd_processo_bolsa = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_PROCESSO_BOLSA.parquet')
dwd_processo_auxpe = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_PROCESSO_AUXPE.parquet')
dwd_programa = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_PROGRAMA.parquet')
dwd_rubrica = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_RUBRICA.parquet')
dwd_situacao_prestacao = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_SITUACAO_PRESTACAO.parquet')
dwd_situacao_processo = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_SITUACAO_PROCESSO.parquet')
dwd_tipo_beneficio = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_TIPO_BENEFICIO.parquet')
dwd_tipo_solicitacao = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_TIPO_SOLICITACAO.parquet')
dwd_unidade_organizacional = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWD_UNIDADE_ORGANIZACIONAL.parquet')
dwf_extrato_cartao_pesquisador = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWF_EXTRATO_CARTAO_PESQUISADOR.parquet')
dwf_pagamento = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWF_PAGAMENTO.parquet')
dwf_prestacao_conta = spark.read.parquet('/home/bosco/dw_dri_parquet/DW_DRI.DWF_PRESTACAO_CONTA.parquet')

### Pagamento

In [9]:
##Prefixo
pref_dwf_pagamento = 'pgt_'
pref_dwd_rubrica_pgt = 'rubrica_'
pref_dwd_tipo_solicitacao_pgt = 'tp_solicitacao_'
pref_dwd_moeda_pgt = 'moeda_'

In [10]:
dwf_pagamento_pagamento = dwf_pagamento.select([f.col(c) for c in dwf_pagamento.columns if 'SK' in c] + \
    [f.col(c).alias(c.lower()) for c in dwf_pagamento.columns if 'SK' not in c])
dwd_rubrica_pgt = dwd_rubrica.select(['SK_RUBRICA']+[f.col(c).alias(pref_dwd_rubrica_pgt+c.lower()) for c in dwd_rubrica.columns])
dwd_tipo_solicitacao_pgt = dwd_tipo_solicitacao.select(['SK_TIPO_SOLICITACAO']+[f.col(c).alias(pref_dwd_tipo_solicitacao_pgt+c.lower()) for c in dwd_tipo_solicitacao.columns])
dwd_moeda_pgt = dwd_moeda.select(['SK_MOEDA']+[f.col(c).alias(pref_dwd_moeda_pgt+c.lower()) for c in dwd_moeda.columns])

In [11]:
pagamento = \
dwf_pagamento_pagamento \
.join(dwd_rubrica_pgt, 'SK_RUBRICA') \
.join(dwd_tipo_solicitacao_pgt, 'SK_TIPO_SOLICITACAO') \
.join(dwd_moeda_pgt, 'SK_MOEDA') \
.withColumn('dt_pagamento', f.to_date(f.col('SK_DATA_PAGAMENTO').cast('string'), 'yyyyMMdd')) \
.withColumn('dt_referencia', f.to_date(f.col('SK_DATA_REFERENCIA').cast('string'), 'yyyyMMdd')) \
.withColumn('processo_sk_processo', f.when(f.col('SK_PROCESSO_BOLSA')>0, f.col('SK_PROCESSO_BOLSA')).otherwise(f.lit(-1))) \
.withColumn('processo_sk_processo', f.when(f.col('SK_PROCESSO_AUXPE')>0, f.col('SK_PROCESSO_AUXPE')).otherwise(f.col('processo_sk_processo'))) \
.withColumnRenamed('SK_PROCESSO_BOLSA', 'bolsa_sk_processo') \
.withColumnRenamed('SK_PROCESSO_AUXPE', 'auxpe_sk_processo')
## Remove as SKs
pagamento = \
pagamento \
.select(['processo_sk_processo', 'bolsa_sk_processo', 'auxpe_sk_processo']+[f.col(c) for c in pagamento.columns if 'sk' not in c.lower()])
## Adiciona o prefixo 'pagamento_' as colunas
pagamento = \
pagamento \
.select([f.col(c).alias(pref_dwf_pagamento+c) for c in pagamento.columns])
## Transforma as colunas 'dt' em data
pagamento_columns = []
for i in [f.col(c) for c in pagamento.columns if 'sk' not in c.lower()]:
    if '_dt_' in str(i).lower():
        pagamento_columns.append(i.cast('date'))
    else:
        pagamento_columns.append(i)
pagamento = pagamento.select(\
                             [f.col(pref_dwf_pagamento+'processo_sk_processo').alias('processo_sk_processo'), \
                              f.col(pref_dwf_pagamento+'bolsa_sk_processo').alias('bolsa_sk_processo'), \
                              f.col(pref_dwf_pagamento+'auxpe_sk_processo').alias('auxpe_sk_processo')] \
                             + pagamento_columns)

#### Colunas calculadas

In [60]:
pagamento = pagamento \
                .withColumn('pgt_vl_pago_origem', f.when(f.col('pgt_tp_solicitacao_id_tipo_solicitacao').isin(1, 4), f.col('pgt_vl_pagamento_origem')).otherwise(f.lit(0))) \
                .withColumn('pgt_vl_empenhado_origem', f.when(f.col('pgt_tp_solicitacao_id_tipo_solicitacao').isin(0), f.col('pgt_vl_pagamento_origem')).otherwise(f.lit(0))) \
                .withColumn('pgt_vl_pago_brl', f.when(f.col('pgt_tp_solicitacao_id_tipo_solicitacao').isin(1, 4), f.col('pgt_vl_pagamento_brl')).otherwise(f.lit(0))) \
                .withColumn('pgt_vl_empenhado_brl', f.when(f.col('pgt_tp_solicitacao_id_tipo_solicitacao').isin(0), f.col('pgt_vl_pagamento_brl')).otherwise(f.lit(0))) \
                .withColumn('pgt_vl_pago_usd', f.when(f.col('pgt_tp_solicitacao_id_tipo_solicitacao').isin(1, 4), f.col('pgt_vl_pagamento_usd')).otherwise(f.lit(0))) \
                .withColumn('pgt_vl_empenhado_usd', f.when(f.col('pgt_tp_solicitacao_id_tipo_solicitacao').isin(0), f.col('pgt_vl_pagamento_usd')).otherwise(f.lit(0)))

### Projeto

In [12]:
##Prefixo
pref_dwd_processo_projeto_proj = 'proj_'
pref_dwd_unidade_organizacional_proj = 'uo_'
pref_dwd_programa_proj = 'programa_'
pref_dwd_edital = 'edital_'
pref_dwd_tipo_beneficio = 'tp_beneficio_'
pref_ies_principal = 'ies_princip_'
pref_geografia_resp_principal = 'geo_resp_princp_'
pref_responsavel_principal = 'resp_princp_'
pref_dwd_situacao_processo_proj = 'st_proc_'

In [13]:
dwd_processo_projeto_proj = dwd_processo_projeto.select([f.col(c) for c in dwd_processo_projeto.columns if 'SK' in c] + \
    [f.col(c).alias(c.lower()) for c in dwd_processo_projeto.columns if 'SK' not in c])
dwd_unidade_organizacional_proj = dwd_unidade_organizacional.select(['SK_UNIDADE_ORGANIZACIONAL']+[f.col(c).alias(pref_dwd_unidade_organizacional_proj+c.lower()) for c in dwd_unidade_organizacional.columns])
dwd_programa_proj = dwd_programa.select(['SK_PROGRAMA']+[f.col(c).alias(pref_dwd_programa_proj+c.lower()) for c in dwd_programa.columns])
dwd_edital_proj = dwd_edital.select(['SK_EDITAL']+[f.col(c).alias(pref_dwd_edital+c.lower()) for c in dwd_edital.columns])
dwd_tipo_beneficio_proj = dwd_tipo_beneficio.select(['SK_TIPO_BENEFICIO']+[f.col(c).alias(pref_dwd_tipo_beneficio+c.lower()) for c in dwd_tipo_beneficio.columns])
ies_principal = dwd_instituicao_ensino.withColumnRenamed('SK_INSTITUICAO_ENSINO', 'SK_IES_PRINCIPAL')
ies_principal = ies_principal.select(['SK_IES_PRINCIPAL']+[f.col(c).alias(pref_ies_principal+c.lower()) for c in ies_principal.columns])
geografia_resp_principal = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEOGRAFIA_RESP_PRINCIPAL')
geografia_resp_principal = geografia_resp_principal.select(['SK_GEOGRAFIA_RESP_PRINCIPAL']+[f.col(c).alias(pref_geografia_resp_principal+c.lower()) for c in geografia_resp_principal.columns])
responsavel_principal = dwd_pessoa.withColumnRenamed('SK_PESSOA', 'SK_RESPONSAVEL_PRINCIPAL')
responsavel_principal = responsavel_principal.select(['SK_RESPONSAVEL_PRINCIPAL']+[f.col(c).alias(pref_responsavel_principal+c.lower()) for c in responsavel_principal.columns])
dwd_situacao_processo_proj = dwd_situacao_processo.select(['SK_SITUACAO_PROCESSO']+[f.col(c).alias(pref_dwd_situacao_processo_proj+c.lower()) for c in dwd_situacao_processo.columns])

In [14]:
projeto = \
dwd_processo_projeto_proj \
.join(dwd_unidade_organizacional_proj, 'SK_UNIDADE_ORGANIZACIONAL') \
.join(dwd_programa_proj, 'SK_PROGRAMA') \
.join(dwd_edital_proj, 'SK_EDITAL') \
.join(dwd_tipo_beneficio_proj, 'SK_TIPO_BENEFICIO') \
.join(ies_principal, 'SK_IES_PRINCIPAL') \
.join(geografia_resp_principal, 'SK_GEOGRAFIA_RESP_PRINCIPAL') \
.join(responsavel_principal, 'SK_RESPONSAVEL_PRINCIPAL') \
.join(dwd_situacao_processo_proj, 'SK_SITUACAO_PROCESSO')
## Remove as SKs
projeto = \
projeto \
.select(['sk_processo_projeto']+[f.col(c) for c in projeto.columns if 'sk' not in c.lower()])
## Adiciona o prefixo 'proj_' as colunas
projeto = \
projeto \
.select([f.col(c).alias(pref_dwd_processo_projeto_proj+c) for c in projeto.columns])
## Transforma as colunas 'dt' em data
proj_columns = []
for i in [f.col(c) for c in projeto.columns]:
    if '_dt_' in str(i).lower():
        proj_columns.append(i.cast('date'))
    else:
        proj_columns.append(i)
projeto = \
projeto \
.select(proj_columns)

### Bolsas

In [15]:
##Prefixo
pref_dwd_processo_bolsa_bolsa = 'bolsa_'
pref_dwd_unidade_organizacional_bolsa = 'uo_'
pref_dwd_programa_bolsa = 'programa_'
pref_dwd_edital_bolsa = 'edital_'
pref_dwd_tipo_beneficio_bolsa = 'tp_beneficio_'
pref_bolsista_bolsa = 'beneficiario_'
pref_geografia_exterior_bolsa = 'geo_exterior_'
pref_geografia_brasil_bolsa = 'geo_brasil_'
pref_ies_origem_bolsa = 'ies_ori_'
pref_geografia_ies_origem_bolsa = 'geo_ies_ori_'
pref_ies_estudo_bolsa = 'ies_estu_'
pref_geografia_ies_estudo_bolsa = 'geo_ies_estu_'
pref_dwd_modalidade_bolsa = 'modalidade_'
pref_dwd_situacao_processo_bolsa = 'st_proc_'

In [16]:
dwd_processo_bolsa_bolsa = dwd_processo_bolsa.select([f.col(c) for c in dwd_processo_bolsa.columns if 'SK' in c] + \
    [f.col(c).alias(c.lower()) for c in dwd_processo_bolsa.columns if 'SK' not in c]) \
    .withColumnRenamed('SK_PROCESSO_PROJETO', 'proj_sk_processo_projeto')
dwd_unidade_organizacional_bolsa = dwd_unidade_organizacional.select(['SK_UNIDADE_ORGANIZACIONAL']+[f.col(c).alias(pref_dwd_unidade_organizacional_bolsa+c.lower()) for c in dwd_unidade_organizacional.columns])
dwd_programa_bolsa = dwd_programa.select(['SK_PROGRAMA']+[f.col(c).alias(pref_dwd_programa_bolsa+c.lower()) for c in dwd_programa.columns])
dwd_edital_bolsa = dwd_edital.select(['SK_EDITAL']+[f.col(c).alias(pref_dwd_edital_bolsa+c.lower()) for c in dwd_edital.columns])
dwd_tipo_beneficio_bolsa = dwd_tipo_beneficio.select(['SK_TIPO_BENEFICIO']+[f.col(c).alias(pref_dwd_tipo_beneficio_bolsa+c.lower()) for c in dwd_tipo_beneficio.columns])
bolsista = dwd_pessoa.withColumnRenamed('SK_PESSOA', 'SK_BOLSISTA')
bolsista = bolsista.select(['SK_BOLSISTA']+[f.col(c).alias(pref_bolsista_bolsa+c.lower()) for c in bolsista.columns])
geografia_exterior = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEO_EXTERIOR')
geografia_exterior = geografia_exterior.select(['SK_GEO_EXTERIOR']+[f.col(c).alias(pref_geografia_exterior_bolsa+c.lower()) for c in geografia_exterior.columns])
geografia_brasil = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEO_BRASIL')
geografia_brasil = geografia_brasil.select(['SK_GEO_BRASIL']+[f.col(c).alias(pref_geografia_brasil_bolsa+c.lower()) for c in geografia_brasil.columns])
ies_origem = dwd_instituicao_ensino.withColumnRenamed('SK_INSTITUICAO_ENSINO', 'SK_IES_ORIGEM')
ies_origem = ies_origem.select(['SK_IES_ORIGEM']+[f.col(c).alias(pref_ies_origem_bolsa+c.lower()) for c in ies_origem.columns])
geografia_ies_origem = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEOGRAFIA_IES_ORIGEM')
geografia_ies_origem = geografia_ies_origem.select(['SK_GEOGRAFIA_IES_ORIGEM']+[f.col(c).alias(pref_geografia_ies_origem_bolsa+c.lower()) for c in geografia_ies_origem.columns])
ies_estudo = dwd_instituicao_ensino.withColumnRenamed('SK_INSTITUICAO_ENSINO', 'SK_IES_ESTUDO')
ies_estudo = ies_estudo.select(['SK_IES_ESTUDO']+[f.col(c).alias(pref_ies_estudo_bolsa+c.lower()) for c in ies_estudo.columns])
geografia_ies_estudo = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEOGRAFIA_IES_ESTUDO')
geografia_ies_estudo = geografia_ies_estudo.select(['SK_GEOGRAFIA_IES_ESTUDO']+[f.col(c).alias(pref_geografia_ies_estudo_bolsa+c.lower()) for c in geografia_ies_estudo.columns])
dwd_modalidade_bolsa_bolsa = dwd_modalidade_bolsa.select(['SK_MODALIDADE_BOLSA']+[f.col(c).alias(pref_dwd_modalidade_bolsa+c.lower()) for c in dwd_modalidade_bolsa.columns])
dwd_situacao_processo_bolsa = dwd_situacao_processo.select(['SK_SITUACAO_PROCESSO']+[f.col(c).alias(pref_dwd_situacao_processo_bolsa+c.lower()) for c in dwd_situacao_processo.columns])

In [17]:
bolsa = \
dwd_processo_bolsa_bolsa \
.join(projeto, 'proj_sk_processo_projeto') \
.join(dwd_unidade_organizacional_bolsa, 'SK_UNIDADE_ORGANIZACIONAL') \
.join(dwd_programa_bolsa, 'SK_PROGRAMA') \
.join(dwd_edital_bolsa, 'SK_EDITAL') \
.join(dwd_tipo_beneficio_bolsa, 'SK_TIPO_BENEFICIO') \
.join(bolsista, 'SK_BOLSISTA') \
.join(geografia_exterior, 'SK_GEO_EXTERIOR') \
.join(geografia_brasil, 'SK_GEO_BRASIL') \
.join(ies_origem, 'SK_IES_ORIGEM') \
.join(geografia_ies_origem, 'SK_GEOGRAFIA_IES_ORIGEM') \
.join(ies_estudo, 'SK_IES_ESTUDO') \
.join(dwd_modalidade_bolsa_bolsa, 'SK_MODALIDADE_BOLSA') \
.join(dwd_situacao_processo_bolsa, 'SK_SITUACAO_PROCESSO')
#.join(geografia_ies_estudo, 'SK_GEOGRAFIA_IES_ESTUDO') \
## Remove as SKs
bolsa = \
bolsa \
.select([f.col('sk_processo_bolsa').alias('sk_processo')]+[f.col(c) for c in bolsa.columns if 'sk' not in c.lower()])
## Adiciona o prefixo 'bolsa_' as colunas
bolsa = \
bolsa \
.select([f.col(c).alias(pref_dwd_processo_bolsa_bolsa+c) for c in bolsa.columns if 'proj_' not in c]+[f.col(c) for c in bolsa.columns if 'proj_' in c])
## Transforma as colunas 'dt' em data
bolsa_columns = []
for i in [f.col(c) for c in bolsa.columns]:
    if '_dt_' in str(i).lower():
        bolsa_columns.append(i.cast('date'))
    else:
        bolsa_columns.append(i)
bolsa = \
bolsa \
.select(bolsa_columns)

### AUXPE

In [18]:
##Prefixo
pref_dwd_processo_auxpe_auxpe = 'auxpe_'
pref_dwd_unidade_organizacional_auxpe = 'uo_'
pref_dwd_programa_auxpe = 'programa_'
pref_dwd_edital_auxpe = 'edital_'
pref_dwd_tipo_beneficio_auxpe = 'tp_beneficio_'
pref_beneficiario_auxpe = 'beneficiario_'
pref_geografia_exterior_auxpe = 'geo_exterior_'
pref_geografia_brasil_auxpe = 'geo_brasil_'
pref_ies_origem_auxpe = 'ies_ori_'
pref_geografia_ies_origem_auxpe = 'geo_ies_ori_'
pref_ies_estudo_auxpe = 'ies_estu_'
pref_geografia_ies_estudo_auxpe = 'geo_ies_estu_'
pref_dwd_situacao_processo_auxpe = 'st_proc_'

In [19]:
dwd_processo_auxpe_auxpe = dwd_processo_auxpe.select([f.col(c) for c in dwd_processo_auxpe.columns if 'SK' in c] + \
    [f.col(c).alias(c.lower()) for c in dwd_processo_auxpe.columns if 'SK' not in c]) \
    .withColumnRenamed('SK_PROCESSO_PROJETO', 'proj_sk_processo_projeto')
dwd_unidade_organizacional_auxpe = dwd_unidade_organizacional.select(['SK_UNIDADE_ORGANIZACIONAL']+[f.col(c).alias(pref_dwd_unidade_organizacional_auxpe+c.lower()) for c in dwd_unidade_organizacional.columns])
dwd_programa_auxpe = dwd_programa.select(['SK_PROGRAMA']+[f.col(c).alias(pref_dwd_programa_auxpe+c.lower()) for c in dwd_programa.columns])
dwd_edital_auxpe = dwd_edital.select(['SK_EDITAL']+[f.col(c).alias(pref_dwd_edital_auxpe+c.lower()) for c in dwd_edital.columns])
dwd_tipo_beneficio_auxpe = dwd_tipo_beneficio.select(['SK_TIPO_BENEFICIO']+[f.col(c).alias(pref_dwd_tipo_beneficio_auxpe+c.lower()) for c in dwd_tipo_beneficio.columns])
beneficiario = dwd_pessoa.withColumnRenamed('SK_PESSOA', 'SK_BENEFICIARIO')
beneficiario = beneficiario.select(['SK_BENEFICIARIO']+[f.col(c).alias(pref_beneficiario_auxpe+c.lower()) for c in beneficiario.columns])
geografia_exterior = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEO_EXTERIOR')
geografia_exterior = geografia_exterior.select(['SK_GEO_EXTERIOR']+[f.col(c).alias(pref_geografia_exterior_auxpe+c.lower()) for c in geografia_exterior.columns])
geografia_brasil = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEO_BRASIL')
geografia_brasil = geografia_brasil.select(['SK_GEO_BRASIL']+[f.col(c).alias(pref_geografia_brasil_auxpe+c.lower()) for c in geografia_brasil.columns])
ies_origem = dwd_instituicao_ensino.withColumnRenamed('SK_INSTITUICAO_ENSINO', 'SK_IES_ORIGEM')
ies_origem = ies_origem.select(['SK_IES_ORIGEM']+[f.col(c).alias(pref_ies_origem_auxpe+c.lower()) for c in ies_origem.columns])
geografia_ies_origem = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEOGRAFIA_IES_ORIGEM')
geografia_ies_origem = geografia_ies_origem.select(['SK_GEOGRAFIA_IES_ORIGEM']+[f.col(c).alias(pref_geografia_ies_origem_auxpe+c.lower()) for c in geografia_ies_origem.columns])
ies_estudo = dwd_instituicao_ensino.withColumnRenamed('SK_INSTITUICAO_ENSINO', 'SK_IES_ESTUDO')
ies_estudo = ies_estudo.select(['SK_IES_ESTUDO']+[f.col(c).alias(pref_ies_estudo_auxpe+c.lower()) for c in ies_estudo.columns])
geografia_ies_estudo = dwd_geografia.withColumnRenamed('SK_GEOGRAFIA', 'SK_GEOGRAFIA_IES_ESTUDO')
geografia_ies_estudo = geografia_ies_estudo.select(['SK_GEOGRAFIA_IES_ESTUDO']+[f.col(c).alias(pref_geografia_ies_estudo_auxpe+c.lower()) for c in geografia_ies_estudo.columns])
dwd_situacao_processo_auxpe = dwd_situacao_processo.select(['SK_SITUACAO_PROCESSO']+[f.col(c).alias(pref_dwd_situacao_processo_auxpe+c.lower()) for c in dwd_situacao_processo.columns])

In [20]:
auxpe = \
dwd_processo_auxpe_auxpe \
.join(projeto, 'proj_sk_processo_projeto') \
.join(dwd_unidade_organizacional_auxpe, 'SK_UNIDADE_ORGANIZACIONAL') \
.join(dwd_programa_auxpe, 'SK_PROGRAMA') \
.join(dwd_edital_auxpe, 'SK_EDITAL') \
.join(dwd_tipo_beneficio_auxpe, 'SK_TIPO_BENEFICIO') \
.join(beneficiario, 'SK_BENEFICIARIO') \
.join(geografia_exterior, 'SK_GEO_EXTERIOR') \
.join(geografia_brasil, 'SK_GEO_BRASIL') \
.join(ies_origem, 'SK_IES_ORIGEM') \
.join(geografia_ies_origem, 'SK_GEOGRAFIA_IES_ORIGEM') \
.join(ies_estudo, 'SK_IES_ESTUDO') \
.join(dwd_situacao_processo_auxpe, 'SK_SITUACAO_PROCESSO')
## Remove as SKs
auxpe = \
auxpe \
.select([f.col('sk_processo_auxpe').alias('sk_processo')]+[f.col(c) for c in auxpe.columns if 'sk' not in c.lower()])
## Adiciona o prefixo 'auxpe_' as colunas
auxpe = \
auxpe \
.select([f.col(c).alias(pref_dwd_processo_auxpe_auxpe+c) for c in auxpe.columns if 'proj_' not in c]+[f.col(c) for c in auxpe.columns if 'proj_' in c])
## Transforma as colunas 'dt' em data
auxpe_columns = []
for i in [f.col(c) for c in auxpe.columns]:
    if '_dt_' in str(i).lower():
        auxpe_columns.append(i.cast('date'))
    else:
        auxpe_columns.append(i)
auxpe = \
auxpe \
.select(auxpe_columns)

### Union Bolsa e AUXPE

In [21]:
auxpe_union = auxpe.select([f.col(c).alias(str(c).replace("auxpe_", "")) for c in auxpe.columns]) \
                   .withColumnRenamed('id_processo_auxpe', 'id_processo')
bolsa_union = bolsa.select([f.col(c).alias(str(c).replace("bolsa_", "")) for c in bolsa.columns]) \
                   .withColumnRenamed('id_processo_bolsa', 'id_processo') \
                   .withColumn('dt_termino', f.col('dt_termino_acompanhamento'))
## Renomeia as colunas exclusivas AUXPE
colunas_processo = []
colunas_auxpe = []
for i in auxpe_union.columns:
    if i not in bolsa_union.columns:
        colunas_auxpe.append(f.col(i).alias('auxpe_'+i))
    if i in bolsa_union.columns:
        colunas_processo.append(f.col(i).alias('processo_'+i))
colunas_processo_auxpe = colunas_processo+colunas_auxpe
## Renomeia as colunas exclusivas Bolsa
colunas_processo = []
colunas_bolsa = []
for i in bolsa_union.columns:
    if i not in auxpe_union.columns:
        colunas_bolsa.append(f.col(i).alias('bolsa_'+i))
    if i in auxpe_union.columns:
        colunas_processo.append(f.col(i).alias('processo_'+i))
colunas_processo_bolsa = colunas_processo+colunas_bolsa
auxpe_union = auxpe_union.select(colunas_processo_auxpe)
bolsa_union = bolsa_union.select(colunas_processo_bolsa)

In [22]:
bolsa_auxpe = bolsa_union.unionByName(auxpe_union, allowMissingColumns=True)
bolsa_auxpe = bolsa_auxpe.select([f.col(c) for c in bolsa_auxpe.columns if 'proj_' not in c]+[f.col(c).alias(c.replace('processo_', '')) for c in bolsa_auxpe.columns if 'proj_' in c])

### Pagamento AUXPE

In [66]:
pagamento_auxpe = auxpe.join(pagamento, 'auxpe_sk_processo', 'left')

### Pagamento Bolsa

In [67]:
pagamento_bolsa = bolsa.join(pagamento, 'bolsa_sk_processo', 'left')

### Pagamento Bolsa AUXPE

In [68]:
pagamento_bolsa_auxpe = bolsa_auxpe.join(pagamento, 'processo_sk_processo', 'left')

### Salva df.csv.zip

##Salva CSV
def salva_csv(df, nm):
    compression_opts = dict(method='zip', archive_name=f'{nm}.csv')
    df.toPandas().to_csv(path_or_buf=f'./{nm}.zip', sep=';', na_rep='', float_format=None, columns=None, header=True, index=False, index_label=None, mode='w', encoding=None, compression=compression_opts, quoting=None, quotechar='"', line_terminator=None, chunksize=200000, date_format=None, doublequote=True, escapechar=None, decimal=',', errors='strict', storage_options=None)

##Salva CSV
def salva_csv(df, nm):
    df.repartition(6).write.csv(f'/home/bosco/{nm}', sep=';', header=True, mode='overwrite')

In [37]:
##Salva parquet
def salva_csv(df, nm):
    df.repartition(6).write.parquet(f'/home/bosco/dw_desnormalizado/{nm}', mode='overwrite')

In [29]:
%%time
salva_csv(projeto, 'projeto')

CPU times: user 2.23 ms, sys: 2.83 ms, total: 5.06 ms
Wall time: 8.3 s


In [30]:
%%time
salva_csv(bolsa, 'bolsa')

CPU times: user 14.9 ms, sys: 0 ns, total: 14.9 ms
Wall time: 44.7 s


In [31]:
%%time
salva_csv(auxpe, 'auxpe')

CPU times: user 5.56 ms, sys: 0 ns, total: 5.56 ms
Wall time: 8.1 s


In [32]:
%%time
salva_csv(pagamento, 'pagamento')

CPU times: user 5.43 ms, sys: 0 ns, total: 5.43 ms
Wall time: 10.4 s


In [33]:
%%time
salva_csv(bolsa_auxpe, 'bolsa_auxpe')

CPU times: user 12.4 ms, sys: 0 ns, total: 12.4 ms
Wall time: 29.8 s


In [34]:
%%time
salva_csv(pagamento_auxpe, 'pagamento_auxpe')

CPU times: user 23.3 ms, sys: 0 ns, total: 23.3 ms
Wall time: 1min 6s


In [35]:
%%time
salva_csv(pagamento_bolsa, 'pagamento_bolsa')

CPU times: user 23.1 ms, sys: 8.75 ms, total: 31.9 ms
Wall time: 1min 32s


In [36]:
%%time
salva_csv(pagamento_bolsa_auxpe, 'pagamento_bolsa_auxpe')

CPU times: user 12.3 ms, sys: 19.2 ms, total: 31.5 ms
Wall time: 1min 32s


In [None]:
ll

In [69]:
pagamento_bolsa_auxpe.columns

['processo_sk_processo',
 'processo_id_processo',
 'processo_nr_processo',
 'processo_dt_inclusao',
 'processo_dt_homologacao',
 'processo_dt_aceite_implementacao',
 'processo_dt_inicio',
 'processo_dt_finalizacao',
 'processo_dt_desistencia',
 'processo_in_registro_ausente',
 'processo_dt_carga',
 'processo_dt_versionamento',
 'processo_in_registro_ativo',
 'processo_uo_id_unidade_organizacional',
 'processo_uo_sg_diretoria',
 'processo_uo_nm_diretoria',
 'processo_uo_sg_coordenacao_geral',
 'processo_uo_nm_coordenacao_geral',
 'processo_uo_sg_coordenacao',
 'processo_uo_nm_coordenacao',
 'processo_uo_nr_nivel',
 'processo_uo_nm_nivel',
 'processo_uo_in_registro_ausente',
 'processo_uo_dt_carga',
 'processo_uo_dt_versionamento',
 'processo_uo_in_registro_ativo',
 'processo_programa_id_programa',
 'processo_programa_sg_programa',
 'processo_programa_nm_programa',
 'processo_programa_in_registro_ausente',
 'processo_programa_dt_carga',
 'processo_programa_dt_versionamento',
 'processo_p

In [70]:
pagamento_bolsa_auxpe \
.groupBy('pgt_tp_solicitacao_id_tipo_solicitacao', 'pgt_tp_solicitacao_ds_tipo_solicitacao').agg(f.count('*'), f.sum('pgt_vl_pagamento_origem').alias('pgt_vl_pagamento_origem')) \
.sort(f.col('pgt_tp_solicitacao_id_tipo_solicitacao').desc()) \
.show()

+--------------------------------------+--------------------------------------+--------+-----------------------+
|pgt_tp_solicitacao_id_tipo_solicitacao|pgt_tp_solicitacao_ds_tipo_solicitacao|count(1)|pgt_vl_pagamento_origem|
+--------------------------------------+--------------------------------------+--------+-----------------------+
|                                     4|                             Devolução|   46969|   -4.862111362000001E7|
|                                     1|                             Pagamento| 1461778|   2.8797223033500047E9|
|                                     0|                               Empenho|    4690|   2.9580121534000003E8|
|                                  null|                                  null|   84059|                   null|
+--------------------------------------+--------------------------------------+--------+-----------------------+



In [45]:
pagamento_bolsa_auxpe \
.filter(f.col('processo_programa_sg_programa')=='CAPES-PRINT') \
.filter(f.col('pgt_tp_solicitacao_id_tipo_solicitacao')==1) \
.groupBy('processo_nr_processo').agg(f.sum('pgt_vl_pagamento_origem').alias('pgt_vl_pagamento_origem')) \
.sort(f.col('pgt_vl_pagamento_origem').desc()) \
.show()

+--------------------+-----------------------+
|processo_nr_processo|pgt_vl_pagamento_origem|
+--------------------+-----------------------+
|88881.309849/2018-01|              9622200.0|
|88881.309873/2018-01|              2760703.0|
|88881.309857/2018-01|              2155198.0|
|88887.465590/2019-00|              2144260.0|
|88881.370753/2019-01|              1887944.0|
|88881.309862/2018-01|              1717250.0|
|88881.333660/2019-01|              1581000.0|
|88887.371224/2019-00|              1415850.0|
|88887.371519/2019-00|              1411076.0|
|88881.309855/2018-01|              1384100.0|
|88881.309859/2018-01|              1368380.0|
|88887.367978/2019-00|              1248676.0|
|88887.363605/2019-00|              1228176.0|
|88881.310503/2018-01|              1140000.0|
|88881.310501/2018-01|              1110000.0|
|88881.309851/2018-01|              1076415.0|
|88881.311735/2018-01|              1035497.0|
|88881.310287/2018-01|               980942.0|
|88881.312296