In [1]:
import os
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

In [6]:
# criar spark session
spark = SparkSession \
    .builder \
    .config('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.2.0') \
    .config('spark.hadoop.fs.s3a.access.key', '') \
    .config('spark.hadoop.fs.s3a.secret.key', '') \
    .appName('spark etl - demais') \
    .getOrCreate()

# ler arquivos no s3
df = spark.read.csv('s3a://custos-stn-bucket/demais/demais_0.csv', header=True, inferSchema=True)

In [7]:
# schema
df.printSchema()

root
 |-- co_siorg_n05: integer (nullable = true)
 |-- ds_siorg_n05: string (nullable = true)
 |-- co_siorg_n06: integer (nullable = true)
 |-- ds_siorg_n06: string (nullable = true)
 |-- co_siorg_n07: integer (nullable = true)
 |-- ds_siorg_n07: string (nullable = true)
 |-- me_referencia: integer (nullable = true)
 |-- an_referencia: integer (nullable = true)
 |-- sg_mes_completo: string (nullable = true)
 |-- me_emissao: integer (nullable = true)
 |-- an_emissao: integer (nullable = true)
 |-- co_situacao_icc: string (nullable = true)
 |-- no_situacao_icc: string (nullable = true)
 |-- id_natureza_juridica_siorg: integer (nullable = true)
 |-- ds_natureza_juridica_siorg: string (nullable = true)
 |-- id_categoria_economica_nade: integer (nullable = true)
 |-- id_grupo_despesa_nade: integer (nullable = true)
 |-- id_moap_nade: integer (nullable = true)
 |-- id_elemento_despesa_nade: integer (nullable = true)
 |-- id_subitem_nade: integer (nullable = true)
 |-- co_natureza_despesa_det

In [8]:
# contagem de linhas
df.count()

250

In [9]:
# emprimir primeiras 5 linhas
df.show(5)

+------------+--------------------+------------+--------------------+------------+--------------------+-------------+-------------+---------------+----------+----------+---------------+--------------------+--------------------------+--------------------------+---------------------------+---------------------+------------+------------------------+---------------+------------------------+------------------------+----------------------+----------------------+-------------------+--------------------+--------+
|co_siorg_n05|        ds_siorg_n05|co_siorg_n06|        ds_siorg_n06|co_siorg_n07|        ds_siorg_n07|me_referencia|an_referencia|sg_mes_completo|me_emissao|an_emissao|co_situacao_icc|     no_situacao_icc|id_natureza_juridica_siorg|ds_natureza_juridica_siorg|id_categoria_economica_nade|id_grupo_despesa_nade|id_moap_nade|id_elemento_despesa_nade|id_subitem_nade|co_natureza_despesa_deta|no_natureza_despesa_deta|id_esfera_orcamentaria|no_esfera_orcamentaria|id_in_resultado_eof| no_in_re

In [10]:
# criar view para spark sql
df.createOrReplaceTempView("demais")

In [75]:

df_dm = spark.sql("""
                  select *
                  from demais
                  """)

df_dm.printSchema()


root
 |-- co_siorg_n05: integer (nullable = true)
 |-- ds_siorg_n05: string (nullable = true)
 |-- co_siorg_n06: integer (nullable = true)
 |-- ds_siorg_n06: string (nullable = true)
 |-- co_siorg_n07: integer (nullable = true)
 |-- ds_siorg_n07: string (nullable = true)
 |-- me_referencia: integer (nullable = true)
 |-- an_referencia: integer (nullable = true)
 |-- sg_mes_completo: string (nullable = true)
 |-- me_emissao: integer (nullable = true)
 |-- an_emissao: integer (nullable = true)
 |-- co_situacao_icc: string (nullable = true)
 |-- no_situacao_icc: string (nullable = true)
 |-- id_natureza_juridica_siorg: integer (nullable = true)
 |-- ds_natureza_juridica_siorg: string (nullable = true)
 |-- id_categoria_economica_nade: integer (nullable = true)
 |-- id_grupo_despesa_nade: integer (nullable = true)
 |-- id_moap_nade: integer (nullable = true)
 |-- id_elemento_despesa_nade: integer (nullable = true)
 |-- id_subitem_nade: integer (nullable = true)
 |-- co_natureza_despesa_det

In [96]:
df_dm.show()

+--------------------+--------------------+-----------------+--------------------+-----------------+--------------------+-----------------+-----------------+-------+-------+----------------------+----------------------+-----------------------+-----------------------+----------------+--------------------+-----------------------+
|co_natureza_juridica|ds_natureza_juridica|co_organizacao_n1|   ds_organizacao_n1|co_organizacao_n2|   ds_organizacao_n2|co_organizacao_n3|ds_organizacao_n3|an_lanc|me_lanc|co_esfera_orcamentaria|ds_esfera_orcamentaria|co_modalidade_aplicacao|ds_modalidade_aplicacao|co_resultado_eof|    ds_resultado_eof|va_custo_transferencias|
+--------------------+--------------------+-----------------+--------------------+-----------------+--------------------+-----------------+-----------------+-------+-------+----------------------+----------------------+-----------------------+-----------------------+----------------+--------------------+-----------------------+
|         

In [12]:
df_dm.head(1) # Mostra o cabeçalho da primeira linha

[Row(co_siorg_n05=244, ds_siorg_n05='MINISTERIO DA EDUCACAO', co_siorg_n06=444, ds_siorg_n06='INSTITUTO FEDERAL DE EDUCACAO, CIENCIA E TECNOLOGIA DA BAHIA', co_siorg_n07=105098, ds_siorg_n07='CAMPUS SEABRA', me_referencia=3, an_referencia=2021, sg_mes_completo='ABR/2021', me_emissao=4, an_emissao=2021, co_situacao_icc='DSP001', no_situacao_icc='AQUISICAO DE SERVICOS - PESSOAS JURIDICAS', id_natureza_juridica_siorg=4, ds_natureza_juridica_siorg='AUTARQUIA', id_categoria_economica_nade=3, id_grupo_despesa_nade=3, id_moap_nade=90, id_elemento_despesa_nade=39, id_subitem_nade=43, co_natureza_despesa_deta=33903943, no_natureza_despesa_deta='SERVICOS DE ENERGIA ELETRICA', id_esfera_orcamentaria=1, no_esfera_orcamentaria='ORCAMENTO FISCAL', id_in_resultado_eof=2, no_in_resultado_eof='PRIMARIO DISCRICIONARIO', va_custo=3112.47)]

In [14]:
df_dm.describe(["co_siorg_n05","ds_siorg_n05","co_siorg_n06","ds_siorg_n06","co_siorg_n07"]).show()

+-------+------------------+--------------------+-----------------+--------------------+-----------------+
|summary|      co_siorg_n05|        ds_siorg_n05|     co_siorg_n06|        ds_siorg_n06|     co_siorg_n07|
+-------+------------------+--------------------+-----------------+--------------------+-----------------+
|  count|               250|                 250|              250|                 250|              250|
|   mean|         21245.344|                null|        60081.072|                null|        62939.132|
| stddev|63753.512338187975|                null|51498.11740680035|                null|72145.64180422785|
|    min|                14|MINISTERIO DA AGR...|              223|AGENCIA NACIONAL ...|               -9|
|    max|            267175|MINISTERIO DO TUR...|           222120|UNIVERSIDADE TECN...|           267910|
+-------+------------------+--------------------+-----------------+--------------------+-----------------+



In [18]:
df_dm.describe(["ds_siorg_n07","me_referencia","an_referencia","sg_mes_completo","me_emissao","an_emissao"]).show()

+-------+--------------------+----------------+-------------+---------------+------------------+----------+
|summary|        ds_siorg_n07|   me_referencia|an_referencia|sg_mes_completo|        me_emissao|an_emissao|
+-------+--------------------+----------------+-------------+---------------+------------------+----------+
|  count|                 250|             250|          250|            250|               250|       250|
|   mean|                null|            2.34|       2021.0|           null|              2.58|    2021.0|
| stddev|                null|2.08272681934431|          0.0|           null|0.9629689698779456|       0.0|
|    min|      CAMPUS  VICOSA|               1|         2021|       ABR/2021|                 1|      2021|
|    max|SUPERINTENDENCIA ...|              12|         2021|       MAR/2021|                 4|      2021|
+-------+--------------------+----------------+-------------+---------------+------------------+----------+



In [22]:
df_dm.describe(["co_situacao_icc","no_situacao_icc","id_natureza_juridica_siorg","ds_natureza_juridica_siorg"]).show()

+-------+---------------+--------------------+--------------------------+--------------------------+
|summary|co_situacao_icc|     no_situacao_icc|id_natureza_juridica_siorg|ds_natureza_juridica_siorg|
+-------+---------------+--------------------+--------------------------+--------------------------+
|  count|            250|                 250|                       250|                       250|
|   mean|           null|                null|                       4.0|                      null|
| stddev|           null|                null|                       0.0|                      null|
|    min|         DSP001|AQUISICAO DE SERV...|                         4|                 AUTARQUIA|
|    max|         DSP001|AQUISICAO DE SERV...|                         4|                 AUTARQUIA|
+-------+---------------+--------------------+--------------------------+--------------------------+



In [23]:
df_dm.describe(["id_categoria_economica_nade","id_grupo_despesa_nade","id_moap_nade","id_elemento_despesa_nade"]).show()

+-------+---------------------------+---------------------+------------+------------------------+
|summary|id_categoria_economica_nade|id_grupo_despesa_nade|id_moap_nade|id_elemento_despesa_nade|
+-------+---------------------------+---------------------+------------+------------------------+
|  count|                        250|                  250|         250|                     250|
|   mean|                        3.0|                  3.0|        90.0|                    39.0|
| stddev|                        0.0|                  0.0|         0.0|                     0.0|
|    min|                          3|                    3|          90|                      39|
|    max|                          3|                    3|          90|                      39|
+-------+---------------------------+---------------------+------------+------------------------+



In [24]:
df_dm.describe(["id_subitem_nade","co_natureza_despesa_deta","no_natureza_despesa_deta","id_esfera_orcamentaria"]).show()

+-------+-----------------+------------------------+------------------------+----------------------+
|summary|  id_subitem_nade|co_natureza_despesa_deta|no_natureza_despesa_deta|id_esfera_orcamentaria|
+-------+-----------------+------------------------+------------------------+----------------------+
|  count|              250|                     250|                     250|                   250|
|   mean|           50.908|          3.3903950908E7|                    null|                 1.172|
| stddev|6.845654676640306|       6.845654676370931|                    null|    0.3781374773904708|
|    min|               43|                33903943|    SERVICO DE SELECA...|                     1|
|    max|               63|                33903963|    SERVICOS GRAFICOS...|                     2|
+-------+-----------------+------------------------+------------------------+----------------------+



In [25]:
df_dm.describe(["no_esfera_orcamentaria","id_in_resultado_eof","no_in_resultado_eof","va_custo"]).show()

+-------+----------------------+-------------------+--------------------+------------------+
|summary|no_esfera_orcamentaria|id_in_resultado_eof| no_in_resultado_eof|          va_custo|
+-------+----------------------+-------------------+--------------------+------------------+
|  count|                   250|                250|                 250|               250|
|   mean|                  null|              2.624|                null|14559.910119999988|
| stddev|                  null| 2.0325227168170863|                null| 104585.6641084334|
|    min|  ORCAMENTO DE SEGU...|                  1|DESP.DISC.DECORRE...|              0.39|
|    max|      ORCAMENTO FISCAL|                  9|PRIMARIO OBRIGATORIO|        1553663.14|
+-------+----------------------+-------------------+--------------------+------------------+



In [26]:
df_dm.select('ds_siorg_n05').distinct().rdd.map(lambda r: r[0]).collect()
# Util para conhecer classes discretas de uma coluna categórica.
# Neste caso mostra as organizacoes presentes nestes dados

['MINISTERIO DA JUSTICA E SEGURANCA PUBLICA',
 'MINISTERIO DA SAUDE',
 'MINISTERIO DO DESENVOLVIMENTO REGIONAL',
 'MINISTERIO DO MEIO AMBIENTE',
 'MINISTERIO DA CIENCIA, TECNOLOGIA E INOVACOES',
 'MINISTERIO DA EDUCACAO',
 'MINISTERIO DO TURISMO',
 'MINISTERIO DA AGRICULTURA, PECUARIA E ABASTECIMENTO',
 'MINISTERIO DE MINAS E ENERGIA',
 'MINISTERIO DA ECONOMIA']

In [27]:
df_dm.select('ds_siorg_n06').distinct().rdd.map(lambda r: r[0]).collect()
# Util para conhecer classes discretas de uma coluna categórica.
# Neste caso mostra as modalidades de aplicacao presentes nestes dados

['COLEGIO PEDRO II',
 'FUNDO NACIONAL DE DESENVOLVIMENTO DA EDUCACAO',
 'SUPERINTENDENCIA DO DESENVOLVIMENTO DA AMAZONIA',
 'INSTITUTO FEDERAL DE EDUCACAO, CIENCIA E TECNOLOGIA DA BAHIA',
 'CENTRO FEDERAL DE EDUCACAO TECNOLOGICA DE MINAS GERAIS',
 'INSTITUTO FEDERAL DE EDUCACAO, CIENCIA E TECNOLOGIA DE BRASILIA',
 'AGENCIA NACIONAL DE SAUDE SUPLEMENTAR',
 'UNIVERSIDADE FEDERAL DE SANTA MARIA',
 'UNIVERSIDADE FEDERAL DE ALFENAS',
 'INSTITUTO FEDERAL DE EDUCACAO, CIENCIA E TECNOLOGIA DO MATO GROSSO DO SUL',
 'INSTITUTO NACIONAL DE COLONIZACAO E REFORMA AGRARIA',
 'UNIVERSIDADE DA INTEGRACAO INTERNACIONAL DA LUSOFONIA AFRO-BRASILEIRA',
 'UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO',
 'UNIVERSIDADE FEDERAL DO RECONCAVO DA BAHIA',
 'DEPARTAMENTO NACIONAL DE OBRAS CONTRA AS SECAS',
 'INSTITUTO DO PATRIMONIO HISTORICO E ARTISTICO NACIONAL',
 'INSTITUTO NACIONAL DO SEGURO SOCIAL',
 'UNIVERSIDADE FEDERAL DE MINAS GERAIS',
 'INSTITUTO FEDERAL DE EDUCACAO, CIENCIA E TECNOLOGIA DO PARA',
 'INSTITUTO 

In [74]:
df_dm = spark.sql("""
                  select distinct *
                  from demais
                  """)
df_dm.count() # Verificar se tem linhas duplicadas

# Retorna 250, isso quer dizer que as linhas sao todas diferentes

250

In [29]:
df_dm.head(1)

[Row(co_siorg_n05=244, ds_siorg_n05='MINISTERIO DA EDUCACAO', co_siorg_n06=100906, ds_siorg_n06='INSTITUTO FEDERAL DE EDUCACAO, CIENCIA E TECNOLOGIA FARROUPILHA', co_siorg_n07=-9, ds_siorg_n07='NAO SE APLICA', me_referencia=2, an_referencia=2021, sg_mes_completo='MAR/2021', me_emissao=3, an_emissao=2021, co_situacao_icc='DSP001', no_situacao_icc='AQUISICAO DE SERVICOS - PESSOAS JURIDICAS', id_natureza_juridica_siorg=4, ds_natureza_juridica_siorg='AUTARQUIA', id_categoria_economica_nade=3, id_grupo_despesa_nade=3, id_moap_nade=90, id_elemento_despesa_nade=39, id_subitem_nade=47, co_natureza_despesa_deta=33903947, no_natureza_despesa_deta='SERVICOS DE COMUNICACAO EM GERAL', id_esfera_orcamentaria=1, no_esfera_orcamentaria='ORCAMENTO FISCAL', id_in_resultado_eof=2, no_in_resultado_eof='PRIMARIO DISCRICIONARIO', va_custo=49.09)]

In [161]:
df_dm_unique = spark.sql("""
                  select co_siorg_n05 || '-' ||ds_siorg_n05 || '-' || co_siorg_n06 || '-' ||ds_siorg_n06 || '-' || co_siorg_n07 || '-' || 
                  ds_siorg_n07 || me_referencia || an_referencia  || sg_mes_completo  || va_custo   as id, 
                  count( 1)
                  from demais
                  group by 1
                  having count(1) > 1
                  """)
# Encontrando a chave primária através de:
# 1- co_siorg_n05
# 2- ds_siorg_n05
# 3- co_siorg_n06
# 4- ds_siorg_n06
# 5- co_siorg_n07
# 6- ds_siorg_n07
# 7- me_referencia
# 8- an_referencia
# 9- sg_mes_completo
# 10 - va_custo

df_dm_unique.count()

0

In [162]:
df_dm.groupBy(["co_siorg_n05","ds_siorg_n05"]).count().sort("count", ascending=True).show()
# Mostra a quantidade de descricao por natureza juridica

+------------+--------------------+-----+
|co_siorg_n05|        ds_siorg_n05|count|
+------------+--------------------+-----+
|      235881|MINISTERIO DA JUS...|    1|
|      267175|MINISTERIO DA CIE...|    1|
|      235880|MINISTERIO DO DES...|    4|
|          14|MINISTERIO DA AGR...|    5|
|        2852|MINISTERIO DE MIN...|    5|
|        1927|MINISTERIO DO MEI...|    6|
|       72084|MINISTERIO DO TUR...|   10|
|      235876|MINISTERIO DA ECO...|   13|
|         304| MINISTERIO DA SAUDE|   27|
|         244|MINISTERIO DA EDU...|  178|
+------------+--------------------+-----+



In [None]:
# TODO carregar postgres