In [1]:
import os
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

In [24]:
# criar spark session
spark = SparkSession \
    .builder \
    .config('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.2.0') \
    .config('spark.hadoop.fs.s3a.access.key', '') \
    .config('spark.hadoop.fs.s3a.secret.key', '') \
    .appName('spark etl - pessoal ativo') \
    .getOrCreate()

# ler arquivos no s3
df = spark.read.csv('s3a://custos-stn-bucket/pessoal_ativo/pessoal_ativo_1500.csv', header=True, inferSchema=True)

In [25]:
# schema
df.printSchema()

root
 |-- co_natureza_juridica: integer (nullable = true)
 |-- ds_natureza_juridica: string (nullable = true)
 |-- co_organizacao_n1: integer (nullable = true)
 |-- ds_organizacao_n1: string (nullable = true)
 |-- co_organizacao_n2: integer (nullable = true)
 |-- ds_organizacao_n2: string (nullable = true)
 |-- co_organizacao_n3: integer (nullable = true)
 |-- ds_organizacao_n3: string (nullable = true)
 |-- co_organizacao_n4: integer (nullable = true)
 |-- ds_organizacao_n4: string (nullable = true)
 |-- co_organizacao_n5: integer (nullable = true)
 |-- ds_organizacao_n5: string (nullable = true)
 |-- co_organizacao_n6: integer (nullable = true)
 |-- ds_organizacao_n6: string (nullable = true)
 |-- an_lanc: integer (nullable = true)
 |-- me_lanc: integer (nullable = true)
 |-- in_area_atuacao: integer (nullable = true)
 |-- ds_area_atuacao: string (nullable = true)
 |-- in_escolaridade: integer (nullable = true)
 |-- ds_escolaridade: string (nullable = true)
 |-- in_faixa_etaria: inte

In [26]:
# contagem de linhas
df.count()

250

In [27]:
# emprimir primeiras 5 linhas
df.show(5)

+--------------------+--------------------+-----------------+--------------------+-----------------+--------------------+-----------------+-----------------+-----------------+--------------------+-----------------+--------------------+-----------------+--------------------+-------+-------+---------------+---------------+---------------+--------------------+---------------+----------------+-------+-----------------+-------------------+
|co_natureza_juridica|ds_natureza_juridica|co_organizacao_n1|   ds_organizacao_n1|co_organizacao_n2|   ds_organizacao_n2|co_organizacao_n3|ds_organizacao_n3|co_organizacao_n4|   ds_organizacao_n4|co_organizacao_n5|   ds_organizacao_n5|co_organizacao_n6|   ds_organizacao_n6|an_lanc|me_lanc|in_area_atuacao|ds_area_atuacao|in_escolaridade|     ds_escolaridade|in_faixa_etaria| ds_faixa_etaria|in_sexo|in_forca_trabalho|va_custo_de_pessoal|
+--------------------+--------------------+-----------------+--------------------+-----------------+--------------------+-

In [28]:
# criar view para spark sql
df.createOrReplaceTempView("pessoal_ativo")

In [29]:

df_pa = spark.sql("""
                  select *
                  from pessoal_ativo
                  """)

df_pa.printSchema()


root
 |-- co_natureza_juridica: integer (nullable = true)
 |-- ds_natureza_juridica: string (nullable = true)
 |-- co_organizacao_n1: integer (nullable = true)
 |-- ds_organizacao_n1: string (nullable = true)
 |-- co_organizacao_n2: integer (nullable = true)
 |-- ds_organizacao_n2: string (nullable = true)
 |-- co_organizacao_n3: integer (nullable = true)
 |-- ds_organizacao_n3: string (nullable = true)
 |-- co_organizacao_n4: integer (nullable = true)
 |-- ds_organizacao_n4: string (nullable = true)
 |-- co_organizacao_n5: integer (nullable = true)
 |-- ds_organizacao_n5: string (nullable = true)
 |-- co_organizacao_n6: integer (nullable = true)
 |-- ds_organizacao_n6: string (nullable = true)
 |-- an_lanc: integer (nullable = true)
 |-- me_lanc: integer (nullable = true)
 |-- in_area_atuacao: integer (nullable = true)
 |-- ds_area_atuacao: string (nullable = true)
 |-- in_escolaridade: integer (nullable = true)
 |-- ds_escolaridade: string (nullable = true)
 |-- in_faixa_etaria: inte

In [30]:
df_pa.show()

+--------------------+--------------------+-----------------+--------------------+-----------------+--------------------+-----------------+-----------------+-----------------+--------------------+-----------------+--------------------+-----------------+--------------------+-------+-------+---------------+---------------+---------------+--------------------+---------------+----------------+-------+-----------------+-------------------+
|co_natureza_juridica|ds_natureza_juridica|co_organizacao_n1|   ds_organizacao_n1|co_organizacao_n2|   ds_organizacao_n2|co_organizacao_n3|ds_organizacao_n3|co_organizacao_n4|   ds_organizacao_n4|co_organizacao_n5|   ds_organizacao_n5|co_organizacao_n6|   ds_organizacao_n6|an_lanc|me_lanc|in_area_atuacao|ds_area_atuacao|in_escolaridade|     ds_escolaridade|in_faixa_etaria| ds_faixa_etaria|in_sexo|in_forca_trabalho|va_custo_de_pessoal|
+--------------------+--------------------+-----------------+--------------------+-----------------+--------------------+-

In [31]:
df_pa.head(1) # Mostra o cabeçalho da primeira linha

[Row(co_natureza_juridica=2, ds_natureza_juridica='FUNDACAO PUBLICA', co_organizacao_n1=244, ds_organizacao_n1='MINISTERIO DA EDUCACAO', co_organizacao_n2=470, ds_organizacao_n2='FUNDACAO UNIVERSIDADE DE BRASILIA', co_organizacao_n3=6337, ds_organizacao_n3='REITORIA', co_organizacao_n4=24233, ds_organizacao_n4='DECANATO DE ASSUNTOS COMUNITARIOS', co_organizacao_n5=24268, ds_organizacao_n5='DIRETORIA DE DESENVOLVIMENTO SOCIAL', co_organizacao_n6=43310, ds_organizacao_n6='SERVICO DE ATENDIMENTO MEDICO', an_lanc=2015, me_lanc=2, in_area_atuacao=-8, ds_area_atuacao='SEM INFORMACAO', in_escolaridade=10, ds_escolaridade='SUP COMPL OU HAB LEGAL EQV', in_faixa_etaria=12, ds_faixa_etaria='ACIMA DE 65 ANOS', in_sexo='M', in_forca_trabalho=1, va_custo_de_pessoal=0.0)]

In [32]:

df_pa.describe(["co_natureza_juridica","ds_natureza_juridica","co_organizacao_n1","ds_organizacao_n1","co_organizacao_n2"]).show()

+-------+--------------------+--------------------+-----------------+--------------------+------------------+
|summary|co_natureza_juridica|ds_natureza_juridica|co_organizacao_n1|   ds_organizacao_n1| co_organizacao_n2|
+-------+--------------------+--------------------+-----------------+--------------------+------------------+
|  count|                 250|                 250|              250|                 250|               250|
|   mean|                 2.0|                null|            244.0|                null|           468.256|
| stddev|                 0.0|                null|              0.0|                null|1.2183602120988661|
|    min|                   2|    FUNDACAO PUBLICA|              244|MINISTERIO DA EDU...|               467|
|    max|                   2|    FUNDACAO PUBLICA|              244|MINISTERIO DA EDU...|               470|
+-------+--------------------+--------------------+-----------------+--------------------+------------------+



In [33]:

df_pa.describe(["ds_organizacao_n2","co_organizacao_n3","ds_organizacao_n3","co_organizacao_n4","ds_organizacao_n4","co_organizacao_n5"]).show()

+-------+--------------------+------------------+--------------------+------------------+--------------------+-----------------+
|summary|   ds_organizacao_n2| co_organizacao_n3|   ds_organizacao_n3| co_organizacao_n4|   ds_organizacao_n4|co_organizacao_n5|
+-------+--------------------+------------------+--------------------+------------------+--------------------+-----------------+
|  count|                 250|               250|                 250|               250|                 250|              250|
|   mean|                null|         26171.248|                null|         25457.292|                null|         5511.176|
| stddev|                null|25140.790158179327|                null|16891.587002189768|                null|11831.53055925234|
|    min|FUNDACAO UNIVERSI...|                -9|CENTRO DE CIENCIA...|                -9|ASSESSORIA DE ASS...|               -9|
|    max|FUNDACAO UNIVERSI...|             61421|            REITORIA|             61427|PRO-REIT

In [34]:
df_pa.describe(["ds_organizacao_n5","co_organizacao_n6","ds_organizacao_n6","an_lanc","me_lanc","in_area_atuacao"]).show()

+-------+--------------------+------------------+--------------------+-------+------------------+---------------+
|summary|   ds_organizacao_n5| co_organizacao_n6|   ds_organizacao_n6|an_lanc|           me_lanc|in_area_atuacao|
+-------+--------------------+------------------+--------------------+-------+------------------+---------------+
|  count|                 250|               250|                 250|    250|               250|            250|
|   mean|                null|          4980.948|                null| 2015.0|             6.236|           -8.0|
| stddev|                null|14710.212231264764|                null|    0.0|3.5652697786251064|            0.0|
|    min|COORDENADORIA DE ...|                -9|       NAO SE APLICA|   2015|                 1|             -8|
|    max|       NAO SE APLICA|             50044|SERVICOS DE DIPLO...|   2015|                12|             -8|
+-------+--------------------+------------------+--------------------+-------+----------

In [35]:
df_pa.describe(["ds_area_atuacao","in_escolaridade","ds_escolaridade","in_faixa_etaria","ds_faixa_etaria","in_sexo"]).show()

+-------+---------------+-----------------+--------------------+------------------+----------------+-------+
|summary|ds_area_atuacao|  in_escolaridade|     ds_escolaridade|   in_faixa_etaria| ds_faixa_etaria|in_sexo|
+-------+---------------+-----------------+--------------------+------------------+----------------+-------+
|  count|            250|              250|                 250|               250|             250|    250|
|   mean|           null|           19.012|                null|             7.112|            null|   null|
| stddev|           null|8.177489918395612|                null|2.3049309810294183|            null|   null|
|    min| SEM INFORMACAO|                6|1O GR COMPL - 8A ...|                 3|    19 A 25 ANOS|      F|
|    max| SEM INFORMACAO|               27|SUP COMPL OU HAB ...|                12|ACIMA DE 65 ANOS|      M|
+-------+---------------+-----------------+--------------------+------------------+----------------+-------+



In [20]:
df_pa.describe(["in_forca_trabalho","va_custo_de_pessoal"]).show()

+-------+-----------------+-------------------+
|summary|in_forca_trabalho|va_custo_de_pessoal|
+-------+-----------------+-------------------+
|  count|              250|                250|
|   mean|          612.448|  4326026.909200001|
| stddev| 921.245746910564|  7501645.848585117|
|    min|                1|                0.0|
|    max|             4154|      3.965909554E7|
+-------+-----------------+-------------------+



In [23]:
df_pa.select('ds_escolaridade').distinct().rdd.map(lambda r: r[0]).collect()
# Util para conhecer classes discretas de uma coluna categórica.
# Neste caso mostra as organizacoes presentes nestes dados

['1O GR COMPL - 8A SER COMPL',
 '2O GR INCOMPLETO',
 'SUPERIOR INCOMPLETO',
 'ALFABETIZ S/ CURSOS REGUL',
 '1O GR INC - 4A SERIE COMPL',
 '1O GR INC - 5A A 8A SER INC',
 '2O GR COMPL OU TEC PROFISS',
 'ANALFABETO']

In [36]:
df_pa.select('ds_organizacao_n5').distinct().rdd.map(lambda r: r[0]).collect()
# Util para conhecer classes discretas de uma coluna categórica.
# Neste caso mostra as modalidades de aplicacao presentes nestes dados

['DIRETORIA DE RECURSOS MATERIAIS E COMUNICACAO ADMINISTRATIVA',
 'DIRETORIA DE CONTABILIDADE E FINANCAS',
 'DIRETORIA DE DESENVOLVIMENTO SOCIAL',
 'COORDENADORIA DE ESTATISTICA E DOCUMENTACAO DE ENSINO',
 'NAO SE APLICA']

In [37]:
df_pa = spark.sql("""
                  select distinct *
                  from pessoal_ativo
                  """)
df_tf.count() # Verificar se tem linhas duplicadas

# Retorna 250, isso quer dizer que as linhas sao todas diferentes

250

In [38]:
df_pa.head(1)

[Row(co_natureza_juridica=2, ds_natureza_juridica='FUNDACAO PUBLICA', co_organizacao_n1=244, ds_organizacao_n1='MINISTERIO DA EDUCACAO', co_organizacao_n2=467, ds_organizacao_n2='FUNDACAO UNIVERSIDADE FEDERAL DO MARANHAO', co_organizacao_n3=61421, ds_organizacao_n3='CENTRO DE CIENCIAS EXATAS E TECNOLOGIA', co_organizacao_n4=32331, ds_organizacao_n4='DEPARTAMENTO DE MATEMATICA', co_organizacao_n5=-9, ds_organizacao_n5='NAO SE APLICA', co_organizacao_n6=-9, ds_organizacao_n6='NAO SE APLICA', an_lanc=2015, me_lanc=5, in_area_atuacao=-8, ds_area_atuacao='SEM INFORMACAO', in_escolaridade=25, ds_escolaridade='ESPECIALIZACAO NIV SUP(T)', in_faixa_etaria=4, ds_faixa_etaria='26 A 30 ANOS', in_sexo='F', in_forca_trabalho=1, va_custo_de_pessoal=4525.95)]

In [72]:
df_pa_unique = spark.sql("""
                  select me_lanc ||an_lanc|| in_faixa_etaria || in_sexo || co_organizacao_n1 ||co_organizacao_n2||
                  co_organizacao_n3||co_organizacao_n4||co_organizacao_n5||co_organizacao_n6||in_escolaridade||
                  in_forca_trabalho||va_custo_de_pessoal, 
                  count(1)
                  from pessoal_ativo
                  group by 1
                  having count(1) > 1
                  """)
# Encontrando a chave primária através de:
# 1- me_lanc
# 2- an_lanc
# 3- in_faixa_etaria
# 4- in_sexo
# 5- co_organizacao_n1
# 6- co_organizacao_n2
# 7- co_organizacao_n3
# 8- co_organizacao_n4
# 9- co_organizacao_n5
# 10- co_organizacao_n6
# 11- in_escolaridade
# 12- in_forca_trabalho
# 13- va_custo_de_pessoal


df_pa_unique.count()

0

In [74]:
df_pa.groupBy(["co_organizacao_n3","ds_organizacao_n3"]).count().sort("count", ascending=True).show()


+-----------------+--------------------+-----+
|co_organizacao_n3|   ds_organizacao_n3|count|
+-----------------+--------------------+-----+
|            61178|COLEGIO UNIVERSIT...|   15|
|            37530|            REITORIA|   31|
|            61421|CENTRO DE CIENCIA...|   35|
|            51034|CENTRO DE CIENCIA...|   36|
|               -9|       NAO SE APLICA|   58|
|             6337|            REITORIA|   75|
+-----------------+--------------------+-----+



In [None]:
# TODO carregar postgres