In [26]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, unix_timestamp, to_date, date_format
from pyspark.sql import functions as F
from pyspark.sql import types
import pandas as pd

# Criando a sessão Spark
spark = SparkSession \
        .builder \
        .appName("Getting Start") \
        .getOrCreate()

# Atributos e métodos do objeto Spark
# dir(SparkSession)

In [27]:
data = [("Newton", 1643), ("Einstein", 1879), ("Gaus", 1777)]
df_teste = spark.createDataFrame(data, ["Name", "Nascimento"])
df_teste.printSchema()

root
 |-- Name: string (nullable = true)
 |-- Nascimento: long (nullable = true)



In [28]:
df_teste.show()

+--------+----------+
|    Name|Nascimento|
+--------+----------+
|  Newton|      1643|
|Einstein|      1879|
|    Gaus|      1777|
+--------+----------+



## Usando Spark para processar um arquivo CSV

In [29]:
# Dados obtidos em http://www.portaltransparencia.gov.br/download-de-dados/viagens
# Do ano de 2018

df = spark.read.csv("data/Viagens 2018/2018_Viagem_UTF8.csv", header=True, sep=';')

In [30]:
df.printSchema()

root
 |-- Identificador do processo de viagem: string (nullable = true)
 |-- Situação: string (nullable = true)
 |-- Código do órgão superior: string (nullable = true)
 |-- Nome do órgão superior: string (nullable = true)
 |-- Código órgão solicitante: string (nullable = true)
 |-- Nome órgão solicitante: string (nullable = true)
 |-- CPF viajante: string (nullable = true)
 |-- Nome: string (nullable = true)
 |-- Cargo: string (nullable = true)
 |-- Período - Data de início: string (nullable = true)
 |-- Período - Data de fim: string (nullable = true)
 |-- Destinos: string (nullable = true)
 |-- Motivo: string (nullable = true)
 |-- Valor diárias: string (nullable = true)
 |-- Valor passagens: string (nullable = true)
 |-- Valor outros gastos: string (nullable = true)



In [31]:
df.limit(10).toPandas()

Unnamed: 0,Identificador do processo de viagem,Situação,Código do órgão superior,Nome do órgão superior,Código órgão solicitante,Nome órgão solicitante,CPF viajante,Nome,Cargo,Período - Data de início,Período - Data de fim,Destinos,Motivo,Valor diárias,Valor passagens,Valor outros gastos
0,13501576,Realizada,36000,MINISTERIO DA SAUDE,36201,FUNDACAO OSWALDO CRUZ,***.637.54*-**,ELIANE CALDAS DO NASCIMENTO OLIVEIRA,PESQUISADOR EM SAUDE PUBLICA,20180210,20180302,Coimbra/Portugal,PARTICIPAÇÃO EM PROJETOS DE PESQUISA DESENVOLV...,",00",",00",",00"
1,14026421,Realizada,26000,MINISTERIO DA EDUCACAO,26352,FUNDACAO UNIVERSIDADE FEDERAL DO ABC,***.199.59*-**,ALYSSON FABIO FERRARI,PROFESSOR DO MAGISTERIO SUPERIOR,20180109,20181119,Bloomington - Indiana/Estados Unidos da América,Estágio pós-doutoral no exterior.,",00",",00",",00"
2,14046485,Realizada,26000,MINISTERIO DA EDUCACAO,26405,"INST.FED.DE EDUC.,CIENC.E TEC.DO CEARA",***.061.02*-**,REGINA LUCIA BEZERRA VASQUES,,20180223,20180225,Meruoca/CE,Realizar o encontro presencial da Disciplina ...,53750,9868,",00"
3,14108743,Realizada,26000,MINISTERIO DA EDUCACAO,26258,UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANA,***.414.38*-**,JULIANA BORTOLI RODRIGUES MEES,PROFESSOR ENS BASICO TECN TECNOLOGICO,20180117,20180216,Lisboa/Portugal,"""Estágio/Intercâmbio Internacional no IPPORTO ...",",00",",00",",00"
4,14112304,Realizada,26000,MINISTERIO DA EDUCACAO,26279,FUNDACAO UNIVERSIDADE FEDERAL DO PIAUI,***.836.65*-**,FRANCISCO DE ASSIS SINIMBU NETO,PROFESSOR ENS BASICO TECN TECNOLOGICO,20180104,20180106,Bom Jesus/PI,o mesmo participará de solenidades de FORMATUR...,48711,",00",",00"
5,14142324,Realizada,44000,MINISTERIO DO MEIO AMBIENTE,44207,INST.CHICO MENDES DE CONSER.DA BIODIVERSIDADE,***.852.04*-**,CARINA TOSTES ABREU,ANALISTA AMBIENTAL,20180108,20180407,Honolulu/Estados Unidos da América,Trata o presente processo da solicitação de Li...,",00",",00",",00"
6,14146681,Realizada,36000,MINISTERIO DA SAUDE,36201,FUNDACAO OSWALDO CRUZ,***.258.30*-**,ARLINDA BARBOSA MORENO,PESQUISADOR EM SAUDE PUBLICA,20180102,20180405,Londres/Reino Unido,ESTÁGIO DE APERFEIÇOAMENTO COMO PESQUISADORA V...,",00",",00",",00"
7,14166390,Realizada,26000,MINISTERIO DA EDUCACAO,26258,UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANA,***.477.30*-**,RAFAEL SOARES DE ARRUDA,PROFESSOR DO MAGISTERIO SUPERIOR,20180218,20180224,Campo Mourão/PR,"""O proposto ministrará o curso de Capacitação ...",",00",118347,",00"
8,14199743,Realizada,26000,MINISTERIO DA EDUCACAO,26258,UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANA,***.583.61*-**,RAFAELA ANTUNES FORTUNATO,PROFESSOR ENS BASICO TECN TECNOLOGICO,20180201,20180228,Porto/Portugal,"""Executar o projeto de inovação ""Método de Ens...",",00",",00",",00"
9,14201345,Realizada,26000,MINISTERIO DA EDUCACAO,26241,UNIVERSIDADE FEDERAL DO PARANA,***.241.50*-**,HUGO VERLI,PROFESSOR DO MAGISTERIO SUPERIOR,20180125,20180126,Curitiba/PR,Participar de defesa de tese de doutorado no P...,",00",53975,",00"


In [32]:
df.count()

930964

In [33]:
# show(truncate=False) Não 'corta' as colunas
# show(2) Exibe somente os dois primeiros registros
# show(10, truncate=False) Exibe os 10 primeiros registros e não corta as colunas
df.select("Nome do órgão superior").show(truncate=False)

+----------------------------------+
|Nome do órgão superior            |
+----------------------------------+
|MINISTERIO DA SAUDE               |
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DO MEIO AMBIENTE       |
|MINISTERIO DA SAUDE               |
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DAS RELACOES EXTERIORES|
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DO MEIO AMBIENTE       |
|MINISTERIO DAS RELACOES EXTERIORES|
|MINISTERIO DA DEFESA              |
|MINISTERIO DA DEFESA              |
|MINISTERIO DA DEFESA              |
|MINISTERIO DA EDUCACAO            |
|MINISTERIO DA SAUDE               |
|ADVOCACIA-GERAL DA UNIAO          |
+----------------------------------+
only showing top 20 rows



In [34]:
# Contar a quantidade de regitros do MINISTERIO DAS RELACOES EXTERIORES
df.filter(df["Nome do órgão superior"]=="MINISTERIO DAS RELACOES EXTERIORES").count()

5254

In [35]:
# O Spark executa somente quando passamos o método .show()
df.select("Nome do órgão superior").distinct().show(100, truncate=False)

+---------------------------------------------+
|Nome do órgão superior                       |
+---------------------------------------------+
|MINISTERIO DA JUSTICA E SEGURANCA PUBLICA    |
|MINISTERIO DA INFRAESTRUTURA                 |
|MINISTERIO DA SAUDE                          |
|MINISTERIO DO DESENVOLVIMENTO REGIONAL       |
|PRESIDENCIA DA REPUBLICA                     |
|MINIST. DA INDUSTRIA, COM.EXTERIOR E SERVICOS|
|MINISTERIO DA DEFESA                         |
|MINISTERIO DAS RELACOES EXTERIORES           |
|MINISTERIO DO MEIO AMBIENTE                  |
|MINISTERIO DA CULTURA                        |
|MINIST. MULHER, FAMILIA E DIREITOS HUMANOS   |
|MINISTERIO DO ESPORTE                        |
|MINIST. DO PLANEJAMENTO, DESENVOLV. E GESTAO |
|MINISTERIO DA EDUCACAO                       |
|MINISTERIO DO TURISMO                        |
|MINIST. DA AGRICUL.,PECUARIA E ABASTECIMENTO |
|MINISTERIO DE MINAS E ENERGIA                |
|MINISTERIO DAS CIDADES                 

In [36]:
# GroupBy
df.groupBy("Nome do órgão superior").count().show(truncate=False)

+---------------------------------------------+------+
|Nome do órgão superior                       |count |
+---------------------------------------------+------+
|MINISTERIO DA JUSTICA E SEGURANCA PUBLICA    |102684|
|MINISTERIO DA INFRAESTRUTURA                 |22392 |
|MINISTERIO DA SAUDE                          |53358 |
|MINISTERIO DO DESENVOLVIMENTO REGIONAL       |9755  |
|PRESIDENCIA DA REPUBLICA                     |15880 |
|MINIST. DA INDUSTRIA, COM.EXTERIOR E SERVICOS|1837  |
|MINISTERIO DA DEFESA                         |110914|
|MINISTERIO DAS RELACOES EXTERIORES           |5254  |
|MINISTERIO DO MEIO AMBIENTE                  |34913 |
|MINISTERIO DA CULTURA                        |1802  |
|MINIST. MULHER, FAMILIA E DIREITOS HUMANOS   |8614  |
|MINISTERIO DO ESPORTE                        |984   |
|MINIST. DO PLANEJAMENTO, DESENVOLV. E GESTAO |3552  |
|MINISTERIO DA EDUCACAO                       |292565|
|MINISTERIO DO TURISMO                        |217   |
|MINIST. D

In [37]:
# ...orderBy("coluna", ascending=False)
df.groupBy("Nome do órgão superior").count().orderBy("count").show(truncate=False)

+---------------------------------------------+-----+
|Nome do órgão superior                       |count|
+---------------------------------------------+-----+
|Sem informação                               |52   |
|MINISTERIO DO TURISMO                        |217  |
|MINISTERIO DO ESPORTE                        |984  |
|MINISTERIO DAS CIDADES                       |1127 |
|MINISTERIO DA CULTURA                        |1802 |
|MINIST. DA INDUSTRIA, COM.EXTERIOR E SERVICOS|1837 |
|MINIST. DO PLANEJAMENTO, DESENVOLV. E GESTAO |3552 |
|CONTROLADORIA-GERAL DA UNIAO                 |3734 |
|MINISTERIO DAS RELACOES EXTERIORES           |5254 |
|MINIST. MULHER, FAMILIA E DIREITOS HUMANOS   |8614 |
|MINISTERIO DE MINAS E ENERGIA                |8821 |
|ADVOCACIA-GERAL DA UNIAO                     |9016 |
|MINISTERIO DO DESENVOLVIMENTO REGIONAL       |9755 |
|MINISTERIO DA CIDADANIA                      |9933 |
|MINIST.DA CIENCIA,TECNOL.,INOV.E COMUNICACOES|13180|
|PRESIDENCIA DA REPUBLICA   

In [38]:
df.groupBy("Nome do órgão superior").count().orderBy("count", ascending=False).show(truncate=False)

+---------------------------------------------+------+
|Nome do órgão superior                       |count |
+---------------------------------------------+------+
|MINISTERIO DA EDUCACAO                       |292565|
|MINISTERIO DA ECONOMIA                       |141509|
|MINISTERIO DA DEFESA                         |110914|
|MINISTERIO DA JUSTICA E SEGURANCA PUBLICA    |102684|
|MINIST. DA AGRICUL.,PECUARIA E ABASTECIMENTO |60921 |
|MINISTERIO DA SAUDE                          |53358 |
|MINISTERIO DO MEIO AMBIENTE                  |34913 |
|MINISTERIO DA INFRAESTRUTURA                 |22392 |
|MINISTERIO DO TRABALHO E EMPREGO             |17950 |
|PRESIDENCIA DA REPUBLICA                     |15880 |
|MINIST.DA CIENCIA,TECNOL.,INOV.E COMUNICACOES|13180 |
|MINISTERIO DA CIDADANIA                      |9933  |
|MINISTERIO DO DESENVOLVIMENTO REGIONAL       |9755  |
|ADVOCACIA-GERAL DA UNIAO                     |9016  |
|MINISTERIO DE MINAS E ENERGIA                |8821  |
|MINIST. M

In [39]:
df.printSchema()

root
 |-- Identificador do processo de viagem: string (nullable = true)
 |-- Situação: string (nullable = true)
 |-- Código do órgão superior: string (nullable = true)
 |-- Nome do órgão superior: string (nullable = true)
 |-- Código órgão solicitante: string (nullable = true)
 |-- Nome órgão solicitante: string (nullable = true)
 |-- CPF viajante: string (nullable = true)
 |-- Nome: string (nullable = true)
 |-- Cargo: string (nullable = true)
 |-- Período - Data de início: string (nullable = true)
 |-- Período - Data de fim: string (nullable = true)
 |-- Destinos: string (nullable = true)
 |-- Motivo: string (nullable = true)
 |-- Valor diárias: string (nullable = true)
 |-- Valor passagens: string (nullable = true)
 |-- Valor outros gastos: string (nullable = true)



In [40]:
df.select("Período - Data de início", "Período - Data de fim").show(truncate=False)

+------------------------+---------------------+
|Período - Data de início|Período - Data de fim|
+------------------------+---------------------+
|20180210                |20180302             |
|20180109                |20181119             |
|20180223                |20180225             |
|20180117                |20180216             |
|20180104                |20180106             |
|20180108                |20180407             |
|20180102                |20180405             |
|20180218                |20180224             |
|20180201                |20180228             |
|20180125                |20180126             |
|20180126                |20180201             |
|20180225                |20180226             |
|20180113                |20180213             |
|20180109                |20180115             |
|20180124                |20180125             |
|20180108                |20180111             |
|20180116                |20180117             |
|20180112           

Os campos "Período - Data de início" e "Período - Data de fim" estão em um formato que irá dificultar a analise, logo vamos mudar seu formato

In [41]:
df.select("Valor diárias", "Valor passagens", "Valor outros gastos").show(truncate=False)

+-------------+---------------+-------------------+
|Valor diárias|Valor passagens|Valor outros gastos|
+-------------+---------------+-------------------+
|,00          |,00            |,00                |
|,00          |,00            |,00                |
|537,50       |98,68          |,00                |
|,00          |,00            |,00                |
|487,11       |,00            |,00                |
|,00          |,00            |,00                |
|,00          |,00            |,00                |
|,00          |1183,47        |,00                |
|,00          |,00            |,00                |
|,00          |539,75         |,00                |
|,00          |767,79         |,00                |
|,00          |1197,41        |,00                |
|,00          |,00            |,00                |
|,00          |3635,74        |,00                |
|,00          |286,24         |,00                |
|,00          |2617,12        |,00                |
|,00        

Há vírgulas ao invés de pontos

In [42]:
from pyspark.sql import functions as F
from pyspark.sql import types

# Função para trocar a vírgula por ponto nos dados de valores do tipo String, e converte o valor para Float
to_value = lambda v : float(v.replace(",", "."))

# Exemplo de uso
to_value("200,00")

# User Defined Function
udf_to_value = F.udf(to_value, types.FloatType())

In [43]:
df.select("Período - Data de início", "Período - Data de fim").show(truncate=False)

+------------------------+---------------------+
|Período - Data de início|Período - Data de fim|
+------------------------+---------------------+
|20180210                |20180302             |
|20180109                |20181119             |
|20180223                |20180225             |
|20180117                |20180216             |
|20180104                |20180106             |
|20180108                |20180407             |
|20180102                |20180405             |
|20180218                |20180224             |
|20180201                |20180228             |
|20180125                |20180126             |
|20180126                |20180201             |
|20180225                |20180226             |
|20180113                |20180213             |
|20180109                |20180115             |
|20180124                |20180125             |
|20180108                |20180111             |
|20180116                |20180117             |
|20180112           

Os campos "Valor diárias", "Valor passagens", "Valor outros gastos" possuem o tipo de dado String, o que irá nos atrapalhar quando for necessário efetuar cálculos com esses campos.

In [55]:
# Função para trocar a vírgula por ponto nos dados de valores do tipo String, e converte o valor para Float
def to_value(v):
    try:
        return float(v.replace(',','.'))
    except:
        return 0.0
    
udf_to_value = F.udf(to_value, types.FloatType())

# Exemplo de uso
to_value("200,00")

200.0

In [56]:
# Criando a coluna "ValorPassagens" a partir da coluna "Valor passagens" transformando a mesma para o tipo Float
# Criando as colunas "PeriodoDataInicio", "PeriodoDataFim" a partir das colunas "Período - Data de início", "Período - Data de fim",
# formatando seus valores para outro padrão

# Função para converter data do formato "yyyyMMdd" para "dd/MM/yyyy"
def convert_to_date(str_date):
    return date_format(unix_timestamp(str_date, "yyyyMMdd").cast("timestamp"), format="dd/MM/yyyy")

df2 = df.withColumn("ValorPassagens", udf_to_value(df["Valor passagens"])) \
        .withColumn("ValorDiarias", udf_to_value(df["Valor diárias"])) \
        .withColumn("ValorOutros", udf_to_value(df["Valor outros gastos"])) \
        .withColumn("PeriodoDataInicio", convert_to_date(df["Período - Data de início"])) \
        .withColumn("PeriodoDataFim", convert_to_date(df["Período - Data de fim"]))

# Convertendo e apresentando as colunas relativas a data
# df.select(convert_to_date("Período - Data de início").alias("Date"), "Período - Data de início").show()

In [57]:
df2.select("PeriodoDataInicio", "PeriodoDataFim").show(truncate=False)

+-----------------+--------------+
|PeriodoDataInicio|PeriodoDataFim|
+-----------------+--------------+
|10/02/2018       |02/03/2018    |
|09/01/2018       |19/11/2018    |
|23/02/2018       |25/02/2018    |
|17/01/2018       |16/02/2018    |
|04/01/2018       |06/01/2018    |
|08/01/2018       |07/04/2018    |
|02/01/2018       |05/04/2018    |
|18/02/2018       |24/02/2018    |
|01/02/2018       |28/02/2018    |
|25/01/2018       |26/01/2018    |
|26/01/2018       |01/02/2018    |
|25/02/2018       |26/02/2018    |
|13/01/2018       |13/02/2018    |
|09/01/2018       |15/01/2018    |
|24/01/2018       |25/01/2018    |
|08/01/2018       |11/01/2018    |
|16/01/2018       |17/01/2018    |
|12/01/2018       |25/02/2018    |
|06/01/2018       |10/02/2018    |
|28/02/2018       |30/03/2018    |
+-----------------+--------------+
only showing top 20 rows



In [59]:
# .describe() 
# Este método descreve a coluna que esta sendo passada, calculando quantos registros temos na coluna, média da coluna, desvio padrão, 
# o valor minimo e maximo da coluna.
df2.describe("ValorPassagens").show()

+-------+------------------+
|summary|    ValorPassagens|
+-------+------------------+
|  count|            930964|
|   mean|497.37188248054196|
| stddev|1257.6500751273375|
|    min|               0.0|
|    max|          436061.1|
+-------+------------------+



In [62]:
# Agrupando por orgão superior, a soma de todos os valores das passagens
df2.groupBy("Nome do órgão superior") \
   .agg((F.sum("ValorPassagens") / F.lit(1_000_000)).alias("ValorTotal")) \
   .toPandas()
   #.show(truncate=False)

Unnamed: 0,Nome do órgão superior,ValorTotal
0,MINISTERIO DA JUSTICA E SEGURANCA PUBLICA,48.95333
1,MINISTERIO DA INFRAESTRUTURA,19.325963
2,MINISTERIO DA SAUDE,30.459403
3,MINISTERIO DO DESENVOLVIMENTO REGIONAL,5.478647
4,PRESIDENCIA DA REPUBLICA,17.440636
5,"MINIST. DA INDUSTRIA, COM.EXTERIOR E SERVICOS",4.475031
6,MINISTERIO DA DEFESA,55.014734
7,MINISTERIO DAS RELACOES EXTERIORES,18.355391
8,MINISTERIO DO MEIO AMBIENTE,16.398313
9,MINISTERIO DA CULTURA,2.307004


In [65]:
# The agg function allows you to perform aggregations on your DataFrame, and returns a new column with the calculated output.
df2.groupBy("Nome do órgão superior") \
   .agg(F.max("ValorPassagens").alias("Valor Máximo"), \
        (F.sum("ValorPassagens") / F.lit(1_000_000)).alias("Soma"), \
        F.count("ValorPassagens").alias("Quantidade"), \
        F.avg("ValorPassagens").alias("Média")) \
    .toPandas()
    #.show(truncate=False)

Unnamed: 0,Nome do órgão superior,Valor Máximo,Soma,Quantidade,Média
0,MINISTERIO DA JUSTICA E SEGURANCA PUBLICA,208208.359375,48.95333,102684,476.737666
1,MINISTERIO DA INFRAESTRUTURA,26217.839844,19.325963,22392,863.074446
2,MINISTERIO DA SAUDE,27449.970703,30.459403,53358,570.849784
3,MINISTERIO DO DESENVOLVIMENTO REGIONAL,19421.480469,5.478647,9755,561.624527
4,PRESIDENCIA DA REPUBLICA,49010.019531,17.440636,15880,1098.276801
5,"MINIST. DA INDUSTRIA, COM.EXTERIOR E SERVICOS",29188.460938,4.475031,1837,2436.054041
6,MINISTERIO DA DEFESA,86183.789062,55.014734,110914,496.01253
7,MINISTERIO DAS RELACOES EXTERIORES,84791.960938,18.355391,5254,3493.60325
8,MINISTERIO DO MEIO AMBIENTE,56404.671875,16.398313,34913,469.690733
9,MINISTERIO DA CULTURA,18615.470703,2.307004,1802,1280.246535


In [70]:
# The agg function allows you to perform aggregations on your DataFrame, and returns a new column with the calculated output.
df2.groupBy("Nome do órgão superior") \
   .agg(F.max("ValorPassagens").alias("Valor Máximo"), \
        (F.sum("ValorPassagens") / F.lit(1_000_000)).alias("Soma"), \
        F.count("ValorPassagens").alias("Quantidade"), \
        F.avg("ValorPassagens").alias("Média")) \
    .orderBy("Soma", ascending=False) \
    .toPandas()
    #.show(truncate=False)

Unnamed: 0,Nome do órgão superior,Valor Máximo,Soma,Quantidade,Média
0,MINISTERIO DA EDUCACAO,436061.09375,128.531787,292565,439.327283
1,MINISTERIO DA DEFESA,86183.789062,55.014734,110914,496.01253
2,MINISTERIO DA JUSTICA E SEGURANCA PUBLICA,208208.359375,48.95333,102684,476.737666
3,MINISTERIO DA ECONOMIA,41122.050781,45.487162,141509,321.443601
4,MINISTERIO DA SAUDE,27449.970703,30.459403,53358,570.849784
5,MINISTERIO DA INFRAESTRUTURA,26217.839844,19.325963,22392,863.074446
6,MINISTERIO DAS RELACOES EXTERIORES,84791.960938,18.355391,5254,3493.60325
7,PRESIDENCIA DA REPUBLICA,49010.019531,17.440636,15880,1098.276801
8,MINISTERIO DO MEIO AMBIENTE,56404.671875,16.398313,34913,469.690733
9,"MINIST. DA AGRICUL.,PECUARIA E ABASTECIMENTO",52127.929688,16.078014,60921,263.915791


## Renomeando colunas

In [71]:
df2.printSchema()

root
 |-- Identificador do processo de viagem: string (nullable = true)
 |-- Situação: string (nullable = true)
 |-- Código do órgão superior: string (nullable = true)
 |-- Nome do órgão superior: string (nullable = true)
 |-- Código órgão solicitante: string (nullable = true)
 |-- Nome órgão solicitante: string (nullable = true)
 |-- CPF viajante: string (nullable = true)
 |-- Nome: string (nullable = true)
 |-- Cargo: string (nullable = true)
 |-- Período - Data de início: string (nullable = true)
 |-- Período - Data de fim: string (nullable = true)
 |-- Destinos: string (nullable = true)
 |-- Motivo: string (nullable = true)
 |-- Valor diárias: string (nullable = true)
 |-- Valor passagens: string (nullable = true)
 |-- Valor outros gastos: string (nullable = true)
 |-- ValorPassagens: float (nullable = true)
 |-- ValorDiarias: float (nullable = true)
 |-- ValorOutros: float (nullable = true)
 |-- PeriodoDataInicio: string (nullable = true)
 |-- PeriodoDataFim: string (nullable = tr

In [72]:
# Selecionando as tabelas e criando um novo DataFrame
df3 = df2.select(df2["Nome do órgão superior"].alias("Orgao"), \
                 df2["Nome órgão solicitante"].alias("OrgaoSolicitante"), \
                 df2["Identificador do processo de viagem"].alias("ProcessoViagem"), 
                 df2["ValorPassagens"], df2["PeriodoDataInicio"], df2["PeriodoDataFim"])

df3.printSchema()

root
 |-- Orgao: string (nullable = true)
 |-- OrgaoSolicitante: string (nullable = true)
 |-- ProcessoViagem: string (nullable = true)
 |-- ValorPassagens: float (nullable = true)
 |-- PeriodoDataInicio: string (nullable = true)
 |-- PeriodoDataFim: string (nullable = true)



Criando arquivos Parquet para armazenamento de dados

In [73]:
# Escrevendo um arquivo parquet com o DataFrame DF3
df3.write.parquet("viagens.parquet")

In [74]:
# Lendo um arquivo parquet
df_parquet = spark.read.parquet("viagens.parquet")

In [75]:
df_parquet.count()

930964

In [76]:
df_parquet.describe().toPandas() #show(truncate=False)

Unnamed: 0,summary,Orgao,OrgaoSolicitante,ProcessoViagem,ValorPassagens,PeriodoDataInicio,PeriodoDataFim
0,count,930964,930964,930964.0,930964.0,930964,930964
1,mean,,,20387903.129999656,497.3718824805419,,
2,stddev,,,102356849.38371032,1257.6500751273377,,
3,min,ADVOCACIA-GERAL DA UNIAO,ADVOCACIA-GERAL DA UNIAO - UNIDADES COM VÍNCUL...,13501500.0,0.0,01/01/2018,01/01/2018
4,max,Sem informação,"VALEC-ENGENHARIA, CONSTRUCOES E FERROVIAS S/A",2018004000.0,436061.1,31/12/2018,31/12/2018
