In [1]:
!pip install plotly

In [2]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as func
from pyspark.sql.functions import lit
from pyspark.sql.functions import col
from pyspark.sql.functions import udf,struct
from pyspark.sql.types import *
from plotly.offline import plot
from plotly import graph_objects as go, express as px
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import col

In [3]:
df_passagem = spark.read.csv('/FileStore/tables/2019_Passagem_novo.csv', header=True, sep=';', encoding='ISO-8859-1')
df_pagamento = spark.read.csv('/FileStore/tables/2019_Pagamento_novo.csv', header=True, sep=';', encoding='ISO-8859-1')
df_viagem = spark.read.csv('/FileStore/tables/2019_Viagem_novo.csv', header=True, sep=';', encoding='ISO-8859-1')
df_trecho = spark.read.csv('/FileStore/tables/2019_Trecho.csv', header=True, sep=';', encoding='ISO-8859-1')

In [4]:
df_viagem = df_viagem.withColumnRenamed('Nome órgão solicitante', 'orgao_solicitante')
df_viagem = df_viagem.withColumnRenamed('Nome do órgão superior', 'orgao_superior')
df_viagem = df_viagem.withColumnRenamed('Valor diárias', 'valor_diarias')
df_viagem = df_viagem.withColumnRenamed('Valor passagens', 'valor_passagens')
df_viagem = df_viagem.withColumnRenamed('Identificador do processo de viagem', 'id')


In [5]:
df_trecho = df_trecho.withColumnRenamed('Identificador do processo de viagem ', 'id')
df_trecho = df_trecho.withColumn("id", df_trecho["id"].cast(IntegerType()))


In [6]:
df_trecho=df_trecho.withColumnRenamed('Origem - País','origem_pais')
df_trecho=df_trecho.withColumnRenamed('Destino - País','destino_pais')
df_trecho=df_trecho.withColumnRenamed('Meio de Transporte','meio_transporte')
df_trecho=df_trecho.withColumnRenamed('Missao?','missao')


In [7]:
#QUESTÃO 1: Quais servidores mais viajaram em 2019?

df_top_viagens_servidores = df_viagem.groupBy('Nome').count()
df_top_viagens_servidores = df_top_viagens_servidores.sort(df_top_viagens_servidores['count'].desc())

df_top_viagens_servidores_100 = df_top_viagens_servidores.filter('count >= 100').select('Nome','count')
df_top_viagens_servidores_100 = df_top_viagens_servidores_100.toPandas()
df_top_viagens_servidores_100


Unnamed: 0,Nome,count
0,Informações protegidas por sigilo,90186
1,PATRICIA TIDORI MIURA,167
2,JOSE MILTON NATIVIDADE,162
3,ANTONIO TOMAZ PATRONO,159
4,ROBERTO CARLOS DE CARVALHO,151
5,ADILSON RAIMUNDO XAVIER,149
6,NELSON MENDES CARNEIRO,139
7,JOAO BATISTA DA SILVA,136
8,JOSE RAIMUNDO TIMOTEO,136
9,JOSE OSVALDO DA SILVA,135


In [8]:
#GRÁFICO DA QUESTÃO 1

px.bar(df_top_viagens_servidores_100, x='Nome', y='count', color='Nome',
      title='Servidores que mais realizaram viagens em 2019',
      labels={'Nome':'Servidor', 'count': 'Quantidade de Viagens'}, log_y=True).show()

In [9]:
#QUESTÃO 2: E em relação ao valores, quais servidores mais gastaram com viagens em 2019?  Os funcionários que mais viajam são aqueles que mais gastam?

df_valor_geral= df_viagem.select(df_viagem.id, df_viagem.Nome, df_viagem.orgao_solicitante, df_viagem.valor_diarias.cast('float'), df_viagem.valor_passagens.cast('float'))

df_valor_geral=df_valor_geral.withColumn('valor_recebido',df_valor_geral.valor_diarias + df_valor_geral.valor_passagens)
df_valor_geral = df_valor_geral.groupBy('Nome').agg({'valor_recebido':'sum'})

df_valor_geral = df_valor_geral.withColumnRenamed('sum(valor_recebido)','valor')

df_valor_geral = df_valor_geral.sort(df_valor_geral["valor"].desc())

df_valor_geral_top = df_valor_geral.filter('valor >= 225000').select('Nome','valor')

df_valor_geral_top.show()


In [10]:
df_valor_geral_top_pd = df_valor_geral_top.toPandas()
df_valor_geral_top_pd

Unnamed: 0,Nome,valor
0,Informações protegidas por sigilo,190050000.0
1,BENTO COSTA LIMA LEITE DE ALBUQUERQUE JUNIOR,433694.9
2,DECIO FABRICIO ODDONE DA COSTA,302974.5
3,MARCOS CESAR PONTES,281072.5
4,LUCAS PEDREIRA DO COUTO FERRAZ,274603.3
5,ROBERTO DE OLIVEIRA CAMPOS NETO,269395.5
6,ERIVALDO ALFREDO GOMES,265923.9
7,PAULO ROBERTO SOARES PACHECO,255482.6
8,TEREZA CRISTINA CORREA DA COSTA DIAS,254288.1
9,ANDRE PAES DE ALMEIDA,250389.3


In [11]:
#GRÁFICO DA QUESTÃO 2

px.bar(df_valor_geral_top_pd, x='Nome', y='valor', color='Nome',
      title='Servidores que mais gastaram em viagens em 2019',
      labels={'Nome':'Servidor', 'valor': 'Valor gasto'}, log_y=True).show()


In [12]:
#QUESTÃO 3: Nessas viagens, qual o tipo de transporte mais utilizado?

df_meio_transp = df_trecho.groupBy('meio_transporte').count()
df_meio_transp = df_meio_transp.withColumnRenamed('count', 'quantidade')
df_meio_transp = df_meio_transp.sort(df_meio_transp["quantidade"])
df_meio_transp_pd = df_meio_transp.toPandas()
df_meio_transp_pd

Unnamed: 0,meio_transporte,quantidade
0,Marítimo,468
1,Ferroviário,1422
2,Fluvial,13766
3,Inválido,29943
4,Veículo Próprio,112288
5,Rodoviário,227206
6,Aéreo,518805
7,Veículo Oficial,731494


In [13]:
#acrescentando a frequência relativa:


total_viagens = df_meio_transp.groupBy().agg(func.sum("quantidade")).collect()
total=float(1635392)
df_meio_transp_geral = df_meio_transp.withColumn('freq_rel',df_meio_transp.quantidade/total)

df_meio_transp_geral.show()



In [14]:
total_freq = df_meio_transp_geral.groupBy().agg(func.sum("freq_rel")).collect()
total_freq

In [15]:
df_meio_transp_geral_pd = df_meio_transp_geral.toPandas()
df_meio_transp_geral_pd 

Unnamed: 0,meio_transporte,quantidade,freq_rel
0,Marítimo,468,0.000286
1,Ferroviário,1422,0.00087
2,Fluvial,13766,0.008418
3,Inválido,29943,0.018309
4,Veículo Próprio,112288,0.068661
5,Rodoviário,227206,0.138931
6,Aéreo,518805,0.317236
7,Veículo Oficial,731494,0.44729


In [16]:
px.bar(df_meio_transp_pd, x='meio_transporte', y='quantidade', color='meio_transporte',
      title='Tipos de transporte utilizados à serviço',
      labels={'meio_transporte':'Meio de Transporte', 'quantidade': 'Quantidade'}, log_y=False).show()

In [17]:
#QUESTÃO 4: Qual foi o órgão público que mais solicitou viagem em 2019?

df_orgao_solicitante = df_viagem.groupBy('orgao_solicitante').count()
df_orgao_solicitante = df_orgao_solicitante.sort(df_orgao_solicitante["count"].desc())
df_orgao_solicitante = df_orgao_solicitante.withColumnRenamed('count', 'quantidade')
df_orgao_solicitante_pd = df_orgao_solicitante.toPandas()




In [18]:
df_orgao_solicitante_pd

Unnamed: 0,orgao_solicitante,quantidade
0,Comando da Aeronáutica,70192
1,Sem informação,62702
2,Comando do Exército,52883
3,Departamento de Polícia Federal,49999
4,"Ministério da Agricultura, Pecuária e Abasteci...",36313
5,Departamento de Polícia Rodoviária Federal,35240
6,Instituto Nacional do Seguro Social,34507
7,Ministério da Saúde - Unidades com vínculo direto,29007
8,Fundação Instituto Brasileiro de Geografia e E...,27323
9,Instituto Brasileiro do Meio Ambiente e dos Re...,17764


In [19]:
#GRÁFICO DA QUESTÃO 4
px.bar(df_orgao_solicitante_pd, x='orgao_solicitante', y='quantidade', color='quantidade',
      title='Viagens Solicitadas em 2019: Por órgão',
      labels={'orgao_solicitante':'Órgão Solicitante', 'quantidade': 'Quantidade'}, log_y=False).show()

In [20]:
#Questão 5: Em relação ao item anterior, quais foram os servidores que mais viajaram e os que mais gastaram? Determine a frequência relativa em relação aos valores gastos.

df_viagens_aeronautica_geral= df_viagem.filter('orgao_solicitante == "Comando da Aeronáutica"').select(df_viagem.id, df_viagem.Nome, df_viagem.valor_diarias, df_viagem.valor_passagens)
df_viagens_aeronautica_geral=df_viagens_aeronautica_geral.withColumn('valor_recebido',df_viagens_aeronautica_geral.valor_diarias+df_viagens_aeronautica_geral.valor_passagens)
df_viagens_aeronautica_geral.show()



In [21]:
#inserindo a frequência relativa
total = df_viagens_aeronautica_geral.groupBy().agg(func.sum("valor_recebido")).collect()
total=float(95594966.42999955)
df_viagens_aeronautica_geral = df_viagens_aeronautica_geral.withColumn('freq_rel',df_viagens_aeronautica_geral.valor_recebido/total)
df_viagens_aeronautica_geral.show()


In [22]:
df_viagens_aeronautica_freq = df_viagens_aeronautica_geral.groupby('Nome').agg({'freq_rel': 'sum'})
df_viagens_aeronautica_freq = df_viagens_aeronautica_freq.withColumnRenamed('sum(freq_rel)', 'freq_rel')
df_viagens_aeronautica_freq = df_viagens_aeronautica_freq.sort(df_viagens_aeronautica_freq['freq_rel'].desc())
df_viagens_aeronautica_freq.show()

In [23]:
df_viagens_aeronautica_freq_pd = df_viagens_aeronautica_freq.toPandas()
df_viagens_aeronautica_freq_pd 

Unnamed: 0,Nome,freq_rel
0,MAURICIO BETTEGA SEIXAS PINTO,0.001398
1,CLOVIS FERNANDES JUNIOR,0.001199
2,ALESSANDER DE ANDRADE SANTORO,0.001080
3,VAHE ANTOINE YAGHDJIAN,0.001052
4,FERNANDO BENITEZ LEAL,0.001014
5,ARY RODRIGUES BERTOLINO,0.001002
6,PEDRO HENRIQUE VITORASSI VARASQUIM,0.000996
7,JEFERSON DOMINGUES DE FREITAS,0.000972
8,JOSE VAGNER VITAL,0.000968
9,MARCOS PIGATTO MAZZEO,0.000954


In [24]:
#valores dessas viagens
df_valores_passagens_aeronautica = df_viagens_aeronautica_geral.groupBy('Nome').agg({'valor_recebido':'sum'})
df_valores_passagens_aeronautica = df_valores_passagens_aeronautica.sort(df_valores_passagens_aeronautica['sum(valor_recebido)'].desc())
df_valores_passagens_aeronautica = df_valores_passagens_aeronautica.withColumnRenamed('sum(valor_recebido)','valor_recebido')
df_valores_passagens_aeronautica_pd = df_valores_passagens_aeronautica.toPandas()

In [25]:
df_valores_passagens_aeronautica_pd

Unnamed: 0,Nome,valor_recebido
0,MAURICIO BETTEGA SEIXAS PINTO,133632.10
1,CLOVIS FERNANDES JUNIOR,114611.07
2,ALESSANDER DE ANDRADE SANTORO,103231.79
3,VAHE ANTOINE YAGHDJIAN,100553.95
4,FERNANDO BENITEZ LEAL,96887.13
5,ARY RODRIGUES BERTOLINO,95804.43
6,PEDRO HENRIQUE VITORASSI VARASQUIM,95233.11
7,JEFERSON DOMINGUES DE FREITAS,92900.62
8,JOSE VAGNER VITAL,92525.53
9,MARCOS PIGATTO MAZZEO,91204.92


In [26]:
df_viagens_aeronautica = df_viagens_aeronautica_geral.groupBy('Nome').count()
df_viagens_aeronautica = df_viagens_aeronautica.sort(df_viagens_aeronautica['count'].desc())
df_viagens_aeronautica_pd = df_viagens_aeronautica.toPandas()
df_viagens_aeronautica.show()

In [27]:

df_serv_mais_viagens_aeronautica = df_viagens_aeronautica.filter('count >= 41').select('Nome','count')
df_serv_mais_viagens_aeronautica = df_serv_mais_viagens_aeronautica.toPandas()

px.bar(df_serv_mais_viagens_aeronautica, x='Nome', y='count', color='Nome',
      title='Servidores que mais realizaram viagens na Aeronáutica',
      labels={'Nome':'Servidor', 'count': 'Quantidade de Viagens'}, log_y=True).show()


In [28]:
#QUESTÃO 6: Ainda em relação ao órgão que mais realizou viagens, quais foram os principais destinos?
#Verificando o destino (fazendo um join)

df_destino_aeronautica_join = df_viagem.join(df_viagens_aeronautica_geral, on=['id'], how='inner').select(df_viagens_aeronautica_geral.id, df_viagens_aeronautica_geral.Nome, df_viagens_aeronautica_geral.valor_recebido, df_viagem.Destinos)


df_destino_aeronautica = df_destino_aeronautica_join.groupBy('Destinos').count()
df_destino_aeronautica = df_destino_aeronautica.sort(df_destino_aeronautica['count'].desc())
df_destino_aeronautica.show()


In [29]:

df_destino_aeronautica_pd = df_destino_aeronautica.toPandas()
df_destino_aeronautica_pd

Unnamed: 0,Destinos,count
0,São José dos Campos/SP,9560
1,Rio de Janeiro/RJ,9249
2,Brasília/DF,5652
3,São Paulo/SP,4638
4,Manaus/AM,2186
5,Sem informação,2170
6,Curitiba/PR,1996
7,Recife/PE,1784
8,Guarulhos/SP,1489
9,Campo Grande/MS,1127


In [30]:
#QUESTÃO 7: Quantas vezes os trajetos “BRASIL X EUA” e “EUA X BRASIL” foram realizados em 2019? Qual foi o órgão que mais realizou esse trajeto?
#quantas vezes temos o trecho EUA x BRA

df_analise_trecho = df_trecho.select('id','origem_pais','destino_pais','missao')
df_analise_trecho1 = df_analise_trecho.filter(df_analise_trecho.origem_pais == "Estados Unidos da América")
df_analise_trecho1_1 =  df_analise_trecho1.filter(df_analise_trecho.destino_pais == "Brasil")
df_analise_trecho1_1_1 = df_analise_trecho1_1.groupBy('origem_pais').count()


In [31]:
#quantas vezes temos o trecho BRA X EUA 

df_analise_trecho2 = df_analise_trecho.filter(df_analise_trecho.origem_pais == "Brasil")
df_analise_trecho2_1 =  df_analise_trecho2.filter(df_analise_trecho.destino_pais == "Estados Unidos da América")
df_analise_trecho2_1_1 = df_analise_trecho2_1.groupBy('origem_pais').count()
df_analise_trecho2_1.show()

In [32]:

#fazendo um join para saber qual era o orgao solicitante (trecho1)
df_analise_trecho1_join = df_analise_trecho1_1.join(df_viagem, on=['id'], how='inner').select(df_analise_trecho1_1.id, df_analise_trecho1_1.origem_pais, df_analise_trecho1_1.destino_pais, df_viagem.orgao_solicitante)
#df_analise_trecho1_join.show()

df_analise_trecho1_count = df_analise_trecho1_join.groupBy('orgao_solicitante').count()
df_analise_trecho1_count = df_analise_trecho1_count.sort(df_analise_trecho1_count['count'].desc())
df_analise_trecho1_count.show()






In [33]:
#fazendo um join para saber qual era o orgao solicitante (trecho2)
df_analise_trecho2_join = df_analise_trecho2_1.join(df_viagem, on=['id'], how='inner').select(df_analise_trecho2_1.id, df_analise_trecho2_1.origem_pais, df_analise_trecho2_1.destino_pais, df_viagem.orgao_solicitante)
#df_analise_trecho2_join.show()


df_analise_trecho2_count = df_analise_trecho2_join.groupBy('orgao_solicitante').count()
df_analise_trecho2_count = df_analise_trecho2_count.sort(df_analise_trecho2_count['count'].desc())
df_analise_trecho2_count.show()



In [34]:
df_analise_trecho1_count_pd = df_analise_trecho1_count.toPandas()
df_analise_trecho2_count_pd = df_analise_trecho2_count.toPandas()

In [35]:
df_analise_trecho1_count_pd

Unnamed: 0,orgao_solicitante,count
0,Comando da Aeronáutica,297
1,Ministério das Relações Exteriores - Unidades ...,248
2,Comando do Exército,202
3,Sem informação,162
4,Fundação Oswaldo Cruz,142
5,Ministério da Defesa - Unidades com vínculo di...,139
6,Ministério da Infraestrutura - Unidades com ví...,119
7,Agência Nacional de Vigilância Sanitária,115
8,Fundação Coordenação de Aperfeiçoamento de Pes...,88
9,Presidência da República - Unidades com víncul...,71


In [36]:
df_analise_trecho2_count_pd

Unnamed: 0,orgao_solicitante,count
0,Comando da Aeronáutica,305
1,Ministério das Relações Exteriores - Unidades ...,275
2,Comando do Exército,202
3,Sem informação,162
4,Fundação Oswaldo Cruz,143
5,Ministério da Defesa - Unidades com vínculo di...,134
6,Ministério da Infraestrutura - Unidades com ví...,122
7,Agência Nacional de Vigilância Sanitária,113
8,Presidência da República - Unidades com víncul...,73
9,Universidade Tecnológica Federal do Paraná,55


In [37]:
trecho1 = px.bar(df_analise_trecho1_count_pd, x='orgao_solicitante', y='count', color='count',
      title='TRECHO EUA X BRA',
      labels={'orgao_solicitante':'Órgão', 'count': 'Quantidade de Viagens'}, log_y=False).show()
trecho1


In [38]:
trecho2 = px.bar(df_analise_trecho2_count_pd, x='orgao_solicitante', y='count', color='count',
      title='TRECHO BRA X EUA',
      labels={'orgao_solicitante':'Órgão', 'count': 'Quantidade de Viagens'}, log_y=False).show()
trecho2

In [39]:
#QUESTÃO 8: Em relação aos valores gastos com passagens, qual a porcentagem de valores gastos com cada meio utilizado?
df_valor_por_transporte = df_passagem.select('Meio de transporte', 'Valor da Passagem')
df_valor_por_transporte = df_valor_por_transporte.withColumnRenamed('Valor da Passagem', "valor")
df_valor_por_transporte = df_valor_por_transporte.select(col('Meio de transporte'), df_valor_por_transporte.valor.cast('float').alias('valor'))
df_valor_por_transporte = df_valor_por_transporte.groupBy('Meio de transporte').agg({'valor':'sum'})
df_valor_por_transporte = df_valor_por_transporte.withColumnRenamed('sum(valor)', "valor")






In [40]:
df_valor_por_transporte_pd = df_valor_por_transporte.toPandas()

In [41]:
graph=px.pie(df_valor_por_transporte_pd, values='valor', names='Meio de transporte')
graph.show()

In [42]:
#QUESTÃO 9: Qual foi o tipo de pagamento mais realizado?
df_tp_pagto = df_pagamento.groupBy('Tipo de pagamento').count()
df_tp_pagto.show()

#frequencia relativa
total_pgto = df_tp_pagto.groupBy().agg(func.sum("count")).collect()
total_pgto = float(1048575)
df_tp_pagto_freq = df_tp_pagto.withColumnRenamed('count','quantidade')
df_tp_pagto_freq = df_tp_pagto_freq.withColumn('freq_rel', df_tp_pagto_freq.quantidade/total_pgto)
df_tp_pagto_freq = df_tp_pagto_freq.sort(df_tp_pagto_freq['quantidade'].desc())
df_tp_pagto_freq.show()

In [43]:
df_tp_pagto_freq_pd = df_tp_pagto_freq.toPandas()
df_tp_pagto_freq_pd

Unnamed: 0,Tipo de pagamento,quantidade,freq_rel
0,DIÁRIAS,639429,0.609808
1,PASSAGEM,376818,0.359362
2,RESTITUIÇÃO,27090,0.025835
3,Serviço correlato: seguro,5238,0.004995


In [44]:
total_freq_pg = df_tp_pagto_freq.groupBy().agg(func.sum("freq_rel")).collect()
total_freq_pg

In [45]:
#quanto aos valores
df_tp_pgto_valor = df_pagamento.select('Tipo de pagamento', 'Valor')
df_tp_pgto_valor = df_tp_pgto_valor.select(col('Tipo de pagamento'), df_tp_pgto_valor.Valor.cast('float').alias('valor'))
df_tp_pgto_valor = df_tp_pgto_valor.groupBy('Tipo de pagamento').agg({'valor':'sum'})
df_tp_pgto_valor = df_tp_pgto_valor.withColumnRenamed('sum(valor)', "valor")
df_tp_pgto_valor = df_tp_pgto_valor.sort(df_tp_pgto_valor["valor"])



In [46]:
df_tp_pgto_valor_pd = df_tp_pgto_valor.toPandas()

In [47]:
px.bar(df_tp_pgto_valor_pd, x='Tipo de pagamento', y='valor', color='Tipo de pagamento',
      title='Tipos de pagamento mais realizado',
      labels={'Tipo de pagamento':'Tipo de pagamento', 'valor': 'Valor (em R$)'}, log_y=False).show()

In [48]:
#mongodb+srv://mongo_user_db:<password>@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority
    
df_top_viagens_servidores.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df1")\
    .save()
df_valor_geral.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df2")\
    .save()
df_meio_transp.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df3")\
    .save()
df_orgao_solicitante.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df4")\
    .save()
df_viagens_aeronautica_geral.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df5a")\
    .save()
df_meio_transp.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df5b")\
    .save()
df_destino_aeronautica.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df6")\
    .save()
df_analise_trecho_count.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df7a")\
    .save()
df_analise_trecho.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df7b")\
    .save()
df_valor_por_transporte.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df8")\
    .save()
df_tp_pagto.write.format("com.mongodb.spark.sql.DefaultSource")\
    .mode("overwrite")\
    .option("spark.mongodb.output.uri","mongodb+srv://mongo_user_db:DhKuJkhVZK9796A@cluster0-dclvh.mongodb.net/test?retryWrites=true&w=majority")\
    .option("database","viagens")\
    .option("collection", "df9")\
    .save()

