In [1]:
import os
import sys

In [2]:
from pyspark.sql import SparkSession

from pyspark.sql.functions import *

from pyspark.sql.types import *

In [3]:
spark = (
    SparkSession.builder
    .master('local')
    .appName('Projetas')
    .getOrCreate()
)


In [36]:
df = spark.read.json('VRA_20211.json')
df.show(5)

+-------------------+-------------------+-----------------+-------------------+---------------+--------------------+-------------------+----------------+---------+-------------------+-------------------+-----------+
|    ChegadaPrevista|        ChegadaReal|CódigoAutorização|CódigoJustificativa|CódigoTipoLinha|ICAOAeródromoDestino|ICAOAeródromoOrigem|ICAOEmpresaAérea|NúmeroVoo|    PartidaPrevista|        PartidaReal|SituaçãoVoo|
+-------------------+-------------------+-----------------+-------------------+---------------+--------------------+-------------------+----------------+---------+-------------------+-------------------+-----------+
|2021-01-19 14:45:00|2021-01-19 19:22:00|                7|                N/A|              C|                SBEG|               SBBE|             MWM|     9702|2021-01-19 12:35:00|2021-01-19 17:17:00|  REALIZADO|
|2021-01-26 12:05:00|2021-01-26 12:04:00|                7|                N/A|              C|                SBPA|               SBGL|

In [37]:
df.printSchema()

root
 |-- ChegadaPrevista: string (nullable = true)
 |-- ChegadaReal: string (nullable = true)
 |-- CódigoAutorização: string (nullable = true)
 |-- CódigoJustificativa: string (nullable = true)
 |-- CódigoTipoLinha: string (nullable = true)
 |-- ICAOAeródromoDestino: string (nullable = true)
 |-- ICAOAeródromoOrigem: string (nullable = true)
 |-- ICAOEmpresaAérea: string (nullable = true)
 |-- NúmeroVoo: string (nullable = true)
 |-- PartidaPrevista: string (nullable = true)
 |-- PartidaReal: string (nullable = true)
 |-- SituaçãoVoo: string (nullable = true)



In [38]:
df.toPandas().isna().sum()

ChegadaPrevista          160
ChegadaReal             2490
CódigoAutorização          0
CódigoJustificativa        0
CódigoTipoLinha            0
ICAOAeródromoDestino       0
ICAOAeródromoOrigem        0
ICAOEmpresaAérea           0
NúmeroVoo                  0
PartidaPrevista          160
PartidaReal             2490
SituaçãoVoo                0
dtype: int64

In [39]:
df = df.withColumnRenamed('ChegadaPrevista', 'chegada_prevista')\
.withColumnRenamed('ChegadaReal', 'chegada_real')\
.withColumnRenamed('CódigoAutorização', 'código_autorização')\
.withColumnRenamed('CódigoJustificativa', 'código_justificativa')\
.withColumnRenamed('CódigoTipoLinha', 'código_tipoLinha')\
.withColumnRenamed('ICAOAeródromoDestino', 'icao_aeródromo_destino')\
.withColumnRenamed('ICAOAeródromoOrigem', 'icao_aeródromo_origem')\
.withColumnRenamed('ICAOEmpresaAérea', 'icao_empresa_aérea')\
.withColumnRenamed('NúmeroVoo', 'número_voo')\
.withColumnRenamed('PartidaPrevista', 'partida_prevista')\
.withColumnRenamed('PartidaReal', 'partida_real')\
.withColumnRenamed('SituaçãoVoo', 'situação_voo')\

df.show(5)

+-------------------+-------------------+------------------+--------------------+----------------+----------------------+---------------------+------------------+----------+-------------------+-------------------+------------+
|   chegada_prevista|       chegada_real|código_autorização|código_justificativa|código_tipoLinha|icao_aeródromo_destino|icao_aeródromo_origem|icao_empresa_aérea|número_voo|   partida_prevista|       partida_real|situação_voo|
+-------------------+-------------------+------------------+--------------------+----------------+----------------------+---------------------+------------------+----------+-------------------+-------------------+------------+
|2021-01-19 14:45:00|2021-01-19 19:22:00|                 7|                 N/A|               C|                  SBEG|                 SBBE|               MWM|      9702|2021-01-19 12:35:00|2021-01-19 17:17:00|   REALIZADO|
|2021-01-26 12:05:00|2021-01-26 12:04:00|                 7|                 N/A|           

In [40]:
df.columns

['chegada_prevista',
 'chegada_real',
 'código_autorização',
 'código_justificativa',
 'código_tipoLinha',
 'icao_aeródromo_destino',
 'icao_aeródromo_origem',
 'icao_empresa_aérea',
 'número_voo',
 'partida_prevista',
 'partida_real',
 'situação_voo']

In [41]:
for coluna in df.columns:
    print(coluna, df.filter(df[coluna].isNull()).count())

chegada_prevista 160
chegada_real 2490
código_autorização 0
código_justificativa 0
código_tipoLinha 0
icao_aeródromo_destino 0
icao_aeródromo_origem 0
icao_empresa_aérea 0
número_voo 0
partida_prevista 160
partida_real 2490
situação_voo 0


In [42]:
df.select('icao_aeródromo_destino').show()

+----------------------+
|icao_aeródromo_destino|
+----------------------+
|                  SBEG|
|                  SBPA|
|                  SBBE|
|                  SBEG|
|                  SBEG|
|                  SBKP|
|                  SBKP|
|                  SBBR|
|                  SBRF|
|                  SBRF|
|                  SBRF|
|                  SBRF|
|                  SBKP|
|                  SBKP|
|                  SBKP|
|                  SBKP|
|                  SBKP|
|                  SBBR|
|                  SBBR|
|                  SBBR|
+----------------------+
only showing top 20 rows



In [43]:
df.dropDuplicates(['icao_aeródromo_destino']).show()
spark.stop()

+-------------------+-------------------+------------------+--------------------+----------------+----------------------+---------------------+------------------+----------+-------------------+-------------------+-------------+
|   chegada_prevista|       chegada_real|código_autorização|código_justificativa|código_tipoLinha|icao_aeródromo_destino|icao_aeródromo_origem|icao_empresa_aérea|número_voo|   partida_prevista|       partida_real| situação_voo|
+-------------------+-------------------+------------------+--------------------+----------------+----------------------+---------------------+------------------+----------+-------------------+-------------------+-------------+
|2021-01-02 18:50:00|2021-01-02 19:07:00|                 0|                 N/A|               X|                  CYUL|                 SBGR|               ACA|      0097|2021-01-02 08:45:00|2021-01-02 08:45:00|    REALIZADO|
|2021-01-04 08:45:00|2021-01-04 07:45:00|                 0|                 N/A|       

In [31]:
df.columns

['chegada_prevista',
 'chegada_real',
 'código_autorização',
 'código_justificativa',
 'código_tipoLinha',
 'icao_aeródromo_destino',
 'icao_aeródromo_origem',
 'icao_empresa_aérea',
 'número_voo',
 'partida_prevista',
 'partida_real',
 'situação_voo']

In [45]:
df.select('icao_aeródromo_destino').show()

AttributeError: 'NoneType' object has no attribute '_jvm'