# ETL Bus Position

In [1]:
import pytz
import os
from pyspark.sql import SparkSession
from datetime import datetime
from pyspark.sql.functions import explode, col

In [2]:
# Inicializa a sessão Spark
spark = SparkSession.builder.appName("RawToTrustedBatch").getOrCreate()

# Configura o acesso ao MinIO
hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3a.access.key", "datalake")
hadoop_conf.set("fs.s3a.secret.key", "datalake")
hadoop_conf.set("fs.s3a.endpoint", "http://minio:9000")
hadoop_conf.set("fs.s3a.path.style.access", "true")
hadoop_conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")

spark

In [3]:
# Defina o caminho de entrada e saída com base na data
fuso_horario_brasilia = pytz.timezone('America/Sao_Paulo')
brasilia_time = datetime.now(fuso_horario_brasilia)
today = brasilia_time.strftime('%Y-%m-%d')

raw_path = f"s3a://raw/busdata/{today}"

routes_trusted_path = f"s3a://trusted/busroutes/{today}/"
positions_trusted_path = f"s3a://trusted/buspositions/{today}/"

In [10]:
# Exibe a lista de arquivos
files_df = spark.read.format("binaryFile").load(raw_path)

# Pega o primeiro arquivo para gerar o df_bus_lines
first_raw_file_path = files_df.collect()[0]["path"]
file_name = os.path.basename(first_raw_file_path).replace(".json", "")
                                                          
df_raw = spark.read.json(first_raw_file_path)

# Explodir o array "l" para acessar as informações de cada linha de ônibus
df_lines = df_raw.select(explode(col("l")).alias("linha"))

# DataFrame com as informações de "c" até "qv" (linhas de ônibus)
df_bus_lines = df_lines.select(
    col("linha.cl").alias("codigo_trajeto"),
    col("linha.sl").alias("sentido"),
    col("linha.c").alias("letreiro"),
    col("linha.lt0").alias("terminal_primario"),
    col("linha.lt1").alias("terminal_secundario"),
    col("linha.qv").alias("qnt_veiculos")
)
# Salva o df_bus_lines no caminho apenas uma vez
# Define o caminho de destino usando o nome do arquivo original
destination_path = os.path.join(routes_trusted_path, file_name)
    
# Salva o DataFrame processado no formato Parquet
#df_bus_lines.write.mode("overwrite").parquet(destination_path)
df_bus_lines.write.mode("overwrite").json(routes_trusted_path)
df_bus_lines.show()

+--------------+-------+--------+--------------------+-------------------+------------+
|codigo_trajeto|sentido|letreiro|   terminal_primario|terminal_secundario|qnt_veiculos|
+--------------+-------+--------+--------------------+-------------------+------------+
|         34791|      2| 8012-10|  CID. UNIVERSITÁRIA|      METRÔ BUTANTÃ|           1|
|         33536|      2| 4113-10|   PÇA. DA REPÚBLICA|    GENTIL DE MOURA|           5|
|           904|      1| 2018-10|          SÃO MIGUEL|         JD. CAMPOS|           3|
|         32994|      2| 273R-10|   METRÔ ARTUR ALVIM|          JD. ROBRU|           7|
|         32787|      2| 6820-10|     TERM. CAPELINHA|      JD. DAS ROSAS|           4|
|          1629|      1| 574W-10|         METRÔ BELÉM|       JD. WALKIRIA|           6|
|         33474|      2| 278A-10|             PENHA  |      METRÔ SANTANA|           3|
|          1059|      1| 3773-10|        METRÔ CARRÃO|  RES. STA. BÁRBARA|           5|
|         33242|      2| 775N-10

In [5]:
# Itera sobre os arquivos para processar as posições dos veículos
for row in files_df.collect():
    raw_file_path = row["path"]
    raw_file_date = raw_file_path.split('_')[-1].split('.')[0]
    df_raw = spark.read.json(raw_file_path)
    
    # Explodir o array "l" para acessar as informações de cada linha de ônibus
    df_lines = df_raw.select(explode(col("l")).alias("linha"))

    # Explodir o array "vs" para acessar as informações de cada veículo dentro da linha de ônibus
    df_vehicles = df_lines.select(
        col("linha.cl").alias("codigo_trajeto"),
        col("linha.sl").alias("sentido"),
        explode(col("linha.vs")).alias("vehicle")
    )

    # DataFrame com as informações de "p" até "px" (posições dos veículos)
    df_vehicles_position = df_vehicles.select(
        col("codigo_trajeto"),
        col("sentido"),
        col("vehicle.p").alias("prefixo_veiculo"),
        col("vehicle.py").alias("latitude"),
        col("vehicle.px").alias("longitude")
    )
    
    # Salva as posições dos veículos no caminho de saída
    df_vehicles_position.write.mode("overwrite").json(positions_trusted_path + 'positions_' + raw_file_date)

In [6]:
df_vehicles_position.show()

+--------------+-------+---------------+-------------------+-------------------+
|codigo_trajeto|sentido|prefixo_veiculo|           latitude|          longitude|
+--------------+-------+---------------+-------------------+-------------------+
|         34791|      2|          82542|       -23.55835075|        -46.7365775|
|         34791|      2|          82633|         -23.563583| -46.71300037500001|
|         33536|      2|          41911|       -23.58504125|         -46.610963|
|         33536|      2|          41518|        -23.5812595|        -46.6151475|
|         33536|      2|          41585|        -23.5523785|        -46.6334785|
|         33536|      2|          41511|      -23.545999875|      -46.643137875|
|         33536|      2|          41579|       -23.60146375|      -46.613241875|
|           904|      1|          35845|        -23.4917385|         -46.444333|
|           904|      1|          35728|-23.495239249999997|       -46.43271375|
|           904|      1|    

In [11]:
# Encerra a sessão Spark
spark.stop()

In [6]:
# ----------------------------------------------------------------------------------------------------------------- #