# Sessão Spark e Configurações Iniciais

In [80]:
from pyspark.sql import SparkSession

In [81]:
spark

In [82]:
# Inicializa a sessão Spark
spark = SparkSession.builder.appName("ProcessRawToTrusted").getOrCreate()

# Configura o acesso ao MinIO
hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3a.access.key", "datalake")
hadoop_conf.set("fs.s3a.secret.key", "datalake")
hadoop_conf.set("fs.s3a.endpoint", "http://minio:9000")
hadoop_conf.set("fs.s3a.path.style.access", "true")
hadoop_conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")


In [124]:
# Defina o caminho de entrada e saída com base na data
from datetime import datetime

today = datetime.today().strftime('%Y-%m-%d')
raw_path = f"s3a://raw/busposition/{today}"
trusted_path = f"s3a://trusted/busposition/{today}"

routes_trusted_path = f"s3a://trusted/routes/"
positions_trusted_path = f"s3a://trusted/positions/"

In [131]:
from pyspark.sql.functions import explode, col

# Exibe a lista de arquivos
files_df = spark.read.format("binaryFile").load(raw_path)
files_df.select("path").show(truncate=False)

# Itera sobre os arquivos
for row in files_df.collect():
    raw_file_path = row["path"]
    raw_file_date = raw_file_path.split('_')[-1].split('.')[0]
    
    df_raw = spark.read.json(raw_file_path)
    
    # Explodir o array "l" para acessar as informações de cada linha de ônibus
    df_lines = df_raw.select(explode(col("l")).alias("linha"))

    # DataFrame com as informações de "c" até "qv"
    df_bus_lines = df_lines.select(
        col("linha.c").alias("letreiro"),
        col("linha.cl").alias("codigo_trajeto"),
        col("linha.sl").alias("sentido"),
        col("linha.lt0").alias("terminal_primario"),
        col("linha.lt1").alias("terminal_secundario"),
        col("linha.qv").alias("qnt_veiculos")
    )

    # Explodir o array "vs" para acessar as informações de cada veículo dentro da linha de ônibus
    df_vehicles = df_lines.select(
        col("linha.cl").alias("codigo_trajeto"),
        explode(col("linha.vs")).alias("vehicle")
    )

    # DataFrame com as informações de "p" até "px"
    df_vehicles_position = df_vehicles.select(
        col("codigo_trajeto"),
        col("vehicle.p").alias("prefixo_veiculo"),
        col("vehicle.py").alias("latitude"),
        col("vehicle.px").alias("longitude")
    )
    
    # Define as variáveis de caminho para salvar os DataFrames
    routes_trusted_path = f"s3a://trusted/routes/{today}/routes_{raw_file_date}.json"
    positions_trusted_path = f"s3a://trusted/positions/{today}/positions_{raw_file_date}.json"
    
    # Salva os DataFrames no caminho definido
    df_bus_lines.write.mode("overwrite").json(routes_trusted_path)
    df_vehicles_position.write.mode("overwrite").json(positions_trusted_path)

In [None]:
print(routes_trusted_path + today, positions_trusted_path + today)

s3a://trusted/routes/2024-10-13 s3a://trusted/positions/2024-10-13


# Coleta de dados da camada crua

In [None]:
# Exibir o DataFrame de "c" até "qv"
df_bus_lines.show(truncate=False)

# Exibir o DataFrame de "p" até "px"
df_vehicles_position.show(truncate=False)

In [115]:
df_bus_lines.count()

1848

In [116]:
df_vehicles_position.count()

6241