Notebook com o código e resposta para a seguinte pergunta:

**Qual a média de passageiros (passenger_count) por cada hora do dia que pegaram táxi no mês de maio considerando todos os táxis da
frota?**

In [0]:
import pyspark.sql.functions as F

In [0]:
gold_table_name = "ifood_case.gold.tb_taxi_trip_data"

In [0]:
df = spark.read.table(gold_table_name)

In [0]:
result_df = (
    df
        .filter(F.date_format(F.col("ts_pickup"), "yyyy-MM") == "2023-05")
        .withColumn("hora", F.hour(F.col("ts_pickup")))
        .groupBy("hora")
        .agg(F.avg("nb_passenger_count").alias("media_passageiros"))
        .orderBy("hora")
)

In [0]:
print("Abaixo segue a tabela com a média de passageiros agrupada por hora do mês 2023-05:")
result_df.display()

In [0]:
# OPCIONAL: mostrar os dados como um gráfico de barras via código

import matplotlib.pyplot as plt
import pandas as pd

pdf = result_df.toPandas()

fig, ax1 = plt.subplots(figsize=(10, 5))

ax1.bar(pdf["hora"], pdf["hora"], color="lightblue", alpha=0.6, label="Quantidade de Viagens")
ax1.set_xlabel("Hora do dia")
ax1.set_ylabel("Quantidade de Viagens", color="blue")
ax1.tick_params(axis="y", labelcolor="blue")

ax2 = ax1.twinx()
ax2.plot(pdf["hora"], pdf["media_passageiros"], color="red", marker="o", linestyle="-", label="Média Passageiros")
ax2.set_ylabel("Média de Passageiros", color="red")
ax2.tick_params(axis="y", labelcolor="red")

ax1.legend(loc="upper left")
ax2.legend(loc="upper right")

plt.title("Viagens de Taxi: Quantidade e Media de Passageiros por Hora (Maio de 2023)")
plt.xticks(range(0, 24))
plt.grid(axis="y", linestyle="--", alpha=0.5)
plt.show()
