# Análise de Dados - Yellow Taxi NYC

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Configuração visual
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (12, 6)

## Carregamento dos Dados

In [None]:
# Definir caminho relativo para os dados processados
base_dir = os.path.dirname(os.path.dirname(os.path.abspath("__file__")))
processed_data_path = os.path.join(base_dir, "data", "processed", "yellow_taxi_processed.parquet")

# Carregar os dados processados
df = pd.read_parquet(processed_data_path)

# Exibir as primeiras linhas
df.head()

## Pergunta 1: Média de valor total recebido em um mês considerando todos os yellow táxis da frota

In [None]:
# Calcular a média de valor total por mês
monthly_avg_total = df.groupby("month")["total_amount"].mean().reset_index()

# Exibir os resultados
print("Média de valor total por mês:")
print(monthly_avg_total)

# Visualizar os resultados
plt.figure(figsize=(10, 6))
sns.barplot(x="month", y="total_amount", data=monthly_avg_total)
plt.title("Média de Valor Total por Mês")
plt.xlabel("Mês")
plt.ylabel("Valor Total Médio (USD)")
plt.xticks(range(0, 5), ["Janeiro", "Fevereiro", "Março", "Abril", "Maio"])
plt.tight_layout()
plt.show()

## Pergunta 2: Média de passageiros por hora do dia que pegaram táxi no mês de maio considerando todos os táxis da frota

In [None]:
# Filtrar apenas os dados de maio
df_may = df[df["month"] == 5]

# Calcular a média de passageiros por hora do dia em maio
hourly_avg_passengers = df_may.groupby("hour")["passenger_count"].mean().reset_index()

# Exibir os resultados
print("Média de passageiros por hora do dia em maio:")
print(hourly_avg_passengers)

# Visualizar os resultados
plt.figure(figsize=(12, 6))
sns.lineplot(x="hour", y="passenger_count", data=hourly_avg_passengers, marker="o")
plt.title("Média de Passageiros por Hora do Dia em Maio")
plt.xlabel("Hora do Dia")
plt.ylabel("Média de Passageiros")
plt.xticks(range(0, 24))
plt.grid(True)
plt.tight_layout()
plt.show()