In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

def new_func():
    df = pd.read_csv("ncr_ride_bookings.csv")
    return df

df = new_func()

df["Date"] = pd.to_datetime(df["Date"])
df["Hour"] = pd.to_datetime(df["Time"]).dt.hour

# Filter for completed rides for demand analysis
df_completed = df[df["Booking Status"] == "Completed"].copy()

# Daily demand
daily_demand = df_completed.groupby("Date").size().reset_index(name="Ride Count")

# Hourly demand
hourly_demand = df_completed.groupby("Hour").size().reset_index(name="Ride Count")

plt.figure(figsize=(12, 6))
sns.lineplot(x="Date", y="Ride Count", data=daily_demand)
plt.title("Daily Ride Demand (Completed Rides)")
plt.xlabel("Date")
plt.ylabel("Number of Rides")
plt.grid(True)
plt.tight_layout()
plt.savefig("daily_ride_demand.png")
plt.close()

plt.figure(figsize=(10, 5))
sns.barplot(x="Hour", y="Ride Count", data=hourly_demand, palette="viridis")
plt.title("Hourly Ride Demand (Completed Rides)")
plt.xlabel("Hour of Day")
plt.ylabel("Number of Rides")
plt.grid(axis="y")
plt.tight_layout()
plt.savefig("hourly_ride_demand.png")
plt.close()

# Estimativa de valores para a empresa fictícia (RideFlow)

df_completed.loc[:, "Booking Value"] = pd.to_numeric(df_completed["Booking Value"], errors="coerce")

df_completed_clean = df_completed.dropna(subset=["Booking Value"])

if not df_completed_clean.empty:
    total_completed_rides = len(df_completed_clean)
    average_booking_value = df_completed_clean["Booking Value"].mean()
    estimated_daily_revenue = daily_demand["Ride Count"].mean() * average_booking_value
    estimated_total_revenue = total_completed_rides * average_booking_value

    print(f"\nEstimativa de Valores para RideFlow (Análise de Demanda Temporal):")
    print(f"Número total de corridas concluídas no dataset: {total_completed_rides}")
    print(f"Valor médio por corrida concluída: R${average_booking_value:.2f}")
    print(f"Receita diária estimada (baseada na média de corridas diárias): R${estimated_daily_revenue:.2f}")
    print(f"Receita total estimada (para o período do dataset): R${estimated_total_revenue:.2f}")
else:
    print("\nNão há dados de Booking Value válidos para corridas concluídas para estimar valores.")

  df["Hour"] = pd.to_datetime(df["Time"]).dt.hour

Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `x` variable to `hue` and set `legend=False` for the same effect.

  sns.barplot(x="Hour", y="Ride Count", data=hourly_demand, palette="viridis")



Estimativa de Valores para RideFlow (Análise de Demanda Temporal):
Número total de corridas concluídas no dataset: 93000
Valor médio por corrida concluída: R$508.18
Receita diária estimada (baseada na média de corridas diárias): R$129481.02
Receita total estimada (para o período do dataset): R$47260574.00


In [10]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("ncr_ride_bookings.csv")

# Filter for completed rides
df_completed = df[df["Booking Status"] == "Completed"].copy()

# Clean and convert 'Booking Value' and 'Ride Distance' to numeric
df_completed.loc[:, "Booking Value"] = pd.to_numeric(df_completed["Booking Value"], errors="coerce")
df_completed.loc[:, "Ride Distance"] = pd.to_numeric(df_completed["Ride Distance"], errors="coerce")

df_completed_clean = df_completed.dropna(subset=["Booking Value", "Ride Distance"])

# Top 10 Pickup Locations by completed rides
top_pickup_locations = df_completed_clean["Pickup Location"].value_counts().nlargest(10)

plt.figure(figsize=(12, 7))
sns.barplot(x=top_pickup_locations.values, y=top_pickup_locations.index, palette="magma")
plt.title("Top 10 Pickup Locations by Completed Rides")
plt.xlabel("Number of Completed Rides")
plt.ylabel("Pickup Location")
plt.tight_layout()
plt.savefig("top_pickup_locations.png")
plt.close()

# Average Booking Value per Ride Distance (scatter plot)
plt.figure(figsize=(10, 6))
sns.scatterplot(x="Ride Distance", y="Booking Value", data=df_completed_clean, alpha=0.6)
plt.title("Booking Value vs. Ride Distance for Completed Rides")
plt.xlabel("Ride Distance (km)")
plt.ylabel("Booking Value (R$)")
plt.grid(True)
plt.tight_layout()
plt.savefig("booking_value_vs_ride_distance.png")
plt.close()

# Estimativa de valores para a empresa fictícia (RideFlow)
# Análise de preço por km para otimização de tarifas

df_completed_clean.loc[:, "Price_Per_Km"] = df_completed_clean["Booking Value"] / df_completed_clean["Ride Distance"]

# Remove infinite values that might result from Ride Distance = 0
df_completed_clean = df_completed_clean.replace([float("inf"), -float("inf")], pd.NA).dropna(subset=["Price_Per_Km"])

if not df_completed_clean.empty:
    average_price_per_km = df_completed_clean["Price_Per_Km"].mean()
    median_price_per_km = df_completed_clean["Price_Per_Km"].median()

    print(f"\nEstimativa de Valores para RideFlow (Análise Geográfica e de Preços):")
    print(f"Preço médio por km (corridas concluídas): R${average_price_per_km:.2f}")
    print(f"Preço mediano por km (corridas concluídas): R${median_price_per_km:.2f}")
    print("Esses valores podem ser usados para definir estratégias de precificação dinâmicas e otimizar a rentabilidade por região.")
else:
    print("\nNão há dados válidos para calcular o preço por km.")


Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `y` variable to `hue` and set `legend=False` for the same effect.

  sns.barplot(x=top_pickup_locations.values, y=top_pickup_locations.index, palette="magma")



Estimativa de Valores para RideFlow (Análise Geográfica e de Preços):
Preço médio por km (corridas concluídas): R$33.86
Preço mediano por km (corridas concluídas): R$17.70
Esses valores podem ser usados para definir estratégias de precificação dinâmicas e otimizar a rentabilidade por região.


  df_completed_clean = df_completed_clean.replace([float("inf"), -float("inf")], pd.NA).dropna(subset=["Price_Per_Km"])


In [11]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv("ncr_ride_bookings.csv")

# 1. Distribution of Booking Status
booking_status_counts = df["Booking Status"].value_counts()

plt.figure(figsize=(10, 6))
sns.barplot(x=booking_status_counts.index, y=booking_status_counts.values, palette="coolwarm")
plt.title("Distribution of Booking Status")
plt.xlabel("Booking Status")
plt.ylabel("Number of Rides")
plt.xticks(rotation=45, ha="right")
plt.tight_layout()
plt.savefig("booking_status_distribution.png")
plt.close()

# 2. Payment Method Distribution for Completed Rides
df_completed = df[df["Booking Status"] == "Completed"].copy()
payment_method_counts = df_completed["Payment Method"].value_counts()

plt.figure(figsize=(8, 8))
plt.pie(payment_method_counts, labels=payment_method_counts.index, autopct="%1.1f%%", startangle=90, colors=sns.color_palette("pastel"))
plt.title("Payment Method Distribution for Completed Rides")
plt.axis("equal")
plt.tight_layout()
plt.savefig("payment_method_distribution.png")
plt.close()

# 3. Customer and Driver Ratings Distribution
# Clean and convert ratings to numeric
df_completed.loc[:, "Customer Rating"] = pd.to_numeric(df_completed["Customer Rating"], errors="coerce")
df_completed.loc[:, "Driver Ratings"] = pd.to_numeric(df_completed["Driver Ratings"], errors="coerce")

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.histplot(df_completed["Customer Rating"].dropna(), bins=10, kde=True, color="skyblue")
plt.title("Distribution of Customer Ratings")
plt.xlabel("Customer Rating")
plt.ylabel("Frequency")

plt.subplot(1, 2, 2)
sns.histplot(df_completed["Driver Ratings"].dropna(), bins=10, kde=True, color="lightcoral")
plt.title("Distribution of Driver Ratings")
plt.xlabel("Driver Rating")
plt.ylabel("Frequency")

plt.tight_layout()
plt.savefig("ratings_distribution.png")
plt.close()

# Estimativa de valores para a empresa fictícia (RideFlow)
# Foco em otimização de cancelamentos e melhoria de ratings

cancelled_by_customer_count = df["Booking Status"].value_counts().get("Cancelled by Customer", 0)
cancelled_by_driver_count = df["Booking Status"].value_counts().get("Cancelled by Driver", 0)
no_driver_found_count = df["Booking Status"].value_counts().get("No Driver Found", 0)
incomplete_rides_count = df["Booking Status"].value_counts().get("Incomplete", 0)

total_rides = len(df)

# Assumindo um custo médio por cancelamento/incompletude (perda de receita potencial, custo operacional)
# Este valor é uma estimativa e pode ser ajustado com dados reais da empresa
cost_per_unsuccessful_ride = 50 # R$50 por corrida não concluída/cancelada

estimated_loss_from_unsuccessful_rides = (cancelled_by_customer_count + cancelled_by_driver_count + no_driver_found_count + incomplete_rides_count) * cost_per_unsuccessful_ride

print(f"\nEstimativa de Valores para RideFlow (Análise de Comportamento do Usuário):")
print(f"Número de corridas canceladas pelo cliente: {cancelled_by_customer_count}")
print(f"Número de corridas canceladas pelo motorista: {cancelled_by_driver_count}")
print(f"Número de corridas sem motorista encontrado: {no_driver_found_count}")
print(f"Número de corridas incompletas: {incomplete_rides_count}")
print(f"Perda estimada de receita/custo operacional devido a corridas não concluídas/canceladas: R${estimated_loss_from_unsuccessful_rides:.2f}")
print("Melhorar a taxa de conclusão de corridas e a satisfação do usuário/motorista pode reduzir significativamente essas perdas.")


Passing `palette` without assigning `hue` is deprecated and will be removed in v0.14.0. Assign the `x` variable to `hue` and set `legend=False` for the same effect.

  sns.barplot(x=booking_status_counts.index, y=booking_status_counts.values, palette="coolwarm")



Estimativa de Valores para RideFlow (Análise de Comportamento do Usuário):
Número de corridas canceladas pelo cliente: 10500
Número de corridas canceladas pelo motorista: 27000
Número de corridas sem motorista encontrado: 10500
Número de corridas incompletas: 9000
Perda estimada de receita/custo operacional devido a corridas não concluídas/canceladas: R$2850000.00
Melhorar a taxa de conclusão de corridas e a satisfação do usuário/motorista pode reduzir significativamente essas perdas.
