In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

# Cargar archivos CSV
df_companies = pd.read_csv("/datasets/project_sql_result_01.csv")
df_dropoffs = pd.read_csv("/datasets/project_sql_result_04.csv")
df_trips_weather = pd.read_csv("/datasets/project_sql_result_07.csv")


In [None]:
# Visualizar estructura y primeras filas
print("Empresas de taxi:")
print(df_companies.head())

print("\nBarrios con viajes finalizados:")
print(df_dropoffs.head())

print("\nViajes del Loop a O'Hare con clima:")
print(df_trips_weather.head())

In [None]:
print("\nTipos de datos en df_companies:")
print(df_companies.dtypes)
print("\nNulos en df_companies:")
print(df_companies.isnull().sum())

print("\nTipos de datos en df_dropoffs:")
print(df_dropoffs.dtypes)
print("\nNulos en df_dropoffs:")
print(df_dropoffs.isnull().sum())

print("\nTipos de datos en df_trips_weather:")
print(df_trips_weather.dtypes)
print("\nNulos en df_trips_weather:")
print(df_trips_weather.isnull().sum())


In [None]:
# Gráfico: Top 10 empresas por número de viajes
df_companies_sorted = df_companies.sort_values(by="trips_amount", ascending=False)

plt.figure(figsize=(12,6))
plt.bar(df_companies_sorted["company_name"][:10], df_companies_sorted["trips_amount"][:10])
plt.xticks(rotation=75)
plt.title("Top 10 Empresas de Taxi por Número de Viajes (15–16 Nov 2017)")
plt.ylabel("Número de Viajes")
plt.xlabel("Empresa de Taxi")
plt.grid(axis='y')
plt.tight_layout()
plt.show()


In [None]:
# Gráfico: Top 10 barrios por finalización de viajes
df_top10_dropoffs = df_dropoffs.sort_values(by="average_trips", ascending=False).head(10)

plt.figure(figsize=(12,6))
plt.bar(df_top10_dropoffs["dropoff_location_name"], df_top10_dropoffs["average_trips"])
plt.xticks(rotation=75)
plt.title("Top 10 Barrios por Promedio de Finalizaciones (Nov 2017)")
plt.ylabel("Viajes Promedio")
plt.xlabel("Barrio")
plt.grid(axis='y')
plt.tight_layout()
plt.show()

# **Conclusiones – Paso 4**
Flash Cab y Taxi Affiliation Services lideran el mercado por número de viajes.
Barrios como Loop, River North, y Streeterville concentran la mayor cantidad de viajes finalizados.
Se recomienda a Zuber iniciar operaciones en estos barrios estratégicos para captar mayor demanda.

# **Paso 5 – Prueba de hipótesis**
**Hipótesis nula (H₀):** La duración promedio de los viajes es igual los sábados lluviosos y no lluviosos.
**Hipótesis alternativa (H₁):** La duración promedio de los viajes cambia en sábados lluviosos.
Usaremos una prueba t de Student para muestras independientes (Welch’s t-test) y estableceremos alfa = 0.05.

In [None]:
# Dividir datos en grupos según el clima
good_weather = df_trips_weather[df_trips_weather["weather_conditions"] == "Good"]["duration_seconds"]
bad_weather = df_trips_weather[df_trips_weather["weather_conditions"] == "Bad"]["duration_seconds"]

# Nivel de significancia
alpha = 0.05

# Prueba t
t_stat, p_value = stats.ttest_ind(good_weather, bad_weather, equal_var=False)

# Mostrar resultados
print(f"Media duración (clima bueno): {good_weather.mean():.2f} segundos")
print(f"Media duración (clima malo): {bad_weather.mean():.2f} segundos")
print(f"T-estadístico: {t_stat:.3f}")
print(f"P-valor: {p_value:.4f}")

if p_value < alpha:
    print("\nRechazamos la hipótesis nula: existe una diferencia significativa en la duración promedio de los viajes los sábados lluviosos.")
else:
    print("\nNo se puede rechazar la hipótesis nula: no hay evidencia de que la duración cambie los sábados lluviosos.")

# **Conclusión de la prueba de hipótesis**
Según los resultados obtenidos:

Si el p-valor < 0.05, se considera que el clima lluvioso sí afecta la duración promedio de los viajes.
Si el p-valor ≥ 0.05, no se puede afirmar que el clima tenga un impacto significativo.
Este análisis ayuda a Zuber a anticipar retrasos o ajustar precios según condiciones climáticas.