# Análisis Exploratorio de Datos y Prueba de Hipótesis


Este proyecto contiene un análisis exploratorio de datos y una prueba de hipótesis utilizando tres datasets de viajes en taxi en Chicago:

1. **project_sql_result_01.csv**: Datos de viajes por compañía de taxis.
2. **project_sql_result_04.csv**: Datos de viajes finalizados por barrio.
3. **project_sql_result_07.csv**: Datos de viajes desde el Loop hasta el Aeropuerto Internacional O'Hare.


In [None]:

import pandas as pd
import matplotlib.pyplot as plt

# Cargar los datasets
file_path_01 = "project_sql_result_01.csv"
file_path_04 = "project_sql_result_04.csv"
file_path_07 = "project_sql_result_07.csv"

# Leer los archivos CSV
df_01 = pd.read_csv(file_path_01)
df_04 = pd.read_csv(file_path_04)
df_07 = pd.read_csv(file_path_07)

# Visualizar las primeras filas de cada dataset
df_01.head(), df_04.head(), df_07.head()


In [None]:

# Revisar los tipos de datos
print("Tipos de datos de df_01:")
print(df_01.info())

print("Tipos de datos de df_04:")
print(df_04.info())

print("Tipos de datos de df_07:")
print(df_07.info())

# Convertir 'start_ts' a datetime
df_07['start_ts'] = pd.to_datetime(df_07['start_ts'])


In [None]:

# Identificar los 10 principales barrios en términos de finalización de viajes
top_10_neighborhoods = df_04.sort_values(by='average_trips', ascending=False).head(10)

# Gráfico: Los 10 barrios principales por promedio de finalizaciones de viaje
plt.figure(figsize=(12, 6))
plt.bar(top_10_neighborhoods['dropoff_location_name'], top_10_neighborhoods['average_trips'], color='skyblue')
plt.xticks(rotation=45, ha='right')
plt.xlabel('Barrios de Chicago')
plt.ylabel('Promedio de viajes terminados')
plt.title('Top 10 barrios de Chicago por promedio de finalización de viajes en noviembre de 2017')
plt.show()


In [None]:

# Identificar las 10 principales empresas de taxis por número de viajes
top_10_companies = df_01.sort_values(by='trips_amount', ascending=False).head(10)

# Gráfico: Empresas de taxis y número de viajes
plt.figure(figsize=(12, 6))
plt.bar(top_10_companies['company_name'], top_10_companies['trips_amount'], color='lightgreen')
plt.xticks(rotation=45, ha='right')
plt.xlabel('Empresas de Taxis')
plt.ylabel('Número de Viajes')
plt.title('Top 10 empresas de taxis por número de viajes (15-16 de noviembre de 2017)')
plt.show()


In [None]:

# Crear una nueva columna con el día de la semana
df_07['weekday'] = df_07['start_ts'].dt.day_name()

# Filtrar los viajes que solo ocurrieron en sábados
saturday_trips = df_07[df_07['weekday'] == 'Saturday']

# Separar los viajes en sábados lluviosos y no lluviosos
rainy_saturdays = saturday_trips[saturday_trips['weather_conditions'] == 'Rain']
non_rainy_saturdays = saturday_trips[saturday_trips['weather_conditions'] != 'Rain']

# Calcular la duración promedio de los viajes en sábados lluviosos y no lluviosos
rainy_duration_mean = rainy_saturdays['duration_seconds'].mean()
non_rainy_duration_mean = non_rainy_saturdays['duration_seconds'].mean()

rainy_duration_mean, non_rainy_duration_mean



### Conclusiones

1. **Análisis Exploratorio**: 
   - Se identificaron los 10 principales barrios en términos de promedio de viajes finalizados. El barrio Loop fue el de mayor actividad.
   - Flash Cab es la empresa de taxis con más viajes registrados en el período analizado.

2. **Prueba de Hipótesis**:
   - No se pudo probar la hipótesis de si la duración promedio de los viajes desde el Loop hasta el Aeropuerto O'Hare cambia en sábados lluviosos debido a la falta de datos de viajes en estas condiciones.
