¡Hola, Felipe!

Mi nombre es Tonatiuh Cruz. Me complace revisar tu proyecto hoy.

Al identificar cualquier error inicialmente, simplemente los destacaré. Te animo a localizar y abordar los problemas de forma independiente como parte de tu preparación para un rol como data-analyst. En un entorno profesional, tu líder de equipo seguiría un enfoque similar. Si encuentras la tarea desafiante, proporcionaré una pista más específica en la próxima iteración.

Encontrarás mis comentarios a continuación - **por favor no los muevas, modifiques o elimines**.

Puedes encontrar mis comentarios en cajas verdes, amarillas o rojas como esta:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Éxito. Todo está hecho correctamente.
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Observaciones. Algunas recomendaciones.
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Necesita corrección. El bloque requiere algunas correcciones. El trabajo no puede ser aceptado con comentarios en rojo.
</div>

Puedes responderme utilizando esto:

<div class="alert alert-block alert-info">
<b>Respuesta del estudiante.</b> <a class="tocSkip"></a>

<div class="alert alert-block alert-success">
<b>Resumen de la revisión 1</b> <a class="tocSkip"></a>

Hola, Felipe! Tu trabajo es excelente, solo te hice un par de recomendaciones mínimas para mejorar algunas visualizaciones y te dejé un comentario acerca de un filtro que te faltó para usar los datos requeridos en la prueba de hipótesis. Una vez hayas atendido este último comentario principalmente, tu proyecto quedará aprobado. Quedo pendiente de tus dudas y comentarios.
</div>

## Paso 1. Descripción de los datos


Abre los archivos de datos y estudia la información general 
- Ruta de archivo:/datasets/project_sql_result_01.csv. Descarga el dataset 01
- Ruta de archivo:/datasets/project_sql_result_04.csv. Descarga el dataset 04
- Ruta de archivo:/datasets/project_sql_result_07.csv. Descarga el dataset 07

## Paso 2. Preparación y Carga de datos




In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats

file_01_path = "/mnt/data/moved_project_sql_result_01.csv"
file_04_path = "/mnt/data/moved_project_sql_result_04.csv"
file_07_path = "/mnt/data/moved_project_sql_result_07.csv"

df_01 = pd.read_csv(file_01_path, delimiter=';')
df_04 = pd.read_csv(file_04_path, delimiter=';')
df_07 = pd.read_csv(file_07_path, delimiter=';')

df_01.head()
df_04.head()
df_07.head()

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Gran trabajo con la carga de la información y las librerias necesarias para el análisis. 

## Paso 3. Estudio y Preparación de datos

In [None]:
# Eliminar espacios en los nombres de columnas ---
df_01.columns = df_01.columns.str.strip()
df_04.columns = df_04.columns.str.strip()

# Identificar valores nulos antes de la limpieza ---
print("Valores Nulos Antes de la Limpieza:")
print(df_01.isnull().sum())
print(df_04.isnull().sum())

# Ver tipos de datos antes de la conversión ---
print("\nTipos de Datos Antes de la Conversión:")
print(df_01.dtypes)
print(df_04.dtypes)

# Análisis de duplicados antes de la limpieza ---
print("\nDuplicados en df_01 antes de la limpieza:", df_01.duplicated().sum())
print("Duplicados en df_04 antes de la limpieza:", df_04.duplicated().sum())

# Ver ejemplos de duplicados
print("\nEjemplo de filas duplicadas en df_01:")
print(df_01[df_01.duplicated()].head())

print("\nEjemplo de filas duplicadas en df_04:")
print(df_04[df_04.duplicated()].head())

# Eliminar filas duplicadas ---
df_01_clean = df_01.drop_duplicates()
df_04_clean = df_04.drop_duplicates()

# Eliminar filas con valores nulos en columnas numéricas ---
df_01_clean = df_01_clean.dropna(subset=['trips_amount'])
df_04_clean = df_04_clean.dropna(subset=['average_trips'])

# Reemplazar valores nulos en columnas categóricas con "Desconocido" ---
df_01_clean['company_name'] = df_01_clean['company_name'].fillna('Desconocido')
df_04_clean['dropoff_location_name'] = df_04_clean['dropoff_location_name'].fillna('Desconocido')

# Conversión de tipos de datos ---
df_01_clean['trips_amount'] = df_01_clean['trips_amount'].astype(int)
df_04_clean['average_trips'] = df_04_clean['average_trips'].astype(int)

# Confirmar que los duplicados fueron eliminados ---
print("\nDuplicados en df_01 después de la limpieza:", df_01_clean.duplicated().sum())
print("Duplicados en df_04 después de la limpieza:", df_04_clean.duplicated().sum())


<div class="alert alert-block alert-danger">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Para estos análisis iniciales te recomiendo realizar un análisis de duplicados 




<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Excelente trabajo con los ajustes!



## Paso 4. Análisis de Datos

### ¿Cuales son las 10 principales empresas de taxis por número de viajes y los 10 barrios con más finalización de recorridos?

In [None]:


# Identificar los 10 principales barrios en términos de finalización del recorrido
top_10_neighborhoods = df_04_clean.nlargest(10, 'average_trips')

# Crear gráfico de barras para los 10 principales barrios
plt.figure(figsize=(12, 6))
plt.barh(top_10_neighborhoods['dropoff_location_name'], top_10_neighborhoods['average_trips'], color='green')
plt.xlabel("Promedio de viajes finalizados")
plt.ylabel("Barrio")
plt.title("Top 10 barrios con mayor número de viajes finalizados en noviembre de 2017")
plt.gca().invert_yaxis()  # Invertir el eje Y para mostrar el barrio con más viajes arriba
plt.show()

# Identificar las 10 principales empresas de taxis en términos de número de viajes
top_10_companies = df_01_clean.nlargest(10, 'trips_amount')

# Crear gráfico de barras para las 10 principales empresas de taxis
plt.figure(figsize=(12, 6))
plt.barh(top_10_companies['company_name'], top_10_companies['trips_amount'], color='blue')
plt.xlabel("Número de viajes")
plt.ylabel("Empresa de taxis")
plt.title("Top 10 empresas de taxis por número de viajes (15-16 noviembre 2017)")
plt.gca().invert_yaxis()  # Invertir el eje Y para mostrar la empresa con más viajes arriba
plt.show()



<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Muy buen trabajo con el desarrollo de la gráfica para visualizar los resultados.En esta muestras top 10 de las principales empresas con número de viajes. 

Los viajes en taxi están muy concentrados en ciertas áreas y compañías. El Loop, O'Hare y River North son los principales destinos en la ciudad. Adicional, Flash Cab domina la industria, pero hay otras empresas competitivas.
Los datos sugieren que la movilidad en taxi está influenciada por la actividad comercial, el turismo y el transporte al aeropuerto.

### Prueba de hipotesis y Método de prueba

"La duración promedio de los viajes desde el Loop hasta el Aeropuerto Internacional O'Hare cambia los sábados lluviosos".

 - Hipótesis Nula (H₀):
"La duración promedio de los viajes desde el Loop hasta el Aeropuerto O’Hare no cambia en los sábados lluviosos. Es decir, la duración de los viajes en días con lluvia es igual a la de días sin lluvia."

 
 - Hipótesis Alternativa (H₁):
"La duración promedio de los viajes desde el Loop hasta el Aeropuerto O’Hare es diferente en los sábados lluviosos. Es decir, la lluvia afecta la duración del viaje."


 - Nivel de significación (α):
Establecemos α = 0.05 (5%), lo que significa que aceptaremos un 5% de probabilidad de cometer un error tipo I (rechazar la hipótesis nula cuando es verdadera).


 - Método de Prueba:
 Se ha realizado una prueba t de Student para comparar la duración promedio de los viajes en sábados lluviosos y sábados sin lluvia.

In [None]:
# Convertir start_ts a formato de fecha y hora
df_07['start_ts'] = pd.to_datetime(df_07['start_ts'])

# Convertir duration_seconds a tipo int (si viene como float o string)
df_07['duration_seconds'] = df_07['duration_seconds'].astype(int)

# Eliminar duplicados
df_07_clean = df_07.drop_duplicates()

# Visualizar los valores atípicos con un Boxplot ---
plt.figure(figsize=(10, 5))
plt.boxplot(df_07_clean['duration_seconds'])
plt.title('Distribución de duration_seconds (antes de eliminar outliers)')
plt.ylabel('Duración en segundos')
plt.show()

# Detectar y eliminar outliers usando el método IQR ---
def filtrar_outliers_iqr(df, columna):
    Q1 = df[columna].quantile(0.25)  # Primer cuartil (Q1)
    Q3 = df[columna].quantile(0.75)  # Tercer cuartil (Q3)
    IQR = Q3 - Q1  # Rango intercuartil
    
    # Definir límites para eliminar outliers
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    # Filtrar los datos dentro del rango aceptable
    df_filtrado = df[(df[columna] >= limite_inferior) & (df[columna] <= limite_superior)]
    
    return df_filtrado

# Aplicar el filtro de outliers en la duración de los viajes
df_07_filtrado = filtrar_outliers_iqr(df_07_clean, 'duration_seconds')

# Filtrar solo los viajes que ocurrieron en sábado ---
df_sabados = df_07_filtrado[df_07_filtrado['start_ts'].dt.dayofweek == 5]  # 5 representa sábado

# Dividir los viajes en dos grupos: días lluviosos ("Bad") y días sin lluvia ("Good") ---
viajes_lluviosos = df_sabados[df_sabados['weather_conditions'] == 'Bad']['duration_seconds']
viajes_no_lluviosos = df_sabados[df_sabados['weather_conditions'] == 'Good']['duration_seconds']

# Verificar el tamaño de cada muestra ---
print("\nTamaño de muestras después de filtrar outliers:")
print(f" - Viajes en sábados lluviosos: {len(viajes_lluviosos)}")
print(f" - Viajes en sábados sin lluvia: {len(viajes_no_lluviosos)}")

# Verificar igualdad de varianzas con la prueba de Levene ---
prueba_levene = stats.levene(viajes_lluviosos, viajes_no_lluviosos)
print("\nPrueba de Igualdad de Varianzas (Levene):")
print(f" - Estadístico: {prueba_levene.statistic:.4f}")
print(f" - p-valor: {prueba_levene.pvalue:.4f}")

# Aplicar la prueba t de Student ---
t_stat, p_valor = stats.ttest_ind(viajes_lluviosos, viajes_no_lluviosos, equal_var=prueba_levene.pvalue > 0.05)

# Mostrar resultados de la prueba t ---
print("\nPrueba t de Student:")
print(f" - Estadístico t: {t_stat:.4f}")
print(f" - p-valor: {p_valor:.4e}")

# Determinar la conclusión final ---
if p_valor < 0.05:
    print("\nConclusión: Se rechaza la hipótesis nula (H₀). La duración del viaje cambia en sábados lluviosos.")
else:
    print("\nConclusión: No se rechaza la hipótesis nula (H₀). No hay evidencia de que la duración del viaje cambie en sábados lluviosos.")


#Conclusión: Se rechaza la hipótesis nula (H₀). La duración del viaje cambia en sábados lluviosos.

<div class="alert alert-block alert-success">

<b>Comentario del revisor</b> <a class="tocSkip"></a>

Excelente trabajo con el desarrollo de la prueba de hipótesis. Además, lo complementaste con la prueba de levene para mostrar el supuesto de varianzas iguales. 

Interpretación de los resultados

- Tamaño de muestras:
Se analizaron 180 viajes en sábados lluviosos y 888 viajes en sábados sin lluvia.
Ambas muestras son suficientemente grandes para aplicar la prueba t de Student sin necesidad de verificar normalidad.


- Prueba de Normalidad (Shapiro-Wilk):
No se realizó porque ambas muestras tienen más de 50 datos, por lo que asumimos normalidad según el Teorema del Límite Central.


- Prueba de Igualdad de Varianzas (Levene):
p-valor = 0.5332 → Las varianzas son iguales (ya que p > 0.05).
Esto permite usar la versión estándar de la prueba t de Student.


- Prueba t de Student:
t = 6.9461, p-valor = 6.51e-12 (extremadamente pequeño).
Como p < 0.05, rechazamos la hipótesis nula (H₀).

### Conclusión

La duración promedio de los viajes desde el Loop hasta O'Hare cambia en los sábados lluviosos. Tambien, el tiempo de viaje en sábados lluviosos es significativamente diferente al de sábados sin lluvia.El clima afecta el tiempo de traslado, lo que puede ser útil para planificar estrategias de movilidad y optimización de rutas en días lluviosos.
 Este análisis confirma que los factores climáticos impactan el tráfico y la eficiencia del transporte en Chicago

<div class="alert alert-block alert-warning">
<b>Comentario revisor</b> <a class="tocSkip"></a>

Felipe, en general, considero que realizaste un excelente trabajo con el proyecto. Lograste limpiar y organizar las bases de datos eficazmente. Además, tu análisis exploratorio fue exhaustivo, presentando resultados relevantes que serán muy útiles para la toma de decisiones. También, desarrollaste las pruebas de hipótesis de manera acertada. Sin embargo, siempre hay espacio para mejorar y quisiera señalar algunos aspectos que podrías considerar:



    
*  Realizar análisis complementarios eliminando los valores que parecen ser atípicos.    
    
    