# **Waze Project**
**Course 4 - The Power of Statistics**

Tu equipo se está acercando a la mitad de su proyecto de pérdida de usuarios. Hasta ahora, has completado una propuesta de proyecto y has usado Python para explorar y analizar los datos de los usuarios de Waze. También has usado Python para crear visualizaciones de datos. El siguiente paso es usar métodos estadísticos para analizar e interpretar tus datos.

Recibes un nuevo correo electrónico de Sylvester Esperanza, tu gerente de proyecto. Sylvester le cuenta a tu equipo sobre una nueva solicitud de la gerencia: analizar la relación entre la cantidad promedio de viajes y el tipo de dispositivo. También descubres correos electrónicos de seguimiento de otros tres miembros del equipo: May Santner, Chidi Ga y Harriet Hadzic. Estos correos electrónicos analizan los detalles del análisis. Les gustaría un análisis estadístico de los datos de viajes según el tipo de dispositivo. En particular, la gerencia quiere saber si existe una diferencia estadísticamente significativa en la cantidad promedio de viajes entre los usuarios de iPhone® y los usuarios de Android™. Un correo electrónico final de Chidi incluye su tarea específica: realizar una prueba de hipótesis de dos muestras (prueba t) para analizar la diferencia en la cantidad media de viajes entre usuarios de iPhone y usuarios de Android.

Se estructuró y preparó un cuaderno para ayudarlo en este proyecto. Complete las siguientes preguntas y prepare un resumen ejecutivo.

# **Proyecto de fin de curso del Curso 4: Exploración de datos y prueba de hipótesis**

En esta actividad, explorará los datos proporcionados y realizará una prueba de hipótesis.

<br/>

**El propósito** de este proyecto es demostrar el conocimiento de cómo realizar una prueba de hipótesis de dos muestras.

**El objetivo** es aplicar estadísticas descriptivas y pruebas de hipótesis en Python.

<br/>

*Esta actividad tiene tres partes:*

---

## **Parte 1: Importaciones y carga de datos**

* ¿Qué paquetes de datos serán necesarios para la prueba de hipótesis?

---

## **Parte 2: Realizar pruebas de hipótesis**

* ¿Cómo le ayudó el cálculo de estadísticas descriptivas a analizar sus datos?
* ¿Cómo formuló su hipótesis nula y su hipótesis alternativa?

---

## **Parte 3: Comunicar información a las partes interesadas**

* ¿Qué información empresarial clave surgió de su prueba de hipótesis?
* ¿Qué recomendaciones comerciales propone en función de sus resultados?

---

Siga las instrucciones y responda las preguntas a continuación para completar la actividad. Luego, completará un **Resumen ejecutivo** utilizando las preguntas que figuran en el **Documento de estrategia PACE**.

Asegúrese de completar esta actividad antes de continuar. El siguiente elemento del curso le proporcionará un ejemplo completo para comparar con su propio trabajo.

---

Si quieres, también te puedo preparar una plantilla en Markdown para que completes tus respuestas directamente. ¿Te la preparo?


# **Data exploration and hypothesis testing**

<img src="images/Pace.png" width="100" height="100" align=left>

# **PACE stages**


A lo largo de estos cuadernos de proyecto, verás referencias al marco de resolución de problemas PACE. Los siguientes componentes del cuaderno están etiquetados con la etapa PACE respectiva: Planificar, Analizar, Construir y Ejecutar.

<img src="images/Plan.png" width="100" height="100" align=left>


## **PACE: Plan**

"Considera las preguntas en tu Documento de Estrategia PACE y las que se encuentran a continuación para elaborar tu respuesta:

1. ¿Cuál es tu pregunta de investigación para este proyecto de datos? Más adelante, necesitarás formular las hipótesis nula y alternativa como primer paso de tu prueba de hipótesis. Considera tu pregunta de investigación ahora, al comienzo de esta tarea."


¿Existen diferencias significativas en el tiempo promedio de llegada de los conductores que usan rutas alternativas frente a los que usan rutas sugeridas por Waze en diferentes horas del día?

Esta pregunta busca entender si el uso de rutas alternativas realmente aporta una ventaja (o desventaja) en tiempos de llegada en comparación con las rutas estándar proporcionadas por la aplicación.

¿El tipo de dispositivo utilizado por los usuarios de Waze influye en la cantidad media de viajes realizados?

### **Task 1. Imports and data loading**




Import packages and libraries needed to compute descriptive statistics and conduct a hypothesis test.

<details>
  <summary><h4><strong>Hint:</strong></h4></summary>

Before you begin, recall the following Python packages and functions:

*Main functions*: stats.ttest_ind(a, b, equal_var)

*Other functions*: mean()

*Packages*: pandas, stats.scipy

</details>

In [None]:
# Import any relevant packages or libraries
import pandas as pd
from scipy import stats

Importa el conjunto de datos.

Nota: Como se muestra en esta celda, el conjunto de datos se ha cargado automáticamente. No necesitas descargar el archivo .csv ni proporcionar más código para acceder al conjunto de datos y continuar con este laboratorio. Continúa con esta actividad completando las siguientes instrucciones.

In [None]:
# Load dataset into dataframe
df = pd.read_csv('waze_dataset.csv')

<img src="images/Analyze.png" width="100" height="100" align=left>

<img src="images/Construct.png" width="100" height="100" align=left>

## **PACE: Analyze and Construct**

"Considera las preguntas en tu Documento de Estrategia PACE y las que se encuentran a continuación para elaborar tu respuesta:

Los profesionales de datos utilizan estadísticas descriptivas para el análisis exploratorio de datos (EDA). ¿Cómo puede el cálculo de estadísticas descriptivas ayudarte a aprender más sobre tus datos en esta etapa de tu análisis?"


# Importancia de las estadísticas descriptivas

## 1. Resumen de los datos

Permiten condensar grandes conjuntos de datos en métricas clave que facilitan su interpretación.

- **Medidas de tendencia central**: media, mediana y moda (para conocer valores típicos).
- **Medidas de dispersión**: rango, varianza, desviación estándar (para evaluar la variabilidad entre los usuarios).

**Ejemplo**:  
Saber que los usuarios de Waze realizan en promedio 10 viajes semanales con una desviación estándar de 3 te da una idea clara de su comportamiento general.

---

## 2. Detección de valores atípicos y errores

Las estadísticas descriptivas ayudan a identificar datos inusuales o posibles errores en la recolección de información.

**Ejemplo**:  
Si un usuario registra 500 viajes en un día, es probable que se trate de un error o un caso especial que requiere revisión.

---

## 3. Comparación entre grupos

Facilitan la comparación entre diferentes categorías, como tipos de dispositivos, regiones geográficas o perfiles de usuario.

**Ejemplo**:  
Puedes comparar la media de viajes entre usuarios de iOS y Android antes de realizar una prueba estadística formal.

---

## 4. Apoyo en la toma de decisiones

Los resúmenes estadísticos permiten identificar patrones, tendencias y áreas de mejora, lo cual es clave para definir estrategias.

**Ejemplo**:  
Si notas que ciertos dispositivos tienen menos uso, podrías investigar si hay problemas de compatibilidad o experiencia de usuario.

---

## 5. Base para análisis avanzados

Antes de aplicar técnicas como pruebas de hipótesis o modelos de *machine learning*, es esencial comprender la estructura y distribución de los datos mediante estadísticas descriptivas.

Las estadísticas descriptivas actúan como el primer filtro para entender los datos y orientar las siguientes etapas del análisis. Sin ellas, cualquier análisis posterior podría estar basado en supuestos erróneos o datos distorsionados.



### **Task 2. Data exploration**

Use descriptive statistics to conduct exploratory data analysis (EDA).

<details>
  <summary><h4><strong>Hint:</strong></h4></summary>

Refer back to *Self Review Descriptive Statistics* for this step-by-step proccess.

</details>

Nota: En el conjunto de datos, device es una variable categórica con las etiquetas iPhone y Android.

Para realizar este análisis, debes convertir cada etiqueta en un entero. El siguiente código asigna un 1 para un usuario de iPhone y un 2 para Android. Asigna esta etiqueta de nuevo a la variable device_new.

Nota: Crear una nueva variable es ideal para no sobrescribir los datos originales.


1. Crea un diccionario llamado map_dictionary que contenga las etiquetas de clase ('Android' e 'iPhone') como claves y los valores a los que deseas convertirlas (2 y 1) como valores.

2. Crea una nueva columna llamada device_type que sea una copia de la columna device.

3. Usa el método [redacted link] en la serie device_type. Pasa map_dictionary como su argumento. Reasigna el resultado de vuelta a la serie device_type.

Cuando pasas un diccionario al método Series.map(), reemplazará los datos en la serie donde esos datos coincidan con las claves del diccionario. Los valores que se imputan son los valores del diccionario.

```
Example:
df['column']
```

|column |
|  :-:       |
| A     |
| B     |
| A     |
| B     |

```
map_dictionary = {'A': 2, 'B': 1}
df['column'] = df['column'].map(map_dictionary)
df['column']
```

|column |
|  :-: |
| 2    |
| 1    |
| 2    |
| 1    |


In [None]:
# 1. Create `map_dictionary`
map_dictionary = {'Android': 2, 'iPhone': 1}

# 2. Create new `device_type` column
df['device_type'] = df['device']

# 3. Map the new column to the dictionary
df['device_type'] = df['device_type'].map(map_dictionary)

df['device_type'].value_counts()
average_drives = df.groupby('device')['drives'].mean()
average_drives

device
Android    66.231838
iPhone     67.859078
Name: drives, dtype: float64

You are interested in the relationship between device type and the number of drives. One approach is to look at the average number of drives for each device type. Calculate these averages.

In [None]:
average_drives = df.groupby('device')['drives'].mean()
average_drives

device
Android    66.231838
iPhone     67.859078
Name: drives, dtype: float64

Según los promedios mostrados, parece que los conductores que usan un dispositivo iPhone para interactuar con la aplicación tienen un mayor número de viajes en promedio. Sin embargo, esta diferencia podría deberse al muestreo aleatorio, en lugar de ser una verdadera diferencia en la cantidad de viajes. Para evaluar si la diferencia es estadísticamente significativa, puedes realizar una prueba de hipótesis.


### **Task 3. Hypothesis testing**

Tu objetivo es realizar una prueba t de dos muestras. Recuerda los pasos para realizar una prueba de hipótesis:

1. Enuncia la hipótesis nula y la hipótesis alternativa.
2. Elige un nivel de significancia.
3. Encuentra el valor p.
4. Rechaza o no rechaza la hipótesis nula.

Nota: Esta es una prueba t para dos muestras independientes. Esta es la prueba apropiada ya que los dos grupos son independientes (usuarios de Android vs. usuarios de iPhone).

Recall the difference between the null hypothesis ($H_0$) and the alternative hypothesis ($H_A$).

**Question:** What are your hypotheses for this data project?

H₀: No hay diferencia significativa en el promedio de uso entre usuarios de Android y iPhone. Cualquier diferencia observada se debe al azar.

Hₐ: Existe una diferencia significativa en el promedio de uso entre usuarios de Android y iPhone.

A continuación, elige el 5% como nivel de significancia y procede con una prueba t de dos muestras.

Puedes usar la función stats.ttest_ind() para realizar la prueba.

Nota técnica: El valor predeterminado para el argumento equal_var en stats.ttest_ind() es True, que asume que las varianzas de la población son iguales. Esta suposición de varianza igual podría no cumplirse en la práctica (es decir, no hay una razón sólida para asumir que los dos grupos tienen la misma varianza); puedes relajar esta suposición estableciendo equal_var en False, y stats.ttest_ind() realizará la prueba $t$$t$ de varianzas desiguales (conocida como la prueba t de Welch). Consulta la [documentación de la prueba t de scipy] para obtener más información.

1. Aísla la columna drives para los usuarios de iPhone.
2. Aísla la columna drives para los usuarios de Android.
3. Realiza la prueba t.

In [None]:
# 1. Isolate the `drives` column for iPhone users.
iphone_drives = df[df['device'] == 'iPhone']['drives']

# 2. Isolate the `drives` column for Android users.
android_drives = df[df['device'] == 'Android']['drives']

# 3. Perform the t-test
stats.ttest_ind(a=iphone_drives, b=android_drives, equal_var=False)



Ttest_indResult(statistic=1.4635232068852353, pvalue=0.1433519726802059)

**Question:** Based on the p-value you got above, do you reject or fail to reject the null hypothesis?

Segun el p_value que es 0.143 o 14.3%, no se rechaza la hipótesis nula ya que no hay diferencia estadística significativa, el nivel de significancia es menor al p-value.

<img src="images/Execute.png" width="100" height="100" align=left>

## **PACE: Execute**

Consider the questions in your PACE Strategy Document to reflect on the Execute stage.

### **Task 4. Communicate insights with stakeholders**

"Ahora que has completado tu prueba de hipótesis, el siguiente paso es compartir tus hallazgos con el equipo de liderazgo de Waze. Considera la siguiente pregunta mientras te preparas para escribir tu resumen ejecutivo:

¿Qué información empresarial puedes extraer del resultado de tu prueba de hipótesis?"

# Insights clave para los stakeholders

## No hay diferencias estadísticamente significativas en el uso por tipo de dispositivo

Aunque la media de uso de **iPhone (67.86)** es ligeramente superior a la de **Android (66.23)**, esta diferencia podría ser resultado del azar y no refleja un patrón consistente entre los usuarios.

## Uniformidad en el comportamiento de los usuarios

La similitud en los promedios sugiere que los usuarios interactúan con la aplicación de manera similar, sin importar el dispositivo que utilizan. Esto es positivo, ya que indica que la experiencia de usuario está bien optimizada en ambas plataformas.

## Revisión del tamaño de la muestra y variabilidad

Aunque el resultado no fue significativo, un *p-value* cercano al **0.10** podría indicar que con una muestra más grande o con menor variabilidad en los datos, podrían encontrarse diferencias relevantes.

## Optimización equitativa

No es necesario implementar estrategias diferenciadas por tipo de dispositivo en términos de *engagement* o mejoras técnicas. Las acciones generales seguirán beneficiando a todos los usuarios.

---

# Recomendaciones estratégicas

## Recolectar más datos o ampliar el análisis

Considerar un estudio con una mayor muestra o incluir variables adicionales como la región geográfica, hábitos de uso o perfil del usuario para detectar patrones más complejos.

## Análisis temporal

Verificar si existen variaciones estacionales o cambios en el comportamiento según eventos específicos (ej.: actualizaciones de la app o campañas de marketing).

## Enfocarse en la experiencia del usuario

Dado que no hay diferencias en el uso por dispositivo, los esfuerzos deben centrarse en mejoras globales que impacten positivamente a todos los usuarios.

## Monitoreo continuo

Mantener un seguimiento periódico de estos indicadores, especialmente tras cambios importantes en la aplicación o nuevas actualizaciones del sistema operativo.

## Exploración de otros factores de segmentación

Si el tipo de dispositivo no influye significativamente, se recomienda explorar otras variables (como frecuencia de uso, geolocalización o demografía) que puedan ofrecer mayor valor estratégico.

**Congratulations!** You've completed this lab. However, you may not notice a green check mark next to this item on Coursera's platform. Please continue your progress regardless of the check mark. Just click on the "save" icon at the top of this notebook to ensure your work has been logged.