# **Proyecto Waze**
**Curso 4: El poder de las estadísticas**

Tu equipo se acerca a la mitad de su proyecto de rotación de usuarios. Hasta ahora, has completado una propuesta de proyecto, y has utilizado Python para explorar y analizar los datos de usuario de Waze. También has utilizado Python para crear visualizaciones de datos. El siguiente paso es utilizar métodos estadísticos para analizar e interpretar tus datos.

Recibes un nuevo correo electrónico de Sylvester Esperanza, tu jefe de proyecto. Sylvester informa a su equipo de una nueva petición de la dirección: analizar la relación entre la cantidad media de viajes y el tipo de dispositivo. También descubres correos electrónicos de seguimiento de otros tres miembros del equipo: May Santner, Chidi Ga y Harriet Hadzic. En estos correos se discuten los detalles del análisis. Quieren un análisis estadístico de los datos de los viajes en función del tipo de dispositivo. `En particular, el liderazgo quiere saber si hay una diferencia estadísticamente significativa en la cantidad media de viajes entre los usuarios de iPhone® y los usuarios de Android™.` Un correo electrónico final de Chidi incluye su tarea específica: llevar a cabo una prueba de hipótesis de dos muestras (prueba t) para analizar la diferencia en la cantidad media de viajes entre los usuarios de iPhone y los usuarios de Android.

Se ha estructurado y preparado un cuaderno para ayudarte en este proyecto. Por favor, complete las siguientes preguntas y prepare un resumen ejecutivo.

# **Proyecto fin de curso 4: Exploración de datos y prueba de hipótesis**

En esta actividad, explorará los datos proporcionados y realizará una prueba de hipótesis.
<br/>

**El propósito** de este proyecto es demostrar el conocimiento de cómo realizar una prueba de hipótesis de dos muestras.

**El objetivo** es aplicar la estadística descriptiva y la prueba de hipótesis en Python.
<br/>

*Esta actividad consta de tres partes:*

**Parte 1:** Importación y carga de datos
* ¿Qué paquetes de datos serán necesarios para la prueba de hipótesis?

**Parte 2:** Realización de pruebas de hipótesis
* ¿Cómo te ayudó el cálculo de estadísticas descriptivas a analizar tus datos?

* ¿Cómo formuló su hipótesis nula e hipótesis alternativa?

**Parte 3:** Comunicar la información a las partes interesadas

* ¿Qué información empresarial clave se desprende de la prueba de hipótesis?

* ¿Qué recomendaciones empresariales propone basándose en los resultados?

<br/>


Siga las instrucciones y responda a las preguntas que figuran a continuación para completar la actividad. A continuación, elaborará un resumen utilizando las preguntas que figuran en el documento de estrategia PACE.

Asegúrese de completar esta actividad antes de continuar. El siguiente punto del curso le proporcionará un ejemplo completado para que lo compare con su propio trabajo.


# **Exploración de datos y comprobación de hipótesis**

<img src="images/Pace.png" width="100" height="100" align=left>

# **PACE stages**


A lo largo de estos cuadernos de proyecto, verás referencias al marco de resolución de problemas PACE. Los siguientes componentes del cuaderno están etiquetados con la etapa PACE correspondiente: Planificar, Analizar, Construir y Ejecutar.

<img src="images/Plan.png" width="100" height="100" align=left>


## **PACE: Plan**

Considere las preguntas de su Documento de Estrategia PACE y las que figuran a continuación para elaborar su respuesta:
1. ¿Cuál es su pregunta de investigación para este proyecto de datos? Más adelante, tendrá que formular las hipótesis nula y alternativa como primer paso de su prueba de hipótesis. Considere su pregunta de investigación ahora, al comienzo de esta tarea.


**¿Los conductores que abren la aplicación utilizando un iPhone realizan de media el mismo número de trayectos que los conductores que utilizan dispositivos Android?.**

*Completa las siguientes tareas para realizar el análisis estadístico de tus datos:*

### **Tarea 1. Importación y carga de datos**

Importe los paquetes y bibliotecas necesarios para calcular estadísticas descriptivas y realizar una prueba de hipótesis.

In [1]:
# Import any relevant packages or libraries
import pandas as pd
from scipy import stats

Importe el conjunto de datos.

**Nota:** Como se muestra en esta celda, el conjunto de datos se ha cargado automáticamente. No es necesario descargar el archivo .csv ni proporcionar más código para acceder al conjunto de datos y continuar con este laboratorio. Por favor, continúe con esta actividad completando las siguientes instrucciones.

In [2]:
# Load dataset into dataframe
df = pd.read_csv('waze_dataset.csv')

<img src="images/Analyze.png" width="100" height="100" align=left>

<img src="images/Construct.png" width="100" height="100" align=left>

## **PACE: Analizar y Construir**

Considere las preguntas de su Documento de Estrategia PACE y las que figuran a continuación para elaborar su respuesta:
1. Los profesionales de los datos utilizan estadísticas descriptivas para el análisis exploratorio de datos (AED). ¿Cómo puede ayudarle el cálculo de estadísticas descriptivas a conocer mejor sus datos en esta fase del análisis?

las estadísticas descriptivas son útiles porque permiten explorar y comprender rápidamente grandes cantidades de datos. En este caso, el cálculo de estadísticas descriptivas le ayuda a comparar rápidamente la cantidad media de unidades por tipo de dispositivo.

### **Tarea 2. Exploración de datos**

Utilizar estadísticas descriptivas para realizar análisis exploratorios de datos (EDA).

<details>
  <summary><h4><strong>Hint:</strong></h4></summary>
Consulte **Estadística Descriptiva Autoexaminada** para este proceso paso a paso.
</details>

**Nota:** En el conjunto de datos, "dispositivo" es una variable categórica con las etiquetas "iPhone" y "Android".

Para realizar este análisis, debe convertir cada etiqueta en un número entero.  El siguiente código asigna un `1` a un usuario de `iPhone` y un `2` a `Android`.  Asigna esta etiqueta a la variable `device_new`.

**Nota:** Crear una nueva variable es ideal para no sobrescribir los datos originales.

1. Crea un diccionario llamado `map_dictionary` que contenga las etiquetas de clase (`'Android'` y `'iPhone'`) como claves y los valores a los que quieres convertirlas (`2` y `1`) como valores.

2. 2. Crea una nueva columna llamada `device_type` que es una copia de la columna `device`.

3. Utiliza el método [`map()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html#pandas-series-map) en la serie `device_type`. Pasa `map_dictionary` como argumento. Reasigna el resultado a la serie `device_type`.
</br></br>
Cuando se pasa un diccionario al método `Series.map()`, éste reemplazará los datos de la serie donde esos datos coincidan con las claves del diccionario. Los valores que se imputan son los valores del diccionario.

```
Example:
df['column']
```

|column |
|  :-:       |
| A     |
| B     |
| A     |
| B     |

```
map_dictionary = {'A': 2, 'B': 1}
df['column'] = df['column'].map(map_dictionary)
df['column']
```

|column |
|  :-: |
| 2    |
| 1    |
| 2    |
| 1    |


In [6]:
# 1. Creaa `map_dictionary`
mapa_diccionario = {"Android": 2, "iPhone": 1}

# 2. Crea una nueva columna`device_type` 
df["tipo_dispositivo"] = df['device']

# 3. Asignar la nueva columna al diccionario
df["tipo_dispositivo"] = df["tipo_dispositivo"].map(mapa_diccionario)

df["tipo_dispositivo"].head()

0    2
1    1
2    2
3    1
4    2
Name: tipo_dispositivo, dtype: int64

Usted está interesado en la relación entre el tipo de dispositivo y el número de unidades. Un método consiste en observar el número medio de unidades para cada tipo de dispositivo. Calcule estos promedios.

In [7]:
df.groupby("tipo_dispositivo")['drives'].mean()

tipo_dispositivo
1    67.859078
2    66.231838
Name: drives, dtype: float64

Según los promedios mostrados, parece que los conductores que utilizan un dispositivo iPhone para interactuar con la aplicación tienen un mayor número de trayectos de media. Sin embargo, esta diferencia podría deberse a un muestreo aleatorio, en lugar de ser una diferencia real en el número de trayectos. Para evaluar si la diferencia es estadísticamente significativa, puede realizar una prueba de hipótesis.


### **Tarea 3. Prueba de hipótesis**

Su objetivo es realizar una prueba t de dos muestras. Recuerda los pasos para realizar una prueba de hipótesis:


1.   Enunciar la hipótesis nula y la hipótesis alternativa
2.   Elija un nivel de significación
3.   Hallar el valor p
4.   Rechazar o no rechazar la hipótesis nula

**Nota:** Se trata de una prueba t para dos muestras independientes. Es la prueba adecuada, ya que los dos grupos son independientes (usuarios de Android frente a usuarios de iPhone).

Recuerde la diferencia entre la hipótesis nula ($H_0$) y la hipótesis alternativa ($H_A$).

**Pregunta:** ¿Cuáles son tus hipótesis para este proyecto de datos?


$H_0$: No hay diferencia en el número medio de trayectos entre los conductores que utilizan dispositivos iPhone y los conductores que utilizan Androids.

$H_A$: Existe una diferencia en el número medio de trayectos entre los conductores que utilizan dispositivos iPhone y los conductores que utilizan Androids.

A continuación, elija el 5% como nivel de significación y proceda a realizar una prueba t de dos muestras.

Puede utilizar la función `stats.ttest_ind()` para realizar la prueba.


**Nota técnica**: El argumento `equal_var` por defecto en `stats.ttest_ind()` es `True`, que asume que las varianzas de la población son iguales. Esta suposición de varianza igual puede no cumplirse en la práctica (es decir, no hay ninguna razón de peso para suponer que los dos grupos tienen la misma varianza); puede relajar esta suposición estableciendo `equal_var` en `False`, y `stats.ttest_ind()` realizará la prueba de varianzas desiguales $t$ (conocida como prueba `t` de Welch). Consulte la [scipy t-test documentation](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html) para obtener más información.


1. Aísle la columna `drives` para los usuarios de iPhone.
2. Aísle la columna `drives` para los usuarios de Android.
3. Realice la prueba t

In [10]:
# 1. Aislar la columna `drives` para los usuarios de iPhone.
iPhone = df[df["tipo_dispositivo"] == 1]['drives']

# 2. Aislar la columna `drives` para los usuarios de Android.
Android = df[df["tipo_dispositivo"] == 2]['drives']

# 3. Realizar la prueba t
stats.ttest_ind(a=iPhone, b=Android, equal_var=False)

Ttest_indResult(statistic=1.4635232068852353, pvalue=0.1433519726802059)

**Pregunta:** Según el valor p que has obtenido, ¿rechazas o no rechazas la hipótesis nula?

> Dado que el valor p es mayor que el nivel de significación elegido (5%), no se rechaza la hipótesis nula. Usted concluye que **no** existe una diferencia estadísticamente significativa en el número medio de trayectos entre los conductores que utilizan iPhones y los conductores que utilizan Androids.*

<img src="images/Execute.png" width="100" height="100" align=left>

## **PACE: Execute**

Considere las preguntas de su Documento de Estrategia PACE para reflexionar sobre la etapa Ejecutar.

### **Tarea 4. Comunicar las ideas a las partes interesadas**

Ahora que ha completado su prueba de hipótesis, el siguiente paso es compartir sus hallazgos con el equipo de liderazgo de Waze. Considera la siguiente pregunta mientras te preparas para escribir tu resumen ejecutivo:

* ¿Qué visión(es) de negocio puedes extraer de los resultados de tu prueba de hipótesis?

> La idea clave del negocio es que los conductores que utilizan dispositivos iPhone en promedio tienen un número similar de viajes que los que utilizan Android.

> Un posible paso siguiente es explorar qué otros factores influyen en la variación del número de desplazamientos y realizar pruebas de hipótesis adicionales para conocer mejor el comportamiento de los usuarios. Además, los cambios temporales en el marketing o la interfaz de usuario de la aplicación Waze pueden proporcionar más datos para investigar la pérdida de clientes.


**¡Felicidades!** Has completado este laboratorio. Sin embargo, es posible que no veas una marca de verificación verde junto a este elemento en la plataforma de Coursera. Por favor, continúa tu progreso independientemente de la marca de verificación. Simplemente haga clic en el icono "guardar" en la parte superior de este cuaderno para asegurarse de que su trabajo ha sido registrado.