**Proyecto Waze**
**Curso 2 - Introducción a Python**

¡Bienvenido al Proyecto Waze!

Tu equipo de análisis de datos de Waze se encuentra todavía en las primeras fases de su proyecto de rotación de usuarios. Previamente, tu supervisora, May Santner, te pidió que completaras una propuesta de proyecto. Has recibido la noticia de que tu propuesta de proyecto ha sido aprobada y de que tu equipo ha obtenido acceso a los datos de los usuarios de Waze. Para obtener información clara, los datos de usuario deben ser inspeccionados y preparados para el próximo proceso de análisis exploratorio de datos (EDA).

Se ha preparado un cuaderno Python para guiarte en este proyecto. Responde a las preguntas y crea un resumen ejecutivo para el equipo de datos de Waze.

# **Proyecto fin de curso 2: Inspeccionar y analizar datos**

En esta actividad, examinará los datos proporcionados y los preparará para su análisis. Esta actividad le ayudará a asegurarse de que la información es

1.   Lista para responder a preguntas y aportar información

2.   Preparada para las visualizaciones

3.   Preparado para futuras pruebas de hipótesis y métodos estadísticos
<br/>

**El propósito** de este proyecto es investigar y comprender los datos proporcionados.

**El objetivo** es utilizar un marco de datos construido en Python, realizar una inspección superficial del conjunto de datos proporcionado e informar a los miembros del equipo de tus conclusiones.
<br/>

*Esta actividad consta de tres partes:*

**Parte 1:** Comprender la situación
* ¿Cómo puedes prepararte mejor para comprender y organizar la información proporcionada?

**Parte 2:** Entender los datos

* Crear un marco de datos pandas para el aprendizaje de datos, futuros análisis exploratorios de datos (AED) y actividades estadísticas

* Recopilar información resumida sobre los datos para informar los próximos pasos

**Parte 3:** Comprender las variables

* Utilizar la información obtenida del examen de los datos resumidos para orientar una investigación más profunda de las variables


<br/>

Siga las instrucciones y responda a las siguientes preguntas para completar la actividad. A continuación, elaborará un resumen utilizando las preguntas que figuran en el Documento de Estrategia PACE.

Asegúrese de completar esta actividad antes de continuar. El siguiente punto del curso le proporcionará un ejemplo completado para que lo compare con su propio trabajo.


# **Identificar tipos de datos y compilar información resumida**


<img src="images/Pace.png" width="100" height="100" align=left>

# **PACE stages**

A lo largo de estos cuadernos de proyecto, verás referencias al marco de resolución de problemas, PACE. Los siguientes componentes del cuaderno están etiquetados con las respectivas etapas PACE: Planificar, Analizar, Construir y Ejecutar.

<img src="images/Plan.png" width="100" height="100" align=left>


## **PACE: Plan**

Considere las preguntas de su Documento de Estrategia PACE y las que figuran a continuación para elaborar su respuesta:

### **Tarea 1. Comprender la situación**

*¿Cuál es la mejor manera de prepararse para comprender y organizar los datos proporcionados sobre los conductores?


Comience explorando su conjunto de datos y considere la posibilidad de revisar el Diccionario de Datos.*

Realizando unas consultas a la base de datos para ver y existen valores faltantes

<img src="images/Analyze.png" width="100" height="100" align=left>

## **PACE: Analyze**

Considere las preguntas de su Documento de Estrategia PACE para reflexionar sobre la etapa Analizar.

### **Tarea 2a. Importación y carga de datos**

Comienza importando los paquetes que necesitarás para cargar y explorar el conjunto de datos. Asegúrate de usar las siguientes sentencias de importación:

* `import pandas as pd`

* `Importar numpy como np`


In [1]:
# Importar paquetes para la manipulación de datos
import pandas as pd 
import numpy as np

A continuación, cargue el conjunto de datos en un marco de datos. La creación de un marco de datos le ayudará a realizar la manipulación de datos, el análisis exploratorio de datos (AED) y las actividades estadísticas.

**Nota:** Como se muestra en esta celda, el conjunto de datos se ha cargado automáticamente. No necesita descargar el archivo .csv ni proporcionar más código para acceder al conjunto de datos y continuar con este laboratorio. Por favor, continúe con esta actividad completando las siguientes instrucciones.

In [2]:
# Cargar el conjunto de datos en el marco de datos
df = pd.read_csv('waze_dataset.csv')

### **Tarea 2b. Información resumida**

Ver e inspeccionar la información resumida sobre el marco de datos **codificando lo siguiente:**

1. df.head(10)
2. df.info()

*Considere las siguientes cuestiones:*

1. Al revisar la salida de `df.head()`, ¿hay alguna variable que tenga valores perdidos?

2. Al revisar la salida de `df.info()`, ¿cuáles son los tipos de datos? ¿Cuántas filas y columnas tiene?

3. ¿Tiene el conjunto de datos valores perdidos?

In [3]:
df.head(10)

Unnamed: 0,ID,label,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days,device
0,0,retained,283,226,296.748273,2276,208,0,2628.845068,1985.775061,28,19,Android
1,1,retained,133,107,326.896596,1225,19,64,13715.92055,3160.472914,13,11,iPhone
2,2,retained,114,95,135.522926,2651,0,0,3059.148818,1610.735904,14,8,Android
3,3,retained,49,40,67.589221,15,322,7,913.591123,587.196542,7,3,iPhone
4,4,retained,84,68,168.24702,1562,166,5,3950.202008,1219.555924,27,18,Android
5,5,retained,113,103,279.544437,2637,0,0,901.238699,439.101397,15,11,iPhone
6,6,retained,3,2,236.725314,360,185,18,5249.172828,726.577205,28,23,iPhone
7,7,retained,39,35,176.072845,2999,0,0,7892.052468,2466.981741,22,20,iPhone
8,8,retained,57,46,183.532018,424,0,26,2651.709764,1594.342984,25,20,Android
9,9,churned,84,68,244.802115,2997,72,0,6043.460295,2341.838528,7,3,iPhone


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ID                       14999 non-null  int64  
 1   label                    14299 non-null  object 
 2   sessions                 14999 non-null  int64  
 3   drives                   14999 non-null  int64  
 4   total_sessions           14999 non-null  float64
 5   n_days_after_onboarding  14999 non-null  int64  
 6   total_navigations_fav1   14999 non-null  int64  
 7   total_navigations_fav2   14999 non-null  int64  
 8   driven_km_drives         14999 non-null  float64
 9   duration_minutes_drives  14999 non-null  float64
 10  activity_days            14999 non-null  int64  
 11  driving_days             14999 non-null  int64  
 12  device                   14999 non-null  object 
dtypes: float64(3), int64(8), object(2)
memory usage: 1.5+ MB


In [54]:
df.isnull().sum()

ID                              0
label                         700
sessions                        0
drives                          0
total_sessions                  0
n_days_after_onboarding         0
total_navigations_fav1          0
total_navigations_fav2          0
driven_km_drives                0
duration_minutes_drives         0
activity_days                   0
driving_days                    0
device                          0
km_por_viaje                    0
km_por_día_de_conduccion        0
unidades_por_día_conducido      7
dtype: int64

**Pregunta 1 :** si, algunonos valores en la colunas otal_navigations_fav1	y total_navigations_fav2 tienen valores de 0

**Pregunta 2 :** los tipos de datos son objet, int64 y float64, el dataset cuenta con 13 columnas y 14999 filas 

**Pregunta 3 :** si , el conjunto de datos contiene valores nulos

### **Tarea 2c. Valores nulos y estadísticas de resumen**

Compare las estadísticas de resumen de las 700 filas a las que les faltan etiquetas con las estadísticas de resumen de las filas a las que no les falta ningún valor.

**Pregunta:** ¿Existe alguna diferencia perceptible entre las dos poblaciones?


In [5]:
# Aislar las filas con valores nulos
filas_con_nulos = df[df.isnull().any(axis=1)]

# Mostrar estadísticas resumidas de filas con valores nulos
filas_con_nulos.describe()


Unnamed: 0,ID,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days
count,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0,700.0
mean,7405.584286,80.837143,67.798571,198.483348,1709.295714,118.717143,30.371429,3935.967029,1795.123358,15.382857,12.125714
std,4306.900234,79.98744,65.271926,140.561715,1005.306562,156.30814,46.306984,2443.107121,1419.242246,8.772714,7.626373
min,77.0,0.0,0.0,5.582648,16.0,0.0,0.0,290.119811,66.588493,0.0,0.0
25%,3744.5,23.0,20.0,94.05634,869.0,4.0,0.0,2119.344818,779.009271,8.0,6.0
50%,7443.0,56.0,47.5,177.255925,1650.5,62.5,10.0,3421.156721,1414.966279,15.0,12.0
75%,11007.0,112.25,94.0,266.058022,2508.75,169.25,43.0,5166.097373,2443.955404,23.0,18.0
max,14993.0,556.0,445.0,1076.879741,3498.0,1096.0,352.0,15135.39128,9746.253023,31.0,30.0


In [6]:
# Aislar las filas sin valores nulos
filas_sin_nulos = df.dropna()
# Mostrar estadísticas de resumen de filas sin valores nulos
filas_sin_nulos.describe()


Unnamed: 0,ID,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days
count,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0,14299.0
mean,7503.573117,80.62382,67.255822,189.547409,1751.822505,121.747395,29.638296,4044.401535,1864.199794,15.544653,12.18253
std,4331.207621,80.736502,65.947295,136.189764,1008.663834,147.713428,45.35089,2504.97797,1448.005047,9.016088,7.833835
min,0.0,0.0,0.0,0.220211,4.0,0.0,0.0,60.44125,18.282082,0.0,0.0
25%,3749.5,23.0,20.0,90.457733,878.5,10.0,0.0,2217.319909,840.181344,8.0,5.0
50%,7504.0,56.0,48.0,158.718571,1749.0,71.0,9.0,3496.545617,1479.394387,16.0,12.0
75%,11257.5,111.0,93.0,253.54045,2627.5,178.0,43.0,5299.972162,2466.928876,23.0,19.0
max,14998.0,743.0,596.0,1216.154633,3500.0,1236.0,415.0,21183.40189,15851.72716,31.0,30.0


**Pregunta 1:** Si, pero la fierencia es minima por lo que no refleja nada relevante 

### **Tarea 2d. Valores nulos - recuento de dispositivos**

A continuación, comprueba las dos poblaciones con respecto a la variable `dispositivo`.

**Pregunta:** ¿Cuántos usuarios de iPhone tenían valores nulos y cuántos usuarios de Android tenían valores nulos?

In [7]:
# Obtener el recuento de valores nulos por dispositivo
filas_con_nulos['device'].value_counts(normalize=True)

iPhone     0.638571
Android    0.361429
Name: device, dtype: float64

**Pregunta :** de las 700 filas con valores nulos en iphone 447 y en android 253

Ahora, de las filas con valores nulos, calcula el porcentaje con cada dispositivo&mdash;Android y iPhone. Puedes hacerlo directamente con la función [`value_counts()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) function.

In [8]:
# Calcular % de nulos iPhone y nulos Android
filas_con_nulos['device'].value_counts(normalize=True)

iPhone     0.638571
Android    0.361429
Name: device, dtype: float64

¿Cómo se compara esto con la proporción de dispositivos en el conjunto de datos completo?

In [9]:
# Calcular el % de usuarios de iPhone y usuarios de Android en el conjunto de datos completo
df["device"].value_counts(normalize=True)


iPhone     0.644843
Android    0.355157
Name: device, dtype: float64

El porcentaje de valores omitidos por cada dispositivo es coherente con su representación en el conjunto de los datos.

No hay nada que sugiera una causa no aleatoria de los datos que faltan.

Examine los recuentos y porcentajes de usuarios que abandonaron frente a los que se quedaron. ¿Cuántos de cada grupo están representados en los datos?

In [10]:
#Calcular el recuento de abandonos frente a retenciones(churned vs. retained)
print(df["label"].value_counts(),"\n")
print(df["label"].value_counts(normalize=True))

retained    11763
churned      2536
Name: label, dtype: int64 

retained    0.822645
churned     0.177355
Name: label, dtype: float64


Este conjunto de datos contiene un 82% de usuarios retenidos y un 18% de usuarios abandonados.

A continuación, compare las medianas de cada variable para los usuarios que han abandonado y los que se han quedado. La razón para calcular la mediana y no la media es que no queremos que los valores atípicos afecten indebidamente a la representación de un usuario típico. Observe, por ejemplo, que el valor máximo de la columna "km_recorridos" es de 21.183 km. Eso es más de la mitad de la circunferencia de la Tierra.

In [11]:
# Calcular los valores medios de todas las columnas para los usuarios abandonados y retenidos
df.groupby("label").median(numeric_only=True)

Unnamed: 0_level_0,ID,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days
label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
churned,7477.5,59.0,50.0,164.339042,1321.0,84.5,11.0,3652.655666,1607.183785,8.0,6.0
retained,7509.0,56.0,47.0,157.586756,1843.0,68.0,9.0,3464.684614,1458.046141,17.0,14.0


Esto ofrece una instantánea interesante de los dos grupos, los que abandonaron y los que se quedaron:

Los usuarios que abandonaron la aplicación condujeron una media de 3 trayectos más en el último mes que los que la mantuvieron, pero los que la mantuvieron utilizaron la aplicación el doble de días que los que la abandonaron en el mismo periodo.

El usuario medio que abandonó la aplicación condujo unos 200 kilómetros y 2,5 horas más durante el último mes que el usuario medio que la mantuvo.

Parece que los usuarios que abandonaron el servicio condujeron más en menos días, y sus viajes fueron más largos y distantes. Tal vez esto sugiera un perfil de usuario. ¡Sigue explorando!

Calcule la `mediana` de kilómetros recorridos en el último mes, tanto para los usuarios retenidos como para los abandonados.

Empiece dividiendo la columna "kilómetros recorridos"  `driven_km_drives` por la columna "recorridos" `drives`. A continuación, agrupe los resultados por usuarios abandonados/retenidos y calcule la mediana de km/conducción de cada grupo.

In [22]:
#Añade una columna a df llamada km_por_viaje `km_per_drive`
df["km_por_viaje"]=df["driven_km_drives"]/df["drives"]

#Agrupar por `label`, calcular la mediana, y aislar por km per drive
df.groupby("label")[["km_por_viaje"]].median(numeric_only=True)

Unnamed: 0_level_0,km_por_viaje
label,Unnamed: 1_level_1
churned,74.109416
retained,75.014702


El usuario medio retenido condujo aproximadamente un kilómetro más por trayecto que el usuario medio que abandona . ¿Cuántos kilómetros condujo por día?

Para calcular esta estadística, repita los pasos anteriores utilizando `driving_days` en lugar de `drives`.

In [23]:
# Añadir una columna a df llamada `km_por_día_de_conducción`
df["km_por_día_de_conduccion"]=df["driven_km_drives"]/df["driving_days"]

# Agrupar por `etiqueta`, calcular la mediana y aislar por km por día de conducción
df.groupby("label")[["km_por_día_de_conduccion"]].median(numeric_only=True)

Unnamed: 0_level_0,km_por_día_de_conduccion
label,Unnamed: 1_level_1
churned,697.541999
retained,289.549333


A continuación, calcule el número medio de trayectos por día de conducción para cada grupo.

In [24]:
# Añade una columna a df llamada `drives_per_driving_day`
df["unidades_por_día_conducido"]=df['drives'] / df['driving_days']
# Group by `label`, calculate the median, and isolate for drives per driving day
df.groupby("label").median(numeric_only=True)[["unidades_por_día_conducido"]]

Unnamed: 0_level_0,unidades_por_día_conducido
label,Unnamed: 1_level_1
churned,10.0
retained,4.0625


El usuario medio que abandonó el servicio condujo `698 kilómetros cada día del mes pasado`, lo que supone casi un `240%` de la distancia por día de conducción de los usuarios que se `quedaron`. El usuario medio que abandonó el servicio recorrió un número de trayectos por día similarmente desproporcionado en comparación con los usuarios que lo mantuvieron.

De estas cifras se desprende claramente que, independientemente de si un usuario abandona o no, los usuarios representados en estos datos conducen mucho. Probablemente, no sería arriesgado suponer que estos datos no representan a los conductores típicos en general. Tal vez los datos, y en particular la muestra de usuarios que cambiaron, contengan una elevada proporción de camioneros de larga distancia.

Teniendo en cuenta lo mucho que conducen estos usuarios, valdría la pena recomendar a Waze que recopilara más datos sobre estos superconductores. Es posible que la razón por la que conducen tanto sea también la razón por la que la aplicación Waze no satisface sus necesidades específicas, que pueden diferir de las necesidades de un conductor más típico, como un viajero diario.

Por último, examine si existe un desequilibrio en el número de usuarios que abandonan por tipo de dispositivo.

Empieza por obtener los recuentos globales de cada tipo de dispositivo para cada grupo, los que han abandonado y los que se han quedado.

In [47]:
# Para cada etiqueta, calcula el número de usuarios de Android y de iPhone
df.groupby('label')["device"].value_counts().sort_values()

label     device 
churned   Android     891
          iPhone     1645
retained  Android    4183
          iPhone     7580
Name: device, dtype: int64

Ahora, dentro de cada grupo, churned y retained, calcula qué porcentaje era Android y qué porcentaje era iPhone.

In [53]:
# Para cada etiqueta, calcula el porcentaje de usuarios de Android y de iPhone
df.groupby('label')["device"].value_counts(normalize=True)

label     device 
churned   iPhone     0.648659
          Android    0.351341
retained  iPhone     0.644393
          Android    0.355607
Name: device, dtype: float64

La proporción de usuarios de iPhone y usuarios de Android es la misma en el grupo que ha abandonado y en el grupo que se ha quedado, y ambas proporciones coinciden con la proporción encontrada en el conjunto de datos.

<img src="images/Construct.png" width="100" height="100" align=left>

## **PACE: Construct**

**Nota**: La fase de construcción no se aplica a este flujo de trabajo. El marco PACE puede adaptarse a los requisitos específicos de cualquier proyecto.



<img src="images/Execute.png" width="100" height="100" align=left>

## **PACE: Execute**

Considere las preguntas de su Documento de Estrategia PACE y las que figuran a continuación para elaborar su respuesta:

### **Tarea 3. Conclusión**

Recuerde que su supervisora, May Santer, le pidió que compartiera sus conclusiones con el equipo de datos en un resumen ejecutivo. Considere las siguientes preguntas mientras se prepara para redactar su resumen. Piense en los puntos clave que desea compartir con el equipo y qué información es más relevante para el proyecto de rotación de usuarios.

**Preguntas:**

1. ¿Contenían los datos valores perdidos? ¿Cuántos y a qué variables afectaban? ¿Existe un patrón en los datos que faltan?

2. ¿Cuál es la ventaja de utilizar la mediana de una muestra en lugar de la media?

3. ¿Ha dado lugar tu investigación a otras preguntas que te gustaría explorar o plantear al equipo de Waze?

4. ¿Qué porcentaje de los usuarios del conjunto de datos eran usuarios de Android y qué porcentaje eran usuarios de iPhone?

5. ¿Cuáles fueron las características distintivas de los usuarios que abandonaron frente a los que se quedaron?

6. ¿Existe una diferencia apreciable en la tasa de cancelación entre usuarios de iPhone y usuarios de Android?





**Pregunta 1:** si los datos contienen valores perdidos, 700 valores perdidos no afecta a las variables, no existe ningun patron de los valores faltantes 

**Pregunta 2:** La mediana muestra un valor mas certero a diferencia de la media que es afectada con los valores atipicos de dataset

**Pregunta 3:** si ¿como influye el numero de dias desde que se registro un usuario hasta la salida?

**Pregunta 4:** el 64% son de iPhone y el 35% son de  Android 

**Pregunta 5:** las caracteristicas mas distintivas son que los usuarios que habandonaron conducinas mas que los que no lo habandonaron 

**Pregunta 6:** no, no existe diferencia estan muy parejas las cancelaciones tanto de android como de iphone

**¡Felicidades!** Has completado este laboratorio. Sin embargo, es posible que no veas una marca de verificación verde junto a este elemento en la plataforma de Coursera. Por favor, continúa tu progreso independientemente de la marca de verificación. Simplemente haga clic en el icono "guardar" en la parte superior de este cuaderno para asegurarse de que su trabajo ha sido registrado.