# **Projeto de Retenção de Usuários no Waze**


## Contexto

O aplicativo de navegação gratuito do Waze simplifica as viagens para motoristas em todo o mundo, contando com a colaboração de uma comunidade diversificada, incluindo editores de mapas, testadores beta, tradutores, parceiros e usuários. O Waze estabelece parcerias com cidades, autoridades de transporte, emissoras, empresas e socorristas para otimizar a eficiência e a segurança nas viagens.

A liderança do Waze solicitou à equipe de dados o desenvolvimento de um modelo de aprendizado de máquina para prever a rotatividade de usuários. Nesse contexto, como novo integrante da equipe de dados, minha contribuição será essencial para analisar e interpretar dados, gerar insights valiosos e auxiliar na tomada de decisões estratégicas.

Este projeto integra os esforços do Waze para impulsionar o crescimento, visando à prevenção da rotatividade e ao aumento da retenção de usuários. A implementação de um modelo de previsão de rotatividade é importante para otimizar os negócios do Waze.


## Cenário

Sua equipe encontra-se nos estágios iniciais do projeto, focado no desenvolvimento de um modelo de aprendizado de máquina para prever a rotatividade de usuários. Após a aprovação da proposta de projeto pela supervisora, May Santner, foi comunicado que a equipe agora possui acesso aos dados do usuário do Waze. É importante realizar uma inspeção nos dados, organizá-los de forma eficiente e prepará-los para análise, visando obter insights claros. A etapa de preparação dos dados é crucial para garantir a eficácia do modelo e possibilitar previsões precisas de rotatividade de usuários no projeto em andamento.

# **Inspecionar e Analisar os Dados**

Nesta etapa, iremos examinar os dados fornecidos e os preparar para análise. Essa atividade ajudará a garantir que as informações estejam,

1.   Prontas para responder a perguntas e fornecer insights

2.   Prontas para visualizações

3.   Prontas para futuros testes de hipóteses e métodos estatísticos

<br/>

**O objetivo** deste projeto é investigar e entender os dados fornecidos.

**A meta** é usar um dataframe construído no Python, realizar uma inspeção superficial do conjunto de dados fornecido e informar os membros da equipe sobre nossas descobertas.

<br/>

*Esta atividade tem três partes:*

**Parte 1:** Entender a situação
* Como podemos nos preparar da melhor forma para compreender e organizar as informações fornecidas?

**Parte 2:** Entender os dados
* Crie um dataframe pandas para aprendizado de dados, futuras atividades de análise exploratória de dados (EDA) e resumos estatísticos
* Compile informações resumidas sobre os dados para informar os próximos passos

**Parte 3:** Entender as variáveis
* Use insights da  análise dos dados resumidos para orientar uma investigação mais profunda nas variáveis







# **Identificar tipos de dados e compilar informações resumidas**


# **PACE stages**

Ao longo destes notebooks do projeto, teremos referências ao framework de resolução de problemas, PACE.

Os seguintes componentes do notebook estão rotulados com as respectivas etapas do PACE: Planejar, Analisar, Construir e Executar.

## **PACE: Planejar**

Considere as perguntas do Documento de Estratégia PACE e as abaixo para elaborar a resposta:

### **Tarefa 1. Entender a situação**

*   Como você pode se preparar da melhor forma para compreender e organizar os dados fornecidos?

*Explorando o conjunto de dados e revisando o Dicionário de Dados.*


## **PACE: Analisar**

Considere as perguntas no Documento de Estratégia PACE para refletir sobre a etapa de Análise.

### **Tarefa 2a. Imports e carregamento dos dados**

Comece importando os pacotes para carregar e explorar o conjunto de dados.


In [None]:
import pandas as pd
import numpy  as np

Em seguida, carregue o conjunto de dados em um dataframe. Criar um dataframe ajudará a realizar manipulação de dados, análise exploratória de dados (EDA) e resumos estatísticos.


In [None]:
df = pd.read_csv('waze_dataset.csv')

**Dicinário das variáveis**

| Nome da Coluna              | Tipo           | Descrição                                                                                               |
|-----------------------------|----------------|---------------------------------------------------------------------------------------------------------|
| ID                          | int            | Um índice sequencial numerado                                                                           |
| label                       | obj            | Variável binária de destino ("retained" vs "churned") que indica se um usuário cancelou a assinatura em algum momento durante o mês |
| sessions                    | int            | O número de ocorrências de um usuário abrindo o aplicativo durante o mês                                |
| drives                      | int            | Uma ocorrência de dirigir pelo menos 1 km durante o mês                                                 |
| device                      | obj            | O tipo de dispositivo com o qual um usuário inicia uma sessão                                           |
| total_sessions              | float          | Uma estimativa do modelo do número total de sessões desde que um usuário começou a usar o aplicativo   |
| n_days_after_onboarding     | int            | O número de dias desde que um usuário se cadastrou no aplicativo                                        |
| total_navigations_fav1      | int            | Navegações totais desde o cadastro até o lugar favorito 1 do usuário                                    |
| total_navigations_fav2      | int            | Navegações totais desde o cadastro até o lugar favorito 2 do usuário                                    |
| driven_km_drives            | float          | Quilômetros totais dirigidos durante o mês                                                              |
| duration_minutes_drives     | float          | Duração total dirigida em minutos durante o mês                                                        |
| activity_days               | int            | Número de dias que o usuário abre o aplicativo durante o mês                                           |
| driving_days                | int            | Número de dias que o usuário dirige (pelo menos 1 km) durante o mês                                     |


### **Tarefa 2b. Sumarizar as informações**

Visualize e inspecione as informações resumidas sobre o dataframe codificando o seguinte:

1.   df.head(10)
2.   df.info()

*Considere as seguintes perguntas*:

1. Ao revisar a saída de df.head(), há alguma variável que possui valores ausentes?

2. Ao revisar a saída de df.info(), quais são os tipos de dados? Quantas linhas e colunas você possui?

3. O conjunto de dados possui algum valor ausente?

In [None]:
df.head()

Unnamed: 0,ID,label,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days,device
0,0,retained,283,226,296.748273,2276,208,0,2628.845068,1985.775061,28,19,Android
1,1,retained,133,107,326.896596,1225,19,64,13715.92055,3160.472914,13,11,iPhone
2,2,retained,114,95,135.522926,2651,0,0,3059.148818,1610.735904,14,8,Android
3,3,retained,49,40,67.589221,15,322,7,913.591123,587.196542,7,3,iPhone
4,4,retained,84,68,168.24702,1562,166,5,3950.202008,1219.555924,27,18,Android


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ID                       14999 non-null  int64  
 1   label                    14299 non-null  object 
 2   sessions                 14999 non-null  int64  
 3   drives                   14999 non-null  int64  
 4   total_sessions           14999 non-null  float64
 5   n_days_after_onboarding  14999 non-null  int64  
 6   total_navigations_fav1   14999 non-null  int64  
 7   total_navigations_fav2   14999 non-null  int64  
 8   driven_km_drives         14999 non-null  float64
 9   duration_minutes_drives  14999 non-null  float64
 10  activity_days            14999 non-null  int64  
 11  driving_days             14999 non-null  int64  
 12  device                   14999 non-null  object 
dtypes: float64(3), int64(8), object(2)
memory usage: 1.5+ MB


In [None]:
print("Número de linhas e colunas:", df.shape)

Número de linhas e colunas: (14999, 13)


In [None]:
df.isnull().sum()

ID                           0
label                      700
sessions                     0
drives                       0
total_sessions               0
n_days_after_onboarding      0
total_navigations_fav1       0
total_navigations_fav2       0
driven_km_drives             0
duration_minutes_drives      0
activity_days                0
driving_days                 0
device                       0
dtype: int64

In [None]:
# Calcular a porcentagem de valores nulos em cada coluna
perc_nulos = df.isnull().mean() * 100
info_nulos = pd.DataFrame({'Percentual de valores ausentes': perc_nulos})

info_nulos

Unnamed: 0,Percentual de valores ausentes
ID,0.0
label,4.666978
sessions,0.0
drives,0.0
total_sessions,0.0
n_days_after_onboarding,0.0
total_navigations_fav1,0.0
total_navigations_fav2,0.0
driven_km_drives,0.0
duration_minutes_drives,0.0


> Temos no conjunto de dados 13 variáveis e 14999 registros.

> Temos 700 registros (~ 5%) ausentes na variável *label*, que indica se o usuário cancelou ou não a assinatura.

### **Tarefa 2c. Valores nulos e estatísticas resumidas**

Compare as estatísticas resumidas das 700 linhas que estão faltando rótulos com as estatísticas resumidas das linhas que não estão faltando nenhum valor.

**Pergunta**: Existe uma diferença discernível entre as duas populações?


In [None]:
# valores ausentes
df_nulos = df[df['label'].isnull()]

df_nulos.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID,700.0,7405.584286,4306.900234,77.0,3744.5,7443.0,11007.0,14993.0
sessions,700.0,80.837143,79.98744,0.0,23.0,56.0,112.25,556.0
drives,700.0,67.798571,65.271926,0.0,20.0,47.5,94.0,445.0
total_sessions,700.0,198.483348,140.561715,5.582648,94.05634,177.255925,266.058022,1076.879741
n_days_after_onboarding,700.0,1709.295714,1005.306562,16.0,869.0,1650.5,2508.75,3498.0
total_navigations_fav1,700.0,118.717143,156.30814,0.0,4.0,62.5,169.25,1096.0
total_navigations_fav2,700.0,30.371429,46.306984,0.0,0.0,10.0,43.0,352.0
driven_km_drives,700.0,3935.967029,2443.107121,290.119811,2119.344818,3421.156721,5166.097373,15135.39128
duration_minutes_drives,700.0,1795.123358,1419.242246,66.588493,779.009271,1414.966279,2443.955404,9746.253023
activity_days,700.0,15.382857,8.772714,0.0,8.0,15.0,23.0,31.0


In [None]:
# sem valores ausentes
df_nao_nulos = df[df['label'].notnull()]

df_nao_nulos.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID,14299.0,7503.573117,4331.207621,0.0,3749.5,7504.0,11257.5,14998.0
sessions,14299.0,80.62382,80.736502,0.0,23.0,56.0,111.0,743.0
drives,14299.0,67.255822,65.947295,0.0,20.0,48.0,93.0,596.0
total_sessions,14299.0,189.547409,136.189764,0.220211,90.457733,158.718571,253.54045,1216.154633
n_days_after_onboarding,14299.0,1751.822505,1008.663834,4.0,878.5,1749.0,2627.5,3500.0
total_navigations_fav1,14299.0,121.747395,147.713428,0.0,10.0,71.0,178.0,1236.0
total_navigations_fav2,14299.0,29.638296,45.35089,0.0,0.0,9.0,43.0,415.0
driven_km_drives,14299.0,4044.401535,2504.97797,60.44125,2217.319909,3496.545617,5299.972162,21183.40189
duration_minutes_drives,14299.0,1864.199794,1448.005047,18.282082,840.181344,1479.394387,2466.928876,15851.72716
activity_days,14299.0,15.544653,9.016088,0.0,8.0,16.0,23.0,31.0


> Não houve uma diferença significativa entre as duas populações.

### **Tarefa 2d. Valores nulos - contagem de dispositivos**

Em seguida, verifique as duas populações em relação à variável device.

**Pergunta**: Quantos usuários de iPhone tinham valores nulos e quantos usuários de Android tinham valores nulos?

In [None]:
df_nulos['device'].value_counts()

iPhone     447
Android    253
Name: device, dtype: int64

> Em relação aos valores nulos, 447 tinham iPhone e 253 Android.

Agora, das linhas com valores nulos, calcule a porcentagem com cada dispositivo - Android e iPhone. Podemos fazer isso diretamente com a função [`value_counts()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html).

In [None]:
df_nulos['device'].value_counts(normalize=True)

iPhone     0.638571
Android    0.361429
Name: device, dtype: float64

In [None]:
round((df_nulos['device'].value_counts() * 100) / len(df_nulos))

iPhone     64.0
Android    36.0
Name: device, dtype: float64

> Em relação aos valores nulos, ~64% tinham iPhone e ~36% Android.

Como isso se compara à proporção de dispositivos no conjunto de dados completo?

In [None]:
df['device'].value_counts(normalize=True)

iPhone     0.644843
Android    0.355157
Name: device, dtype: float64

> Em relação a todo o conjunto de dados, a proporção é semelhante.

A porcentagem de valores ausentes por cada dispositivo é consistente com a representação deles nos dados como um todo.

Não há nada que sugira uma causa não aleatória dos dados ausentes.

Examine as contagens e porcentagens de usuários que deixaram de usar o aplicativo versus aqueles que foram retidos. Quantos de cada grupo estão representados nos dados?

In [None]:
print("Contagem")
df['label'].value_counts()

Contagem


retained    11763
churned      2536
Name: label, dtype: int64

In [None]:
print("Porcentagem")
round(df['label'].value_counts(normalize=True)*100)

Porcentagem


retained    82.0
churned     18.0
Name: label, dtype: float64

> Este conjunto de dados contém 82% de usuários retidos e 18% de usuários que deixaram de usar o aplicativo.

Em seguida, compare as medianas de cada variável para usuários que deixaram de usar o aplicativo e usuários retidos. A razão para calcular a mediana e não a média é que você não deseja que valores atípicos influenciem indevidamente a representação de um usuário típico. Observe, por exemplo, que o valor máximo na coluna `driven_km_drives` é 21.183 km. Isso é mais do que a metade da circunferência da Terra!

In [None]:
df.groupby('label').median(numeric_only=True)

Unnamed: 0_level_0,ID,sessions,drives,total_sessions,n_days_after_onboarding,total_navigations_fav1,total_navigations_fav2,driven_km_drives,duration_minutes_drives,activity_days,driving_days
label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
churned,7477.5,59.0,50.0,164.339042,1321.0,84.5,11.0,3652.655666,1607.183785,8.0,6.0
retained,7509.0,56.0,47.0,157.586756,1843.0,68.0,9.0,3464.684614,1458.046141,17.0,14.0


Isso oferece uma visão interessante dos dois grupos, usuários que deixaram de usar o aplicativo versus usuários retidos:

> Os usuários que deixaram de usar o aplicativo tiveram em média ~3 viagens a mais no último mês do que os usuários retidos, mas os usuários retidos usaram o aplicativo em mais do que o dobro dos dias em comparação com os usuários que deixaram de usar no mesmo período.

> O usuário mediano que deixou de usar o aplicativo dirigiu ~200 km a mais e 2,5 horas a mais no último mês do que o usuário mediano retido.

> Parece que os usuários que deixaram de usar o aplicativo tiveram mais viagens em menos dias, e suas viagens foram mais longas em distância e duração. Talvez isso sugira um perfil de usuário.

Calcule a mediana de quilômetros por viagem no último mês para usuários retidos e que deixaram de usar.


In [None]:
# agrupando pelo label e calculando as medianas
mediana_label = df.groupby('label').median(numeric_only=True)
print('Mediana de KM por viagem:')

# dividindo a mediana da distância pela mediana de número de viagens
mediana_label['driven_km_drives'] / mediana_label['drives']

Mediana de KM por viagem:


label
churned     73.053113
retained    73.716694
dtype: float64

O usuário médio de ambos os grupos dirigiu cerca de ~73 km por viagem. Quantos quilômetros por dia de direção foi isso?

In [None]:
# dividindo a mediana da distância pelo número de dias de condução
print('Mediana KM por dia:')
mediana_label['driven_km_drives'] / mediana_label['driving_days']

Mediana KM por dias dirigindo:


label
churned     608.775944
retained    247.477472
dtype: float64

Agora, calcule a mediana do número de viagens por dia de direção para cada grupo.

In [None]:
# dividindo a mediana do número de viagens pela mediana do número de dias de condução
print('Mediana de viagens por dia:')
mediana_label['drives']/mediana_label['driving_days']

Mediana de viagens por dia:


label
churned     8.333333
retained    3.357143
dtype: float64

> O usuário mediano que cancelou a assinatura dirigiu 608 quilômetros a cada dia que dirigiu no mês passado, o que é quase 250% da distância por dia de condução dos usuários retidos. O usuário mediano que cancelou a assinatura teve um número igualmente desproporcional de viagens por dia de condução em comparação aos usuários retidos.

> É evidente a partir desses números que, independentemente de um usuário ter cancelado ou não, os usuários representados nesses dados são motoristas sérios! Provavelmente, é seguro assumir que esses dados não representam motoristas típicos em geral. Talvez os dados, especialmente a amostra de usuários que cancelaram a assinatura, contenham uma proporção significativa de motoristas de longa distância.

> Levando em consideração a quantidade de quilômetros que esses usuários dirigem, seria válido recomendar ao Waze que coletasse mais dados sobre esses super motoristas. É possível que a razão pela qual eles dirigem tanto seja também a razão pela qual o aplicativo Waze não atende às suas necessidades específicas, que podem ser diferentes das necessidades de um motorista mais típico, como um commuter (que faz trajetos regulares).

Por fim, examine se há um desequilíbrio na quantidade de usuários que cancelaram a assinatura por tipo de dispositivo.

Comece obtendo as contagens gerais de cada tipo de dispositivo para cada grupo, cancelado e retido.

In [None]:
df.groupby(['device', 'label']).size()

device   label   
Android  churned      891
         retained    4183
iPhone   churned     1645
         retained    7580
dtype: int64

Agora, dentro de cada grupo, cancelado e retido, calcule qual porcentagem era Android e qual porcentagem era iPhone.

`df.groupby('label')`: Inicia o processo de agrupamento dos dados pela coluna 'label', que contém informações sobre se um usuário cancelou ou não a assinatura.

`['device']`: Após o primeiro agrupamento, especifica que queremos realizar um segundo nível de agrupamento pela coluna 'device', que representa o tipo de dispositivo utilizado pelos usuários.

`.value_counts(normalize=True)`: Para cada combinação única de valores nas colunas 'label' e 'device', conta o número de ocorrências. O parâmetro `normalize=True` normaliza os resultados, ou seja, converte as contagens em porcentagens em relação ao total de observações.

In [None]:
df.groupby('label')['device'].value_counts(normalize=True)

label     device 
churned   iPhone     0.648659
          Android    0.351341
retained  iPhone     0.644393
          Android    0.355607
Name: device, dtype: float64

> A proporção de usuários de iPhone e Android é consistente entre o grupo cancelado e o grupo retido, e essas proporções são consistentes com a proporção encontrada no conjunto de dados geral.



## **PACE: Construir**

**Observação**: A etapa de Construção não se aplica a este fluxo de trabalho. O framework PACE pode ser adaptado para atender aos requisitos específicos de qualquer projeto.





## **PACE: Executar**

Considere as perguntas no  documento de estratégia PACE e aquelas abaixo para elaborar a resposta:

### **Tarefa 3. Conclusão**

Lembre-se de que sua supervisora, May Santer, pediu que compartilhasse suas descobertas com a equipe de dados em um resumo executivo. Considere as seguintes perguntas ao se preparar para escrever seu resumo. Pense nos pontos-chave que você deseja compartilhar com a equipe e nas informações mais relevantes para o projeto de retenção de usuários.

**Perguntas:**

1. **O conjunto de dados continha valores ausentes? Quantos e quais variáveis foram afetadas? Houve algum padrão nos dados ausentes?**
   - Sim, o conjunto possui 700 linhas (~5%) valores ausentes na coluna 'label', que representa a retenção ou perda de usuários. Não havia um padrão óbvio nos valores ausentes.

2. **Qual é o benefício de usar o valor mediano de uma amostra em vez da média?**
   - A média é suscetível à influência de valores discrepantes, enquanto a mediana representa o valor central da distribuição independentemente de quaisquer valores discrepantes.

3. **Sua investigação gerou mais perguntas que você gostaria de explorar ou perguntar à equipe da Waze?**
   - A investigação levanta questões sobre o perfil do usuário, especialmente para os super-usuários. Coletar mais dados sobre esses usuários pode revelar necessidades específicas não atendidas pelo aplicativo Waze.

4. **Qual foi a porcentagem de usuários no conjunto de dados que eram usuários Android e qual era a porcentagem de usuários iPhone?**
   - Usuários Android representaram aproximadamente 36% da amostra, enquanto usuários iPhone constituíram cerca de 64%.

5. **Quais foram algumas características distintivas dos usuários que abandonaram em comparação com os usuários retidos?**
   - Geralmente, os usuários que cancelaram dirigiram por distâncias maiores e por mais tempo em menos dias do que os usuários retidos. Eles também utilizaram o aplicativo cerca de metade das vezes em comparação com os usuários retidos no mesmo período.

6. **Houve uma diferença apreciável na taxa de abandono entre os usuários iPhone e Android?**
   - Não. A taxa de cancelamento para usuários de iPhone e Android estava dentro de um ponto percentual uma da outra. Não há nada que sugira que o cancelamento esteja correlacionado com o dispositivo.

   
Essas informações fundamentam futuras explorações e recomendações para a equipe da Waze.




