# **Projeto de Retenção de Usuários no Waze**


Sua equipe do Waze está chegando à metade do projeto para desenvolver um modelo de aprendizado de máquina para prever a rotatividade de usuários.

Até agora, você concluiu uma proposta de projeto e usou Python para explorar e analisar os dados do usuário do Waze. Você também usou Python para criar visualizações de dados. A próxima etapa é usar métodos estatísticos para analisar e interpretar seus dados.

Você recebe um novo e-mail de Sylvester Esperanza, gerente de projeto. Sylvester conta à sua equipe sobre uma nova solicitação da liderança: analisar a relação entre a quantidade média de viagens e o tipo de dispositivo. Você também descobre e-mails de acompanhamento de três outros membros da equipe: May Santner, Chidi Ga e Harriet Hadzic. Esses e-mails discutem os detalhes da análise. Um e-mail final de Chidi inclui sua tarefa específica: conduzir um teste de hipótese de duas amostras.

# **Exploração de dados e teste de hipóteses**

Nesta etapa, você explorará os dados fornecidos e conduzirá um teste de hipóteses.

O objetivo deste projeto é demonstrar o conhecimento de como conduzir um teste de hipóteses de duas amostras.

A meta é aplicar estatísticas descritivas e teste de hipóteses em Python.

<br/>

*Esta etapa tem três partes:*

**Parte 1:** Importações e carregamento de dados
* Quais pacotes de dados serão necessários para o teste de hipóteses?

**Parte 2:** Conduzir o teste de hipóteses
* Como o cálculo de estatísticas descritivas ajudou na análise dos seus dados?

* Como você formulou sua hipótese nula e hipótese alternativa?

**Parte 3:** Comunicar insights com as partes interessadas

* Quais insights de negócios emergiram do seu teste de hipóteses?

* Quais recomendações de negócios você propõe com base nos seus resultados?

<br/>


Siga as instruções e responda às perguntas abaixo para completar a atividade. Em seguida, você elaborará um Resumo Executivo usando as perguntas listadas no Documento de Estratégia PACE.





# **PACE stages**

Ao longo desse projeto, você verá referências ao framework de resolução de problemas PACE.




## **PACE: Planejar**

1. Qual é a sua pergunta de pesquisa para este projeto de dados? Mais tarde, será necessário formular as hipóteses nula e alternativa como o primeiro passo do seu teste de hipóteses. Considere sua pergunta de pesquisa agora, no início desta tarefa.


**Pergunta de pesquisa:**

>"Os motoristas que abrem o aplicativo usando um iPhone têm o mesmo número médio de viagens que os motoristas que usam dispositivos Android?"

*Realize as seguintes tarefas para realizar a análise estatística de seus dados:*

### **Tarefa 1. Importação e carregamento de dados**

In [None]:
import pandas as pd
from scipy import stats

In [None]:
df = pd.read_csv('waze_dataset.csv')



## **PACE: Analisar e Construir**

1. Profissionais de dados utilizam estatísticas descritivas para a Análise Exploratória de Dados (EDA). Como o cálculo de estatísticas descritivas pode ajudá-lo a aprender mais sobre seus dados nesta etapa da sua análise?


Em geral, estatísticas descritivas são úteis porque permitem explorar e compreender rapidamente grandes quantidades de dados. Neste caso, o cálculo de estatísticas descritivas ajuda a comparar rapidamente a quantidade média de viagens por tipo de dispositivo.


### **Tarefa 2. Exploração doa dados**


Utilize estatísticas descritivas para realizar a Análise Exploratória de Dados (EDA).


**Observação:** No conjunto de dados, `device` é uma variável categórica com os valores iPhone e Android.

Para realizar esta análise, é necessário converter cada valor em um número inteiro. O código a seguir atribui 1 para um usuário de iPhone e 2 para Android. Esse rótulo é então associado à variável `device_type`.

**Observação:** Criar uma nova variável é o ideal para que você não substitua os dados originais.



1. Crie um dicionário chamado `map_dictionary` que contenha os valores de classe ('Android' e 'iPhone') como keys e os valores desejados para a conversão (2 e 1) como values.

2. Crie uma nova coluna chamada `device_type`, que é uma cópia da coluna `device`.

3. Use o método [`map()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html#pandas-series-map) na série `device_type`. Passe `map_dictionary` como seu argumento. Reatribua o resultado de volta à série `device_type`.
</br></br>
Ao passar um dicionário para o método `Series.map()`, ele substituirá os dados na série onde esses dados correspondem às chaves do dicionário. Os valores que são imputados são os valores do dicionário.

```
Examplo:
df['coluna']
```

|column |
|  :-:       |
| A     |
| B     |
| A     |
| B     |

```
map_dictionary = {'A': 2, 'B': 1}
df['coluna'] = df['coluna'].map(map_dictionary)
df['coluna']
```

|column |
|  :-: |
| 2    |
| 1    |
| 2    |
| 1    |


In [None]:
# 1. Criando o map_dictionary
map_dictionary = {'Android': 2, 'iPhone': 1}

# 2. Criando a nova coluna device_type
df['device_type'] = df['device']

# 3. Mapeando a nova coluna para o dicionário
df['device_type'] = df['device_type'].map(map_dictionary)

df['device_type'].head()

0    2
1    1
2    2
3    1
4    2
Name: device_type, dtype: int64

Estamos interessados na relação entre o tipo de dispositivo e o número de viagens. Uma abordagem é analisar a média do número de viagens para cada tipo de dispositivo. Calcule essas médias.

In [None]:
df.groupby('device_type')['drives'].mean()

device_type
1    67.859078
2    66.231838
Name: drives, dtype: float64


Com base nas médias apresentadas, parece que os motoristas que usam um dispositivo iPhone para interagir com o aplicativo têm um número maior de viagens em média. No entanto, essa diferença pode surgir de uma amostragem aleatória, em vez de ser uma diferença real no número de viagens. Para avaliar se a diferença é estatisticamente significativa, podemos realizar um teste de hipótese.


### **Tarega 3. Teste de Hipótese**


Seu objetivo é realizar um teste t de duas amostras. Lembre-se dos passos para conduzir um teste de hipótese:

1. Estabelecer a hipótese nula e a hipótese alternativa
2. Escolher um nível de significância
3. Encontrar o valor-p
4. Rejeitar ou falhar em rejeitar a hipótese nula

**Observação**: Este é um teste t para duas amostras independentes, o qual é apropriado, pois os dois grupos são independentes (usuários de Android versus usuários de iPhone).

Lembre-se da diferença entre a hipótese nula ($H_0$) e a hipótese alternativa ($H_A$).

Pergunta: Quais são suas hipóteses para este projeto de dados?


**Hipóteses:**

- $H_0$: Não há diferença no número médio de viagens entre os motoristas que usam dispositivos iPhone e os motoristas que usam Androids.

- $H_A$: Há uma diferença no número médio de viagens entre os motoristas que usam dispositivos iPhone e os motoristas que usam Androids.

A seguir, escolha um nível de significância de 5% e prossiga com um teste t de duas amostras.

Podemos utilizar a função `stats.ttest_ind()` para realizar o teste.


**Nota técnica**: O padrão para o argumento `equal_var` em `stats.ttest_ind()` é `True`, o que pressupõe que as variâncias das populações são iguais. Essa suposição de igualdade de variância pode não ser válida na prática (ou seja, não há uma forte razão para assumir que os dois grupos têm a mesma variância); podemos relaxar essa suposição definindo `equal_var` como `False`, e `stats.ttest_ind()` realizará o teste t de variâncias desiguais (conhecido como teste t de Welch). Consulte a [documentação do teste t do SciPy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html) para obter mais informações.


1. Isolar a coluna `drives` para usuários de iPhone.
2. Isolar a coluna `drives` para usuários de Android.
3. Realizar o teste t.

In [None]:
# 1. Isolando a coluna drives para usuários de iPhone
iPhone = df[df['device_type'] == 1]['drives']

# 2. Isolando a coluna drives para usuários de Android
Android = df[df['device_type'] == 2]['drives']

# 3. Realizando o teste t
stats.ttest_ind(a=iPhone, b=Android, equal_var=False)

TtestResult(statistic=1.463523206885235, pvalue=0.143351972680206, df=11345.066049381952)

**Pergunta:** Com base no valor de p obtido acima, você rejeita ou não rejeita a hipótese nula?

> Como o valor de p é maior que o nível de significância escolhido (0.05), você não rejeita a hipótese nula. Conclui-se que não há uma diferença estatisticamente significativa no número médio de viagens entre motoristas que usam iPhones e motoristas que usam Androids.



## **PACE: Executar**



### **Tarefa 4: Comunique insights aos stakeholders**

Agora que você concluiu seu teste de hipótese, o próximo passo é compartilhar suas descobertas com a equipe de liderança do Waze. Considere a seguinte pergunta ao se preparar para escrever seu resumo executivo:

* Que insights de negócios você pode extrair do resultado do seu teste de hipótese?

> *O insight de negócios chave é que os motoristas que utilizam dispositivos iPhone têm, em média, um número de viagens semelhante aos que utilizam Androids.*

> *Um próximo passo potencial é explorar quais outros fatores influenciam a variação no número de viagens e realizar testes de hipóteses adicionais para obter mais informações sobre o comportamento do usuário. Além disso, mudanças temporárias no marketing ou na interface do usuário do aplicativo Waze podem fornecer mais dados para investigar a rotatividade.*