
# # **Projet Waze**
# **Cours 4 - La puissance des statistiques**

# Votre équipe approche de la moitié de son projet sur l'attrition des utilisateurs. Jusqu'à présent, vous avez complété une proposition de projet et utilisé Python pour explorer et analyser les données des utilisateurs de Waze. Vous avez également utilisé Python pour créer des visualisations de données. L'étape suivante consiste à utiliser des méthodes statistiques pour analyser et interpréter vos données.
#
# Vous recevez un nouvel e-mail de Sylvester Esperanza, votre chef de projet. Sylvester informe votre équipe d'une nouvelle demande de la direction : analyser la relation entre la moyenne du nombre de trajets et le type d'appareil. Vous découvrez également des e-mails de suivi de trois autres membres de l'équipe : May Santner, Chidi Ga et Harriet Hadzic. Ces e-mails abordent les détails de l'analyse. Ils souhaitent une analyse statistique des données de trajets en fonction du type d'appareil. En particulier, la direction veut savoir s'il existe une différence statistiquement significative dans la moyenne du nombre de trajets entre les utilisateurs d’iPhone® et les utilisateurs d’Android™. Un dernier e-mail de Chidi inclut votre mission spécifique : réaliser un test d'hypothèse à deux échantillons (test t) pour analyser la différence dans la moyenne du nombre de trajets entre les utilisateurs d’iPhone et d’Android.
#
# Un notebook a été structuré et préparé pour vous aider dans ce projet. Veuillez compléter les questions suivantes et préparer un résumé exécutif.

# # **Projet de fin de cours 4 : Exploration des données et test d'hypothèse**
#
# Dans cette activité, vous allez explorer les données fournies et réaliser un test d'hypothèse.
# <br/>
#
# **L'objectif** de ce projet est de démontrer la connaissance de la réalisation d'un test d'hypothèse à deux échantillons.
#
# **Le but** est d'appliquer des statistiques descriptives et des tests d'hypothèse en Python.
# <br/>
#
# *Cette activité comporte trois parties :*
#
# **Partie 1 :** Importations et chargement des données
# * Quels packages de données seront nécessaires pour réaliser le test d'hypothèse ?
#
# **Partie 2 :** Réalisation du test d'hypothèse
# * Comment le calcul des statistiques descriptives vous a-t-il aidé à analyser vos données ?
#
# * Comment avez-vous formulé votre hypothèse nulle et votre hypothèse alternative ?
#
# **Partie 3 :** Communication des résultats aux parties prenantes
#
# * Quelle(s) information(s) clé(s) sur l'entreprise ont émergé de votre test d'hypothèse ?
#
# * Quelles recommandations commerciales proposez-vous en fonction de vos résultats ?
#
# <br/>
#
#
# Suivez les instructions et répondez aux questions ci-dessous pour compléter l'activité. Ensuite, vous compléterez un résumé exécutif en utilisant les questions listées dans le document de stratégie PACE.
#
# Assurez-vous de compléter cette activité avant de passer à la suite. Le prochain élément du cours vous fournira un exemple complété à comparer avec votre propre travail.
#
#
# Dans [1] :
# Importer les packages et libraries #


In [None]:
import pandas as pd
from scipy import stats

# Importer le jeu de données.
#

# Dans [2] :


# Charger le jeu de données dans un dataframe


In [None]:
df = pd.read_csv('waze_dataset.csv')

# Considérez les questions dans votre document de stratégie PACE et celles ci-dessous pour formuler votre réponse :
# 1. Les professionnels des données utilisent les statistiques descriptives pour l'analyse exploratoire des données (EDA). Comment le calcul des statistiques descriptives peut-il vous aider à en apprendre davantage sur vos données à ce stade de votre analyse ?
#

# **Réponse :**
#
# En général, les statistiques descriptives sont utiles car elles permettent d'explorer et de comprendre rapidement de grandes quantités de données. Dans ce cas, le calcul des statistiques descriptives aide à comparer rapidement le nombre moyen de trajets par type d'appareil.
#

# ### **Tâche 2. Exploration des données**
#
# Utilisez les statistiques descriptives pour réaliser une analyse exploratoire des données (EDA).
#


# **Remarque :** Dans le jeu de données, `device` est une variable catégorielle avec les étiquettes `iPhone` et `Android`.
#
# Afin de réaliser cette analyse, vous devez transformer chaque étiquette en un entier. Le code suivant attribue une valeur `1` pour un utilisateur d’`iPhone` et `2` pour `Android`. Cette valeur est ensuite attribuée à la variable `device_type`.
#
# **Remarque :** Créer une nouvelle variable est idéal pour ne pas écraser les données originales.
#
#

# 1. Créez un dictionnaire appelé `map_dictionary` contenant les étiquettes de classe (`'Android'` et `'iPhone'`) comme clés et les valeurs à leur attribuer (`2` et `1`) comme valeurs.
#
# 2. Créez une nouvelle colonne appelée `device_type` qui est une copie de la colonne `device`.
#
# 3. Utilisez la méthode [`map()`](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html#pandas-series-map) sur la série `device_type`. Passez `map_dictionary` en argument. Réaffectez le résultat à la série `device_type`.
# </br></br>
# Lorsque vous passez un dictionnaire à la méthode `Series.map()`, elle remplace les données dans la série lorsque celles-ci correspondent aux clés du dictionnaire. Les valeurs imputées sont celles du dictionnaire.
#
# ```
# Exemple :
# df['colonne']
# ```
#
# |colonne |
# |  :-:       |
# | A     |
# | B     |
# | A     |
# | B     |
#
# ```
# map_dictionary = {'A': 2, 'B': 1}
# df['colonne'] = df['colonne'].map(map_dictionary)
# df['colonne']
# ```
#
# |colonne |
# |  :-: |
# | 2    |
# | 1    |
# | 2    |
# | 1    |
#

# Dans [3] :
# 1. Créez `map_dictionary`



In [None]:
map_dictionary = {'Android': 2, 'iPhone': 1}

# 2. Créez une nouvelle colonne `device_type`


In [None]:
df['device_type'] = df['device']

# 3. Associez la nouvelle colonne au dictionnaire


In [None]:
df['device_type'] = df['device_type'].map(map_dictionary)

df['device_type'].head()

# Vous êtes intéressé par la relation entre le type d'appareil et le nombre de trajets. Une approche consiste à examiner le nombre moyen de trajets pour chaque type d'appareil. Calculez ces moyennes.

# Dans [4] :


In [None]:
df.groupby('device_type')['drives'].mean()

# Sur la base des moyennes affichées, il semble que les conducteurs utilisant un appareil iPhone pour interagir avec l'application aient un nombre moyen de trajets plus élevé. Cependant, cette différence pourrait résulter d'un échantillonnage aléatoire plutôt que d'une véritable différence dans le nombre de trajets. Pour évaluer si la différence est statistiquement significative, vous pouvez effectuer un test d'hypothèse.

#
# ### **Tâche 3. Test d'hypothèse**

#
#
# Votre objectif est de réaliser un test t pour deux échantillons. Rappelez-vous les étapes pour effectuer un test d'hypothèse :
#
#
# 1.   Énoncer l'hypothèse nulle et l'hypothèse alternative
# 2.   Choisir un niveau de signification
# 3.   Trouver la valeur p
# 4.   Rejeter ou ne pas rejeter l'hypothèse nulle
#
# **Remarque :** Il s'agit d'un test t pour deux échantillons indépendants. C'est le test approprié puisque les deux groupes sont indépendants (utilisateurs Android vs. utilisateurs iPhone).

# Rappelez-vous la différence entre l'hypothèse nulle ($H_0$) et l'hypothèse alternative ($H_A$).
#
# **Question :** Quelles sont vos hypothèses pour ce projet de données ?

#
# **Hypothèses :**
#
# $H_0$ : Il n'y a pas de différence dans le nombre moyen de trajets entre les conducteurs utilisant des appareils iPhone et ceux utilisant des appareils Android.
#
# $H_A$ : Il y a une différence dans le nombre moyen de trajets entre les conducteurs utilisant des appareils iPhone et ceux utilisant des appareils Android.

# Ensuite, choisissez 5 % comme niveau de signification et procédez à un test t pour deux échantillons.
#
# Vous pouvez utiliser la fonction `stats.ttest_ind()` pour effectuer le test.
#
#
# **Remarque technique** : Par défaut, l'argument `equal_var` dans `stats.ttest_ind()` est défini sur `True`, ce qui suppose que les variances des populations sont égales. Cette hypothèse d'égalité des variances peut ne pas être valable en pratique (c'est-à-dire qu'il n'y a aucune raison forte de supposer que les deux groupes ont la même variance) ; vous pouvez assouplir cette hypothèse en définissant `equal_var` sur `False`, et `stats.ttest_ind()` effectuera le test t pour variances inégales (connu sous le nom de test t de Welch). Consultez la [documentation du test t de scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html) pour plus d'informations.
#
#
# 1. Isolez la colonne `drives` pour les utilisateurs d'iPhone.
# 2. Isolez la colonne `drives` pour les utilisateurs d'Android.
# 3. Effectuez le test t

# Dans [5] :


# 1. Isolez la colonne `drives` pour les utilisateurs d'iPhone.


In [None]:
iPhone = df[df['device_type'] == 1]['drives']

# 2. Isolez la colonne `drives` pour les utilisateurs d'Android.





In [None]:
Android = df[df['device_type'] == 2]['drives']

# 3. Effectuez le test t.


In [None]:
stats.ttest_ind(a=iPhone, b=Android, equal_var=False)

# **Question:** En fonction de la p-valeur obtenue ci-dessus, rejetez-vous ou ne rejetez-vous pas l'hypothèse nulle ?
#
# > *Puisque la p-valeur est plus grande que le niveau de signification choisi (5%), vous ne rejetez pas l'hypothèse nulle. Vous concluez qu'il n'y a **pas** de différence statistiquement significative dans le nombre moyen de trajets entre les conducteurs qui utilisent un iPhone et ceux qui utilisent un Android.*
#
# <img src="images/Execute.png" width="100" height="100" align=left>
#
# ## **PACE : Exécution**
#
# Réfléchissez aux questions de votre document de stratégie PACE et à celles ci-dessous pour vous concentrer sur l'étape Exécution.
#
# ### **Tâche 4 : Communiquer les résultats aux parties prenantes**
#
# Maintenant que vous avez complété votre test d'hypothèse, l'étape suivante consiste à partager vos résultats avec l'équipe dirigeante de Waze. Réfléchissez à la question suivante lors de la préparation de votre résumé exécutif :
#
# * Quelles sont les informations commerciales que vous pouvez tirer du résultat de votre test d'hypothèse ?
#
# > *L'information commerciale clé est que les conducteurs qui utilisent des appareils iPhone ont en moyenne un nombre de trajets similaire à ceux qui utilisent Android.*
#
# > *Une étape potentielle suivante serait d'explorer quels autres facteurs influencent la variation du nombre de trajets et de réaliser d'autres tests d'hypothèses pour en savoir plus sur le comportement des utilisateurs. De plus, des changements temporaires dans le marketing ou l'interface utilisateur de l'application Waze pourraient fournir davantage de données pour enquêter sur le taux de désabonnement.*

