# Python initialisation : TD

Le but de ce TD est de vous familiariser avec le package pandas pour l'analyse de données et matplotlib pour la visualisation de données.

Nous allons travailler avec un fichier contenant les données d'un jour de ventes dans une chaîne américaine de restauration rapide (Chipotle).

Commençons par importer le package pandas :

In [None]:
import pandas as pd

Puis importons les données dans un DataFrame pandas :

In [None]:
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
df = pd.read_csv(url, sep = '\t') # les données sont séparées par un tab

## Tâche 1 : comprendre les données / nettoyage

Pour commencer, essayons de comprendre la structure des données.

In [None]:
# Afficher les 7 premières lignes du dataframe

Les données contiennent les informations suivantes :

*   `order_id` : l'indice de la commande
*   `quantity` : le nombre de produits commandés
*   `item_name` : le nom du produit commandé
*   `choice_description` : le détail des ingrédients en option
*   `item_price` : le prix total de la commande

Une vente correspondant à un unique client est ainsi représentée par son `order_id`. Chaque item différent du menu que le client correspondant a commandé se retrouve donc sur une ligne séparée. Par exemple, si le client #11 a commandé un sandwich et une boisson, alors la vente #11 est représentée par deux lignes, une pour le sandwich et une pour la boisson, toutes deux avec `order_id=11`.


In [None]:
# Quel est le nombre de lignes dans ce jeu de données ?

In [None]:
# Quel est le nombre de colonnes ?

In [None]:
# Combien de clients différents sont-ils venus ce jour-là ?

In [None]:
# Vérifier s'il y a des données manquantes

In [None]:
# Afficher le nom de toutes les colonnes

In [None]:
# Afficher le type de toutes les colonnes

# Quel est le type de la 5ème colonne ?

La dernière colonne (le prix) est une chaîne de caractères commençant par '\$'. Transformons-la en float. Pour cela, vérifions tout d'abord que tous les éléments commencent bien par '\$'.

Indice : utiliser le package numpy et la fonction np.all() qui vérifie que tous les éléments d'une liste sont True.

In [None]:
import numpy as np

## Tâche 2 : quelques analyses descriptives

Commençons par obtenir la liste de tous les éléments différents du menu vendus ce jour-là.

Quel est le prix moyen d'une vente ? Le nombre moyen d'items par vente ? Attention, il faut commencer par regrouper les ventes par `order_id`.

Indiquer la vente pour laquelle le client a payé le moins et celle pour laquelle il a payé le plus.

Quel item du menu a été le plus vendu ?

Indice : La méthode DataFrame.idxmax() renvoie la ligne du DataFrame correspondant au maximum de la colonne.

Combien de cet item du menu ont été vendus ?

La colonne `item_price` correspond au prix total payé pour chaque item dans une vente donnée. Ce prix est donc égal au prix unitaire de l'item multiplié par la quantité que le client a achetée. Calculer le prix unitaire de chaque item dans chaque commande.

En fonction des options choisies, le prix unitaire du même item peut varier d'une commande à l'autre. Quel est l'intervalle de prix pour chaque item du menu ?

Calculer combien d'items coûtent toujous plus que $8.

Calculer le pourcentage des ventes dû à chaque item du menu.

À quel pourcentage des ventes correspondent les 5 items les plus vendus en nombre ? Les 5 items dont le pourcentage des ventes est le plus haut ?

Un peu plus compliqué : quel est le choix le plus populaire comme accompagnement de "Chicken Bowl" ? Noter que la colonne "choice_description" est de type string.

Indices : si x est de type string, x.replace('c', 'd') remplace toutes les occurences de 'c' par 'd' dans x. x.split('e') divise x selon les occurrences de 'e' dans x en une liste de strings.


Comptons à présent le nombre de fois que chaque accompagnement de "Chicken Bowl" a été choisi.

Pour terminer, calculons le nombre moyen d'accompagnements par burrito.

## Tâche 3 : visualisation des données

Testons maintenant ce qu'on a appris sur matplotlib pour effectuer quelques visualisations simples du jeu de données.

Commençons par afficher la distribution des valeurs de ventes. Jouer par exemple sur le paramètre `bins` (si entier = nombre de barres d'histogrammes, si liste = intervalles des barres).

Il est difficile de bien visualiser la distribution des données. Passons donc en axes logarithmiques. En matplotlib, cela se fait simplement avec la commande `plt.yscale('log')` (de même pour `xscale`), ou bien `ax.set_yscale('log')` si on travaille avec un axe.

Affichons maintenant deux histogrammes côte à côte : celui des valeurs de ventes que nous venons de calculer, et celui des prix moyens de chaque item du menu.

Affichons à présent le nombre de ventes par "item_name" pour les 10 items les plus vendus. Indice : utiliser la fonction `plt.bar()` pour afficher un barplot, qui prend en arguments `x` (les abscisses des rectangles) et `height` (leur hauteur).

Affichons maintenant les noms des items sur l'axe des abscisses. Nous allons utiliser la fonction `plt.xticks(ticks=..., labels=..., rotation=...)` où `ticks` correspond aux abscisses de nos points de données, `labels` à la liste des labels désirés et `rotation` l'angle de rotation.

Pour terminer, introduisons le package `seaborn` qui permet d'obtenir des visualisations plus avancées. Affichons la distribution de prix unitaires pour chaque item parmi les 10 items les plus vendus. On sait que selon l'item, le prix peut varier en fonction des options.