
# Data Manipulation

## Dataset

Dans ce TP, nous allons manipuler un dataset de commandes passées dans des restaurants d'une même chaîne. Le dataset contient des informations sur les commandes, les restaurants, les clients, les dates, les serveurs, *etc*.

1. Charger le fichier `tiller-order.csv` dans un DataFrame nommé `df_orders`

### Découverte des données

2. Afficher les 5 premières lignes de ce dataframe

3. Que représente une ligne de ce dataframe ? Quelles informations pouvez-vous trouver ?

Les commandes d'une chaîne de restaurants. On y trouve des informations sur les commandes, les restaurants, les clients, les dates, les serveurs, *etc*.

4. Combien y-a-t'il de commandes dans ce dataframe ? Combien de colonnes ?

#### Sélection de colonnes

5. Sélectionner seulement les colonnes `id_order`, `id_store`, `date_opened` et `date_closed` de ce DataFrame et sauvegarder le résultat dans une variable `df_sub`

#### Sélection de lignes

6. Filtrer `df_sub` seulement sur les lignes concernant l'`id_store` 4542. Combien y-a-t'il eu de commandes dans ce restaurant ?

### Analyse de données

7. En reprenant le DataFrame initial, quels sont les différents statuts possibles d'une commande ? Combien de commandes y-a-t'il par statut ?

8. Quelle est la proportion des commandes dont le status est CLOSE ?

9. Combien y a-t-il de restaurants dans ces données ? Quels sont leurs `id_store` ?

10. Calculer le chiffre d'affaires par restaurant. Quel restaurant a le chiffre d'affaires le plus élevé ?

11. Compter le nombre de commandes par restaurant. Quel restaurant a eu le plus de commandes dans ces données ? Est-ce le même que celui qui a le chiffre d'affaires le plus élevé ?



12. Calculer le prix moyen d'une commande pour chaque restaurant. Pensez-vous que vous êtes face aux mêmes types de restaurants ?

13. Le problème est qu'une commande peut être passée pour plusieurs personnes. On souhaite plutôt connaître le prix dépensé en moyenne par une personne dans le restaurant.

À partir du dataframe initial, ajouter une colonne représentant le prix de la commande par client.

13. En utilisant la colonne précédente, calculer le prix moyen dépensé par chaque personne dans chacun des restaurants.

14. Il semblerait qu'il y ait des problèmes de données, car pour certains restaurants le prix moyen est `inf` ...

Avez-vous une idée du pourquoi ?

Modifier les incohérences dans le dataset en remplaçant les valeurs à 0 de la colonne `m_nb_customer` par 1 puis supprimer les lignes dont la colonne `m_cached_price` est à 0

15. Recalculer la colonne `price_per_customer` et le prix moyen dépensé par chaque personne d'un restaurant.

### Analyse temporelle

Le restaurant 7965 a un prix par personne plus élevé que le reste. Regardons le temps passé à table pour savoir si celui-ci peut correspondre à un grand restaurant.

16. *Caster* les colonnes date_opened et date_closed en format datetime

17. Exécuter le code ci-dessous pour calculer le temps passé entre la date d'ouverture et fermeture d'une commande en minutes.

18. Calculer le temps moyen à table pour chacun des restaurants.

Il semblerait qu'il n'y ait pas des restaurants de type restauration rapide ! Les durées de commandes ouvertes sont relativement courtes.

### Opérations de jointures

19. Télécharger les données de `tiller-order-line.xlsx`. Charger les avec Pandas.

20. À quelles nouvelles informations avez-vous accès grâce à ces données ?

Les lignes de dé&tail de chaque commande, les items commandés, les quantités, les prix unitaires, etc.

21. Fusionner les deux dataset sur la colonne `id_order` pour obtenir un DataFrame contenant les informations des commandes et des lignes de commande. Sauvegarder le résultat dans une variable `df_order_detail`.

22. Prenons le restaurant 1796. Son temps moyen de commande était très court.

Afficher les items les plus commandés dans ce restaurant.

S'agit-il d'un restaurant rapide du midi selon vous ?

### Nettoyage de données


23. On voit que certains types ne sont pas cohérents. Trouvez-en un exemple et corrigez-le.

24. Sauvegarder le dataframe `df_order` dans un fichier parquet nommé `df_order.parquet`.

## Pandas et SQL

Pandas peut lire et écrire des données dans une base de données SQL. Cela permet de manipuler des données stockées dans une base de données relationnelle avec la syntaxe Pandas et en extraire des Dataframes.

25. Lancer un serveur MySQL dans un conteneur Docker avec le mot de passe `motdepasse` pour l'utilisateur root. Le port 3307 doit être exposé et libre.

In [None]:
!docker run --name mysql-pydata -e MYSQL_ROOT_PASSWORD=motdepasse -p 3307:3306 -d mysql:latest

26. Installer le connecteur MySQL pour Python et SQLAlchemy

In [None]:
!pip install mysql-connector-python sqlalchemy

27. Le restaurant 7965 fais de la BI (PowerBi, Web, Cognos, *etc*) à partir d'une base SQL. Ils souhaitent avoir deux tables à partir des datasets précédents:
- Une table `orders` contenant les informations des commandes, avec les colonnes `id_order`, `id_store`, `date_opened`, `date_closed`, `dim_status`, `m_cached_payed`
- Une table `order_lines` contenant les informations des lignes de commande, avec les colonnes `id_order`, `dim_name`, `m_cached_price`

Écrire le code qui permet de créer ces deux tables dans la base de données MySQL `tiller `et y insérer les données à partir du ou des DataFrames.
Faire attention aux types de données, notamment pour les dates et les nombres.

Voir la documentation correspondante dans Pandas : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html

28. Pandas permet également de lire des données depuis une base de données SQL et de retourner ces donées dans un DataFrame. Vérifier l'insertion en base des données dans les tables `orders` et `order_lines` de la base de données `tiller` en les retournant dans des DataFrames nommés `df_7965_orders_from_sql` et `df_7965_order_lines_from_sql`.

29. Générer un rapport d'analyse exploratoire des données à partir du DataFrame `df_orders` en utilisant la librairie `ydata-profiling`.