# Data Visualisation & Statistiques descriptives : Formaliser des KPI

 ## 1) Expliquer ce qu'est un KPI

Le KPI est une variable/métrique permettant d'évaluer la performance. Elle permet d'estimer si un projet se déroule bien.<br/>
L'évolution de cet indicateur permet de visualiser la perfomance dans le but de l'optimiser.

##  2) Importer les librairies pandas et numpy

In [71]:
import pandas as pd
import numpy as np

## 3) Importer le dataset ```eval_data.csv```

In [95]:
data=pd.read_csv('eval_data.csv')

##  4) Afficher les 10 premières lignes du dataset

In [96]:
data.head(10)

Unnamed: 0.1,Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,0,1,1,Chips and Fresh Tomato Salsa,,
1,1,1,1,Izze,[Clementine],$3.39
2,2,1,1,Nantucket Nectar,[Apple],$3.39
3,3,1,1,Chips and Tomatillo-Green Chili Salsa,,
4,4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,6,3,1,Side of Chips,,$1.69
7,7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


##  5) Afficher la dimension du dataset

In [97]:
data.shape

(4622, 6)

## 6) Afficher et décrire les colonnes du dataset

Pour la suite des exercices on ignorera la présence de la première colonne qui correspond à un export de la base de données en .csv avec conservation des index.

In [98]:
data.drop(['Unnamed: 0'], axis='columns',inplace=True)
data.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


In [99]:
data.dtypes

order_id               int64
quantity               int64
item_name             object
choice_description    object
item_price            object
dtype: object

**order_id** : numéro de la commande<br/>
Variable numérique à considérer comme catégories non hiérarchisées, elle ne porte pas d'information numérique.

**quantity** : quantité commandée<br/>
Variable numérique.

**item_name**: produit commandé<br/>
Variable catégorielle non ordonnée.

**choice_description** : composition du produit commandé<br/>
Variable catégorielle non ordonnée.

**item_price** : prix du produit<br/>
Variable numérique.

In [100]:
data.isna().sum()

order_id                 0
quantity                 0
item_name                0
choice_description    1246
item_price             100
dtype: int64

In [101]:
data.insert(data.shape[1],'devise',data['item_price'].str.get(0))
data['item_price']=data['item_price'].str[1:].astype(float)
data['item_price_missing']=data['item_price'].isna()
data
data.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,devise,item_price_missing
0,1,1,Chips and Fresh Tomato Salsa,,,,True
1,1,1,Izze,[Clementine],3.39,$,False
2,1,1,Nantucket Nectar,[Apple],3.39,$,False
3,1,1,Chips and Tomatillo-Green Chili Salsa,,,,True
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98,$,False


In [113]:
data['choice_description']=data['choice_description'].astype('category')
data['item_name']=data['item_name'].astype('category')
data['item_price_missing']=data['item_price_missing'].astype(int)

In [121]:
ordre=data['order_id'].unique()
data['order_id']=(data['order_id'].astype('category').
                        cat.reorder_categories(ordre).
                        cat.as_ordered())

In [123]:
data.dtypes

order_id              category
quantity                 int64
item_name             category
choice_description    category
item_price             float64
devise                  object
item_price_missing       int32
dtype: object

## 7) Afficher les statistiques descriptives du dataset

In [124]:
data.describe()

Unnamed: 0,quantity,item_price,item_price_missing
count,4622.0,4522.0,4622.0
mean,1.075725,7.57655,0.021636
std,0.410186,4.223898,0.145506
min,1.0,1.09,0.0
25%,1.0,3.99,0.0
50%,1.0,8.75,0.0
75%,1.0,9.39,0.0
max,15.0,44.25,1.0


## 8) Quel est l'item le plus commandé

Par le mode :

In [127]:
data['item_name'].mode()

0    Chicken Bowl
Name: item_name, dtype: category
Categories (50, object): ['6 Pack Soft Drink', 'Barbacoa Bowl', 'Barbacoa Burrito', 'Barbacoa Crispy Tacos', ..., 'Veggie Crispy Tacos', 'Veggie Salad', 'Veggie Salad Bowl', 'Veggie Soft Tacos']

En comptant les valeurs :

In [128]:
data['item_name'].value_counts()

Chicken Bowl                             726
Chicken Burrito                          553
Chips and Guacamole                      479
Steak Burrito                            368
Canned Soft Drink                        301
Steak Bowl                               211
Chips                                    211
Bottled Water                            162
Chicken Soft Tacos                       115
Chicken Salad Bowl                       110
Chips and Fresh Tomato Salsa             110
Canned Soda                              104
Side of Chips                            101
Veggie Burrito                            95
Barbacoa Burrito                          91
Veggie Bowl                               85
Carnitas Bowl                             68
Barbacoa Bowl                             66
Carnitas Burrito                          59
Steak Soft Tacos                          55
6 Pack Soft Drink                         54
Chips and Tomatillo Red Chili Salsa       48
Chicken Cr

## 9) Combien d'items ont été comandés au total ?

In [129]:
data['quantity'].sum()

4972

## 10) Combien de chiffre d'affaires a réalisé la société ?

In [130]:
data['item_price'].sum()

34261.16

## 11) Quel est le revenu moyen par commande ?

In [138]:
data_group=data.copy()
data_group=data_group.groupby('order_id')
data_group['item_price'].sum().mean()

18.681112322791716