# Analyse des ventes
---
<div class="alert alert-block alert-info">
<b>🗣</b>Ce projet est un exemple dont le but est de vous aidez à envisager les problèmes liés à votre entreprise sous l'angle de l'analyse de vos données. Notre objectif  est de vous démontrer que l'extraction de connaissances à partir de vos données facilite les prises de décisions et constitue un avantage stratégique.
</div>

## Sommaire
A titre d'exemple, __nous analysons les ventes d'une entreprise fictif en ligne d’électronique localisée au US__.
1. [Présentation des données](#load)
2. [Exploration et préparation des données](#cleanning)
3. [Augment Data with Additional Column](#augment)
4. [Questions](#question)

In [50]:
import os
import pandas as pd
import numpy as np
import plotly.express as px
np.random.seed(42)

## 1. Présentation des données 
---

A titre d'exemple, __nous analysons les ventes d'une entreprise fictif en ligne d’électronique localisée au US__. Lorsqu'un achat est réalisé en ligne, des informations sur le client sont collectées et sauvegardées dans une base de données. Cette base de données forme le départ de notre analyse car elle contient des informations pertinentes sur nos clients, tel que les _produits achetés_ par ce dernier, _l'heure d'achat_ où encore _l’adresse de livraison_. En outre, __définir l'ensemble des informations appropriées à collecter sur nos clients afin de mener à bien une analyse de qualité est une étape indispensable dans le processus d’analyse des données__. Voici-ci dessous un descriptif des données collecter pour chaque client dans le cadre de notre exemple.

In [51]:
data = pd.read_csv('all_data.csv')
data.head()

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
0,295665,Macbook Pro Laptop,1,1700.0,12/30/19 00:01,"136 Church St, New York City, NY 10001"
1,295666,LG Washing Machine,1,600.0,12/29/19 07:03,"562 2nd St, New York City, NY 10001"
2,295667,USB-C Charging Cable,1,11.95,12/12/19 18:21,"277 Main St, New York City, NY 10001"
3,295668,27in FHD Monitor,1,149.99,12/22/19 15:13,"410 6th St, San Francisco, CA 94016"
4,295669,USB-C Charging Cable,1,11.95,12/18/19 12:38,"43 Hill St, Atlanta, GA 30301"


### Information Complémentaire sur les données collectées
- __ID__, numéro unique définissant le client 
- __Produit__, nom du matériel informatique acheté 
- __Quantité commandée__, nombre d’exemplaires vendu
- __Prix__, prix unnitaire de chaque produit
- __Date__, date et heure de l'achat
- __Adresse__, adresse de livraison

__Avant d'analyser les ventes en ligne de notre entreprise il est nécessaire d'explorer et de préparer nos données__. Cet étape est indispensable et souvent fastidieuse, elle jouera un role prépondérant dans la qualité de notre analyse.

---
# 2. Explorartion et préparation des données
<a id=cleanning></a>
L’apparition de données manqunates ou erronées est quasi innevitable lors de la collecte.
__Il est donc essentiel d'explorer notre jeu de données afin de repérer et filtrer les données inutilisables__ 

In [52]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 186850 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Order ID          186305 non-null  object
 1   Product           186305 non-null  object
 2   Quantity Ordered  186305 non-null  object
 3   Price Each        186305 non-null  object
 4   Order Date        186305 non-null  object
 5   Purchase Address  186305 non-null  object
dtypes: object(6)
memory usage: 8.6+ MB


Nous pouvons remarquer que sur les 186 850 lignes de notre base de données , __nous avons un total de 186 305 ventes, le reste (soit 545 lignes) correspond à des lignes entieres de données manquantes (NaN)__. Voir la table ci-dessous

In [53]:
data[data.isnull().any(1)] # affiche les lignes de données manquantes 

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
264,,,,,,
648,,,,,,
680,,,,,,
1385,,,,,,
1495,,,,,,
...,...,...,...,...,...,...
185795,,,,,,
185868,,,,,,
185887,,,,,,
185960,,,,,,


Ces lignes entières de données manquantes(NaN) n'ont pas d'intérêt et bloquerons notre marge de manœuvre dans les prochaines étapes de notre analyse. __Il faut les supprimer!__

In [54]:
data.dropna(how='all',inplace=True) # supprime les lignes manquantes
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 186305 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Order ID          186305 non-null  object
 1   Product           186305 non-null  object
 2   Quantity Ordered  186305 non-null  object
 3   Price Each        186305 non-null  object
 4   Order Date        186305 non-null  object
 5   Purchase Address  186305 non-null  object
dtypes: object(6)
memory usage: 9.9+ MB


Et voila, on a un total de 186 305 lignes pour 186 305 données non null - pour chaque colonne. __Il n'y a plus de données manquantes(NaN) dans  notre tableau 🥳__

Cependant après investigation, __on remarque qu'il y a d'autre données erronées dans notre tableau__ que nous allons supprimer. Voir les deux cellules ci-dessous

In [55]:
data[data['Order Date'].str.contains('Or')]

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
254,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
705,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
1101,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
2875,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
3708,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
...,...,...,...,...,...,...
183671,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
184012,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
184041,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
184275,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address


In [56]:
data = data[data['Order Date'].str[:2] != 'Or']

In [57]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 185950 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Order ID          185950 non-null  object
 1   Product           185950 non-null  object
 2   Quantity Ordered  185950 non-null  object
 3   Price Each        185950 non-null  object
 4   Order Date        185950 non-null  object
 5   Purchase Address  185950 non-null  object
dtypes: object(6)
memory usage: 9.9+ MB


Une fois que toutes les données erronées sont filtrées __nous pouvons convertir chaque collones au format le plus adapté__, c'est à dire entier pour les quantité commander ou float pour le prix unitaire !

In [60]:
data['Price Each'] = data['Price Each'].astype('float32')
data['Quantity Ordered'] = data['Quantity Ordered'].astype('int32')
data.loc[:,'Order Date'] = pd.to_datetime(data['Order Date'])

In [61]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 185950 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   Order ID          185950 non-null  object        
 1   Product           185950 non-null  object        
 2   Quantity Ordered  185950 non-null  int32         
 3   Price Each        185950 non-null  float32       
 4   Order Date        185950 non-null  datetime64[ns]
 5   Purchase Address  185950 non-null  object        
dtypes: datetime64[ns](1), float32(1), int32(1), object(3)
memory usage: 8.5+ MB


Une meilleure connaissance des données nous permet d'augmenter nos idées lors de l'analyse en creeant de nouveau paramètres ! Ce procédé est recursif et peut etre develloper lorsque l'on obtient de nouvelle idee lors de l'analyse

---
# 3. Augment Data with Additional Column
<a id=augment><a/>

### Month and Hour

In [None]:
data.loc[:,'Month'] = data['Order Date'].dt.month
data['Hour'] = data['Order Date'].dt.hour
data.head()

### Total Price

In [None]:
data['Sales'] = data['Price Each'] * data['Quantity Ordered']
data.head()

### City and State

In [None]:
def get_city(adress):
    return adress.split(',')[1]

def get_state(adress):
    return adress.split(',')[2].split(' ')[1]

data['City'] = data['Purchase Address'].apply(lambda x:f'{get_city(x)} ({get_state(x)})')
data.head()

**we can also use**: more efficient / less readable:
```python
data['City'] = data['Purchase Address'].str.split(',').str.get(1) 
data['State'] = data['Purchase Address'].str.split(',').str.get(2).str.split(' ').get(0)
```

---
# 4. Questions
<a id=question><a/>

## What was the best month of sales? How much was earn that month?

In [None]:
sale_per_month = data.groupby('Month')['Sales'].sum()
sale_per_month.sort_values(ascending=False)

In [None]:
plt.figure(figsize=(10,8))
sale_per_month.plot.bar()
plt.ylabel('Sales in USD ($)', fontsize=16)
plt.xlabel('Month number', fontsize=16)
plt.title('Total Sales per Month', fontsize=20)
save_fig('Sale_per_each_month')
plt.show()

---
## What city had the highest number of sales?

In [None]:
city_sales = data.groupby('City').sum()['Sales']
city_sales

In [None]:
plt.figure(figsize= (10,8))
city_sales.plot.bar()
plt.xlabel('City',fontsize =16)
plt.ylabel('Sales in USD ($)', fontsize=16)
plt.title('Sales in Millions by City', fontsize=20)
save_fig('Sales_by_City')
plt.show()

---
## What time we should display advertisement to maximize likelihood of customer's buying product?

In [None]:
buying_hours = data.groupby('Hour').sum()['Quantity Ordered']
buying_hours.sort_values(ascending=False)

In [None]:
plt.figure(figsize=(10,8))
buying_hours.plot.bar()
plt.title('Quantity of purchase per hours', fontsize=20)
plt.ylabel('Quantity ordered', fontsize=16)
plt.xlabel('Hour', fontsize=16)
plt.xticks(rotation= 0)
save_fig('quantity_ordered_per_hours')
plt.show()

---
## What products are more often solde together?

In [None]:
# drop the command of only one product
multi_purchase = data[data['Order ID'].duplicated(keep=False)]

In [None]:
# gather in one cell all article purchase by 'Order ID'
multi_purchase.loc[:,'Grouped'] = multi_purchase.groupby('Order ID')['Product'].transform(lambda x: ','.join(x))

In [None]:
# drop the duplicate ID
multi_purchase = multi_purchase.drop_duplicates(subset='Order ID')
multi_purchase.head()

In [None]:
# Count the number of combination 
from itertools import combinations
from collections import Counter

count = Counter()

for row in multi_purchase['Grouped']:
    row_list = row.split(',')
    count.update(Counter(combinations(row_list, 2)))

for key,value in count.most_common(10):
    print(key, value)

 ↳ Referenced: [stackoverflow](https://stackoverflow.com/questions/52195887/counting-unique-pairs-of-numbers-into-a-python-dictionary)

---
### What product sold the most? Why do you think it sold the most?

In [None]:
product_sales = data.groupby('Product').sum()['Quantity Ordered']
product_sales

In [None]:
plt.figure(figsize=(10,8))
product_sales.plot.bar()
plt.title('The product sold the most', fontsize=20)
plt.ylabel('Quantity Ordered', fontsize=16)
save_fig('product_sold_the_most')
plt.show()

In [None]:
prices = data.groupby('Product').mean()['Price Each']

In [None]:
fig, ax1 = plt.subplots(figsize=(10,8))
ax2 = ax1.twinx()
ax2.plot(prices.index, prices, color='r')
ax1.bar(product_sales.index, product_sales, color='b',alpha=0.6)

ax1.set_ylabel('Quantity Ordered', color='b')
ax2.set_ylabel('Price ($)', color='r')
ax1.set_xticklabels(prices.index, rotation='vertical', size=8)
save_fig('Most_saled_product')