# Analyse des ventes
---
<div class="alert alert-block alert-info">
<b>üó£</b>Ce projet est un exemple dont le but est de vous aidez √† envisager les probl√®mes li√©s √† votre entreprise sous l'angle de l'analyse de vos donn√©es. Notre objectif  est de vous d√©montrer que l'extraction de connaissances √† partir de vos donn√©es facilite les prises de d√©cisions et constitue un avantage strat√©gique.
</div>

## Sommaire
Dans cet exemple __nous analyserons les ventes d'une entreprise fictif en ligne d‚Äô√©lectronique localis√© au US__
1. [Pr√©sentation des donn√©es](#load)
2. [Exploration et pr√©paration des donn√©es](#cleanning)
3. [Augment Data with Additional Column](#augment)
4. [Questions](#question)

In [180]:
import os
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
np.random.seed(42)

## 1. Pr√©sentation des donn√©es 
---
Les donn√©es utilis√©es sont collect√©ess √†pres chaque vente aupr√®s des clients de notre entreprise fictif en ligne d‚Äô√©lectronique. Lors d'un achat, on collecte et on sauvegarde des informations sur le client dans une base de donn√©es. Cette base de donn√©es forme le d√©part de notre analyse car elle contient des informations pertinentes sur nos clients, tel que les _produits achet√©s_ par ce dernier, _l'heure d'achat_ o√π encore _l‚Äôadresse de livraison_. En outre, __d√©finir l'ensemble des informations appropri√©es √† collecter sur nos clients afin de mener √† bien une analyse de qualit√© est une √©tape indispensable dans le processus d‚Äôanalyse des donn√©es__. Voici-ci dessous un descriptif des donn√©es collecter pour chaque client dans le cadre de notre exemple.

In [181]:
data = pd.read_csv('all_data.csv')
data.head()

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
0,295665,Macbook Pro Laptop,1,1700.0,12/30/19 00:01,"136 Church St, New York City, NY 10001"
1,295666,LG Washing Machine,1,600.0,12/29/19 07:03,"562 2nd St, New York City, NY 10001"
2,295667,USB-C Charging Cable,1,11.95,12/12/19 18:21,"277 Main St, New York City, NY 10001"
3,295668,27in FHD Monitor,1,149.99,12/22/19 15:13,"410 6th St, San Francisco, CA 94016"
4,295669,USB-C Charging Cable,1,11.95,12/18/19 12:38,"43 Hill St, Atlanta, GA 30301"


‚Ü≥ Le client r√©pertori√© par l'id __295665__ a achet√© un __Macbook Pro__  √† __1700$__ le __30 d√©cembre 2019 √† 00:01__, son adress de livraison est __136 Church St, New York City, NY 10001__ 

### Information Compl√©mentaire sur les donn√©es collect√©es
- __ID__, num√©ro unique d√©finissant le client 
- __Produit__, nom du mat√©riel informatique achet√© 
- __Quantit√© command√©e__, nombre d‚Äôexemplaires vendu
- __Prix__, prix unnitaire de chaque produit
- __Date__, date et heure de l'achat
- __Adresse__, adresse de livraison

‚ö†Ô∏è Si la commande d'un client contient plusieur produit diff√©rents alors chaque produit sera r√©pertori√© sur sa propre ligne. Voir exemple ci-dessous.

In [182]:
data[data[['Order ID','Order Date']].duplicated()][:3]

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
17,295681,USB-C Charging Cable,1,11.95,12/25/19 12:37,"79 Elm St, Boston, MA 02215"
18,295681,Bose SoundSport Headphones,1,99.99,12/25/19 12:37,"79 Elm St, Boston, MA 02215"
19,295681,Wired Headphones,1,11.99,12/25/19 12:37,"79 Elm St, Boston, MA 02215"


‚Ü≥ le client avec l'id 295681 a command√© USB-C Charging Cable, Wired Headphones, Bose SoundSport Headphones 

Apr√®s cette pr√©sentation rapide des donn√©es et avant de visualiser et d'analyser les ventes en ligne, __il est n√©cessaire d'explorer et de pr√©parer notre jeu de donn√©es__. Cet √©tape bien que chronophage est indispensable pour d'obtenir une analyse de qualit√©. Cependant elle apporte peut d‚Äôint√©r√™t pour un lecteur. Si vous ne voulez pas rentrer dans les d√©tails et passer √† la section suivante [cliquez ici]()

# 2. Explorartion et pr√©paration des donn√©es
---
<a id=cleanning></a>
L‚Äôapparition de donn√©es manqunates ou erron√©es est quasi innevitable lors de la collecte.
__Il est donc essentiel d'explorer notre jeu de donn√©es afin de rep√©rer et filtrer les donn√©es inutilisables__.  

In [183]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 186850 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Order ID          186305 non-null  object
 1   Product           186305 non-null  object
 2   Quantity Ordered  186305 non-null  object
 3   Price Each        186305 non-null  object
 4   Order Date        186305 non-null  object
 5   Purchase Address  186305 non-null  object
dtypes: object(6)
memory usage: 8.6+ MB


A l'aide des informations ci-dessus, nous pouvons remarquer que sur les 186 850 lignes de notre base de donn√©es , __nous avons un total de 186 305 ventes, le reste (soit 545 lignes) correspond √† des lignes enti√®res de donn√©es manquantes (NaN)__. Voir la table ci-dessous

In [184]:
data[data.isnull().any(1)] # affiche les lignes de donn√©es manquantes 

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
264,,,,,,
648,,,,,,
680,,,,,,
1385,,,,,,
1495,,,,,,
...,...,...,...,...,...,...
185795,,,,,,
185868,,,,,,
185887,,,,,,
185960,,,,,,


Ces lignes enti√®res de donn√©es manquantes _(NaN)_ n'ont pas d'int√©r√™t et bloquerons notre marge de man≈ìuvre dans les prochaines √©tapes de notre analyse. __Il faut les supprimer!__

In [185]:
data.dropna(how='all',inplace=True) # supprime les lignes manquantes
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 186305 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Order ID          186305 non-null  object
 1   Product           186305 non-null  object
 2   Quantity Ordered  186305 non-null  object
 3   Price Each        186305 non-null  object
 4   Order Date        186305 non-null  object
 5   Purchase Address  186305 non-null  object
dtypes: object(6)
memory usage: 9.9+ MB


Et voila, on a un total de 186 305 lignes pour 186 305 donn√©es non null - pour chaque colonne. __Il n'y a plus de donn√©es manquantes _(NaN)_ dans  notre tableau__

‚ö†Ô∏è Cependant apr√®s investigation, __on remarque qu'il y a d'autre donn√©es erron√©es dans notre tableau__.

In [186]:
data[data['Order Date'].str.contains('Or')]

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
254,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
705,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
1101,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
2875,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
3708,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
...,...,...,...,...,...,...
183671,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
184012,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
184041,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
184275,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address


‚Ü≥ Il semblerait que certaines des lignes collect√©es sont une simple copie du nom des collonnes du tableau. Supprimons les!

In [187]:
data = data[data['Order Date'].str[:2] != 'Or']

In [188]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 185950 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Order ID          185950 non-null  object
 1   Product           185950 non-null  object
 2   Quantity Ordered  185950 non-null  object
 3   Price Each        185950 non-null  object
 4   Order Date        185950 non-null  object
 5   Purchase Address  185950 non-null  object
dtypes: object(6)
memory usage: 9.9+ MB


__Maintenant qu'il n'y a plus de donn√©es erron√©es, nous pouvons convertir chaque collones au format qui lui est le plus adapt√©e__. Pour le moment chaque collone est au format `object`. A l'aide du code ci-dessous nous allons transformer le format de 3 collones:
- les __Quantit√© command√©e__ en `entier` 
- la __Date__ en `datetime`
- le __Prix unitaire__ en `float`

In [189]:
data['Price Each'] = data['Price Each'].astype('float32')
data['Quantity Ordered'] = data['Quantity Ordered'].astype('int32')
data.loc[:,'Order Date'] = pd.to_datetime(data['Order Date'])

In [190]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 185950 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   Order ID          185950 non-null  object        
 1   Product           185950 non-null  object        
 2   Quantity Ordered  185950 non-null  int32         
 3   Price Each        185950 non-null  float32       
 4   Order Date        185950 non-null  datetime64[ns]
 5   Purchase Address  185950 non-null  object        
dtypes: datetime64[ns](1), float32(1), int32(1), object(3)
memory usage: 8.5+ MB


__‚Ü≥ Et voil√†, toutes les donn√©es erron√©es ont √©t√© filtr√©es et les valeurs de chaque colonne ont √©t√© converties dans leurs format le plus adapt√©es! ü•≥__  

# 3. Cr√©ation de nouveau param√®tres <a id=augment><a/>
---

Bien que les donn√©es soient dans un format optimal pour leur exploitation, __nous allons d√©di√© la section suivante √† la creation de nouveaux param√®tres__.  
    
Souvent cr√©√©s √† partir de collones d√©j√† existante nous essayons de cr√©er des param√®tres rendant notre etude plus p√©rtinante. Cette phase souvent appel√© _feature engineering_ est une √©tape r√©cursive qui est complet√© lorsqu'on veut tester la pertinance de nouveau param√®tre dans notre analyse. 

### Mois et Heure

In [191]:
data['Hour'] = data['Order Date'].dt.hour
data.loc[:,'Month_num'] = data['Order Date'].dt.month
month_list = ['Janvier','F√©vrier','Mars','Avril',
         'Mai','Juin','Juillet','Ao√ªt', 'Septembre','Octobre','Novembre', 'D√©cembre']
data['Month'] =  data['Month_num'].apply(lambda x: month_list[x-1])
data.head()

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address,Hour,Month_num,Month
0,295665,Macbook Pro Laptop,1,1700.0,2019-12-30 00:01:00,"136 Church St, New York City, NY 10001",0,12,D√©cembre
1,295666,LG Washing Machine,1,600.0,2019-12-29 07:03:00,"562 2nd St, New York City, NY 10001",7,12,D√©cembre
2,295667,USB-C Charging Cable,1,11.95,2019-12-12 18:21:00,"277 Main St, New York City, NY 10001",18,12,D√©cembre
3,295668,27in FHD Monitor,1,149.990005,2019-12-22 15:13:00,"410 6th St, San Francisco, CA 94016",15,12,D√©cembre
4,295669,USB-C Charging Cable,1,11.95,2019-12-18 12:38:00,"43 Hill St, Atlanta, GA 30301",12,12,D√©cembre


### Prix global

In [192]:
data['Sales'] = data['Price Each'] * data['Quantity Ordered']
data.head()

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address,Hour,Month_num,Month,Sales
0,295665,Macbook Pro Laptop,1,1700.0,2019-12-30 00:01:00,"136 Church St, New York City, NY 10001",0,12,D√©cembre,1700.0
1,295666,LG Washing Machine,1,600.0,2019-12-29 07:03:00,"562 2nd St, New York City, NY 10001",7,12,D√©cembre,600.0
2,295667,USB-C Charging Cable,1,11.95,2019-12-12 18:21:00,"277 Main St, New York City, NY 10001",18,12,D√©cembre,11.95
3,295668,27in FHD Monitor,1,149.990005,2019-12-22 15:13:00,"410 6th St, San Francisco, CA 94016",15,12,D√©cembre,149.990005
4,295669,USB-C Charging Cable,1,11.95,2019-12-18 12:38:00,"43 Hill St, Atlanta, GA 30301",12,12,D√©cembre,11.95


### Ville et √âtat

In [193]:
def get_city(adress):
    return adress.split(',')[1]

def get_state(adress):
    return adress.split(',')[2].split(' ')[1]

data['City'] = data['Purchase Address'].apply(lambda x:f'{get_city(x)} ({get_state(x)})')
data.head()

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address,Hour,Month_num,Month,Sales,City
0,295665,Macbook Pro Laptop,1,1700.0,2019-12-30 00:01:00,"136 Church St, New York City, NY 10001",0,12,D√©cembre,1700.0,New York City (NY)
1,295666,LG Washing Machine,1,600.0,2019-12-29 07:03:00,"562 2nd St, New York City, NY 10001",7,12,D√©cembre,600.0,New York City (NY)
2,295667,USB-C Charging Cable,1,11.95,2019-12-12 18:21:00,"277 Main St, New York City, NY 10001",18,12,D√©cembre,11.95,New York City (NY)
3,295668,27in FHD Monitor,1,149.990005,2019-12-22 15:13:00,"410 6th St, San Francisco, CA 94016",15,12,D√©cembre,149.990005,San Francisco (CA)
4,295669,USB-C Charging Cable,1,11.95,2019-12-18 12:38:00,"43 Hill St, Atlanta, GA 30301",12,12,D√©cembre,11.95,Atlanta (GA)


### Latitude et Longitude

In [217]:
from geopy.geocoders import Nominatim
geolocator = Nominatim(user_agent="rasseax@gmail.com")
lat_long = {city:(geolocator.geocode(city).latitude,geolocator.geocode(city).longitude) 
            for city in data['City'].unique()}

In [218]:
data['lat'] = data['City'].apply(lambda city: lat_long[city][0])
data['long'] = data['City'].apply(lambda city: lat_long[city][1])

---
# 4. Questions
<a id=question><a/>

## Quel a √©t√© le meilleur mois de vente ? Combien a-t-on gagn√© ce mois-l√† ?

In [194]:
sale_per_month = data.groupby(['Month_num', 'Month'])['Sales'].sum()
sale_per_month.sort_values(ascending=False)

Month_num  Month    
12         D√©cembre     4.613443e+06
10         Octobre      3.736727e+06
4          Avril        3.390670e+06
11         Novembre     3.199603e+06
5          Mai          3.152607e+06
3          Mars         2.807100e+06
7          Juillet      2.647776e+06
6          Juin         2.577802e+06
8          Ao√ªt         2.244468e+06
2          F√©vrier      2.202022e+06
9          Septembre    2.097560e+06
1          Janvier      1.822257e+06
Name: Sales, dtype: float64

‚Ü≥ Les ventes du mois de d√©cembre sont le meilleurs avec des ventes √† 4.61 M de dollars il surpasse de 15% le 2eme mois le plus prolifique, Octobre. Quant au mois le moins rentable il s'agit du mois de Janvier avec 1.8 M$ de ventes soit 2XX % moins que le mois de decembre 

In [195]:
best_sale = go.Figure(go.Bar(x = sale_per_month.index.get_level_values(1), y = sale_per_month))
best_sale.update_layout(showlegend=False, hovermode="x unified", title = "Total des ventes par mois")
best_sale.update_yaxes(title= 'Ventes en  USD($)')
best_sale.update_xaxes(title= None)
best_sale.show()

---
## Quelle est la ville qui a r√©alis√© le plus grand nombre de ventes ?

In [196]:
city_sales = data.groupby('City').sum()['Sales']
city_sales

City
 Atlanta (GA)          2.795499e+06
 Austin (TX)           1.819582e+06
 Boston (MA)           3.661642e+06
 Dallas (TX)           2.767975e+06
 Los Angeles (CA)      5.452571e+06
 New York City (NY)    4.664317e+06
 Portland (ME)         4.497583e+05
 Portland (OR)         1.870732e+06
 San Francisco (CA)    8.262204e+06
 Seattle (WA)          2.747755e+06
Name: Sales, dtype: float64

In [210]:
best_city = go.Figure(go.Bar(x = city_sales.index, y = city_sales))
best_city.update_layout(showlegend=False, hovermode="x unified", 
                        title = "Total des ventes durant l‚Äôann√©e par ville")
best_city.update_yaxes(title= 'Ventes en  USD($)')
best_city.update_xaxes(title= 'Ventes par ville', showticklabels=False)
best_city.show()

### vision geographique

In [223]:
data['State'] = data['Purchase Address'].apply(lambda x:f'{get_state(x)}')

# get acess to mapbox
with open('mapbox_token.txt') as f:
    lines=[x.rstrip() for x in f]
    
mapbox_access_token = lines[0]
px.set_mapbox_access_token(mapbox_access_token)

In [229]:
test = data.groupby(['City','lat','long']).sum()['Sales'].reset_index()
test

Unnamed: 0,City,lat,long,Sales
0,Atlanta (GA),33.749099,-84.390185,2795499.0
1,Austin (TX),30.271129,-97.7437,1819582.0
2,Boston (MA),42.360253,-71.058291,3661642.0
3,Dallas (TX),32.776272,-96.796856,2767975.0
4,Los Angeles (CA),34.053691,-118.242767,5452571.0
5,New York City (NY),40.712728,-74.006015,4664317.0
6,Portland (ME),29.065489,-110.971705,449758.3
7,Portland (OR),45.520247,-122.674195,1870732.0
8,San Francisco (CA),46.844325,-71.274327,8262204.0
9,Seattle (WA),47.603832,-122.330062,2747755.0


In [239]:
fig = px.scatter_mapbox(test, lat="lat", lon="long", size="Sales", zoom=3)
fig.show()

ne semble pas √™tre super pr√©cis 

In [240]:
# ne marche pas
map_plot = go.Figure(go.Scattermapbox(
        lat = test['lat'], 
        lon = test['long'],
        marker = go.scattermapbox.Marker(size= test['Sales']),
                        ))
map_plot.show()

---
## What time we should display advertisement to maximize likelihood of customer's buying product?

In [None]:
buying_hours = data.groupby('Hour').sum()['Quantity Ordered']
buying_hours.sort_values(ascending=False)

In [None]:
plt.figure(figsize=(10,8))
buying_hours.plot.bar()
plt.title('Quantity of purchase per hours', fontsize=20)
plt.ylabel('Quantity ordered', fontsize=16)
plt.xlabel('Hour', fontsize=16)
plt.xticks(rotation= 0)
save_fig('quantity_ordered_per_hours')
plt.show()

---
## What products are more often solde together?

In [None]:
# drop the command of only one product
multi_purchase = data[data['Order ID'].duplicated(keep=False)]

In [None]:
# gather in one cell all article purchase by 'Order ID'
multi_purchase.loc[:,'Grouped'] = multi_purchase.groupby('Order ID')['Product'].transform(lambda x: ','.join(x))

In [None]:
# drop the duplicate ID
multi_purchase = multi_purchase.drop_duplicates(subset='Order ID')
multi_purchase.head()

In [None]:
# Count the number of combination 
from itertools import combinations
from collections import Counter

count = Counter()

for row in multi_purchase['Grouped']:
    row_list = row.split(',')
    count.update(Counter(combinations(row_list, 2)))

for key,value in count.most_common(10):
    print(key, value)

 ‚Ü≥ Referenced: [stackoverflow](https://stackoverflow.com/questions/52195887/counting-unique-pairs-of-numbers-into-a-python-dictionary)

---
### What product sold the most? Why do you think it sold the most?

In [None]:
product_sales = data.groupby('Product').sum()['Quantity Ordered']
product_sales

In [None]:
plt.figure(figsize=(10,8))
product_sales.plot.bar()
plt.title('The product sold the most', fontsize=20)
plt.ylabel('Quantity Ordered', fontsize=16)
save_fig('product_sold_the_most')
plt.show()

In [None]:
prices = data.groupby('Product').mean()['Price Each']

In [None]:
fig, ax1 = plt.subplots(figsize=(10,8))
ax2 = ax1.twinx()
ax2.plot(prices.index, prices, color='r')
ax1.bar(product_sales.index, product_sales, color='b',alpha=0.6)

ax1.set_ylabel('Quantity Ordered', color='b')
ax2.set_ylabel('Price ($)', color='r')
ax1.set_xticklabels(prices.index, rotation='vertical', size=8)
save_fig('Most_saled_product')