# Transformation Digitale

Le but de ce projet est d'accompagner le marchand de vins de renom dans sa ***transformation digitale*** afin que ces ventes sur Internet soient prises en compte et surtout de valoriser ce marché du numérique qui offre plusieurs opportunités.

Mon rôle étant que Data Scientist est de l'aider à bâtir des outils nécessaires pour l'analyse de ces ventes sur Internet qui, jusques là étaient impossibles d'analyser pour manque de rapprochement entre les exports des tables de ventes sur Internet et ceux fait hors ligne.

![caviste](https://www.espacemarconi.fr/wp-content/uploads/2019/04/espace-marconi-459-1080x675.jpg)

## 1. Collecte de données

- Importation des librairies nécessaires au travail

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Pour afficher toutes les colonnes
pd.set_option("display.max_columns", None)

- Chargment de données

In [5]:
# Charger les données du web
web = pd.read_excel("web.xlsx")

# Charger les données de liaison
liaison = pd.read_excel("liaison.xlsx")

# Charger les références des produits
references = pd.read_excel("erp.xlsx")

  warn(msg)
  warn(msg)
  warn(msg)


- Quelques informations sur les données à notre disposition

In [6]:
# Afficher le nombre de lignes et de colonnes des données
print(f"La base des données web fait : {web.shape[0]} lignes",
      f"et {web.shape[1]} colonnes\n")
# Afficher les 3 premières lignes des données du web
web.head(3)

La base des données web fait : 1513 lignes et 28 colonnes



Unnamed: 0,sku,virtual,downloadable,rating_count,average_rating,total_sales,tax_status,tax_class,post_author,post_date,post_date_gmt,post_content,post_title,post_excerpt,post_status,comment_status,ping_status,post_password,post_name,post_modified,post_modified_gmt,post_content_filtered,post_parent,guid,menu_order,post_type,post_mime_type,comment_count
0,bon-cadeau-25-euros,0,0,0,0.0,10.0,taxable,,1.0,2018-06-01 13:53:46,2018-06-01 11:53:46,,Bon cadeau de 25€,"<span style=""color: #a85253;""><strong>Parlons ...",publish,closed,closed,,bon-cadeau-de-25-euros,2018-06-01 14:13:57,2018-06-01 12:13:57,,0.0,https://www.wine-spirit.fr/?post_type=product&...,0.0,product,,0.0
1,15298,0,0,0,0.0,6.0,taxable,,2.0,2018-02-08 12:58:52,2018-02-08 11:58:52,,Pierre Jean Villa Saint-Joseph Préface 2018,"Il exhale un nez subtil, racé avec du poivre f...",publish,closed,closed,,pierre-jean-villa-saint-joseph-preface-2018,2019-12-30 09:30:29,2019-12-30 08:30:29,,0.0,https://www.wine-spirit.fr/?post_type=product&...,0.0,product,,0.0
2,15296,0,0,0,0.0,0.0,taxable,,2.0,2018-02-08 13:49:41,2018-02-08 12:49:41,,Pierre Jean Villa Saint-Joseph Rouge Tildé 2017,Les vieilles vignes lui apportent une rare pro...,publish,closed,closed,,pierre-jean-villa-saint-joseph-tilde-2017,2019-12-21 09:00:17,2019-12-21 08:00:17,,0.0,https://www.wine-spirit.fr/?post_type=product&...,0.0,product,,0.0


In [7]:
# Afficher le nombre de lignes et de colonnes des données
print(f"La base fait : {liaison.shape[0]} lignes et {liaison.shape[1]} colonnes\n")
# Afficher les 5 premières lignes des données du web
liaison.head()

La base fait : 825 lignes et 2 colonnes



Unnamed: 0,product_id,id_web
0,3847,15298
1,3849,15296
2,3850,15300
3,4032,19814
4,4039,19815


In [8]:
# Afficher le nombre de lignes et de colonnes des données
print(f"La base fait : {references.shape[0]} lignes et {references.shape[1]} colonnes\n")
# Afficher les 5 premières lignes des données du web
references.head()

La base fait : 825 lignes et 5 colonnes



Unnamed: 0,product_id,onsale_web,price,stock_quantity,stock_status
0,3847,1,24.2,0,outofstock
1,3849,1,34.3,0,outofstock
2,3850,1,20.8,0,outofstock
3,4032,1,14.1,0,outofstock
4,4039,1,46.0,0,outofstock


## 2. Constitution de l'ensemble des données finales

In [9]:
# Concatener les deux DataFrames partageant la colonne "product_id"
references = references.merge(liaison, on="product_id", how="inner")

- Vérification des modifications apportées

In [10]:
# Afficher le nombre de lignes et de colonnes des données
print(f"La nouvelle base fait : {references.shape[0]} lignes et {references.shape[1]} colonnes\n")
# Afficher les 5 premières lignes des données du web
references.head()

La nouvelle base fait : 825 lignes et 6 colonnes



Unnamed: 0,product_id,onsale_web,price,stock_quantity,stock_status,id_web
0,3847,1,24.2,0,outofstock,15298
1,3849,1,34.3,0,outofstock,15296
2,3850,1,20.8,0,outofstock,15300
3,4032,1,14.1,0,outofstock,19814
4,4039,1,46.0,0,outofstock,19815


- Renommage de la colonne "sku" des données web en "id_web"

In [11]:
# Changer "sku" en "id_web"
web.rename({"sku":"id_web"}, axis=1, inplace=True)

In [12]:
# Vérifier les nouvelles colonnes des données web
web.columns

Index(['id_web', 'virtual', 'downloadable', 'rating_count', 'average_rating',
       'total_sales', 'tax_status', 'tax_class', 'post_author', 'post_date',
       'post_date_gmt', 'post_content', 'post_title', 'post_excerpt',
       'post_status', 'comment_status', 'ping_status', 'post_password',
       'post_name', 'post_modified', 'post_modified_gmt',
       'post_content_filtered', 'post_parent', 'guid', 'menu_order',
       'post_type', 'post_mime_type', 'comment_count'],
      dtype='object')

In [13]:
# Réafficher la taille des données web avant la constitution des données finales
print(f"La base fait au total : {web.shape[0]} lignes",
      f"et {web.shape[1]} colonnes"
     )

La base fait au total : 1513 lignes et 28 colonnes


In [16]:
# Conccatener les deux DataFrame pour en faire le DataFrame final
vin_df = web.merge(references, on="id_web", how="inner")

In [18]:
# Vérification des modifications apportées
print(f"La base finale fait : {vin_df.shape[0]} lignes",
      f"et {vin_df.shape[1]} colonnes\n")
vin_df.head(3)

La base finale fait : 9163 lignes et 33 colonnes



Unnamed: 0,id_web,virtual,downloadable,rating_count,average_rating,total_sales,tax_status,tax_class,post_author,post_date,post_date_gmt,post_content,post_title,post_excerpt,post_status,comment_status,ping_status,post_password,post_name,post_modified,post_modified_gmt,post_content_filtered,post_parent,guid,menu_order,post_type,post_mime_type,comment_count,product_id,onsale_web,price,stock_quantity,stock_status
0,bon-cadeau-25-euros,0,0,0,0.0,10.0,taxable,,1.0,2018-06-01 13:53:46,2018-06-01 11:53:46,,Bon cadeau de 25€,"<span style=""color: #a85253;""><strong>Parlons ...",publish,closed,closed,,bon-cadeau-de-25-euros,2018-06-01 14:13:57,2018-06-01 12:13:57,,0.0,https://www.wine-spirit.fr/?post_type=product&...,0.0,product,,0.0,4954,1,25.0,0,instock
1,bon-cadeau-25-euros,0,0,0,0.0,10.0,,,1.0,2018-06-01 13:53:46,2018-06-01 11:53:46,,Bon cadeau de 25€,,publish,closed,closed,,bon-cadeau-de-25-euros,2018-06-01 14:13:57,2018-06-01 12:13:57,,0.0,https://www.wine-spirit.fr/wp-content/uploads/...,0.0,attachment,image/jpeg,0.0,4954,1,25.0,0,instock
2,15298,0,0,0,0.0,6.0,taxable,,2.0,2018-02-08 12:58:52,2018-02-08 11:58:52,,Pierre Jean Villa Saint-Joseph Préface 2018,"Il exhale un nez subtil, racé avec du poivre f...",publish,closed,closed,,pierre-jean-villa-saint-joseph-preface-2018,2019-12-30 09:30:29,2019-12-30 08:30:29,,0.0,https://www.wine-spirit.fr/?post_type=product&...,0.0,product,,0.0,3847,1,24.2,0,outofstock


- Vérification des types de post

In [21]:
# Vérifier les types de post
vin_df.post_type.unique()

array(['product', 'attachment', nan], dtype=object)

- Ne prendre uniquement les données sur les produits

In [22]:
# Sélectionner les posts de type "product" qui sont des produits
vin_df = vin_df.query('post_type == "product"')

# Vérifier à nouveau les types de post
vin_df.post_type.unique()

array(['product'], dtype=object)

## 3. Sauvergarde des données

In [23]:
# Sauvegarder l'ensemble de données contenant que les produits (vins)
vin_df.to_csv("vin_data.csv", index=False)