# Transformation Digitale

Le but de ce projet est d'accompagner le marchand de vins de renom dans sa ***transformation digitale*** afin que ces ventes sur Internet soient prises en compte et surtout de valoriser ce march√© du num√©rique qui offre plusieurs opportunit√©s.

Mon r√¥le √©tant que Data Scientist est de l'aider √† b√¢tir des outils n√©cessaires pour l'analyse de ces ventes sur Internet qui, jusques l√† √©taient impossibles d'analyser pour manque de rapprochement entre les exports des tables de ventes sur Internet et ceux fait hors ligne.

![caviste](https://www.espacemarconi.fr/wp-content/uploads/2019/04/espace-marconi-459-1080x675.jpg)

# Table de Mati√®res

# 1. D√©finition du probl√®me

- L'objectif ici est de pr√©dire le `prix` de vin en fonction des variables `quantitives`. Ensuite, construire les `profils de vins` autour de et de d√©crire les cluster obenus

- Nous avons √† notre port√©e plusieurs jeux de donn√©es, notamment sur les r√©ferences des produits en boutique et celles en lignes.

- Nous commenceront de rien pour construire au fur et √† mesure une solution satisfaisante ayant de bonnes performances.

- Il s'agit d'unn probl√®me de `Machine Learning` et plus pr√©cisement d'une `r√©gression` pour le premier cas qui est la pr√©diction du prix de vins et d'un deuxi√®me cas d'une `classification` pour la construction des profils de vins.

- Nous √©valuerons le modd√®le du premier cas en utilisant le m√©trique `R2` et pour le s√©cond cas le `Score F1` pour ensuire voir d'autres m√©triques comme `l'accuracy`.

# 2. Importation des librairies et acquisition des donn√©es

## 2.1. Importation des librairies

In [1]:
# Manipulation des donn√©es
import numpy as np
import pandas as pd

# Visualisation des donn√©es
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Package de mod√©lisation
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import OneHotEncoder, RobustScaler
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import make_column_transformer
from sklearn.linear_model import LinearRegression
from sklearn.cluster import KMeans

# Package d'√©valuation de mod√®le
from sklearn.metrics import r2_score, f1_score

# Package pour intertpr√©ter les mod√®les
import shap

## 2.2 Acquisition de donn√©es

In [2]:
# Charger les donn√©es dans le notebook
wine_df = pd.read_csv("wine_data.csv")

In [3]:
# Afficher la taille des donn√©es
print(f"La base fait {wine_df.shape[0]} lignes et {wine_df.shape[1]} colonnes")
# Afficher les 5 premi√®res lignes des donn√©es
wine_df.head()

La base fait 896 lignes et 5 colonnes


Unnamed: 0,total_sales,onsale_web,price,stock_quantity,stock_status
0,10.0,1,25.0,0,instock
1,6.0,1,24.2,0,outofstock
2,0.0,1,34.3,0,outofstock
3,0.0,1,20.8,0,outofstock
4,3.0,1,14.1,0,outofstock


# 3. Feature Engineering

- **Calcul du chiffre d'affaire r√©alis√© par produit**

In [4]:
# Calculer le chiffre d'affaire par produit
wine_df["revenue"] = wine_df["price"] * wine_df["total_sales"]

In [5]:
# V√©rification des ajouts
wine_df.head()

Unnamed: 0,total_sales,onsale_web,price,stock_quantity,stock_status,revenue
0,10.0,1,25.0,0,instock,250.0
1,6.0,1,24.2,0,outofstock,145.2
2,0.0,1,34.3,0,outofstock,0.0
3,0.0,1,20.8,0,outofstock,0.0
4,3.0,1,14.1,0,outofstock,42.3


- **Calcul du chiffre d'affaire total r√©alis√©**

In [6]:
# Calculer le chiffre total
total_revenue = sum(wine_df["revenue"])

In [7]:
# Afficher le chiffre d'affaire total r√©alis√©
print(f"Vous avez r√©alis√©s {total_revenue} ‚Ç¨ de chiffre d'affaires üòä")

Vous avez r√©alis√©s 70568.6 ‚Ç¨ de chiffre d'affaires üòä


# 4. R√©gression Lin√©aire

In [8]:
# D√©finir le SEED
SEED = 42
# Diviser les donn√©es en jeu de train et de test
df_train, df_test = train_test_split(wine_df, 
                                     test_size=0.2, 
                                     random_state=SEED)

In [9]:
# V√©rifier les taille des deux jeux de donn√©es
print(f"Le jeu de train fait : {df_train.shape}\n")
print(f"Le jeu de test fait : {df_test.shape}")

Le jeu de train fait : (716, 6)

Le jeu de test fait : (180, 6)


- **Cr√©ation des jeux de train et de test en matrices et vecteurs**

In [10]:
# Cr√©er la matrice et le vecteur de train
X_train = df_train.drop(columns=["price"])
y_train = df_train["price"]

# Cr√©er la matrice et le vecteur de test
X_test = df_test.drop(columns=["price"])
y_test = df_test["price"]

- **Cr√©ation des lites de variables par selon leurs cat√©gories [num√©rique ou cat√©gorielle]**

In [11]:
# La liste des variables num√©riques
num_cols = X_train.select_dtypes(include=np.number).columns.tolist()
# Liste des variables cat√©gorielles
cat_cols = X_train.select_dtypes(exclude=np.number).columns.tolist()

## 4.1 Pipeline d'entrainement de mod√®les

Afin de bien mener cette r√©gression lin√©aire, j'ai fait le choix d'utiliser des pipelines pour faire les traitements suivants :

- *`Encodage` de variables cat√©gorielles en utilisant `OneHotEncoder`*;
- *`Normaliser` les donn√©es en avec `RobustScaler`*

In [12]:
# D√©finir la fonction d'entrainement de mod√®les
def fit_model(estimator, X_train, y_train):
    """Cette fonction permet d'entrainer un mod√®le de Machine Learning en fonction
       de l'estimateur, les donn√©es d'entrainement  et renvoi un mod√®le entrain√©

    Args:
        estimator (Classifieur): C'est l'estimateur qu'il faut utiliser 
        X (DataFrame): Les donn√©es d'explicatives d'entrainement
        y (Vecteur): Le vecteur explicatif d'entrainement

    Returns:
        Classifieur: Le mod√®le entrain√©
    """
    
    # S√©parer les donn√©es num√©riques et cat√©gorielles
    num_cols = X_train.select_dtypes(include=np.number).columns
    cat_cols = X_train.select_dtypes(exclude=np.number).columns
    
    # Traitement des variables num√©riques
    num_pipeline = make_pipeline(RobustScaler()
                                )
    #Traiter les variables cat√©gorielles
    cat_pipeline = make_pipeline(OneHotEncoder()
                                )
    
    # Combinaison des deux pipelines
    preprocessor = make_column_transformer(
        (num_pipeline, num_cols), 
        (cat_pipeline, cat_cols)
    )
    
    # Construction de mod√®le
    model = Pipeline(steps=[
        ("preprocessor", preprocessor), 
        ("estimator", estimator)]
    )
    
    # Renvoyer le mod√®le construit et entra√Æn√©
    return model.fit(X_train, y_train)

In [13]:
# D√©finir la fonction d'√©valuation de mod√®les

def model_evaluation(model, X_train, y_train, X_test, y_test):
    
    """Cette fonction permet d'√©valuer la performance d'un mod√®le

    Args:
        model (Classifieur): L'estimateur √† utiliser pour √©valuer le mod√®le
        X_train (DataFrame): Les donn√©es explicative d'entrainement
        y_train (Vecteur): Le vecteur target d'entrainement
        X_test (DataFrame): Les donn√©es explicatives de test
        y_test (Vecteur): Le vecteur target de test

    Returns:
        float: Ce sont les scores f1 de train et de test qui sont renvoy√©s
    """
    
    # Faire des pr√©dictions sur les deux jeux de donn√©es
    y_train_pred = model.predict(X_train)
    y_test_pred = model.predict(X_test)
    
    # Calculer le socre R2 sur les deux jeux
    r2_score_train = r2_score(y_train, y_train_pred)
    r2_score_test = r2_score(y_test, y_test_pred)
    
    # Renvoyer les scores R2 calcul√©s
    return r2_score_train, r2_score_test

In [14]:
# Intancier le mod√®le
reg = LinearRegression(n_jobs=2)

In [17]:
# Entrainer la r√©gression lin√©aire
reg_model = fit_model(reg, X_train, y_train)

# Evaluer le mod√®le de r√©gression lin√©aire
evaluation = model_evaluation(reg_model, X_train, y_train, X_test, y_test)

- **Affichage des performance d'entrainement et d'√©valuation**

In [20]:
# Afficher les scores
print(f"Score R2 de {round(evaluation[0], 2)} au train et de {round(evaluation[1], 2)} au test")

Score R2 de 0.22 au train et de 0.05 au test


# 5. Construction des profils de vins