# Campagne E-Commerce 💳

## 📄 Création du Dataset - Déséquilibré

Partie 1 : Génération des données aléatoires et création du DataFrame initial


In [1]:
import numpy as np
import random
from datetime import datetime

# Nombre de lignes de données à générer
n_rows = 2000

# Définir les pourcentages typiques pour chaque étape
impressions = np.random.randint(1000, 5000, size=n_rows)
clicks = (impressions * np.random.uniform(0.5, 0.3, size=n_rows)).astype(int)
engagements = (clicks * np.random.uniform(0.2, 0.1, size=n_rows)).astype(int)
add_to_cart = (engagements * np.random.uniform(0.08, 0.05, size=n_rows)).astype(int)
conversions = (add_to_cart * np.random.uniform(0.04, 0.01, size=n_rows)).astype(int)

# Générer les données
data = {
    'Campagne': ['Promotion Été'] * n_rows,
    'Impressions': impressions,
    'Nombre de clics': clicks,
    'Nombre d’engagement': engagements,
    'Ajouts au panier': add_to_cart,
    'Nombre de ventes': conversions,
    'Coûts': np.random.randint(1, 3, size=n_rows),
    'Date': [datetime(2023, 1, random.randint(1, 28), random.randint(0, 23), random.randint(0, 59)) for _ in range(n_rows)],
    'Revenus': np.random.randint(5, 30, size=n_rows),
    'ROI': np.round(np.random.uniform(1, 5, size=n_rows), 2),
    'Total des ventes': np.random.randint(5, 20, size=n_rows),
    'Age des clients': [random.choice(['18-25', '26-35', '36-45', '46-55', '56-65', '65+']) for _ in range(n_rows)],
    'Sexe des clients': [random.choice(['Hommes', 'Femmes']) for _ in range(n_rows)],
    'Nombre de conversions': conversions,
    'Pays': [random.choice(['France', 'Autre']) for _ in range(n_rows)],
    'Villes': [random.choice(['Paris', 'Marseille', 'Lyon', 'Toulouse', 'Nice', 'Nantes', 'Strasbourg', 'Montpellier', 'Bordeaux', 'Lille']) for _ in range(n_rows)],
    'Navigateur': [random.choice(['Chrome', 'Firefox', 'Safari', 'Edge', 'Opera']) for _ in range(n_rows)],
    'Pages vues nombre': np.random.randint(500, 1500, size=n_rows),
    'Pages vues références': [random.choice(['Homepage', 'Category', 'Product', 'Checkout', 'Order']) for _ in range(n_rows)],
    'Source du trafic': [random.choice(['Google', 'Réseaux sociaux', 'Email']) for _ in range(n_rows)],
    'Système d’exploitation': [random.choice(['Windows', 'iOS', 'Android']) for _ in range(n_rows)],
    'Taux de rebond': np.round(np.random.uniform(0.20, 0.60, size=n_rows), 2),
    'Temps moyen sur le site': np.random.randint(1, 600, size=n_rows),
    'Type d’appareil': [random.choice(['Ordinateur', 'Mobile', 'Tablette']) for _ in range(n_rows)],
    'Nombre d\'Email envoyés': np.random.randint(500, 2000, size=n_rows),
    'Nombre d\'Email livrés': np.random.randint(450, 1800, size=n_rows),
    'Nombre d\'email ouvert': np.random.randint(10, 50, size=n_rows),
    'Taux de désabonnement': np.round(np.random.uniform(0.1, 0.2, size=n_rows), 2),
    'Nombre de clients perdus pendant la période': np.random.randint(2, 25, size=n_rows),
    'Nombre Total de Clients au Début de la Période': np.random.randint(500, 2000, size=n_rows),
    'Nombre Total de Clients Récurrents': np.random.randint(50, 200, size=n_rows),
    'Nombre Total de Clients Uniques': np.random.randint(300, 1000, size=n_rows),
    'Nombre de visites': np.random.randint(1000, 5000, size=n_rows),  # Ajout du Nombre de visites
}

# Affichage des premières lignes pour vérifier
import pandas as pd
df = pd.DataFrame(data)
print(df.head())

# Vérification de l'ordre décroissant des données
def check_decreasing_order(df):
    check = df.apply(lambda row: row['Impressions'] >= row['Nombre de clics'] >= row['Nombre d’engagement'] >= row['Ajouts au panier'] >= row['Nombre de conversions'] >= row['Nombre de ventes'], axis=1)
    return check.all()

is_ordered = check_decreasing_order(df)
print("Les données suivent-elles un ordre décroissant selon les étapes du parcours client? :", is_ordered)


        Campagne  Impressions  Nombre de clics  Nombre d’engagement  \
0  Promotion Été         4041             1975                  215   
1  Promotion Été         2115              677                   89   
2  Promotion Été         1658              803                  114   
3  Promotion Été         2850             1152                  195   
4  Promotion Été         4638             2173                  309   

   Ajouts au panier  Nombre de ventes  Coûts                Date  Revenus  \
0                14                 0      2 2023-01-27 04:23:00        5   
1                 4                 0      1 2023-01-22 18:56:00       15   
2                 8                 0      2 2023-01-06 18:37:00        7   
3                15                 0      1 2023-01-18 01:36:00       20   
4                20                 0      2 2023-01-03 16:33:00       21   

    ROI  ...  Type d’appareil Nombre d'Email envoyés Nombre d'Email livrés  \
0  1.53  ...         Tablette   

Partie 2 : Définition des colonnes à déséquilibrer et des poids correspondants


In [2]:
# # Colonnes à déséquilibrer
# colonnes_desiquilibrees = ['Sexe des clients', 'Age des clients', 'Villes', 'Source du trafic', 
#                            'Navigateur', 'Pages vues références', 'Système d’exploitation', 
#                            'Type d’appareil', 'Pays']

# # Définition des poids pour chaque classe
# weights = {
#     'Sexe des clients': {'Hommes': 0.7, 'Femmes': 0.3},
#     'Age des clients': {'18-25': 0.07, '26-35': 0.18, '36-45': 0.3, '46-55': 0.36, '56-65': 0.08, '65+': 0.01},
#     'Villes': {'Paris': 0.37, 'Marseille': 0.17, 'Lyon': 0.04, 'Toulouse': 0.08, 'Nice': 0.02, 'Nantes': 0.15, 'Strasbourg': 0.06, 'Montpellier': 0.03, 'Bordeaux': 0.04, 'Lille': 0.02},
#     'Source du trafic': {'Google': 0.7, 'Réseaux sociaux': 0.2, 'Email': 0.1},
#     'Navigateur': {'Chrome': 1.2, 'Firefox': 0.01, 'Safari': 0.4, 'Edge': 0.01, 'Opera': 0.01},
#     'Pages vues références': {'Homepage': 0.2, 'Category': 0.15, 'Product': 0.3, 'Checkout': 0.2, 'Order': 0.15},
#     'Système d’exploitation': {'Windows': 0.05, 'iOS': 0.1, 'Android': 0.85},
#     'Type d’appareil': {'Ordinateur': 0.07, 'Mobile': 0.65, 'Tablette': 0.28},
#     'Pays': {'France': 0.99, 'Autre': 0.01}  # Exemple : plus de clients en France que dans les autres pays
# }


In [3]:
# Colonnes à déséquilibrer
colonnes_desiquilibrees = ['Sexe des clients', 'Age des clients', 'Villes', 'Source du trafic', 
                           'Navigateur', 'Pages vues références', 'Système d’exploitation', 
                           'Type d’appareil', 'Pays']

# Définition des poids pour chaque classe
weights = {
    'Sexe des clients': {'Hommes': 0.7, 'Femmes': 0.3},
    'Age des clients': {'18-25': 0.07, '26-35': 0.8, '36-45': 2.1, '46-55': 0.36, '56-65': 0.02, '65+': 0.01},
    'Villes': {'Paris': 1.9, 'Marseille': 0.87, 'Lyon': 0.04, 'Toulouse': 0.11, 'Nice': 0.09, 'Nantes': 0.15, 'Strasbourg': 0.01, 'Montpellier': 0.3, 'Bordeaux': 0.04, 'Lille': 1.5},
    'Source du trafic': {'Google': 6.1, 'Réseaux sociaux': 0.4, 'Email': 0.1},
    'Navigateur': {'Chrome': 5, 'Firefox': 0.01, 'Safari': 1, 'Edge': 0.01, 'Opera': 0.01},
    'Pages vues références': {'Homepage': 2.9, 'Category': 0.7, 'Product': 0.5, 'Checkout': 0.02, 'Order': 0.01},
    'Système d’exploitation': {'Windows': 0.01, 'iOS': 0.1, 'Android': 3.1},
    'Type d’appareil': {'Ordinateur': 0.01, 'Mobile': 5.5, 'Tablette': 1.9},
    'Pays': {'France': 0.99, 'Autre': 0.01}  # Exemple : plus de clients en France que dans les autres pays
}

Partie 3 : Sur-échantillonnage avec des poids pour déséquilibrer les colonnes spécifiques


In [4]:
# Sur-échantillonnage avec des poids pour déséquilibrer les colonnes spécifiques
for colonne in colonnes_desiquilibrees:
    # Calculer le nombre d'échantillons nécessaires pour chaque classe
    value_counts = df[colonne].value_counts()
    max_count = value_counts.max()
    sample_counts = {val: int(max_count * weights[colonne].get(val, 1)) for val in value_counts.index}
    
    # Générer des échantillons pour chaque classe
    samples = []
    for val, count in sample_counts.items():
        samples.append(df[df[colonne] == val].sample(count, replace=True))
    
    # Concaténer les échantillons générés
    df = pd.concat([df] + samples)


Partie 4 : Sauvegarde du DataFrame modifié en CSV


In [5]:
# Chemin pour sauvegarder le fichier CSV modifié
chemin_csv = r'C:\Users\patri\OneDrive\Documents\Famille\Patrice\Patrice_travail\Booster_Croissance\Exercices_Booster_Croissance\Campagne_Communication\Campagne_Communication.csv'

# Export du DataFrame modifié en CSV
df.to_csv(chemin_csv, index=False)

print(f"Le fichier CSV déséquilibré avec poids a été créé avec succès à l'emplacement : {chemin_csv}")


Le fichier CSV déséquilibré avec poids a été créé avec succès à l'emplacement : C:\Users\patri\OneDrive\Documents\Famille\Patrice\Patrice_travail\Booster_Croissance\Exercices_Booster_Croissance\Campagne_Communication\Campagne_Communication.csv
