In [8]:
import pandas as pd
import numpy as np
import scipy.stats as stats

In [9]:
# Chargement des données utilisateur et clusters
df = pd.read_parquet("../data/output/user_clusters-test.parquet")

# Initialisation d'un dictionnaire pour stocker les résultats par cluster
results = {}

# Boucle sur chaque cluster unique
total_results = []
for cluster in df['Cluster'].unique():
    cluster_data = df[df['Cluster'] == cluster]
    
    # Diviser en groupe A (contrôle) et groupe B (test)
    np.random.seed(42)
    cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
    
    # Appliquer une stratégie (réduction de 10% pour le groupe B)
    cluster_data['reduction_10'] = cluster_data['group'].apply(lambda x: 0.10 if x == 'B' else 0)
    
    # Simuler un achat basé sur la réduction et une probabilité d'achat
    cluster_data['prob_purchase'] = cluster_data['reduction_10'].apply(lambda x: np.random.uniform(0, 1) + x * 0.3)
    
    # Simuler le taux de conversion après 48h
    cluster_data['conversion'] = cluster_data['prob_purchase'].apply(lambda x: 1 if x > 0.5 else 0)
    
    # Calculer le taux de conversion pour chaque groupe
    conversion_rate_A = cluster_data[cluster_data['group'] == 'A']['conversion'].mean()
    conversion_rate_B = cluster_data[cluster_data['group'] == 'B']['conversion'].mean()
    
    # Effectifs observés
    total_A = len(cluster_data[cluster_data['group'] == 'A'])
    total_B = len(cluster_data[cluster_data['group'] == 'B'])
    conversions_A = cluster_data[cluster_data['group'] == 'A']['conversion'].sum()
    conversions_B = cluster_data[cluster_data['group'] == 'B']['conversion'].sum()
    non_conversions_A = total_A - conversions_A
    non_conversions_B = total_B - conversions_B
    
    # Table de contingence pour le test de chi²
    table = np.array([[conversions_A, non_conversions_A],
                      [conversions_B, non_conversions_B]])
    
    # Test du chi²
    chi2, p_value, _, _ = stats.chi2_contingency(table)
    
    # Stocker les résultats
    results[cluster] = {
        'conversion_rate_A': conversion_rate_A,
        'conversion_rate_B': conversion_rate_B,
        'chi2': chi2,
        'p_value': p_value
    }
    
    total_results.append((cluster, conversion_rate_A, conversion_rate_B, chi2, p_value))

# Affichage des résultats
for cluster, conv_A, conv_B, chi2, p in total_results:
    print(f"\n📊 Résultats pour le Cluster {cluster} :")
    print(f"- Taux de conversion Groupe A (Contrôle): {conv_A:.2%}")
    print(f"- Taux de conversion Groupe B (Test): {conv_B:.2%}")
    print(f"- Statistique de chi² : {chi2:.2f}")
    print(f"- p-value : {p:.8f}")
    if p < 0.05:
        print("✅ Différence statistiquement significative ! La stratégie semble efficace.")
    else:
        print("❌ Aucune différence significative. La stratégie pourrait ne pas avoir d'impact.")


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['reduction_10'] = cluster_data['group'].apply(lambda x: 0.10 if x == 'B' else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['prob_purchase'] = cl


📊 Résultats pour le Cluster 0 :
- Taux de conversion Groupe A (Contrôle): 49.97%
- Taux de conversion Groupe B (Test): 53.04%
- Statistique de chi² : 2634.92
- p-value : 0.00000000
✅ Différence statistiquement significative ! La stratégie semble efficace.

📊 Résultats pour le Cluster 2 :
- Taux de conversion Groupe A (Contrôle): 50.03%
- Taux de conversion Groupe B (Test): 53.03%
- Statistique de chi² : 3384.33
- p-value : 0.00000000
✅ Différence statistiquement significative ! La stratégie semble efficace.

📊 Résultats pour le Cluster 1 :
- Taux de conversion Groupe A (Contrôle): 49.94%
- Taux de conversion Groupe B (Test): 53.04%
- Statistique de chi² : 877.49
- p-value : 0.00000000
✅ Différence statistiquement significative ! La stratégie semble efficace.

📊 Résultats pour le Cluster 3 :
- Taux de conversion Groupe A (Contrôle): 50.15%
- Taux de conversion Groupe B (Test): 52.99%
- Statistique de chi² : 190.62
- p-value : 0.00000000
✅ Différence statistiquement significative ! La s

In [10]:
# Chargement des données utilisateur et clusters
df = pd.read_parquet("../data/output/user_clusters-test.parquet")

# Initialisation d'un dictionnaire pour stocker les résultats par cluster
results = {}

total_results = []

# Boucle sur chaque cluster unique
for cluster in df['Cluster'].unique():
    cluster_data = df[df['Cluster'] == cluster]
    
    # Diviser en groupe A (contrôle) et groupe B (test)
    np.random.seed(42)
    cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
    
    # Appliquer une nouvelle stratégie (Recommandation Personnalisée pour le groupe B)
    cluster_data['recommendation_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
    
    # Simuler un taux de clic sur la recommandation
    cluster_data['click_on_recommendation'] = cluster_data['recommendation_shown'].apply(lambda x: np.random.uniform(0, 1) < (0.25 if x == 1 else 0))
    
    # Simuler le taux de conversion après exposition à la recommandation
    cluster_data['prob_purchase'] = cluster_data.apply(lambda row: np.random.uniform(0, 1) + (0.2 if row['click_on_recommendation'] else 0), axis=1)
    
    # Simuler la conversion
    cluster_data['conversion'] = cluster_data['prob_purchase'].apply(lambda x: 1 if x > 0.5 else 0)
    
    # Calculer le taux de conversion pour chaque groupe
    conversion_rate_A = cluster_data[cluster_data['group'] == 'A']['conversion'].mean()
    conversion_rate_B = cluster_data[cluster_data['group'] == 'B']['conversion'].mean()
    
    # Effectifs observés
    total_A = len(cluster_data[cluster_data['group'] == 'A'])
    total_B = len(cluster_data[cluster_data['group'] == 'B'])
    conversions_A = cluster_data[cluster_data['group'] == 'A']['conversion'].sum()
    conversions_B = cluster_data[cluster_data['group'] == 'B']['conversion'].sum()
    non_conversions_A = total_A - conversions_A
    non_conversions_B = total_B - conversions_B
    
    # Table de contingence pour le test de chi²
    table = np.array([[conversions_A, non_conversions_A],
                      [conversions_B, non_conversions_B]])
    
    # Test du chi²
    chi2, p_value, _, _ = stats.chi2_contingency(table)
    
    # Stocker les résultats
    results[cluster] = {
        'conversion_rate_A': conversion_rate_A,
        'conversion_rate_B': conversion_rate_B,
        'chi2': chi2,
        'p_value': p_value
    }
    
    total_results.append((cluster, conversion_rate_A, conversion_rate_B, chi2, p_value))

# Affichage des résultats
for cluster, conv_A, conv_B, chi2, p in total_results:
    print(f"\n📊 Résultats pour le Cluster {cluster} :")
    print(f"- Taux de conversion Groupe A (Contrôle): {conv_A:.2%}")
    print(f"- Taux de conversion Groupe B (Test avec recommandation): {conv_B:.2%}")
    print(f"- Statistique de chi² : {chi2:.2f}")
    print(f"- p-value : {p:.8f}")
    if p < 0.05:
        print("✅ Différence statistiquement significative ! La recommandation semble efficace.")
    else:
        print("❌ Aucune différence significative. La recommandation pourrait ne pas avoir d'impact.")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['recommendation_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['click_on_recomm


📊 Résultats pour le Cluster 0 :
- Taux de conversion Groupe A (Contrôle): 50.02%
- Taux de conversion Groupe B (Test avec recommandation): 55.04%
- Statistique de chi² : 7071.25
- p-value : 0.00000000
✅ Différence statistiquement significative ! La recommandation semble efficace.

📊 Résultats pour le Cluster 2 :
- Taux de conversion Groupe A (Contrôle): 50.01%
- Taux de conversion Groupe B (Test avec recommandation): 55.00%
- Statistique de chi² : 9368.15
- p-value : 0.00000000
✅ Différence statistiquement significative ! La recommandation semble efficace.

📊 Résultats pour le Cluster 1 :
- Taux de conversion Groupe A (Contrôle): 50.00%
- Taux de conversion Groupe B (Test avec recommandation): 54.93%
- Statistique de chi² : 2220.75
- p-value : 0.00000000
✅ Différence statistiquement significative ! La recommandation semble efficace.

📊 Résultats pour le Cluster 3 :
- Taux de conversion Groupe A (Contrôle): 50.09%
- Taux de conversion Groupe B (Test avec recommandation): 54.86%
- Stati

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['prob_purchase'] = cluster_data.apply(lambda row: np.random.uniform(0, 1) + (0.2 if row['click_on_recommendation'] else 0), axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['conversion'] = cluster_data['prob_purchase'].apply(lambda x: 1 if x > 0.5 else 0)


In [11]:
# Chargement des données utilisateur et clusters
df = pd.read_parquet("../data/output/user_clusters-test.parquet")

# Initialisation d'un dictionnaire pour stocker les résultats par cluster
results = {}

total_results = []

# Boucle sur chaque cluster unique
for cluster in df['Cluster'].unique():
    cluster_data = df[df['Cluster'] == cluster]
    
    # Diviser en groupe A (contrôle) et groupe B (test)
    np.random.seed(42)
    cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
    
    # Appliquer une nouvelle stratégie (Urgence et FOMO pour le groupe B)
    cluster_data['urgency_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
    
    # Simuler un impact sur la probabilité d'achat
    cluster_data['prob_purchase'] = cluster_data['urgency_shown'].apply(lambda x: np.random.uniform(0, 1) + (0.2 if x == 1 else 0))
    
    # Simuler le temps avant achat (en minutes, supposant que l'urgence réduit le temps d'achat)
    cluster_data['time_before_purchase'] = cluster_data['urgency_shown'].apply(lambda x: np.random.exponential(scale=30) if x == 0 else np.random.exponential(scale=15))
    
    # Simuler la conversion
    cluster_data['conversion'] = cluster_data['prob_purchase'].apply(lambda x: 1 if x > 0.5 else 0)
    
    # Calculer le taux de conversion pour chaque groupe
    conversion_rate_A = cluster_data[cluster_data['group'] == 'A']['conversion'].mean()
    conversion_rate_B = cluster_data[cluster_data['group'] == 'B']['conversion'].mean()
    
    # Calculer le temps moyen avant achat
    avg_time_A = cluster_data[cluster_data['group'] == 'A']['time_before_purchase'].mean()
    avg_time_B = cluster_data[cluster_data['group'] == 'B']['time_before_purchase'].mean()
    
    # Effectifs observés
    total_A = len(cluster_data[cluster_data['group'] == 'A'])
    total_B = len(cluster_data[cluster_data['group'] == 'B'])
    conversions_A = cluster_data[cluster_data['group'] == 'A']['conversion'].sum()
    conversions_B = cluster_data[cluster_data['group'] == 'B']['conversion'].sum()
    non_conversions_A = total_A - conversions_A
    non_conversions_B = total_B - conversions_B
    
    # Table de contingence pour le test de chi²
    table = np.array([[conversions_A, non_conversions_A],
                      [conversions_B, non_conversions_B]])
    
    # Test du chi²
    chi2, p_value, _, _ = stats.chi2_contingency(table)
    
    # Stocker les résultats
    results[cluster] = {
        'conversion_rate_A': conversion_rate_A,
        'conversion_rate_B': conversion_rate_B,
        'avg_time_A': avg_time_A,
        'avg_time_B': avg_time_B,
        'chi2': chi2,
        'p_value': p_value
    }
    
    total_results.append((cluster, conversion_rate_A, conversion_rate_B, avg_time_A, avg_time_B, chi2, p_value))

# Affichage des résultats
for cluster, conv_A, conv_B, time_A, time_B, chi2, p in total_results:
    print(f"\n📊 Résultats pour le Cluster {cluster} :")
    print(f"- Taux de conversion Groupe A (Contrôle): {conv_A:.2%}")
    print(f"- Taux de conversion Groupe B (Test avec urgence): {conv_B:.2%}")
    print(f"- Temps moyen avant achat Groupe A: {time_A:.2f} minutes")
    print(f"- Temps moyen avant achat Groupe B: {time_B:.2f} minutes")
    print(f"- Statistique de chi² : {chi2:.2f}")
    print(f"- p-value : {p:.8f}")
    if p < 0.05:
        print("✅ Différence statistiquement significative ! L'urgence semble efficace.")
    else:
        print("❌ Aucune différence significative. L'urgence pourrait ne pas avoir d'impact.")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['urgency_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['prob_purchase'] = clus


📊 Résultats pour le Cluster 0 :
- Taux de conversion Groupe A (Contrôle): 49.97%
- Taux de conversion Groupe B (Test avec urgence): 70.01%
- Temps moyen avant achat Groupe A: 30.00 minutes
- Temps moyen avant achat Groupe B: 15.01 minutes
- Statistique de chi² : 116878.39
- p-value : 0.00000000
✅ Différence statistiquement significative ! L'urgence semble efficace.

📊 Résultats pour le Cluster 2 :
- Taux de conversion Groupe A (Contrôle): 50.03%
- Taux de conversion Groupe B (Test avec urgence): 70.01%
- Temps moyen avant achat Groupe A: 30.00 minutes
- Temps moyen avant achat Groupe B: 15.02 minutes
- Statistique de chi² : 156277.98
- p-value : 0.00000000
✅ Différence statistiquement significative ! L'urgence semble efficace.

📊 Résultats pour le Cluster 1 :
- Taux de conversion Groupe A (Contrôle): 49.94%
- Taux de conversion Groupe B (Test avec urgence): 70.05%
- Temps moyen avant achat Groupe A: 30.01 minutes
- Temps moyen avant achat Groupe B: 14.97 minutes
- Statistique de chi² 

In [12]:
from scipy.stats import chi2_contingency

# Chargement des données utilisateur et clusters
df = pd.read_parquet("../data/output/user_clusters-test.parquet")

# Liste des clusters à traiter
clusters = [0, 1, 2, 3]

# Itérer sur chaque cluster
for cluster_id in clusters:
    # Filtrer pour chaque cluster
    cluster_data = df[df['Cluster'] == cluster_id]
    
    # Diviser en groupe A (contrôle) et groupe B (test)
    np.random.seed(42)
    cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
    
    # Appliquer une stratégie d'urgence (offre limitée)
    # 1 = montre l'urgence (pour le groupe B)
    cluster_data['urgency_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
    
    # Ajouter un bruit normal à la probabilité d'achat
    cluster_data['prob_purchase'] = np.random.uniform(0, 1, size=len(cluster_data))
    
    # Ajouter un effet d'urgence (modéré par un facteur de réactivité unique pour chaque utilisateur)
    cluster_data['reactivity'] = np.random.uniform(0.5, 1.5, size=len(cluster_data))  # Facteur de réactivité utilisateur
    cluster_data['prob_purchase'] = cluster_data['prob_purchase'] + (cluster_data['reactivity'] * 0.2 * cluster_data['urgency_shown'])
    
    # Ajouter du bruit pour la variabilité
    cluster_data['prob_purchase'] = cluster_data['prob_purchase'] + np.random.normal(0, 0.1, size=len(cluster_data))  # Bruit aléatoire
    
    # Limiter la probabilité d'achat à 1 (100%) pour éviter des valeurs irréalistes
    cluster_data['prob_purchase'] = np.minimum(cluster_data['prob_purchase'], 1)
    
    # Simuler le temps avant achat
    cluster_data['time_before_purchase'] = np.random.normal(loc=30, scale=15, size=len(cluster_data))  # Temps moyen avant achat
    
    # Réduire le temps avant achat en fonction de l'urgence, avec une relation non linéaire
    cluster_data['time_before_purchase'] = cluster_data['time_before_purchase'] - (cluster_data['urgency_shown'] * 10)
    
    # Simuler la conversion : si la probabilité d'achat est supérieure à un tirage aléatoire
    cluster_data['conversion'] = cluster_data['prob_purchase'].apply(lambda x: 1 if x > np.random.uniform(0, 1) else 0)
    
    # Calculer les statistiques du test (taux de conversion pour chaque groupe)
    conversion_rate_A = cluster_data[cluster_data['group'] == 'A']['conversion'].mean()
    conversion_rate_B = cluster_data[cluster_data['group'] == 'B']['conversion'].mean()

    # Affichage des résultats pour le cluster
    print(f"\n📊 Résultats pour le Cluster {cluster_id} :")
    print(f"Taux de conversion Groupe A (Contrôle): {conversion_rate_A:.2%}")
    print(f"Taux de conversion Groupe B (Test avec urgence): {conversion_rate_B:.2%}")
    
    # Calcul du chi² pour tester la différence entre les groupes
    # Table de contingence
    contingency = pd.crosstab(cluster_data['group'], cluster_data['conversion'])
    chi2_stat, p_value, dof, expected = chi2_contingency(contingency)
    
    # Afficher les résultats du test de chi²
    print(f"Statistique de chi² : {chi2_stat}")
    print(f"p-value : {p_value}")
    
    # Interprétation des résultats
    if p_value < 0.05:
        print("✅ Différence statistiquement significative ! L'urgence semble efficace.")
    else:
        print("❌ Pas de différence significative détectée. L'urgence ne semble pas avoir un impact majeur.")


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['urgency_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['prob_purchase'] = np.r


📊 Résultats pour le Cluster 0 :
Taux de conversion Groupe A (Contrôle): 49.95%
Taux de conversion Groupe B (Test avec urgence): 67.36%
Statistique de chi² : 87310.91234755499
p-value : 0.0
✅ Différence statistiquement significative ! L'urgence semble efficace.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['urgency_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['prob_purchase'] = np.r


📊 Résultats pour le Cluster 1 :
Taux de conversion Groupe A (Contrôle): 49.95%
Taux de conversion Groupe B (Test avec urgence): 67.34%
Statistique de chi² : 28382.41669769962
p-value : 0.0
✅ Différence statistiquement significative ! L'urgence semble efficace.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['urgency_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['prob_purchase'] = np.r


📊 Résultats pour le Cluster 2 :
Taux de conversion Groupe A (Contrôle): 50.01%
Taux de conversion Groupe B (Test avec urgence): 67.37%
Statistique de chi² : 116673.45522124603
p-value : 0.0
✅ Différence statistiquement significative ! L'urgence semble efficace.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['urgency_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['prob_purchase'] = np.r


📊 Résultats pour le Cluster 3 :
Taux de conversion Groupe A (Contrôle): 50.08%
Taux de conversion Groupe B (Test avec urgence): 67.46%
Statistique de chi² : 7339.957777674414
p-value : 0.0
✅ Différence statistiquement significative ! L'urgence semble efficace.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['conversion'] = cluster_data['prob_purchase'].apply(lambda x: 1 if x > np.random.uniform(0, 1) else 0)


In [15]:
import pandas as pd
import numpy as np
from scipy import stats

# Chargement des données utilisateur et clusters
df = pd.read_parquet("../data/output/user_clusters-test.parquet")

# Initialisation d'un dictionnaire pour stocker les résultats par cluster
results = {}

total_results = []

# Boucle sur chaque cluster unique
for cluster in df['Cluster'].unique():
    cluster_data = df[df['Cluster'] == cluster]
    
    # Diviser en groupe A (contrôle) et groupe B (test)
    np.random.seed(42)
    cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
    
    # Appliquer une nouvelle stratégie (Recommandation Personnalisée pour le groupe B)
    cluster_data['recommendation_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
    
    # Simuler un taux de clic sur la recommandation avec bruit
    cluster_data['click_on_recommendation'] = cluster_data['recommendation_shown'].apply(
        lambda x: np.random.uniform(0, 1) < (0.25 + np.random.uniform(-0.05, 0.05) if x == 1 else 0)
    )
    
    # Simuler la probabilité d'achat avec bruit
    cluster_data['prob_purchase'] = cluster_data.apply(
        lambda row: np.random.uniform(0, 1) + (0.2 + np.random.uniform(-0.05, 0.05) if row['click_on_recommendation'] else 0), 
        axis=1
    )
    
    # Simuler la conversion
    cluster_data['conversion'] = cluster_data['prob_purchase'].apply(lambda x: 1 if x > 0.5 else 0)
    
    # Calculer le taux de conversion pour chaque groupe
    conversion_rate_A = cluster_data[cluster_data['group'] == 'A']['conversion'].mean()
    conversion_rate_B = cluster_data[cluster_data['group'] == 'B']['conversion'].mean()
    
    # Effectifs observés
    total_A = len(cluster_data[cluster_data['group'] == 'A'])
    total_B = len(cluster_data[cluster_data['group'] == 'B'])
    conversions_A = cluster_data[cluster_data['group'] == 'A']['conversion'].sum()
    conversions_B = cluster_data[cluster_data['group'] == 'B']['conversion'].sum()
    non_conversions_A = total_A - conversions_A
    non_conversions_B = total_B - conversions_B
    
    # Table de contingence pour le test de chi²
    table = np.array([[conversions_A, non_conversions_A],
                      [conversions_B, non_conversions_B]])
    
    # Test du chi²
    chi2, p_value, _, _ = stats.chi2_contingency(table)
    
    # Stocker les résultats
    results[cluster] = {
        'conversion_rate_A': conversion_rate_A,
        'conversion_rate_B': conversion_rate_B,
        'chi2': chi2,
        'p_value': p_value
    }
    
    total_results.append((cluster, conversion_rate_A, conversion_rate_B, chi2, p_value))

# Affichage des résultats
for cluster, conv_A, conv_B, chi2, p in total_results:
    print(f"\n📊 Résultats pour le Cluster {cluster} :")
    print(f"- Taux de conversion Groupe A (Contrôle): {conv_A:.2%}")
    print(f"- Taux de conversion Groupe B (Test avec recommandation): {conv_B:.2%}")
    print(f"- Statistique de chi² : {chi2:.2f}")
    print(f"- p-value : {p:.8f}")
    if p < 0.05:
        print("✅ Différence statistiquement significative ! La recommandation semble efficace.")
    else:
        print("❌ Aucune différence significative. La recommandation pourrait ne pas avoir d'impact.")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['group'] = np.random.choice(['A', 'B'], size=len(cluster_data))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['recommendation_shown'] = cluster_data['group'].apply(lambda x: 1 if x == 'B' else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['click_on_recomm


📊 Résultats pour le Cluster 0 :
- Taux de conversion Groupe A (Contrôle): 50.01%
- Taux de conversion Groupe B (Test avec recommandation): 55.05%
- Statistique de chi² : 7118.21
- p-value : 0.00000000
✅ Différence statistiquement significative ! La recommandation semble efficace.

📊 Résultats pour le Cluster 2 :
- Taux de conversion Groupe A (Contrôle): 50.00%
- Taux de conversion Groupe B (Test avec recommandation): 55.00%
- Statistique de chi² : 9429.53
- p-value : 0.00000000
✅ Différence statistiquement significative ! La recommandation semble efficace.

📊 Résultats pour le Cluster 1 :
- Taux de conversion Groupe A (Contrôle): 50.00%
- Taux de conversion Groupe B (Test avec recommandation): 55.05%
- Statistique de chi² : 2331.61
- p-value : 0.00000000
✅ Différence statistiquement significative ! La recommandation semble efficace.

📊 Résultats pour le Cluster 3 :
- Taux de conversion Groupe A (Contrôle): 49.92%
- Taux de conversion Groupe B (Test avec recommandation): 54.92%
- Stati

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['prob_purchase'] = cluster_data.apply(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  cluster_data['conversion'] = cluster_data['prob_purchase'].apply(lambda x: 1 if x > 0.5 else 0)
