# Table des Matières

1. [Défi 3](#Défi-3)
   1.1 [Q1 : Comment identifier les Clients VIP & Préférés ?](#Q1-:-Comment-identifier-les-Clients-VIP-&-Préférés-?)
   1.2 [Comment étiqueter les clients dont le `amount_spent` cumulé se situe dans une plage de quantiles donnée ?](#Comment-étiqueter-les-clients-dont-le-amount_spent-cumulé-se-situe-dans-une-plage-de-quantiles-donnée-?)
      - 1.2.0.1 [Sous-problème 1 : Comment agréger le `amount_spent` pour chaque client unique ?](#Sous-problème-1-:-Comment-agréger-le-amount_spent-pour-chaque-client-unique-?)
      - 1.2.0.2 [Sous-problème 2 : Comment sélectionner les clients dont le `amount_spent` cumulé se situe dans une plage de quantiles donnée ?](#Sous-problème-2-:-Comment-sélectionner-les-clients-dont-le-amount_spent-cumulé-se-situe-dans-une-plage-de-quantiles-donnée-?)
      - 1.2.0.3 [Sous-problème 3 : Comment étiqueter les clients sélectionnés comme « VIP » ou « Préféré » ?](#Sous-problème-3-:-Comment-étiqueter-les-clients-sélectionnés-comme-«-VIP-»-ou-«-Préféré-»-?)
   1.3 [Q2 : Comment identifier le pays qui compte le plus de Clients VIP ?](#Q2-:-Comment-identifier-le-pays-qui-compte-le-plus-de-Clients-VIP-?)
   1.4 [Q3 : Comment identifier le pays qui compte le plus de Clients VIP + Préférés combinés ?](#Q3-:-Comment-identifier-le-pays-qui-compte-le-plus-de-Clients-VIP-+-Préférés-combinés-?)


# Défi 3

Dans ce défi, nous allons travailler sur le jeu de données `Orders`.  
Dans ce travail, vous allez appliquer la logique et le déroulé que nous vous avons montrés dans le Défi 2.

Vous occupez le poste d’Analyste Business Intelligence au siège d’une chaîne internationale de magasins de mode.  
Aujourd’hui, votre responsable vous demande deux choses :

**Premièrement, identifiez deux groupes de clients à partir du jeu de données.**  
Le premier groupe correspond aux **Clients VIP**, dont les **dépenses cumulées** dans l’ensemble de vos magasins sont **supérieures au 95e centile** (aussi appelé quantile 0.95).  
Le deuxième groupe correspond aux **Clients Préférés**, dont les **dépenses cumulées** se situent **entre le 75e et le 95e centile**.

**Deuxièmement, identifiez quel pays compte le plus de vos clients VIP, et quel pays compte le plus de vos clients VIP + Préférés combinés.**


## Q1 : Comment identifier les Clients VIP & Préférés ?

Nous commençons par importer toutes les bibliothèques nécessaires :


In [16]:
# import required libraries
import numpy as np
import pandas as pd

Ensuite, importez le jeu de données `Orders` dans une variable de type DataFrame appelée `orders`.  
Affichez l’aperçu avec `head()` pour avoir un aperçu des données :


In [3]:
# your code here
orders=pd.read_csv('Orders.csv')
orders.head()

Unnamed: 0.1,Unnamed: 0,InvoiceNo,StockCode,year,month,day,hour,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,amount_spent
0,0,536365,85123A,2010,12,3,8,white hanging heart t-light holder,6,2010-12-01 08:26:00,2.55,17850,United Kingdom,15.3
1,1,536365,71053,2010,12,3,8,white metal lantern,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
2,2,536365,84406B,2010,12,3,8,cream cupid hearts coat hanger,8,2010-12-01 08:26:00,2.75,17850,United Kingdom,22.0
3,3,536365,84029G,2010,12,3,8,knitted union flag hot water bottle,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
4,4,536365,84029E,2010,12,3,8,red woolly hottie white heart.,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34


In [18]:
orders.columns.shape

(14,)

---

« Identifier les Clients VIP et Préférés » est l’objectif non technique formulé par votre responsable.  
Vous devez traduire cet objectif en termes techniques utilisés par les analystes de données :

## Comment étiqueter les clients dont le `amount_spent` cumulé se situe dans une plage de quantiles donnée ?


Nous décomposons le problème principal en plusieurs sous-problèmes :

#### Sous-problème 1 : Comment agréger le `amount_spent` pour chaque client unique ?

#### Sous-problème 2 : Comment sélectionner les clients dont le `amount_spent` cumulé se situe dans une plage de quantiles donnée ?

#### Sous-problème 3 : Comment étiqueter les clients sélectionnés comme « VIP » ou « Préféré » ?

*Remarque : Si vous souhaitez décomposer le problème principal d’une autre manière, vous pouvez bien sûr modifier les sous-problèmes ci-dessus.*

Maintenant, dans l’espace de travail ci-dessous, traitez chaque sous-problème en suivant le processus itératif de résolution de problème.  
Ajoutez des cellules si nécessaire pour écrire votre code et expliquer vos étapes.


In [20]:
# your code here
# Grouper par identifiant client (ex: 'CustomerID') et sommer 'amount_spent'
# Remplace 'CustomerID' par le nom réel de la colonne identifiant unique
agg_spent = orders.groupby('CustomerID')['amount_spent'].sum()#.reset_index()

# Vérifier le résultat
print(agg_spent.head(10))

CustomerID
12346    77183.60
12347     1187.18
12348     1120.24
12350      334.40
12352     1281.15
12356     2271.62
12359     2386.41
12361      189.90
12362      479.10
12365      641.38
Name: amount_spent, dtype: float64


Nous vous laissons maintenant résoudre les questions Q2 et Q3 en vous appuyant sur votre solution pour Q1 :

## Q2 : Comment identifier le pays qui compte le plus de Clients VIP ?


In [39]:
# your code here

# Étape 1 : agréger les dépenses par client
agg_spent = orders.groupby(['CustomerID', 'Country'])['amount_spent'].sum().reset_index()
#agg_spent.head(20)
# # Étape 2 : calculer le 95e percentile
q95 = agg_spent['amount_spent'].quantile(0.95)
#print(q95)

# Étape 3 : filtrer les clients VIP
vip_customers = agg_spent[agg_spent['amount_spent'] > q95]
#vip_customers.head()

# Étape 4 : compter le nombre de VIP par pays
vip_per_country = vip_customers.groupby('Country').size().reset_index(name='VIP_Count')
#vip_per_country.head(10)

#Étape 5 : trouver le pays avec le plus de VIP
top_vip_country = vip_per_country.sort_values('VIP_Count', ascending=False).head(10)

print("Pays avec le plus de Clients VIP :")
print(top_vip_country)


Pays avec le plus de Clients VIP :
           Country  VIP_Count
13  United Kingdom         69
3           France          4
4          Germany          3
1             EIRE          2
6            Japan          2
10           Spain          2
0        Australia          1
2          Finland          1
5           Greece          1
7      Netherlands          1


## Q3 : Comment identifier le pays qui compte le plus de Clients VIP + Préférés combinés ?


In [41]:
# your code here
# 1 Agréger le amount_spent par client + pays
agg_spent = orders.groupby(['CustomerID', 'Country'])['amount_spent'].sum().reset_index()

# 2 Calculer les seuils des quantiles
q95 = agg_spent['amount_spent'].quantile(0.95)
q75 = agg_spent['amount_spent'].quantile(0.75)

# 3 Ajouter une étiquette (VIP, Preferred ou Autre)
def label_customer(spent):
    if spent > q95:
        return "VIP"
    elif spent > q75:
        return "Preferred"
    else:
        return "Other"

agg_spent['Customer_Label'] = agg_spent['amount_spent'].apply(label_customer)

# 4️⃣ Filtrer seulement VIP et Preferred
vip_pref = agg_spent[agg_spent['Customer_Label'].isin(['VIP', 'Preferred'])]

# 5️⃣ Compter par pays
vip_pref_country = vip_pref.groupby('Country').size().reset_index(name='VIP+Preferred_Count')

# 6️⃣ Trouver le pays avec le plus grand total
top_vip_pref_country = vip_pref_country.sort_values('VIP+Preferred_Count', ascending=False).head(3)

print("Pays avec le plus de Clients VIP + Préférés combinés :")
print(top_vip_pref_country)

Pays avec le plus de Clients VIP + Préférés combinés :
           Country  VIP+Preferred_Count
24  United Kingdom                  373
8          Germany                   20
7           France                   14
