Dans le cadre d'une étude sur les comportements d'achat, une entreprise cherche à comprendre quels facteurs influencent la décision d'un client d'acheter un produit spécifique. Pour cela, elle a collecté des données sur un échantillon de clients, enregistrant plusieurs attributs pertinents tels que l'âge , le revenu , le statut d'étudiant , et la qualité du crédit . Chaque client est également associé à une variable cible indiquant s'il a acheté le produit ("Oui" ) ou non ("Non" ).

L'objectif principal de cette analyse est de calculer deux métriques clés utilisées dans la construction des arbres de décision :

1)<b>Gain Entropique :</b> Mesure la réduction d'incertitude (entropie) apportée par chaque attribut.<br>
2)<b>Indice de Gini :</b> Évalue l'impureté des nœuds pour chaque attribut.
Ces métriques permettent de sélectionner les attributs les plus informatifs pour effectuer des splits dans un arbre de décision. Bien que cette étude se concentre uniquement sur le calcul du gain entropique et de l'indice de Gini , il est possible d'étendre le problème à d'autres aspects, tels que :

1)La construction complète de l'arbre de décision.<br>
2)L'évaluation des performances du modèle (précision, rappel, etc.).<br>
3)L'interprétation des résultats pour fournir des recommandations commerciales.<br>

<b>Description des Données</b>
Les données sont structurées sous forme de tableau (DataFrame) avec les colonnes suivantes :

-<b>Âge :</b> Représente la tranche d'âge du client (Jeune, Adulte, Senior).<br>
-<b>Revenu :</b> Indique le niveau de revenu du client (Faible, Moyen, Elevé).<br>
-<b>Étudiant :</b> Statut d'étudiant du client (Oui, Non).<br>
-<b>Crédit :</b> Qualité du crédit du client (Bon, Excellent).<br>
-<b>Acheter :</b> Variable cible indiquant si le client a acheté le produit (Oui, Non).<br>

Ces données permettent d'analyser comment les différents attributs influencent la décision d'achat et de sélectionner les attributs les plus informatifs pour les calculs.

In [1]:
# Initialisation du dictionnaire
data = {
    "Age": ["Jeune", "Jeune", "Jeune", "Jeune", "Adulte", "Adulte", "Adulte", "Senior", "Senior", "Senior"],
    "Revenu": ["Moyen", "Moyen", "Faible", "Elevé", "Elevé", "Faible", "Moyen", "Moyen", "Elevé", "Moyen"],
    "Etudiant": ["Oui", "Oui", "Non", "Non", "Non", "Non", "Oui", "Oui", "Non", "Non"],
    "Credit": ["Bon", "Excellent", "Bon", "Excellent", "Excellent", "Bon", "Bon", "Bon", "Excellent", "Excellent"],
    "Acheter": ["Oui", "Oui", "Non", "Non", "Non", "Non", "Oui", "Oui", "Oui", "Oui"]
}

In [None]:
# Importez les modules : pandas et numpy et créez un DataFrame df à partir du dictionnaire "data"  ?
import pandas as pd
import numpy as np  
from sklearn.preprocessing import LabelEncoder

df = pd.DataFrame(data)
print(df)

      Age  Revenu Etudiant     Credit Acheter
0   Jeune   Moyen      Oui        Bon     Oui
1   Jeune   Moyen      Oui  Excellent     Oui
2   Jeune  Faible      Non        Bon     Non
3   Jeune   Elevé      Non  Excellent     Non
4  Adulte   Elevé      Non  Excellent     Non
5  Adulte  Faible      Non        Bon     Non
6  Adulte   Moyen      Oui        Bon     Oui
7  Senior   Moyen      Oui        Bon     Oui
8  Senior   Elevé      Non  Excellent     Oui
9  Senior   Moyen      Non  Excellent     Oui


In [None]:
# À partir du jeu de données, extrayez la matrice des caractéristiques X 
# en sélectionnant les colonnes suivantes : Age, Revenu, Etudiant et Credit.
X = df.iloc[:, :-1].values
print(X)

[['Jeune' 'Moyen' 'Oui' 'Bon']
 ['Jeune' 'Moyen' 'Oui' 'Excellent']
 ['Jeune' 'Faible' 'Non' 'Bon']
 ['Jeune' 'Elevé' 'Non' 'Excellent']
 ['Adulte' 'Elevé' 'Non' 'Excellent']
 ['Adulte' 'Faible' 'Non' 'Bon']
 ['Adulte' 'Moyen' 'Oui' 'Bon']
 ['Senior' 'Moyen' 'Oui' 'Bon']
 ['Senior' 'Elevé' 'Non' 'Excellent']
 ['Senior' 'Moyen' 'Non' 'Excellent']]


In [None]:
# À partir de la colonne 'Acheter', créez un vecteur y en convertissant les valeurs 'Oui' en 1 et 'Non' en 0.
labelencoder_y = LabelEncoder()
y = labelencoder_y.fit_transform(df.iloc[:, -1])
print(y)

[1 1 0 0 0 0 1 1 1 1]


In [None]:
# Implémentez une fonction nommée EntropieInitiale(labels) qui calcule l'entropie initiale à partir 
# de la distribution des classes dans le vecteur y.

def EntropieInitiale(labels):
    _, counts = np.unique(labels, return_counts=True)
    probs = counts / len(labels)
    return - np.sum(probs * np.log2(probs))

IS = EntropieInitiale(y)   #Affiche 0.971
print(IS)

0.9709505944546686


In [7]:
# Implémentez une fonction nommée Entropie_attribut_valeur qui calcule l'entropie 
# pour un attribut spécifique de la matrice X, en se basant sur une valeur donnée de cet attribut.

def Entropie_attribut_valeur(X, attribut, valeur):
    idx = df.columns.get_loc(attribut)
    mask = X[:, idx] == valeur
    return EntropieInitiale(y[mask])

IS_Age_Adulte = Entropie_attribut_valeur(X, "Age", "Adulte")   # Affiche  0.918
print(IS_Age_Adulte)


0.9182958340544896


In [8]:
# Calculez et affichez les entropies de toutes les valeurs possibles pour les attributs 'Age' et 'Revenu' 
# en utilisant la fonction Entropie_attribut_valeur

for attribut in ["Age", "Revenu"]:
    idx = df.columns.get_loc(attribut)
    for valeur in np.unique(X[:, idx]):
        print(f"Entropie({attribut}={valeur}) = {Entropie_attribut_valeur(X, attribut, valeur)}")
        

Entropie(Age=Adulte) = 0.9182958340544896
Entropie(Age=Jeune) = 1.0
Entropie(Age=Senior) = -0.0
Entropie(Revenu=Elevé) = 0.9182958340544896
Entropie(Revenu=Faible) = -0.0
Entropie(Revenu=Moyen) = -0.0


In [9]:
# Implémentez une fonction GainEntropique(X,y, attribut)  qui calcule le gain entropique pour un attribut
# spécifique en utilisant la fonction Entropie_attribut_valeur et l'entropie initiale

def GainEntropique(X,y, attribut):
    idx = df.columns.get_loc(attribut)
    gain = IS
    for valeur in np.unique(X[:, idx]):
        mask = X[:, idx] == valeur
        gain -= np.sum(mask) / len(y) * EntropieInitiale(y[mask])
    return gain

Gain_Age =  GainEntropique(X,y,"Age")   # affiche 0.296
print(Gain_Age)


0.2954618442383218


In [10]:
# Appliquez la fonction GainEntropique pour calculer et afficher le gain entropique de chaque attribut du jeu de données.
for attribut in df.columns[:-1]:
    print(f"Gain({attribut}) = {GainEntropique(X, y, attribut)}")

Gain(Age) = 0.2954618442383218
Gain(Revenu) = 0.6954618442383218
Gain(Etudiant) = 0.4199730940219749
Gain(Credit) = 0.0


In [15]:
############################# Indice de Gini ####################################

In [12]:
#  Implémentez une fonction Gini_attribut_valeur(X, attribut, valeur) qui calcule l'indice de Gini 
#  pour un attribut spécifique de la matrice X, en se basant sur une valeur donnée de cet attribut.
def Gini_attribut_valeur(X, attribut, valeur):
    idx = df.columns.get_loc(attribut)
    mask = X[:, idx] == valeur
    _, counts = np.unique(y[mask], return_counts=True)
    probs = counts / counts.sum()
    return 1 - np.sum(probs**2)

print(Gini_attribut_valeur(X, "Age", "Adulte"))  # Affiche 0.444

0.4444444444444444


In [13]:
# Calculez et affichez tous les indices de Gini pour chaque valeur possible 
# de l'attribut 'Age' en utilisant la fonction Gini_attribut_valeur

for valeur in np.unique(X[:, df.columns.get_loc("Age")]):
    print(f"Gini(Age={valeur}) = {Gini_attribut_valeur(X, 'Age', valeur)}")

Gini(Age=Adulte) = 0.4444444444444444
Gini(Age=Jeune) = 0.5
Gini(Age=Senior) = 0.0


In [None]:
#  Implémentez une fonction Gini(X, y, attribut) qui calcule l'indice de Gini pour un attribut spécifique en utilisant
#  la fonction Gini_attribut_valeur pour chaque valeur de cet attribut


def Gini(X,y, attribut):
    idx = df.columns.get_loc(attribut)
    gini = 0
    for valeur in np.unique(X[:, idx]):
        mask = X[:, idx] == valeur
        gini += np.sum(mask) / len(y) * Gini_attribut_valeur(X, attribut, valeur)
    return gini

Gini(X,y,"Age")   # affiche  0.333

0.33333333333333337

In [15]:
# Calculez et affichez les indices de Gini pour tous les attributs de 
# la matrice X en utilisant la fonction Gini(X, y, attribut)

for attribut in df.columns[:-1]:
    print(f"Gini({attribut}) = {Gini(X, y, attribut)}")

Gini(Age) = 0.33333333333333337
Gini(Revenu) = 0.13333333333333333
Gini(Etudiant) = 0.26666666666666666
Gini(Credit) = 0.48


In [None]:
# Déterminez et affichez l'attribut le plus informatif en comparant les indices de Gini et les gains entropiques
# calculés pour chaque attribut
gains_entropiques = {attribut: GainEntropique(X, y, attribut) for attribut in df.columns[:-1]}
indices_gini = {attribut: Gini(X, y, attribut) for attribut in df.columns[:-1]}

print("Gains Entropiques:")
for attribut, gain in gains_entropiques.items():
    print(f"{attribut}: {gain}")

print("\nIndices de Gini:")
for attribut, gini in indices_gini.items():
    print(f"{attribut}: {gini}")

attribut_plus_informatif_entropie = max(gains_entropiques, key=gains_entropiques.get)
attribut_plus_informatif_gini = min(indices_gini, key=indices_gini.get)

print(f"\nL'attribut le plus informatif selon le gain entropique est: {attribut_plus_informatif_entropie}")
print(f"L'attribut le plus informatif selon l'indice de Gini est: {attribut_plus_informatif_gini}")


Gains Entropiques:
Age: 0.2954618442383218
Revenu: 0.6954618442383218
Etudiant: 0.4199730940219749
Credit: 0.0

Indices de Gini:
Age: 0.33333333333333337
Revenu: 0.13333333333333333
Etudiant: 0.26666666666666666
Credit: 0.48

L'attribut le plus informatif selon le gain entropique est: Revenu
L'attribut le plus informatif selon l'indice de Gini est: Revenu
