## Analyse de l'entropie et du gain d'information

Nous allons calculer l'entropie et le gain d'information pour chaque variable afin de déterminer le nœud racine optimal pour l'arbre de décision.

Ensuite, nous utiliserons l'arbre pour prédire si un client qui reste 15 minutes et voit une publicité vidéo va cliquer ou non.

In [None]:
import pandas as pd
import numpy as np
from math import log2

# Données du tableau
# Durée (min), Type de publicité, Clic sur pub
raw_data = [
    [5, 'Vidéo', 'Non'],
    [5, 'Image', 'Oui'],
    [10, 'Vidéo', 'Oui'],
    [15, 'Image', 'Non'],
    [20, 'Image', 'Oui'],
    [25, 'Vidéo', 'Oui'],
    [30, 'Image', 'Oui']
]
df = pd.DataFrame(raw_data, columns=['Durée', 'Type', 'Clic'])

def entropie(series):
    counts = series.value_counts()
    total = len(series)
    return -sum((count/total) * log2(count/total) for count in counts)

# Entropie totale
entropie_totale = entropie(df['Clic'])
print(f"Entropie totale : {entropie_totale:.3f}")

# Gain d'information pour Type de publicité
entropie_type = 0
for val, subset in df.groupby('Type'):
    e = entropie(subset['Clic'])
    entropie_type += len(subset)/len(df) * e
    print(f"Entropie pour Type={val} : {e:.3f}")
gain_type = entropie_totale - entropie_type
print(f"Gain d'information (Type) : {gain_type:.3f}")

# Gain d'information pour Durée (discrétisée en <=15 et >15)
df['Durée_cat'] = np.where(df['Durée'] <= 15, '<=15', '>15')
entropie_duree = 0
for val, subset in df.groupby('Durée_cat'):
    e = entropie(subset['Clic'])
    entropie_duree += len(subset)/len(df) * e
    print(f"Entropie pour Durée_cat={val} : {e:.3f}")
gain_duree = entropie_totale - entropie_duree
print(f"Gain d'information (Durée_cat) : {gain_duree:.3f}")

# Conclusion sur le nœud racine
if gain_type > gain_duree:
    print("Le nœud racine optimal est : Type de publicité")
else:
    print("Le nœud racine optimal est : Durée (catégorisée)")

In [None]:
# Construction manuelle de l'arbre de décision et prédiction pour (Durée=15, Type=Vidéo)

# On utilise le nœud racine optimal trouvé précédemment
# Pour la prédiction, on suit la logique de l'arbre

# Filtrage des exemples similaires
cas_test = {'Durée': 15, 'Type': 'Vidéo'}

# On regarde les exemples avec Type=Vidéo
df_video = df[df['Type'] == 'Vidéo']
print("Exemples avec Type=Vidéo :")
print(df_video)

# Parmi ces exemples, on regarde la durée
# Pour Durée=15, on peut regarder la tendance pour Durée<=15
video_le15 = df_video[df_video['Durée'] <= 15]
print("Exemples Vidéo avec Durée<=15 :")
print(video_le15)

# Statistique de clic
clic_oui = (video_le15['Clic'] == 'Oui').sum()
clic_non = (video_le15['Clic'] == 'Non').sum()
if clic_oui > clic_non:
    print("Prédiction : Oui, le client va cliquer sur la publicité.")
else:
    print("Prédiction : Non, le client ne va pas cliquer sur la publicité.")

### Interprétation et conclusion

- Le nœud racine optimal est déterminé en comparant le gain d'information pour chaque variable.
- La prédiction pour un client de 15 minutes avec une publicité vidéo se base sur les exemples similaires dans les données.
- On observe la tendance majoritaire (clic ou non) pour les cas correspondants.

Tu peux exécuter les cellules pour voir les calculs et la prédiction détaillée.