In [4]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [5]:
df=pd.read_csv("heart_disease_uci.csv")

# Entropie

In [21]:
def entropie(s):
    resultat = 0.0
    valeur, compteur = np.unique(s, return_counts=True)
    freqs = compteur.astype('float')/len(s)
    for p in freqs:
        if p != 0.0:
            resultat -= p * np.log2(p)
    return resultat



# Gain

In [22]:
def gain(y, x):

    resultat = entropie(y)

    # On comptabilise le nombre d'attribut
    valeur, compteur = np.unique(x, return_counts=True)
    frequences = compteur.astype('float')/len(x)

    # Moyenne ponderé par l'entropie 
    for p, v in zip(frequences, valeur):
        resultat -= p * entropie(y[x == v])
    return resultat

# Sélection du meilleur attribut

In [14]:
# Fonction pour sélectionner le meilleur attribut
def select_best_attribute(y, X):
    """
    y : Array cible (classes)
    X : Matrice des caractéristiques (2D numpy array ou DataFrame)
    
    Retourne l'indice de la meilleure colonne et son gain
    """
    best_gain = -1
    best_attribute = -1

    # Calculer le gain pour chaque colonne
    for i in range(X.shape[1]):
        current_gain = gain(y, X[:, i])  # On considère chaque colonne comme attribut
        if current_gain > best_gain:
            best_gain = current_gain
            best_attribute = i

    return best_attribute, best_gain
    

# construire l'arbre de décision

In [15]:
# Fonction pour construire l'arbre de décision avec critères d'arrêt
def build_tree(X, y, max_depth=None, min_samples_split=2, depth=0):
    # Si tous les échantillons appartiennent à la même classe, retourner cette classe
    if len(np.unique(y)) == 1:
        return y[0]

    # Si la profondeur maximale est atteinte, retourner la classe majoritaire
    if max_depth is not None and depth >= max_depth:
        return np.bincount(y).argmax()

    # Si le nombre minimal de données n'est pas atteint, retourner la classe majoritaire
    if len(y) < min_samples_split:
        return np.bincount(y).argmax()

    # Sélectionner le meilleur attribut pour diviser les données
    best_attribute = select_best_attribute(y, X)

    # Créer un nœud pour l'arbre
    tree = {best_attribute: {}}

    # Diviser les données en fonction des valeurs de l'attribut sélectionné
    attribute_values = np.unique(X[:, best_attribute])
    for value in attribute_values:
        subset_X = X[X[:, best_attribute] == value]
        subset_y = y[X[:, best_attribute] == value]

        # Supprimer l'attribut utilisé pour la division
        subset_X = np.delete(subset_X, best_attribute, axis=1)

        # Construire récursivement l'arbre pour ce sous-ensemble de données
        subtree = build_tree(subset_X, subset_y, max_depth, min_samples_split, depth + 1)

        # Ajouter le sous-arbre au nœud actuel
        tree[best_attribute][value] = subtree

    return tree




In [26]:
# Fonction pour construire l'arbre de décision avec critères d'arrêt
def build_tree(X, y, max_depth=None, min_samples_split=2, depth=0):
    # Si tous les échantillons appartiennent à la même classe, retourner cette classe
    if len(np.unique(y)) == 1:
        return y[0]

    # Si la profondeur maximale est atteinte, retourner la classe majoritaire
    if max_depth is not None and depth >= max_depth:
        return np.bincount(y).argmax()

    # Si le nombre minimal de données n'est pas atteint, retourner la classe majoritaire
    if len(y) < min_samples_split:
        return np.bincount(y).argmax()

    # Sélectionner le meilleur attribut pour diviser les données
    best_attribute = select_best_attribute(y, X)

    # Créer un nœud pour l'arbre
    tree = {best_attribute: {}}
    
    # Si aucun attribut n'a été sélectionné, retourner la classe majoritaire
    if best_attribute == -1:
        return np.bincount(y).argmax()

    # Diviser les données en fonction des valeurs de l'attribut sélectionné
    attribute_values = np.unique(X[:, best_attribute])
    for value in attribute_values:
        subset_X = X[X[:, best_attribute] == value]
        subset_y = y[X[:, best_attribute] == value]

        # Supprimer l'attribut utilisé pour la division
        subset_X = np.delete(subset_X, best_attribute, axis=1)

        # Construire récursivement l'arbre pour ce sous-ensemble de données
        subtree = build_tree(subset_X, subset_y, max_depth, min_samples_split, depth + 1)

        # Ajouter le sous-arbre au nœud actuel
        tree[best_attribute][value] = subtree

    return tree



# Prédiction

In [17]:
# Fonction pour faire des prédictions avec l'arbre de décision
def predict(tree, X):
    predictions = []
    for sample in X:
        node = tree
        while isinstance(node, dict):
            attribute = list(node.keys())[0]
            value = sample[attribute]
            node = node[attribute].get(value)
        predictions.append(node)
    return np.array(predictions)

# TEST

In [18]:
df

Unnamed: 0,id,age,sex,dataset,cp,trestbps,chol,fbs,restecg,thalch,exang,oldpeak,slope,ca,thal,num
0,1,63,Male,Cleveland,typical angina,145.0,233.0,True,lv hypertrophy,150.0,False,2.3,downsloping,0.0,fixed defect,0
1,2,67,Male,Cleveland,asymptomatic,160.0,286.0,False,lv hypertrophy,108.0,True,1.5,flat,3.0,normal,2
2,3,67,Male,Cleveland,asymptomatic,120.0,229.0,False,lv hypertrophy,129.0,True,2.6,flat,2.0,reversable defect,1
3,4,37,Male,Cleveland,non-anginal,130.0,250.0,False,normal,187.0,False,3.5,downsloping,0.0,normal,0
4,5,41,Female,Cleveland,atypical angina,130.0,204.0,False,lv hypertrophy,172.0,False,1.4,upsloping,0.0,normal,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
915,916,54,Female,VA Long Beach,asymptomatic,127.0,333.0,True,st-t abnormality,154.0,False,0.0,,,,1
916,917,62,Male,VA Long Beach,typical angina,,139.0,False,st-t abnormality,,,,,,,0
917,918,55,Male,VA Long Beach,asymptomatic,122.0,223.0,True,st-t abnormality,100.0,False,0.0,,,fixed defect,2
918,919,58,Male,VA Long Beach,asymptomatic,,385.0,True,lv hypertrophy,,,,,,,0


In [19]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train, X_test, y_train, y_test

(array([[4.6, 3.6, 1. , 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [6.7, 3.1, 4.4, 1.4],
        [4.8, 3.4, 1.6, 0.2],
        [4.4, 3.2, 1.3, 0.2],
        [6.3, 2.5, 5. , 1.9],
        [6.4, 3.2, 4.5, 1.5],
        [5.2, 3.5, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.2, 4.1, 1.5, 0.1],
        [5.8, 2.7, 5.1, 1.9],
        [6. , 3.4, 4.5, 1.6],
        [6.7, 3.1, 4.7, 1.5],
        [5.4, 3.9, 1.3, 0.4],
        [5.4, 3.7, 1.5, 0.2],
        [5.5, 2.4, 3.7, 1. ],
        [6.3, 2.8, 5.1, 1.5],
        [6.4, 3.1, 5.5, 1.8],
        [6.6, 3. , 4.4, 1.4],
        [7.2, 3.6, 6.1, 2.5],
        [5.7, 2.9, 4.2, 1.3],
        [7.6, 3. , 6.6, 2.1],
        [5.6, 3. , 4.5, 1.5],
        [5.1, 3.5, 1.4, 0.2],
        [7.7, 2.8, 6.7, 2. ],
        [5.8, 2.7, 4.1, 1. ],
        [5.2, 3.4, 1.4, 0.2],
        [5. , 3.5, 1.3, 0.3],
        [5.1, 3.8, 1.9, 0.4],
        [5. , 2. , 3.5, 1. ],
        [6.3, 2.7, 4.9, 1.8],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5

In [27]:
# Construire l'arbre de décision avec des critères d'arrêt
tree = build_tree(X_train, y_train, max_depth=2, min_samples_split=2)
print("Arbre de décision construit :")
print(tree)

Arbre de décision construit :
{2: {1.0: 0, 1.1: 0, 1.2: 0, 1.3: 0, 1.4: 0, 1.5: 0, 1.6: 0, 1.7: 0, 1.9: 0, 3.0: 1, 3.3: 1, 3.5: 1, 3.7: 1, 3.8: 1, 3.9: 1, 4.0: 1, 4.1: 1, 4.2: 1, 4.3: 1, 4.4: 1, 4.5: {0: {4.9: 2, 5.4: 1, 5.6: 1, 6.0: 1, 6.4: 1}}, 4.6: 1, 4.7: 1, 4.8: {0: {5.9: 1, 6.0: 2, 6.2: 2}}, 4.9: {1: {2.5: 1, 2.7: 2, 2.8: 2, 3.1: 1}}, 5.0: {0: {5.7: 2, 6.0: 2, 6.3: 2, 6.7: 1}}, 5.1: {0: {5.8: 2, 5.9: 2, 6.0: 1, 6.3: 2}}, 5.2: 2, 5.3: 2, 5.4: 2, 5.5: 2, 5.6: 2, 5.7: 2, 5.8: 2, 5.9: 2, 6.0: 2, 6.1: 2, 6.3: 2, 6.6: 2, 6.7: 2}}


In [28]:
# Faire des prédictions sur les données de test
predictions = predict(tree, X_test)
print("Prédictions :")
print(predictions)

Prédictions :
[1 0 None 1 None 0 None None None 1 None 0 0 0 0 1 2 1 None 2 0 None 0 2
 None 2 2 2 0 0]


In [24]:
import numpy as np

# Fonction pour calculer l'entropie
def entropie(y):
    valeur, compteur = np.unique(y, return_counts=True)
    probas = compteur.astype('float') / len(y)
    return -np.sum(probas * np.log2(probas))

# Fonction pour calculer le gain d'information
def gain(y, x):
    resultat = entropie(y)

    valeur, compteur = np.unique(x, return_counts=True)
    frequences = compteur.astype('float') / len(x)

    for p, v in zip(frequences, valeur):
        resultat -= p * entropie(y[x == v])
    return resultat

# Fonction pour sélectionner le meilleur attribut
def select_best_attribute(y, X):
    best_gain = -1
    best_attribute = -1

    for i in range(X.shape[1]):
        current_gain = gain(y, X[:, i])
        if current_gain > best_gain:
            best_gain = current_gain
            best_attribute = i

    return best_attribute

# Fonction pour construire l'arbre de décision avec critères d'arrêt
def build_tree(X, y, max_depth=None, min_samples_split=2, depth=0):
    # Si tous les échantillons appartiennent à la même classe, retourner cette classe
    if len(np.unique(y)) == 1:
        return y[0]

    # Si la profondeur maximale est atteinte, retourner la classe majoritaire
    if max_depth is not None and depth >= max_depth:
        return np.bincount(y).argmax()

    # Si le nombre minimal de données n'est pas atteint, retourner la classe majoritaire
    if len(y) < min_samples_split:
        return np.bincount(y).argmax()

    # Sélectionner le meilleur attribut pour diviser les données
    best_attribute = select_best_attribute(y, X)

    # Si aucun attribut n'a été sélectionné, retourner la classe majoritaire
    if best_attribute == -1:
        return np.bincount(y).argmax()

    # Créer un nœud pour l'arbre
    tree = {best_attribute: {}}

    # Diviser les données en fonction des valeurs de l'attribut sélectionné
    attribute_values = np.unique(X[:, best_attribute])
    for value in attribute_values:
        subset_X = X[X[:, best_attribute] == value]
        subset_y = y[X[:, best_attribute] == value]

        # Supprimer l'attribut utilisé pour la division
        subset_X = np.delete(subset_X, best_attribute, axis=1)

        # Construire récursivement l'arbre pour ce sous-ensemble de données
        subtree = build_tree(subset_X, subset_y, max_depth, min_samples_split, depth + 1)

        # Ajouter le sous-arbre au nœud actuel
        tree[best_attribute][value] = subtree

    return tree

# Fonction pour faire des prédictions avec l'arbre de décision
def predict(tree, X):
    predictions = []
    for sample in X:
        node = tree
        while isinstance(node, dict):
            attribute = list(node.keys())[0]
            value = sample[attribute]
            node = node[attribute].get(value)
        predictions.append(node)
    return np.array(predictions)


   