In [1602]:
import pandas as pd
import numpy as np
import math

# I. Numereisation

## 1. Recuperation de donnee

In [1603]:
def load_data_from_csv(csv_path:str):
    data = pd.read_csv(csv_path)
    return data

## 2. Encodage

In [1604]:
def encodage(data,indexes:list,encode_rules):
    ''' Permet de faire l'encodage des donnees 
        ARGS
            - data : la liste des donnees
            - indexes : la listes des colonnes a encoder
            - encode_rules : un dictionaire des regles a suivre pour encodes la valeur des donnees
    '''
    for i in range(len(data)):
        for index in indexes:
            value = data.loc[i,index]
            try:
                value = encode_rules[index][value]
            except :
                value = encode_rules[value]
            data.loc[i,index] = value

# II. Entropie

In [1605]:
def entopie_piece(repetion:int,total:int):
    result = repetion / total
    return result

In [1606]:
def entropie(data:pd.DataFrame,class_attribute:str):
    ''' Etablir l'entropie a partir d'une colonne de classe 
        PARAMETERS :
            - data : les donnees pour etablir l'entropie
            - class_attribute : Le nom de la colonne qui represente les donnee pour l'entropie
        RETURN :
            - entropie , la valeur entropique des donnees par rapport au colonne donnee
    '''
    # Le nombre total de donnee
    data_lenght = len(data)
    # Recuperer les valeurs de la classe
    class_values = data[class_attribute]
    # Recupere en unique les valeur de la class
    class_unique_values = set(class_values)
    # Calculer la repetions de chacunes des valeurs parmi les donnees
    repetitions = {
        valeur: class_values.tolist().count(valeur) 
        for valeur in class_unique_values
    }
    # Le resultat attendue
    entropie = 0
    # Calcul de l'entropie
    for value in class_unique_values:
        # La piece entropique de la valeur
        pc = entopie_piece(repetitions[value],data_lenght)
        # Incrementation de la somme
        it = -(pc) * math.log2(pc)
        entropie += it
    return entropie

# III. Meilleure Caracteristique

## 1. Gain

### 1.1. Separation de donnee

In [1607]:
def split_data(dataframe,colonne):
    """
    Sépare les données d'un DataFrame selon une colonne spécifique en regroupant les mêmes critères.

    Parameters:
    dataframe (pd.DataFrame): Le DataFrame contenant les données.
    colonne (str): Le nom de la colonne selon laquelle séparer les données.

    Returns:
    dict: Un dictionnaire où les clés sont les valeurs uniques de la colonne et les valeurs sont les DataFrames correspondants.
    """
    groupes = dataframe.groupby(colonne)
    resultats = {nom: groupe for nom , groupe in groupes}
    return resultats

### 1.2. Fonction de gain

In [1608]:
def gain(data:pd.DataFrame,ref_attribute:str,class_attribute:str):
    # Entropie de l'ensemble du data
    entropie_S = entropie(data,class_attribute)
    # Le gain attendue
    gain = entropie_S
    # Le nombre de donnee total
    nS = len(data)
    # Separation des donnees en plusieurs sous section de donnee
    data_sv = split_data(data,ref_attribute)
    for index, data_part in data_sv.items():
        # Le nombre de sous section
        nSv = len(data_part)
        sv = nSv/nS
        # Entropie du sous section
        entropie_SV = entropie(data_part,class_attribute)

        gain -= sv*entropie_SV
    return gain

## 2. Calculs des GAINS

In [1609]:
def gains(data:pd.DataFrame,class_attribute:str):
    ''' 
        Calcul des gains pour chaque critere present parmi les donnees
        ARGS :
            - data : la liste des donnees d'entrainement
            - class_attribute : le nom de la colonne qui prescise la class des donees
        RETURNS :
            - gains , tableau des couples ( nom critere , gain )
    '''
    # Resulats > Liste des gains
    gains = list()
    # Recuperation des criteres possibles
    indexes = data.columns
    for index in indexes :
        if index == class_attribute:
            continue
        gains.append({index : gain(data,index,class_attribute)})
    return gains

## 3. Best collumn

In [1610]:
def find_best_criteria(data:pd.DataFrame,class_attribute:str):
    '''
        Calcul le gain d'information de chaque critere de donnee pour determiner le meilleur parmi eux
        ARGS :
            - data : la liste des donnees d'entrainement
            - class_attribute : le nom de la colonne qui prescise la class des donees
        RETURNS :
            - criteria , le nom du critere qui possede le gain la plus haute apres filtre decroissante
    '''
    # Recuperation des gains pour chaque criteres
    gains_var = gains(data,class_attribute)
    # Filtrer decroissant
    gains_sorted = sorted(gains_var, key=lambda d : list(d.values())[0])
    gains_sorted.reverse()
    return [criteria for criteria , gain_value in gains_sorted[0].items()][0]

# IV. ARBRE

## 1. Creation d'un arbre

In [1611]:
def generate_tree_branch(splited_data,class_attribute):
    branch = {}
    for key in splited_data.keys():
        # Data de chaque section
        data_part = splited_data[key]
        # On verifie l'entropie 
        data_entropie = entropie(data_part,class_attribute)
        if data_entropie == 0:
            # Pour une entropie homogene
            data_class = np.array(data_part[class_attribute])[0]
            branch[key] = data_class
        else :
            branch[key] = generate_tree_body(data_part,class_attribute)
    return branch

In [1612]:
def generate_tree_body(data:pd.DataFrame,class_attribute:str):
    # Recuperer le meilleur critre
    best_criteria = find_best_criteria(data,class_attribute)
    # The tree decision
    tree_body = {
        'body_name':best_criteria
    }
    # Diviser en sous section des donnees du best criteria
    splited_data = split_data(data,best_criteria)
    # Generate the branches of the body
    tree_body['branch'] = generate_tree_branch(splited_data,class_attribute)
    return tree_body

In [1613]:
def generate_tree(data:pd.DataFrame,class_attribute:str):
    # The tree decision
    tree = {
        'class_name':class_attribute,
        'tree_body':generate_tree_body(data,class_attribute)
    }
    return tree

## 2. Prise de decision

In [1614]:
def get_tree_body_class_result(data:object,tree_body:dict):
    body_name = tree_body['body_name']
    branch  = tree_body['branch']
    # Recuperer le chemin logique du donnee dans l'arbre
    branch_path = data[body_name]
    class_result = branch[branch_path]
    if type(class_result) ==  dict:
        class_result = get_tree_body_class_result(data,class_result)
    return class_result

In [1615]:
def get_class_by_tree(data:object,tree:dict):
    # La class a determiner
    data_class = None
    tree_body = tree['tree_body']
    data_class = get_tree_body_class_result(data,tree_body)
    return data_class

# V. FOREST

## 1. Shuffle Data

In [1616]:
def shuffle_data(dataframe:pd.DataFrame):
    """
        Retourne une copie mélangée d'un DataFrame.

        Parameters:
        dataframe (pd.DataFrame): Le DataFrame contenant les données.

        Returns:
        pd.DataFrame: Une copie mélangée du DataFrame.
    """
    # Mélanger les lignes du DataFrame
    dataframe_melange = dataframe.sample(frac=1, random_state=1).reset_index(drop=True)
    return dataframe_melange

## 2. Data select 

In [1617]:
def data_select(dataframe:pd.DataFrame, pourcentage:int):
    """
    Récupère un pourcentage donné de lignes d'un DataFrame.

    Parameters:
    dataframe (pd.DataFrame): Le DataFrame contenant les données.
    pourcentage (float): Le pourcentage de lignes à récupérer (entre 0 et 100).

    Returns:
    pd.DataFrame: Un DataFrame contenant le pourcentage spécifié de lignes.
    """
    if pourcentage < 0 or pourcentage > 100:
        raise ValueError("Le pourcentage doit être entre 0 et 100.")
    
    # Calcul du nombre de lignes à récupérer
    nombre_lignes = int(len(dataframe) * (pourcentage / 100))
    
    # Sélection aléatoire des lignes
    echantillon = dataframe.sample(nombre_lignes)
    
    return echantillon

## 3. Random data select

In [1618]:
def random_data_select(data:pd.DataFrame,pourcentage:int):
    shuffled_data = shuffle_data(data)
    echantillon = data_select(shuffled_data,pourcentage)
    return echantillon

## Forest gen

In [1619]:
def generate_forest(train_data:pd.DataFrame,pourcentage:int,tree_number:int):
    forest = []
    for i in range(tree_number):
        echantillon = random_data_select(train_data,pourcentage)
        print(f'>> {echantillon}\n')
    
    return forest

# Main

## MAIN FOREST

In [1620]:
# Recuperation des donnees
data = load_data_from_csv("data/spam.csv")
pourcentage = 25
tree_number = 10
# Encodage des donnees
# encodage(
#     data,
#     indexes=['Previsions','Temperature','Humidite','Vent','Classe'],
#     encode_rules={
#         'Ensoleille':1,'Nuageux':2,'Pluvieux':3,
#         'Chaud':3,'Moyen':2,'Frais':1,
#         'Elevee':2,'Normale':1,
#         'Faible':1,'Fort':2,
#         'Oui':0,'Non':1
#     }
# )
generate_forest(data,pourcentage,tree_number)

>>     Previsions Temperature Humidite    Vent Classe
0     Pluvieux       Moyen   Elevee  Faible    Oui
4   Ensoleille       Moyen  Normale    Fort    Oui
10    Pluvieux       Moyen  Normale  Faible    Oui

>>     Previsions Temperature Humidite    Vent Classe
11  Ensoleille       Frais  Normale  Faible    Oui
0     Pluvieux       Moyen   Elevee  Faible    Oui
1   Ensoleille       Moyen   Elevee  Faible    Non

>>     Previsions Temperature Humidite    Vent Classe
2      Nuageux       Frais  Normale    Fort    Oui
11  Ensoleille       Frais  Normale  Faible    Oui
10    Pluvieux       Moyen  Normale  Faible    Oui

>>     Previsions Temperature Humidite    Vent Classe
12     Nuageux       Moyen   Elevee    Fort    Oui
8   Ensoleille       Chaud   Elevee  Faible    Non
13    Pluvieux       Frais  Normale    Fort    Non

>>     Previsions Temperature Humidite    Vent Classe
9     Pluvieux       Moyen   Elevee    Fort    Non
1   Ensoleille       Moyen   Elevee  Faible    Non
11  Ensoleil

[]

## MAIN TREE

In [1621]:
# Recuperation des donnees
data = load_data_from_csv("data/spam.csv")
# Encodage des donnees
# encodage (
#     data,
#     indexes=['Previsions','Temperature','Humidite','Vent','Classe'],
#     encode_rules={
#         'Ensoleille':1,'Nuageux':2,'Pluvieux':3,
#         'Chaud':3,'Moyen':2,'Frais':1,
#         'Elevee':2,'Normale':1,
#         'Faible':1,'Fort':2,
#         'Oui':0,'Non':1
#     }
# )
# Creation d'un arbre
tree = generate_tree(data,'Classe')
# Classer a partir d'un arbre
print(tree)
for i in range(len(data)):    
    classification = get_class_by_tree(data.loc[i],tree)
    print(classification)

{'class_name': 'Classe', 'tree_body': {'body_name': 'Previsions', 'branch': {'Ensoleille': {'body_name': 'Humidite', 'branch': {'Elevee': 'Non', 'Normale': 'Oui'}}, 'Nuageux': 'Oui', 'Pluvieux': {'body_name': 'Vent', 'branch': {'Faible': 'Oui', 'Fort': 'Non'}}}}}
Non
Non
Oui
Oui
Oui
Non
Oui
Non
Oui
Oui
Oui
Oui
Oui
Non
