In [22]:
import pandas as pd
import numpy as np
import math

# Numereisation

In [23]:
def load_data_from_csv(csv_path:str):
    data = pd.read_csv(csv_path)
    return data

In [24]:
def encodage(data,indexes:list,encode_rules):
    ''' Permet de faire l'encodage des donnees 
        ARGS
            - data : la liste des donnees
            - indexes : la listes des colonnes a encoder
            - encode_rules : un dictionaire des regles a suivre pour encodes la valeur des donnees
    '''
    for i in range(len(data)):
        for index in indexes:
            value = data.loc[i,index]
            try:
                value = encode_rules[index][value]
            except :
                value = encode_rules[value]
            data.loc[i,index] = value

In [25]:
def entopie_piece(repetion:int,total:int):
    result = repetion / total
    return result

# Entropie

In [26]:
def entropie(data:pd.DataFrame,class_attribute:str):
    ''' Etablir l'entropie a partir d'une colonne de classe 
        PARAMETERS :
            - data : les donnees pour etablir l'entropie
            - class_attribute : Le nom de la colonne qui represente les donnee pour l'entropie
        RETURN :
            - entropie , la valeur entropique des donnees par rapport au colonne donnee
    '''
    # Le nombre total de donnee
    data_lenght = len(data)
    # Recuperer les valeurs de la classe
    class_values = data[class_attribute]
    # Recupere en unique les valeur de la class
    class_unique_values = set(class_values)
    # Calculer la repetions de chacunes des valeurs parmi les donnees
    repetitions = {
        valeur: class_values.tolist().count(valeur) 
        for valeur in class_unique_values
    }
    # Le resultat attendue
    entropie = 0
    # Calcul de l'entropie
    for value in class_unique_values:
        # La piece entropique de la valeur
        pc = entopie_piece(repetitions[value],data_lenght)
        # Incrementation de la somme
        it = -(pc) * math.log2(pc)
        entropie += it
    return entropie

# Gain

In [27]:
def gain(data:pd.DataFrame,ref_attribute:str,class_attribute:str):
    entropie_S = entropie(data,class_attribute)
    # Recuperer la liste des variables
    ref_variables = data[ref_attribute]
    variables = set(ref_variables)
    print(variables)

# Main

In [28]:
# Recuperation des donnees
data = load_data_from_csv("data/spam.csv")

# Encodage des donnees
encodage(
    data,
    indexes=['Previsions','Temperature','Humidite','Vent','Classe'],
    encode_rules={
        'Ensoleille':1,'Nuageux':2,'Pluvieux':3,
        'Chaud':3,'Moyen':2,'Frais':1,
        'Elevee':2,'Normale':1,
        'Faible':1,'Fort':2,
        'Oui':0,'Non':1
    }
)
# Etablir l'entropie
gain(data,'Previsions','Classe')

{1, 2, 3}
