In [None]:
import math
import pandas as pd
import numpy as np

def Entropia(X):
    if len(X) == 0:
        return 0.0

    numClases = X.iloc[:, -1].value_counts()
    entropia = 0.0
    n = len(X)

    for class_count in numClases:
        p = class_count / n
        entropia -= p * math.log2(p)

    return entropia

def InfoGainAttributeEval(D):
    n = len(D)
    m = D.shape[1] - 1  # Número de características
    Ganancia = [0.0] * m

    # Cálculo de la entropía total del conjunto de datos
    entropia_D = Entropia(D)

    for i in range(m):
        caracteristicas = D.iloc[:, i].unique()

        # Dividir el conjunto de datos en subconjuntos según la característica i
        subconjuntos = {valor: D[D.iloc[:, i] == valor] for valor in caracteristicas}

        # Cálculo de la ganancia de información
        for valor, subconjunto in subconjuntos.items():
            p_Xi = len(subconjunto) / n
            entropia_Xi = Entropia(subconjunto)
            Ganancia[i] += p_Xi * (entropia_D - entropia_Xi)

    return Ganancia

# Ejemplo de uso
datos = pd.read_csv("Datos.csv")
X = pd.DataFrame(datos.drop(columns=["y"]))
y = datos["y"]

y = y.astype('category')
X['x1'] = X['x1'].astype('category')
X['x2'] = X['x2'].astype('category')
X['x3'] = X['x3'].astype('category')
X['x4'] = X['x4'].astype('category')
X['x5'] = X['x5'].astype('category')

ganan_info = InfoGainAttributeEval(datos)
print("Ganancias de la información por atributo: ")
nombres = list(X.columns.values)
orden=np.argsort(ganan_info)
orden = orden[::-1]

for i in orden:
  print(str(nombres[i])+": "+str(ganan_info[i]))


Ganancias de la información por atributo: 
x3: 0.20476230454296074
x4: 0.08661866337139501
x2: 0.019227688202655135
x1: 0.006166597330896882
x5: 0.0029611813178176626
