In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mutual_info_score

# 1. 创建数据集
data = {
    '序号': range(15),
    '年龄': ['青年', '青年', '青年', '青年', '青年', '中年', '中年', '中年', '中年', '中年', '老年', '老年', '老年', '老年', '老年'],
    '有工作': ['否', '否', '是', '是', '否', '否', '否', '是', '否', '否', '否', '否', '是', '是', '否'],
    '有房子': ['否', '否', '否', '是', '否', '否', '否', '是', '是', '是', '是', '是', '否', '否', '否'],
    '信用': ['一般', '好', '好', '一般', '一般', '一般', '好', '好', '非常好', '非常好', '非常好', '好', '好', '非常好', '一般'],
    '类别': ['否', '否', '是', '是', '否', '否', '否', '是', '是', '是', '是', '是', '是', '是', '否']
}
df = pd.DataFrame(data)
df = df.set_index('序号')
df

Unnamed: 0_level_0,年龄,有工作,有房子,信用,类别
序号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,青年,否,否,一般,否
1,青年,否,否,好,否
2,青年,是,否,好,是
3,青年,是,是,一般,是
4,青年,否,否,一般,否
5,中年,否,否,一般,否
6,中年,否,否,好,否
7,中年,是,是,好,是
8,中年,否,是,非常好,是
9,中年,否,是,非常好,是


In [2]:
features = ['年龄', '有工作', '有房子', '信用']   # 待考察特征
target = '类别'                                 # 标签列

# 2. 计算每个特征的信息增益
info_gains = {}

for feat in features:
    # 2-1 将字符串特征→整数编码
    le_feat = LabelEncoder()
    X_encoded = le_feat.fit_transform(df[feat])

    # 2-2 将字符串标签→整数编码
    le_target = LabelEncoder()
    y_encoded = le_target.fit_transform(df[target])

    # 2-3 信息增益
    gain = mutual_info_score(X_encoded, y_encoded)
    info_gains[feat] = gain

info_gains

{'年龄': 0.05753641449035618,
 '有工作': 0.2243372223364189,
 '有房子': 0.29110316603236847,
 '信用': 0.2516051918452686}

In [3]:
# 3. 输出结果
print("各特征的信息增益：")
for feat, gain in info_gains.items():
    print(f"{feat}: {gain:.4f}")

# 4. 最优特征
best_feature = max(info_gains, key=info_gains.get)
print(f"\n信息增益最大的特征是：'{best_feature}' (增益 = {info_gains[best_feature]:.4f})")

各特征的信息增益：
年龄: 0.0575
有工作: 0.2243
有房子: 0.2911
信用: 0.2516

信息增益最大的特征是：'有房子' (增益 = 0.2911)
