In [3]:
import numpy as np
dataset_filename = "affinity_dataset.txt"
X = np.loadtxt(dataset_filename)
n_samples, n_features = X.shape
print("该数据集有{0}个样本和{1}个特征".format(n_samples, n_features))

该数据集有100个样本和5个特征


In [4]:
print(X[:5])

[[0. 0. 1. 1. 1.]
 [1. 1. 0. 1. 0.]
 [1. 0. 1. 1. 0.]
 [0. 0. 1. 1. 1.]
 [0. 1. 0. 0. 1.]]


In [5]:
features = ["bread", "milk", "cheese", "apples", "bananas"]

In our first example, we will compute the Support and Confidence of the rule "If a person buys Apples, they also buy Bananas".

In [6]:
num_apple_purchases = 0
for sample in X:
    if sample[3] == 1:
        num_apple_purchases += 1
print("{0}人买了苹果".format(num_apple_purchases))

36人买了苹果


In [7]:
rule_valid = 0
rule_invalid = 0
for sample in X:
    if sample[3] == 1:  # 这个人买了苹果
        if sample[4] == 1:
            # 这个人既买了苹果，也买了香蕉
            rule_valid += 1
        else:
            # 这个人既买了苹果，没有买香蕉
            rule_invalid += 1
print("{0}个有效样本".format(rule_valid))
print("{0}个无效样本".format(rule_invalid))

21个有效样本
15个无效样本


In [13]:
frequency = rule_valid  # 有效规则出现的频率
confidence = rule_valid / num_apple_purchases
print("有效规则出现的频率为{0}，置信度为{1:.1f}%.".format(frequency, 100 * confidence))

有效规则出现的频率为21，置信度为58.3%.


In [15]:
from collections import defaultdict
valid_rules = defaultdict(int)
invalid_rules = defaultdict(int)
num_occurences = defaultdict(int)

for sample in X:
    for productA in range(n_features):
        if sample[productA] == 0: continue
        num_occurences[productA] += 1
        for productB in range(n_features):
            if productA == productB: 
                continue
            if sample[productB] == 1:
                # 这个人同时买了商品A和商品B
                valid_rules[(productA, productB)] += 1
            else:
                # 这个人同时买了商品A，没有买商品B
                invalid_rules[(productA, productB)] += 1
frequency = valid_rules
confidence = defaultdict(float)
for productA, productB in valid_rules.keys():
    confidence[(productA, productB)] = valid_rules[(productA, productB)] / num_occurences[productA]

In [16]:
for productA, productB in confidence:
    productA_name = features[productA]
    productB_name = features[productB]
    print("规则: 如果一个人买了{0}，他们也会买{1}".format(productA_name, productB_name))
    print(" - 置信度: {0:.3f}".format(confidence[(productA, productB)]))
    print(" - 频率: {0}".format(frequency[(productA, productB)]))
    print("")

规则: 如果一个人买了cheese，他们也会买apples
 - 置信度: 0.610
 - 频率: 25

规则: 如果一个人买了cheese，他们也会买bananas
 - 置信度: 0.659
 - 频率: 27

规则: 如果一个人买了apples，他们也会买cheese
 - 置信度: 0.694
 - 频率: 25

规则: 如果一个人买了apples，他们也会买bananas
 - 置信度: 0.583
 - 频率: 21

规则: 如果一个人买了bananas，他们也会买cheese
 - 置信度: 0.458
 - 频率: 27

规则: 如果一个人买了bananas，他们也会买apples
 - 置信度: 0.356
 - 频率: 21

规则: 如果一个人买了bread，他们也会买milk
 - 置信度: 0.519
 - 频率: 14

规则: 如果一个人买了bread，他们也会买apples
 - 置信度: 0.185
 - 频率: 5

规则: 如果一个人买了milk，他们也会买bread
 - 置信度: 0.304
 - 频率: 14

规则: 如果一个人买了milk，他们也会买apples
 - 置信度: 0.196
 - 频率: 9

规则: 如果一个人买了apples，他们也会买bread
 - 置信度: 0.139
 - 频率: 5

规则: 如果一个人买了apples，他们也会买milk
 - 置信度: 0.250
 - 频率: 9

规则: 如果一个人买了bread，他们也会买cheese
 - 置信度: 0.148
 - 频率: 4

规则: 如果一个人买了cheese，他们也会买bread
 - 置信度: 0.098
 - 频率: 4

规则: 如果一个人买了milk，他们也会买bananas
 - 置信度: 0.413
 - 频率: 19

规则: 如果一个人买了bananas，他们也会买milk
 - 置信度: 0.322
 - 频率: 19

规则: 如果一个人买了bread，他们也会买bananas
 - 置信度: 0.630
 - 频率: 17

规则: 如果一个人买了bananas，他们也会买bread
 - 置信度: 0.288
 - 频率: 17

规则: 如果一个人买了milk，他们也会买cheese


In [22]:
def print_rule(productA, productB, frequency, confidence, features):
    productA_name = features[productA]
    productB_name = features[productB]
    print("规则: 如果一个人买了{0}，他们也会买{1}".format(productA_name, productB_name))
    print(" - 置信度: {0:.2f}%".format(100 * confidence[(productA, productB)]))
    print(" - 频率: {0}".format(frequency[(productA, productB)]))
    print("")

In [24]:
productA = 3
productB = 4
print_rule(productA, productB, frequency, confidence, features)

规则: 如果一个人买了apples，他们也会买bananas
 - 置信度: 58.33%
 - 频率: 21



In [11]:
# Sort by support
from pprint import pprint
pprint(list(support.items()))

[((0, 1), 14),
 ((1, 2), 7),
 ((3, 2), 25),
 ((1, 3), 9),
 ((0, 2), 4),
 ((3, 0), 5),
 ((4, 1), 19),
 ((3, 1), 9),
 ((1, 4), 19),
 ((2, 4), 27),
 ((2, 0), 4),
 ((2, 3), 25),
 ((2, 1), 7),
 ((4, 3), 21),
 ((0, 4), 17),
 ((4, 2), 27),
 ((1, 0), 14),
 ((3, 4), 21),
 ((0, 3), 5),
 ((4, 0), 17)]


In [26]:
from operator import itemgetter
sorted_frequency = sorted(frequency.items(), key=itemgetter(1), reverse=True)

In [28]:
for index in range(3):
    print("规则 #{0}".format(index + 1))
    (productA, productB) = sorted_frequency[index][0]
    print_rule(productA, productB, frequency, confidence, features)

规则 #1
规则: 如果一个人买了cheese，他们也会买bananas
 - 置信度: 65.85%
 - 频率: 27

规则 #2
规则: 如果一个人买了bananas，他们也会买cheese
 - 置信度: 45.76%
 - 频率: 27

规则 #3
规则: 如果一个人买了cheese，他们也会买apples
 - 置信度: 60.98%
 - 频率: 25



In [29]:
sorted_confidence = sorted(confidence.items(), key=itemgetter(1), reverse=True)

In [31]:
for index in range(3):
    print("规则 #{0}".format(index + 1))
    (productA, productB) = sorted_confidence[index][0]
    print_rule(productA, productB, frequency, confidence, features)

规则 #1
规则: 如果一个人买了apples，他们也会买cheese
 - 置信度: 69.44%
 - 频率: 25

规则 #2
规则: 如果一个人买了cheese，他们也会买bananas
 - 置信度: 65.85%
 - 频率: 27

规则 #3
规则: 如果一个人买了bread，他们也会买bananas
 - 置信度: 62.96%
 - 频率: 17

