In [12]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
import time

In [13]:
# 1.数据读取

#显示所有列
#pd.set_option('display.max_columns',None)
#显示所有行
#pd.set_option('display.max_rows',None)


# 记录开始时间
s = time.time()
df = pd.read_excel('顶板事故全.xlsx')
print("读取顶板事故表格：")
print(df.head())

读取顶板事故表格：
   序号                                                 致因
0   1  不及时支护,空顶作业,安全技术措施不到位,未加强顶板管理,培训工作不到位,无专人指挥,放炮后...
1   2  不及时支护,未加强顶板管理,无科学的支护设计,人自保意识差,不开班会就进行生产,培训工作不到...
2   3  回柱放顶分为两段,未加强顶板管理,安全技术措施不到位,管理混乱、瞎指挥,不开班会就进行生产,...
3   4  没有严格执行敲帮问顶制度,工作面拆、架棚工作同时进行,无科学的支护设计,矿业务部门、安监部门...
4   5  空顶作业,对于支护形式规格无严格的质量要求,没有严格执行敲帮问顶制度,员工自上而下维修支护支...


In [14]:
# 2. 数据预处理

causes = []  # 创建一个空列表：致因
# 切分 转化为一个二维数组
print("将表格转换为二维数组后,再改变类型转换为一个布尔类型的表格：")
for i in df['致因'].tolist():#将数组或矩阵转换为列表
    causes.append(i.split(','))

# 将数据转化为布尔类型
TE = TransactionEncoder() # 构造转换类型
data = TE.fit_transform(causes)  # 转换为一个布尔类型的表格
print("数据列属性：",TE.columns_)
print(data)
#
# 将布尔类型的数据存储为DataFrame 格式
print("转换为DataFrame格式：")
df = pd.DataFrame(data, columns=TE.columns_)
print(df.head())
#

将表格转换为二维数组后,再改变类型转换为一个布尔类型的表格：
数据列属性： [' 支护材料质量差', '不及时支护', '不开班会就进行生产', '人自保意识差', '分工不明确', '员工自上而下维修支护支柱', '回柱放顶分为两段', '培训工作不到位', '安全技术措施不到位', '安全技术措施的编制、审批不认真', '安全教育不足', '安全生产责任制不落实', '安全管理生产混乱', '对于支护形式规格无严格的质量要求', '局部未支护', '工作面拆、架棚工作同时进行', '工作面控顶距离超过规定', '巷道断面小', '抬棚架质量差', '支护材料不足', '支护材料质量差', '放炮后未对巷道支护进行检查和维护', '无专人指挥', '无科学的支护设计', '未加强顶板管理', '未对安全隐患安排处理', '没有严格执行敲帮问顶制度', '混凝土预制砌碹保温措施不到位', '矿业务部门、安监部门监检不到位', '碹拱未紧跟迎头', '空顶作业', '管理混乱、瞎指挥', '设置专业管理人员不足', '违章操作']
[[False  True False False  True False False  True  True False False  True
  False False  True False False  True False  True False  True  True  True
   True False False False False False  True False False False]
 [False  True  True  True False False False  True False False False  True
  False False False False False False False False  True False False  True
   True False False False  True False False False False False]
 [False False  True False False False  True False  True False False False
  False False False False False 

In [15]:
# 3.挖掘频繁项集支持度大于0.2

items = apriori(df, min_support=0.15, use_colnames=True)
#print("所有频繁集:",items)
print("只有一个频繁项:",items[items['itemsets'].apply(lambda x:len(x))==1])
# print("只有两个频繁项:",items[items['itemsets'].apply(lambda x:len(x))==2])
# print("只有三个频繁项:",items[items['itemsets'].apply(lambda x:len(x))==3])
# print("只有四个频繁项:",items[items['itemsets'].apply(lambda x:len(x))==4])
#

只有一个频繁项:      support           itemsets
0   0.222222            (不及时支护)
1   0.722222        (不开班会就进行生产)
2   0.444444           (人自保意识差)
3   0.166667          (培训工作不到位)
4   0.777778        (安全技术措施不到位)
5   0.166667  (安全技术措施的编制、审批不认真)
6   0.388889       (安全生产责任制不落实)
7   0.166667           (抬棚架质量差)
8   0.222222          (支护材料质量差)
9   0.444444         (无科学的支护设计)
10  0.500000          (未加强顶板管理)
11  0.277778     (没有严格执行敲帮问顶制度)
12  0.555556  (矿业务部门、安监部门监检不到位)
13  0.166667             (空顶作业)
14  0.388889         (管理混乱、瞎指挥)


In [16]:
# 4.根据最小置信度，在频繁项集中找强关联规则
rules = association_rules(items, min_threshold=0.8)
print(rules.columns)
"""
Index(['antecedents', 'consequents', 'antecedent support',
       'consequent support', 'support', 'confidence', 'lift', 'leverage',
       'conviction'],
      dtype='object')
"""
print(rules['confidence'])
print(rules)
print("------------------------------------")

Index(['antecedents', 'consequents', 'antecedent support',
       'consequent support', 'support', 'confidence', 'lift',
       'representativity', 'leverage', 'conviction', 'zhangs_metric',
       'jaccard', 'certainty', 'kulczynski'],
      dtype='object')
0     0.875000
1     1.000000
2     0.900000
3     0.857143
4     1.000000
5     1.000000
6     1.000000
7     1.000000
8     1.000000
9     1.000000
10    1.000000
11    1.000000
12    1.000000
13    1.000000
14    1.000000
15    1.000000
16    0.833333
17    1.000000
18    1.000000
19    1.000000
20    1.000000
21    1.000000
22    1.000000
23    1.000000
24    1.000000
25    1.000000
26    1.000000
27    1.000000
28    1.000000
29    1.000000
30    1.000000
31    1.000000
32    1.000000
33    1.000000
34    1.000000
35    1.000000
36    1.000000
37    1.000000
38    1.000000
39    1.000000
Name: confidence, dtype: float64
                              antecedents                   consequents  \
0                                

In [17]:
# 5.提取关联规则，美化
for i, j in rules.iterrows():
    X = j['antecedents']
    Y = j['consequents']
    Z = str(j['lift'])
    M = str(j['confidence'])
    x = ', '.join([item for item in X])
    y = ', '.join([item for item in Y])
    Z1 = float(Z)
    if Z1 > 1.0:
        print(x + ' → ' + y +'  提升度: ' + Z + '  置信度: ' + M)
    # print(type(Z))
    # print(rules['lift'])

    # 输出总用时
print("总用时:", (time.time() - s), "s")

人自保意识差 → 不开班会就进行生产  提升度: 1.2115384615384617  置信度: 0.8750000000000001
安全技术措施的编制、审批不认真 → 不开班会就进行生产  提升度: 1.3846153846153846  置信度: 1.0
矿业务部门、安监部门监检不到位 → 不开班会就进行生产  提升度: 1.246153846153846  置信度: 0.8999999999999999
管理混乱、瞎指挥 → 不开班会就进行生产  提升度: 1.1868131868131868  置信度: 0.8571428571428571
培训工作不到位 → 无科学的支护设计  提升度: 2.25  置信度: 1.0
没有严格执行敲帮问顶制度 → 安全技术措施不到位  提升度: 1.2857142857142856  置信度: 1.0
空顶作业 → 安全技术措施不到位  提升度: 1.2857142857142856  置信度: 1.0
安全技术措施的编制、审批不认真 → 矿业务部门、安监部门监检不到位  提升度: 1.7999999999999998  置信度: 1.0
空顶作业 → 未加强顶板管理  提升度: 2.0  置信度: 1.0
人自保意识差, 安全生产责任制不落实 → 不开班会就进行生产  提升度: 1.3846153846153846  置信度: 1.0
人自保意识差, 支护材料质量差 → 不开班会就进行生产  提升度: 1.3846153846153846  置信度: 1.0
支护材料质量差, 不开班会就进行生产 → 人自保意识差  提升度: 2.25  置信度: 1.0
人自保意识差, 未加强顶板管理 → 不开班会就进行生产  提升度: 1.3846153846153846  置信度: 1.0
人自保意识差, 矿业务部门、安监部门监检不到位 → 不开班会就进行生产  提升度: 1.3846153846153846  置信度: 1.0
人自保意识差, 管理混乱、瞎指挥 → 不开班会就进行生产  提升度: 1.3846153846153846  置信度: 1.0
没有严格执行敲帮问顶制度, 不开班会就进行生产 → 安全技术措施不到位  提升度: 1.2857142857142856  置信度: 1.0
安全技术措施不到位, 矿业务部门、