## 说明
在以前的测试思路上进行了改善  
1. 在报文中查找格式串时引入了beg参数，表示开始查询的起始位置，即按照报文从左到右依次查询，查找到第一个格式串便更新beg值
2. 问题：SMTP协议提取的两种格式，记为A和B，A中只有一个"RCPT TO"，B中有4个"RCPT TO"以及 1个"Cc: "，即A是B的子集，导致在进行flase_test时，B格式的报文也会通过A的测试，使召回率计算错误。
3. 解决：引入true_list，true_list中每个元素是一个小列表，对应一个test文件夹，记录test文件夹中通过自己的true_test的报文索引。执行false_test时，如果格式A匹配上了testB文件夹中的报文，不能直接将FN加一，还要判断该报文是否已在B类型的true_list中，如果在，则不能记为FN。

In [2]:
import os

In [3]:
str1 = '''HTTP/1.1 304 Not Modified
Date: ####
Server: ####
Connection: ####
Keep-Alive: ####
ETag: ####
Expires: ####
Cache-Control: ####
'''

str2 =  '''HTTP/1.1 200 OK
Date: ####
Server: ####
X-Frame-Options: ####
Last-Modified: ####
ETag: ####
Accept-Ranges: ####
Vary: ####
Content-Encoding: ####
Cache-Control: ####
Expires: ####
Content-Length: ####
Keep-Alive: ####
Connection: ####
Content-Type: ####
Content-Language: ####
'''

str3 = '''GET #### HTTP/1.1
Host: ####
Connection: ####
User-Agent: ####
Accept: ####
Referer: ####
Accept-Encoding: ####
Accept-Language: ####
Cookie: ####
'''

str4 = '''Post #### HTTP/1.1
Host: ####
Connection: ####
Content-Length: ####
User-Agent: ####
Content_type: ####
Accept: ####
Origin: ####
Referer: ####
Accept-Encoding: ####
Accept-Language: ####
Cookie: ####
'''

format1 = str1.split('####')
format2 = str2.split('####')
format3 = str3.split('####')
format4 = str4.split('####')

format_all = []
format_all.append(format1)
format_all.append(format2)
format_all.append(format3)
format_all.append(format4)
print(format_all)

[['HTTP/1.1 304 Not Modified\nDate: ', '\nServer: ', '\nConnection: ', '\nKeep-Alive: ', '\nETag: ', '\nExpires: ', '\nCache-Control: ', '\n'], ['HTTP/1.1 200 OK\nDate: ', '\nServer: ', '\nX-Frame-Options: ', '\nLast-Modified: ', '\nETag: ', '\nAccept-Ranges: ', '\nVary: ', '\nContent-Encoding: ', '\nCache-Control: ', '\nExpires: ', '\nContent-Length: ', '\nKeep-Alive: ', '\nConnection: ', '\nContent-Type: ', '\nContent-Language: ', '\n'], ['GET ', ' HTTP/1.1\nHost: ', '\nConnection: ', '\nUser-Agent: ', '\nAccept: ', '\nReferer: ', '\nAccept-Encoding: ', '\nAccept-Language: ', '\nCookie: ', '\n'], ['Post ', ' HTTP/1.1\nHost: ', '\nConnection: ', '\nContent-Length: ', '\nUser-Agent: ', '\nContent_type: ', '\nAccept: ', '\nOrigin: ', '\nReferer: ', '\nAccept-Encoding: ', '\nAccept-Language: ', '\nCookie: ', '\n']]


In [4]:
# 定义函数，读取所有的输入txt文件，获得所有的报文数据
# 参数：文件夹名称，txt后缀
# 返回值：所有报文构成的列表，列表每个元素代表一条报文
def read_input(packet_name):
    
    packets = []  # 存放所有报文，每个元素代表一个报文
    file_list = os.listdir(packet_name)
    num = len(file_list)  # 文件夹下报文txt个数
    
    for i in range(1, num+1):
        
        # 每个文件名
        read_file_name = packet_name + '\\' + str(i) + '.txt'
    
        # 打开，整体读取，而非按行读取
        f = open(read_file_name, 'r')
        content = str(f.read())
        f.close()
        
        # 存入列表中
        packets.append(content)
    
    return packets

In [5]:
# 真测试，即测试文件和考察的格式串为同一类别，可以计算TP和FP
# TP: 认为是这个类别，同时测试通过，即真的属于这个类别
# FP：认为是这个类别，但测试没有通过，即实际不属于这个类别

def true_test(true_list, class_id, flist):
    
    TP = 0
    FP = 0
    packet_name = 'test' + str(class_id)
    packets = read_input(packet_name)
    
    for i in range(len(packets)):
        packet = packets[i]
        beg = 0  # 记录查找格式串的起始位置
        for f in flist:
            if packet.find(f, beg) != -1:
                beg = packet.find(f, beg)
            if packet.find(f, beg) == -1:
                FP += 1
                break
            if f == flist[-1]:  # 所有格式串都找到
                TP += 1
                true_list[class_id-1].append(i)  # 记录TN的报文索引
    return TP, FP

In [6]:
# 假测试，即测试文件和考察的格式串为不同别，可以计算TN和FN
# TN：认为不是这个类别，同时测试没有通过，即真的不属于这个类别
# FN：认为不是这个类别，但是测试通过了，即实际属于这个类别

def false_test(true_list, class_id, flist):
    
    TN = 0
    FN = 0
    packet_name = 'test' + str(class_id)
    packets = read_input(packet_name)
    
    for i in range(len(packets)):
        packet = packets[i]
        beg = 0  # 记录查找格式串的起始位置
        for f in flist:
            if packet.find(f, beg) != -1:
                beg = packet.find(f, beg)
            if packet.find(f, beg) == -1:
                TN += 1
                break
            if (f == flist[-1]) & (i not in true_list[class_id-1]):  # 所有格式串都找到
                FN += 1
    return TN, FN

In [7]:
true_positive = 0
true_negative = 0
false_positive = 0
false_negative = 0

class_num = 2
true_list = []  # 记录已经通过真测试且确定为TN的报文索引

for j in range(1, class_num+1):
    true_list.append([])

# 真测试
for j in range(1, class_num+1):
    tp, fp = true_test(true_list, j, format_all[j-1])
    true_positive += tp
    false_positive += fp

for j in range(1, class_num+1):
    tn = 0
    fn = 0
    for k in range(1, class_num+1):
        if j != k:
            a, b = false_test(true_list, k, format_all[j-1])
            tn += a
            fn += b
    true_negative += tn
    false_negative += fn


In [8]:
print(true_positive, false_positive)
print(true_negative, false_negative)

200 0
200 0


In [9]:
print("精确率为：", true_positive / (true_positive+false_positive))
print("召回率为：", true_positive / (true_positive+false_negative))

精确率为： 1.0
召回率为： 1.0
