In [1]:
# 引入相关的库
import json
import codecs
import os
import pandas as pd
import numpy as np
import scipy.sparse as sp
import codecs
from tqdm import tqdm
import jieba
from gensim.models import Word2Vec, KeyedVectors

import dgl
from dgl.dataloading import GraphDataLoader
from dgl.data import DGLDataset
from dgl.nn.pytorch import GraphConv, GATConv
from dgl.nn import AvgPooling, MaxPooling

import torch
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from torch.nn import CrossEntropyLoss
import torch.nn as nn
import pickle

from sklearn.metrics import f1_score, roc_auc_score, accuracy_score
from sklearn.metrics import classification_report
from sklearn.metrics import precision_score, recall_score

# 加载数据

In [2]:
# 设置源数据文件夹路径
src_data_folder = './data'

# 定义读取数据的函数get_data
def get_data(file_path, flag=None): 
    """读取数据"""
    text = []
    target = []
    with codecs.open(file_path, 'r', encoding='utf-8') as fin:  
        for line in fin:                                        
            tmp_line = json.loads(line)
            text.append(tmp_line["fact"].strip())               
            target.append(tmp_line["meta"]["accusation"][0])    
    return pd.DataFrame({'text': text, 'target': target})       

In [3]:
print('读取数据...')
# 使用os.path.join构造完整的文件路径。
# 调用get_data函数读取每个数据集，并将结果存储在变量train_df、valid_df和test_df中。
train_df = get_data(os.path.join(src_data_folder, 'data_train.json'), flag='train')
valid_df = get_data(os.path.join(src_data_folder, 'data_valid.json'), flag='valid')
test_df = get_data(os.path.join(src_data_folder, 'data_test.json'), flag='test')

print('读取完成！')

读取数据...
读取完成！


In [4]:
# 查看训练集、验证集和测试集各自的样本数量，你可以直接运行上述代码片段。这里，shape属性返回一个元组，表示DataFrame的维度（行数，列数）
train_df.shape, valid_df.shape, test_df.shape

((154592, 2), (17131, 2), (32508, 2))

In [5]:
# 训练集前五行
train_df.head()

Unnamed: 0,text,target
0,昌宁县人民检察院指控，2014年4月19日下午16时许，被告人段某驾拖车经过鸡飞乡澡塘街子，...,故意伤害
1,"公诉机关指控,2015年11月10日晚9时许，被告人李某的妹妹李某某与被害人华某某在桦川县悦...",故意伤害
2,贵州省平坝县人民检察院指控：2014年4月9日下午，被告人王某丁与其堂哥王4某（另案处理）假...,故意伤害
3,经审理查明：2014年5月6日14时许，被告人叶某某驾车途径赤壁市赵李桥镇胜利街涵洞时，被在...,故意伤害
4,安阳县人民检察院指控：2014年4月27日上午11时许，宋某甲在安阳县吕村镇翟奇务村被告人梁...,故意伤害


In [6]:
# 验证集前五行
valid_df.head()

Unnamed: 0,text,target
0,公诉机关起诉指控，被告人张某某秘密窃取他人财物，价值2210元，××数额较大，其行为已触犯《...,盗窃
1,孝昌县人民检察院指控：2014年1月4日，被告人邬某在孝昌县城区2路公交车上××被害人晏某白...,盗窃
2,广东省广州市南沙区人民检察院指控被告人罗某于2015年6月2日到广州市南沙区大岗镇人民路宇航...,盗窃
3,公诉机关指控，2016年3月3日18时许，被告人易某某行至达州市通川区大观园公交车站附近，扒...,盗窃
4,公诉机关指控：1.2015年8月20日晚上，被告人胡某甲至杭州市淳安县千岛湖镇新安东路112...,盗窃


In [7]:
# 测试集前五行
test_df.head()

Unnamed: 0,text,target
0,公诉机关指控：2016年3月28日20时许，被告人颜某在本市洪山区马湖新村足球场马路边捡拾到...,盗窃
1,天津市静海县人民检察院指控，2014年5月13日上午8时许，被告人李xx在天津市静海县大邱庄...,盗窃
2,永顺县人民检察院指控，2014年1月11日，被告人李某某与彭某某（另案处理）在永顺县塔卧镇“...,强奸
3,公诉机关起诉书指控：2016年11月17日凌晨1时许，被告人周某在本县武康街道营盘小区131...,盗窃
4,大名县人民检察院起诉书指控，2014年3月25日9时许，被告人张某在自家庄某处因故与本村席某...,故意伤害


In [8]:
# 获取所有唯一标签
labels = train_df['target'].unique()    
print('总标签数: ', len(labels))

# 创建标签到ID的映射
label2idx = {l:i for i,l in enumerate(sorted(labels))}   
idx2label = {v:k for k,v in label2idx.items()}           

# 使用apply()方法和之前创建的label2idx字典，将三个数据集中'target'列的标签替换为其对应的整数ID。
# 将标签转换为ID
train_df['target'] = train_df['target'].apply(lambda x: label2idx[x])
valid_df['target'] = valid_df['target'].apply(lambda x: label2idx[x])
test_df['target'] = test_df['target'].apply(lambda x: label2idx[x])

总标签数:  195


In [9]:
# 检查训练集前5条数据
train_df.head()

Unnamed: 0,text,target
0,昌宁县人民检察院指控，2014年4月19日下午16时许，被告人段某驾拖车经过鸡飞乡澡塘街子，...,95
1,"公诉机关指控,2015年11月10日晚9时许，被告人李某的妹妹李某某与被害人华某某在桦川县悦...",95
2,贵州省平坝县人民检察院指控：2014年4月9日下午，被告人王某丁与其堂哥王4某（另案处理）假...,95
3,经审理查明：2014年5月6日14时许，被告人叶某某驾车途径赤壁市赵李桥镇胜利街涵洞时，被在...,95
4,安阳县人民检察院指控：2014年4月27日上午11时许，宋某甲在安阳县吕村镇翟奇务村被告人梁...,95


In [10]:
# 检查验证集前5条数据
valid_df.head()

Unnamed: 0,text,target
0,公诉机关起诉指控，被告人张某某秘密窃取他人财物，价值2210元，××数额较大，其行为已触犯《...,108
1,孝昌县人民检察院指控：2014年1月4日，被告人邬某在孝昌县城区2路公交车上××被害人晏某白...,108
2,广东省广州市南沙区人民检察院指控被告人罗某于2015年6月2日到广州市南沙区大岗镇人民路宇航...,108
3,公诉机关指控，2016年3月3日18时许，被告人易某某行至达州市通川区大观园公交车站附近，扒...,108
4,公诉机关指控：1.2015年8月20日晚上，被告人胡某甲至杭州市淳安县千岛湖镇新安东路112...,108


In [11]:
# 检查测试集前5条数据
test_df.head()

Unnamed: 0,text,target
0,公诉机关指控：2016年3月28日20时许，被告人颜某在本市洪山区马湖新村足球场马路边捡拾到...,108
1,天津市静海县人民检察院指控，2014年5月13日上午8时许，被告人李xx在天津市静海县大邱庄...,108
2,永顺县人民检察院指控，2014年1月11日，被告人李某某与彭某某（另案处理）在永顺县塔卧镇“...,70
3,公诉机关起诉书指控：2016年11月17日凌晨1时许，被告人周某在本县武康街道营盘小区131...,108
4,大名县人民检察院起诉书指控，2014年3月25日9时许，被告人张某在自家庄某处因故与本村席某...,95


In [12]:
# 罪名与id之间的映射,从罪名到其对应编号的映射关系
a=pd.DataFrame(list(label2idx.items()),columns=['罪名', '编号'])
a

Unnamed: 0,罪名,编号
0,[伪造、倒卖]伪造的有价票证,0
1,[伪造、变造]居民身份证,1
2,[伪造、变造]金融票证,2
3,[伪造、变造、买卖]国家机关[公文、证件、印章],3
4,[伪造、变造、买卖]武装部队[公文、证件、印章],4
...,...,...
190,非法行医,190
191,非法进行节育手术,191
192,非法采矿,192
193,骗取[贷款、票据承兑、金融票证],193


# 分词和去停用词

In [13]:
# 定义停用词文件的路径STOPWORDS_PATH，这里设为./aux_files/stopwords
STOPWORDS_PATH = './aux_files/stopwords'
stop_words = []                         
with codecs.open(STOPWORDS_PATH, 'r', encoding='utf-8') as fin:        
    for line in fin:
        stop_words.append(line.strip())             

In [14]:
# 对输入的文本进行分词处理，并去除停用词
def clean_text(text, stop_words):          
    """分词，去停用词"""
    cleaned = []
    for w in jieba.lcut(text):
        if len(w.strip()) > 0 and w not in stop_words:
            cleaned.append(w)
    return ' '.join(cleaned)

In [15]:
print('分词和去停用词...')

# 对训练集、验证集和测试集的文本数据进行分词和去除停用词的预处理，并将处理后的数据持久化存储，以便后续重复使用而无需再次执行耗时的预处理步骤。
# 首先检查dat_pkl_path指定的文件是否存在，如果存在，则从该文件中加载之前保存的预处理数据集。
dat_pkl_path = './aux_files/data.pkl'
if os.path.exists(dat_pkl_path):
    print('加载数据...')
    with open(dat_pkl_path, 'rb') as fin:
        train_df, valid_df, test_df = pickle.load(fin)
else:
    # 如果预处理数据不存在，那么对每个数据集的'text'列应用clean_text函数，进行分词和去除停用词的操作。
    # 处理完成后，使用pickle模块将处理后的数据集序列化并保存到dat_pkl_path指定的文件中。
    # 第一次处理过程较长。
    print('新处理数据...')
    train_df['text'] = train_df['text'].apply(lambda x: clean_text(x, stop_words))
    valid_df['text'] = valid_df['text'].apply(lambda x: clean_text(x, stop_words))
    test_df['text'] = test_df['text'].apply(lambda x: clean_text(x, stop_words))    
    # 文件存储
    with open(dat_pkl_path, 'wb') as fout:
        pickle.dump([train_df, valid_df, test_df], fout)
        
train_df.head(3)

Building prefix dict from the default dictionary ...


分词和去停用词...
新处理数据...


Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.673 seconds.
Prefix dict has been built successfully.


Unnamed: 0,text,target
0,昌宁县 人民检察院 指控 2014 年 月 19 日 下午 16 时许 被告人 段 某驾 拖...,95
1,公诉 机关 指控 2015 年 11 月 10 日晚 时许 被告人 李某 妹妹 李 被害人 ...,95
2,贵州省 平坝县 人民检察院 指控 2014 年 月 日 下午 被告人 王某 丁 堂哥 王 另...,95


In [17]:
train_df.head()

Unnamed: 0,text,target
0,昌宁县 人民检察院 指控 2014 年 月 19 日 下午 16 时许 被告人 段 某驾 拖...,95
1,公诉 机关 指控 2015 年 11 月 10 日晚 时许 被告人 李某 妹妹 李 被害人 ...,95
2,贵州省 平坝县 人民检察院 指控 2014 年 月 日 下午 被告人 王某 丁 堂哥 王 另...,95
3,审理 查明 2014 年 月 日 14 时许 被告人 叶 驾车 途径 赤壁市 赵李桥镇 胜利...,95
4,安阳县 人民检察院 指控 2014 年 月 27 日 上午 11 时许 宋某 甲 安阳县 吕...,95


In [18]:
valid_df.head()

Unnamed: 0,text,target
0,公诉 机关 起诉 指控 被告人 张 秘密 窃取 人财物 价值 2210 元 数额较大 已触犯...,108
1,孝昌县 人民检察院 指控 2014 年 月 日 被告人 邬某 孝昌县 城区 路 公交车 被害...,108
2,广东省 广州市 南沙 区 人民检察院 指控 被告人 罗某 2015 年 月 日到 广州市 南...,108
3,公诉 机关 指控 2016 年 月 日 18 时许 被告人 易 行至 达州市 通川区 大观园...,108
4,公诉 机关 指控 1.2015 年 月 20 日 晚上 被告人 胡某 甲 杭州市 淳安县 千...,108


In [19]:
test_df.head()

Unnamed: 0,text,target
0,公诉 机关 指控 2016 年 月 28 日 20 时许 被告人 颜某 本市 洪山区 马湖 ...,108
1,天津市 静海县 人民检察院 指控 2014 年 月 13 日 上午 时许 被告人 李 xx ...,108
2,永顺县 人民检察院 指控 2014 年 月 11 日 被告人 李 彭 另案处理 永顺县 塔卧...,70
3,公诉 机关 起诉书 指控 2016 年 11 月 17 日 凌晨 时许 被告人 周某 本县 ...,108
4,大名县 人民检察院 起诉书 指控 2014 年 月 25 日 时许 被告人 张某 庄 某处 ...,95


# 训练词向量

In [20]:
# 定义一个函数train_word_embeddings，用于训练Word2Vec词嵌入模型。
# Word2Vec是一种常用的词向量模型，能够将词汇映射到连续的向量空间中，从而捕捉词汇间的语义和语法关系。

def train_word_embeddings(src_data_list, word_embedding_path):
    # 在gensim库的新版本中，size参数已经被替换为vector_size,iter参数也被改为了epochs
    model = Word2Vec(min_count=1, vector_size=100, window=5, sg=1, negative=5, sample=0.001, epochs=10, workers=16)  # 初始化Word2Vec模型 

    # 使用src_data_list中的句子构建词汇表。src_data_list应该是已经分词后的句子列表
    model.build_vocab(corpus_iterable=src_data_list) 

    # 模型训练。继续使用src_data_list训练模型，total_examples和epochs参数用于控制训练过程
    model.train(corpus_iterable=src_data_list, total_examples=model.corpus_count, epochs=model.epochs)

    # 使用save_word2vec_format方法将词向量保存到指定的word_embedding_path文件中，这通常是.txt或.vec格式的文本文件
    model.wv.save_word2vec_format(word_embedding_path)

In [21]:
print('词向量...')
# 首先将训练集、验证集和测试集的文本数据转换为单词列表，然后合并这些列表以准备训练词向量模型。
# 接下来，它检查词向量文件是否存在，如果存在则直接加载，否则训练一个新的词向量模型并保存。
word_embedding_path = './aux_files/own.word2vec'

# 将文本数据转换为单词列表
# 使用split()方法将每条文本数据分割成单词列表，然后将这些列表转换为Python的list类型。
train_list = list(train_df['text'].apply(lambda x: x.split()))   
valid_list = list(valid_df['text'].apply(lambda x: x.split()))
test_list = list(test_df['text'].apply(lambda x: x.split()))

# 合并所有单词列表
# 将三个数据集的单词列表合并为一个大的列表src_data_list，用于词向量模型的训练。
src_data_list = train_list + valid_list + test_list

# 样本个数
print(f'len of src_data_list: {len(src_data_list)}')
# 展示前100个样本
print(src_data_list[100])
    
if os.path.exists(word_embedding_path):   
    print('读取词向量...')
    word_embeddings = KeyedVectors.load_word2vec_format(word_embedding_path, binary=False)
else:                                      # 如果词向量文件不存在，则训练新的词向量模型
    print('训练词向量...')
    train_word_embeddings(src_data_list, word_embedding_path)  
    word_embeddings = KeyedVectors.load_word2vec_format(word_embedding_path, binary=False)
    # 再次加载词向量，这次是为了确保模型已经训练并可以使用
    print('词向量训练完毕...')

词向量...
len of src_data_list: 204231
['审理', '查明', '2013', '年', '月', '日', '下午', '被告人', '田', '某甲', '大城县', '人民检察院', '住宅小区', '院内', '被害人', '乙', '言语', '不合', '厮打', '田', '某甲', '殴打', '乙', '致于', '某乙腰', '处横突', '骨折', '轻伤', '案发后', '田', '某甲', '赔偿', '乙', '经济损失', '乙', '谅解', '2013', '年', '月', '日', '被告人', '田', '某甲', '自动', '公安机关', '投案', '如实', '供认', '被害人', '乙', '事实', '上述事实', '被告人', '田', '某甲', '开庭审理', '过程', '中', '无异议', '被害人', '乙', '陈述', '证人', '某甲', '田某', '乙', '证言', '法医学', '人体', '损伤', '程度', '鉴定书', '协议书', '被告人', '田', '某甲', '投案', '时', '接受', '讯问', '笔录', '证据', '证实', '足以认定', '被告人', '田', '某甲', '居住', '村民', '委员会', '证明', '田', '某甲', '平时', '表现', '无前科', '劣迹', '判处', '本村', '不良影响']
训练词向量...
词向量训练完毕...


In [22]:
word_embeddings['审理']

array([ 0.35918403, -0.04667911,  0.25713038,  0.40582597, -0.24120483,
       -0.02736917,  0.13773754, -0.17984635, -0.08682428,  1.0998052 ,
        0.18352605, -0.56912655, -0.9076452 ,  1.4508265 , -0.30117694,
       -0.30532724, -0.58267844, -0.21307744,  0.8312608 , -0.14654765,
        0.70851016, -0.56026274, -0.3424588 , -0.6085302 , -0.13092417,
        0.44015393, -0.45098317, -0.5192443 , -0.43278164,  0.02986295,
        0.11785586,  0.519084  ,  0.42937672,  0.09964062,  0.40245634,
        0.8120307 ,  0.40212658, -0.04235575,  0.46651635, -0.9146508 ,
       -0.1140155 ,  0.04243552,  0.22194055, -0.51430064, -0.1674125 ,
        1.268741  , -0.24753623, -0.21854803,  0.05382195, -0.45756075,
        0.4305988 ,  0.2658599 ,  0.10162612, -0.07577621, -0.33632684,
       -0.4887352 ,  0.05610463, -0.02146637,  0.324482  , -0.5519011 ,
       -0.27342287, -0.08804538,  0.93529624, -0.39524287,  0.5908051 ,
        0.14378726,  0.09487395,  0.40591815, -0.24234499,  0.12

In [23]:
def build_graph(doc_words_list, weighted_graph = True):   
    """构建图"""
    
    x_adj = []   # 邻接矩阵
    x_feature = []   # 特征向量
    doc_len_list = []
    vocab_set = set()

    # doc_words是一个样本
    for doc_words in doc_words_list:
        
        # 样本长度
        doc_len = len(doc_words)

        # 使用内置函数set()对样本单词去重
        doc_vocab = list(set(doc_words))
        
        # 每个单词是一个node
        doc_nodes = len(doc_vocab)

        doc_len_list.append(doc_nodes)
        vocab_set.update(doc_vocab)

        # word to id
        doc_word_id_map = {}
        for j in range(doc_nodes):
            doc_word_id_map[doc_vocab[j]] = j

        # 滑动窗口
        windows = []
        if doc_len <= window_size:
            windows.append(doc_words)
        else:
            for j in range(doc_len - window_size + 1):
                window = doc_words[j: j + window_size]
                windows.append(window)

        word_pair_count = {}
        for window in windows:
            for p in range(1, len(window)):
                for q in range(0, p):
                    word_p = window[p]
                    word_p_id = word_id_map[word_p]
                    word_q = window[q]
                    word_q_id = word_id_map[word_q]
                    if word_p_id == word_q_id:
                        continue
                    word_pair_key = (word_p_id, word_q_id)
                    # 单词之间的共现作为权值
                    if word_pair_key in word_pair_count:
                        word_pair_count[word_pair_key] += 1.
                    else:
                        word_pair_count[word_pair_key] = 1.
                    # 双向
                    word_pair_key = (word_q_id, word_p_id)
                    if word_pair_key in word_pair_count:
                        word_pair_count[word_pair_key] += 1.
                    else:
                        word_pair_count[word_pair_key] = 1.
    
        row = []
        col = []
        weight = []
        features = []

        for key in word_pair_count:
            p = key[0]
            q = key[1]
            row.append(doc_word_id_map[vocab[p]])
            col.append(doc_word_id_map[vocab[q]])
            weight.append(word_pair_count[key] if weighted_graph else 1.)
        adj = sp.csr_matrix((weight, (row, col)), shape=(doc_nodes, doc_nodes))
    
        # for k, v in sorted(doc_word_id_map.items(), key=lambda x: x[1]):
        #     features.append(word_embeddings.wv[k] if k in word_embeddings.vocab else oov[k])

        for k, v in sorted(doc_word_id_map.items(), key=lambda x: x[1]):   
            if k in word_embeddings.key_to_index:                           # 使用.key_to_index来检查词是否在词汇表中
                features.append(word_embeddings[k])  # 直接使用key访问词向量
            else:
                features.append(oov[k])


        x_adj.append(adj)
        x_feature.append(features)

    
    return x_adj, x_feature

定义参数

In [24]:
class args:
    # 最大遍历次数,表示模型在整个训练数据集上的迭代次数。更多的遍历次数通常意味着模型有更多机会学习数据中的模式，但也可能导致过拟合。
    max_epochs = 30
    # 学习率,是梯度下降算法中的关键参数，决定了权重更新的步长。较高的学习率可以使模型更快收敛，但可能导致训练不稳定；较低的学习率则可能使训练过程缓慢。
    lr = 1e-3
    # 批量大小,批量大小，表示每次更新模型权重时使用的样本数量。较大的批量大小可以加速训练，但可能需要更多的内存；较小的批量大小则可能有助于模型更好地泛化。
    batch_size = 64
    # 词向量维度,词向量维度，表示词嵌入向量的长度。较大的维度可以捕获更多的语义信息，但也会增加模型的复杂度和计算成本。
    embedding_dim = 100
    # GCN隐层神经元数,GCN隐层神经元数，表示图卷积网络中隐层的宽度。这直接影响模型的表达能力和计算复杂度。
    hidden_dim = 128
    # GAT的head参数,GAT的头参数，表示在图注意力网络中并行使用的注意力头的数量。多个头允许模型关注输入的不同部分，从而增强模型的表达能力。
    num_heads = 8
    # 滑动窗口大小,滑动窗口大小，用于确定构建图结构时考虑的上下文范围。较大的窗口可以捕获更长距离的依赖关系，但也可能引入噪音。
    window_size = 3
    # 模型保存路径，指定了训练好的模型将被保存的位置。这对于后续的模型复用和部署非常重要。
    model_save_path = './model'

In [25]:
import time    # 为了计算build_graph函数的执行时间

# 1、构建词汇表

word_embeddings_dim = args.embedding_dim

# 初始化一个空集合word_set，用于存储所有文档中出现的唯一单词。
word_set = set() 

# 遍历所有样本
# 遍历src_data_list（假设这是包含所有文档的列表），更新word_set以包含所有文档中的单词
for doc_words in src_data_list:
    word_set.update(doc_words)

# 将word_set转换为列表vocab，并计算其大小vocab_size
vocab = list(word_set)
vocab_size = len(vocab)

# 2、单词到ID的映射，word to id
word_id_map = {}   
# 通过遍历vocab列表，为每个单词分配一个从0开始的连续整数ID
for i in range(vocab_size):
    word_id_map[vocab[i]] = i

# 3、初始化OOV（Out-Of-Vocabulary）词向量
# 设置低频词典(oov)，创建一个字典oov，用于存储不在预训练词向量模型中的单词的随机初始化向量
oov = {}
# 对于vocab中的每个单词，生成一个维度为word_embeddings_dim的随机向量，范围在-0.1到0.1之间
for v in vocab:
    oov[v] = np.random.uniform(-0.1, 0.1, word_embeddings_dim)


# 构建图结构    
window_size = args.window_size

# build_graph函数调用前后添加了计时代码。start_time记录函数调用前的时间戳，end_time记录函数调用完成后的时刻，两者之差即为函数的执行时间。
start_time = time.time()
print('构建 training 图...')
train_x_adj, train_x_feature = build_graph(train_list, weighted_graph = True)
end_time = time.time()
assert len(train_x_adj) == len(train_x_feature) == len(train_list)
print(f"训练图构建完成，耗时：{end_time - start_time:.2f} 秒")

start_time = time.time()
print('构建 valid 图...')
valid_x_adj, valid_x_feature = build_graph(valid_list, weighted_graph = True)
end_time = time.time()
assert len(valid_x_adj) == len(valid_x_feature) == len(valid_list)
print(f"训练图构建完成，耗时：{end_time - start_time:.2f} 秒")

start_time = time.time()
print('构建 test 图...')
test_x_adj, test_x_feature = build_graph(test_list, weighted_graph = True)
end_time = time.time()
assert len(test_x_adj) == len(test_x_feature) == len(test_list)
print(f"训练图构建完成，耗时：{end_time - start_time:.2f} 秒")

构建 training 图...
训练图构建完成，耗时：165.38 秒
构建 valid 图...
训练图构建完成，耗时：16.55 秒
构建 test 图...
训练图构建完成，耗时：31.86 秒


# 准备训练
准备图数据集

In [26]:
# GraphDataset类继承自DGLDataset，这是DGL（Deep Graph Library）框架中的一个基类，用于处理图数据集。
# 这个类主要用于封装图数据及其对应的标签，以便于在PyTorch或其它深度学习框架中使用。
class GraphDataset(DGLDataset):
    """图数据集"""    

    # 1、初始化函数
    def __init__(self, x_adj, x_feature, targets = None):
        self.adj_matrix = x_adj
        self.node_matrix = x_feature
        self.targets = targets

    # 2、长度函数：
    def __len__(self):
        return len(self.adj_matrix)

    # 3、获取项函数：
    def __getitem__(self, idx):
        scipy_adj = self.adj_matrix[idx]
        G = dgl.from_scipy(scipy_adj)
        G.ndata['feat'] = torch.stack([torch.tensor(x, dtype = torch.float) for x in self.node_matrix[idx]])
        if self.targets is not None:
            label = self.targets[idx]
            return G, torch.tensor(label, dtype = torch.long)
        return G

定义模型

In [27]:
# GCNClassifier类是一个基于图卷积网络（GCN）的分类器，继承自PyTorch的nn.Module。这个类实现了两层GCN卷积，随后是平均池化、Dropout和全连接层，用于最终的分类任务。
class GCNClassifier(nn.Module):
    """GCN"""    
    # 初始化函数：
    def __init__(self, in_dim, hidden_dim, n_classes):
        super(GCNClassifier, self).__init__()
        self.conv1 = GraphConv(in_dim, hidden_dim)
        self.conv2 = GraphConv(hidden_dim, hidden_dim)
        self.avgpooling = AvgPooling()
        self.drop = nn.Dropout(p = 0.3)
        self.classify = nn.Linear(hidden_dim, n_classes)

    # 前向传播函数：
    def forward(self, g, h):
        h = F.relu(self.conv1(g, h))
        h = F.relu(self.conv2(g, h))
        h = self.drop(h)
        h = self.avgpooling(g, h)
        return self.classify(h)

In [28]:
# GATClassifier类是一个基于图注意力网络（GAT）的分类器，同样继承自PyTorch的nn.Module。
# 这个类通过多头注意力机制来增强图卷积的效果，适用于处理图结构数据的分类任务。
class GATClassifier(nn.Module):
    """GAT"""    
    # 初始化函数：
    def __init__(self, in_dim, hidden_dim, num_heads, n_classes):
        super(GATClassifier, self).__init__()
        self.hid_dim = hidden_dim
        self.gat1 = GATConv(in_dim, hidden_dim, num_heads)
        self.gat2 = GATConv(hidden_dim*num_heads, hidden_dim, 1)
        self.avgpooling = AvgPooling()
        self.drop = nn.Dropout(p = 0.3)
        self.classify = nn.Linear(hidden_dim, n_classes)

    # 前向传播函数：
    def forward(self, g, h):
        # batch size批量大小
        bs = h.shape[0]
        h = F.relu(self.gat1(g, h))
        h = h.reshape(bs, -1)
        h = F.relu(self.gat2(g, h))
        h = h.reshape(bs, -1)
        h = self.drop(h)
        h = self.avgpooling(g, h)
        return self.classify(h)

# 训练

In [29]:
# 这段代码定义了一个训练流程，用于训练图神经网络模型，如GCN或GAT
def train(args, model, train_info, val_info, num_classes, model_type):
    """训练函数"""

    # 1、数据准备
    # 从train_info和val_info中提取训练集和验证集的邻接矩阵、节点特征和标签列表。
    train_adj_list, train_node_list, train_label_list = train_info
    val_adj_list, val_node_list, val_label_list = val_info

    # 创建GraphDataset实例，分别封装训练集和验证集的数据
    traindataset = GraphDataset(train_adj_list, train_node_list, train_label_list)
    valdataset = GraphDataset(val_adj_list, val_node_list, val_label_list)
    
    # shuffle = True：在一个epoch之后，对所有的数据随机打乱，再按照设定好的每个批次的大小划分批次
    trainloader = GraphDataLoader(traindataset, batch_size = args.batch_size, shuffle = True)  
    valloader = GraphDataLoader(valdataset, batch_size = args.batch_size, shuffle = False)

    # 2、定义损失函数和优化器
    criterion = CrossEntropyLoss()   # 交叉熵损失函数函数
    optimizer = torch.optim.Adam(model.parameters(), lr = args.lr)    # 优化器

    # 训练循环
    best_val_f1 = 0

    # 遍历args.max_epochs指定的epoch数
    for idx in range(args.max_epochs):
        print(f'Epoch {idx + 1}/{args.max_epochs}')

        # 每个epoch中，先调用train_one_epoch函数进行模型训练，返回训练损失、准确率、F1分数和AUC值
        train_loss, train_acc, train_f1, train_auc = train_one_epoch(trainloader, model, criterion, optimizer, num_classes)
        
        # 然后调用validate函数在验证集上评估模型性能，返回验证损失、准确率、F1分数和AUC值。
        val_loss, val_acc, val_f1, val_auc = validate(valloader, model, criterion, num_classes)
        
        # 打印每个epoch的训练和验证指标
        print('train_loss: {}, train_f1: {}, train_auc: {}, train_acc: {}, val_loss: {}, val_f1: {}, val_auc: {}, val_acc: {}'.
              format(train_loss, train_f1, train_auc, train_acc, val_loss, val_f1, val_auc, val_acc))
        
        # 保存f1值最好的epoch的模型用于测试
        # 如果当前验证集的F1分数高于历史最佳，保存当前模型状态到磁盘，以备后续测试使用
        if val_f1 > best_val_f1:
            print(f'----- Save model ----- with f1: {val_f1}')
            torch.save(model.state_dict(), f'{args.model_save_path}/{model_type}-epoch-{idx}-{val_f1}.pt')
            best_val_f1 = val_f1

In [30]:
# 这段代码定义了train_one_epoch函数，用于执行模型在一个epoch上的训练过程。
def train_one_epoch(trainloader, model, criterion, optimizer, num_classes):
    """训练一个 epoch"""

# 1、初始化变量：
    # 初始化train_loss、train_f1和train_auc变量，用于累计整个epoch的训练损失、F1分数和AUC值。
    train_loss = 0
    train_f1 = 0
    train_auc = 0
    # 创建两个空列表all_labels和all_logits，用于存储所有批次的真实标签和模型预测的logits。
    all_labels = []
    all_logits = []

# 2、模型训练
    total = len(trainloader)
    model.train()
    for idx, (G, label) in tqdm(enumerate(trainloader), total = total):
                
        h = G.ndata['feat'].float()
        logit = model(G, h)
        loss = criterion(logit, label)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()   # 反向传播梯度更新
        
        label_numpy = label.detach().cpu().numpy()
        logit_numpy = logit.softmax(-1).detach().cpu().numpy()
        
        train_loss += loss.item()/total
        # train_f1 += f1_score(label_numpy, logit_numpy.argmax(-1), average = 'micro')/total
        
        all_labels.append(label_numpy)
        all_logits.append(logit_numpy)

# 3、性能评估
    # 在每个批次结束后，收集所有批次的真实标签和预测logits。
    all_labels = np.concatenate(all_labels)
    all_logits = np.concatenate(all_logits)

    # 计算整个epoch的AUC值，使用roc_auc_score函数，参数multi_class='ovo'表示采用一对多策略计算多分类问题的AUC。
    train_auc = roc_auc_score(all_labels, all_logits, multi_class = 'ovo', labels = np.array([int(i) for i in range(num_classes)]))

     # 计算准确率和加权平均F1分数，使用accuracy_score和f1_score函数，其中f1_score的average='weighted'参数表示计算加权平均F1分数，权重由每个类别的样本数量决定。
    all_logits_label = np.argmax(all_logits, 1)
    train_acc = accuracy_score(all_labels, all_logits_label)
    train_f1 = f1_score(all_labels, all_logits_label, average = 'weighted')

# 4、返回结果
    # 返回整个epoch的平均训练损失、准确率、F1分数和AUC值。 
    return train_loss, train_acc, train_f1, train_auc

In [31]:
# 这段代码定义了validate函数，用于在验证集上评估模型的性能
def validate(valloader, model, criterion, num_classes):
    """在验证集上验证"""

# 1、初始化变量：
    # 初始化val_loss、val_f1和val_auc变量，用于累计整个验证集的损失、F1分数和AUC值。
    # 创建两个空列表all_labels和all_logits，用于存储所有批次的真实标签和模型预测的logits。
    val_loss = 0
    val_f1 = 0
    val_auc = 0    
    all_labels = []
    all_logits = []

# 2、模型评估：
    total = len(valloader)
    model.eval()
    
    with torch.no_grad():
        for idx, (G, label) in tqdm(enumerate(valloader), total = total):

            h = G.ndata['feat'].float()
            logit = model(G, h)
            loss = criterion(logit, label)

            label_numpy = label.detach().cpu().numpy()
            logit_numpy = logit.softmax(-1).detach().cpu().numpy()

            val_loss += loss.item()/total
            # val_f1 += f1_score(label_numpy, logit_numpy.argmax(-1), average = 'micro')/total

        
            all_labels.append(label_numpy)
            all_logits.append(logit_numpy)

        all_labels = np.concatenate(all_labels)
        all_logits = np.concatenate(all_logits)

# 3、性能评估：
    # 计算整个验证集的AUC值，使用roc_auc_score函数，参数multi_class='ovo'表示采用一对多策略计算多分类问题的AUC。           
        val_auc = roc_auc_score(all_labels, all_logits, multi_class = 'ovo', labels = np.array([int(i) for i in range(num_classes)]))
        all_logits_label = np.argmax(all_logits, 1)
        
    # 计算准确率和微平均F1分数，使用accuracy_score和f1_score函数，其中f1_score的average='micro'参数表示计算微平均F1分数，这适用于不平衡数据集的情况。 
        val_acc = accuracy_score(all_labels, all_logits_label)
        val_f1 = f1_score(all_labels, all_logits_label, average = 'micro')
    
    # 返回整个验证集的平均损失、准确率、F1分数和AUC值。
    return val_loss, val_acc, val_f1, val_auc

## GAT 模型

In [32]:
# 这段代码初始化了GAT分类器模型，并调用了训练函数train来在训练集和验证集上进行模型训练。

# 1、确定类别数量：
num_classes = len(label2idx)

# 2、模型初始化：
model = GATClassifier(args.embedding_dim, args.hidden_dim, args.num_heads, num_classes)

# 3、打印训练信息：
print('-------- GAT 模型训练')

# 4、调用训练函数
train(args, model,                                                 
      (train_x_adj, train_x_feature, train_df['target'].values),   
      (valid_x_adj, valid_x_feature, valid_df['target'].values),   
      num_classes, 
      "GAT")                                          

-------- GAT 模型训练
Epoch 1/30


100%|██████████| 2416/2416 [03:01<00:00, 13.33it/s]
100%|██████████| 268/268 [00:15<00:00, 17.07it/s]


train_loss: 1.0922293572853141, train_f1: 0.7022220846756022, train_auc: 0.9467752668313448, train_acc: 0.714901159180294, val_loss: 0.6782911906936274, val_f1: 0.8077753779697624, val_auc: 0.9916523396579271, val_acc: 0.8077753779697624
----- Save model ----- with f1: 0.8077753779697624
Epoch 2/30


100%|██████████| 2416/2416 [03:00<00:00, 13.37it/s]
100%|██████████| 268/268 [00:13<00:00, 19.58it/s]


train_loss: 0.7025283856243393, train_f1: 0.7991066406262641, train_auc: 0.9856910394435883, train_acc: 0.8058178948457876, val_loss: 0.6155361468806418, val_f1: 0.8277975599789855, val_auc: 0.9942351163035886, val_acc: 0.8277975599789855
----- Save model ----- with f1: 0.8277975599789855
Epoch 3/30


100%|██████████| 2416/2416 [03:01<00:00, 13.32it/s]
100%|██████████| 268/268 [00:13<00:00, 19.42it/s]


train_loss: 0.6232736231512489, train_f1: 0.8229531595483017, train_auc: 0.9920834468493352, train_acc: 0.827229093355413, val_loss: 0.5722406935989302, val_f1: 0.8369622322106124, val_auc: 0.9952148681748979, val_acc: 0.8369622322106124
----- Save model ----- with f1: 0.8369622322106124
Epoch 4/30


100%|██████████| 2416/2416 [03:00<00:00, 13.38it/s]
100%|██████████| 268/268 [00:13<00:00, 19.56it/s]


train_loss: 0.5731458326505616, train_f1: 0.8382820641664582, train_auc: 0.9944538155277927, train_acc: 0.8414924446284413, val_loss: 0.5331745474084988, val_f1: 0.8497460743681046, val_auc: 0.9958331477408117, val_acc: 0.8497460743681046
----- Save model ----- with f1: 0.8497460743681046
Epoch 5/30


100%|██████████| 2416/2416 [03:00<00:00, 13.35it/s]
100%|██████████| 268/268 [00:13<00:00, 19.66it/s]


train_loss: 0.5355925065779827, train_f1: 0.8494120224462562, train_auc: 0.9956135686107127, train_acc: 0.8518681432415649, val_loss: 0.510413982766444, val_f1: 0.8540073550872687, val_auc: 0.9967179008529059, val_acc: 0.8540073550872687
----- Save model ----- with f1: 0.8540073550872687
Epoch 6/30


100%|██████████| 2416/2416 [02:57<00:00, 13.62it/s]
100%|██████████| 268/268 [00:13<00:00, 19.57it/s]


train_loss: 0.5064111426873571, train_f1: 0.8567093603328522, train_auc: 0.9962740554936826, train_acc: 0.8588672117574001, val_loss: 0.5062863157311486, val_f1: 0.8567509193859086, val_auc: 0.9968160695898506, val_acc: 0.8567509193859086
----- Save model ----- with f1: 0.8567509193859086
Epoch 7/30


100%|██████████| 2416/2416 [02:58<00:00, 13.51it/s]
100%|██████████| 268/268 [00:13<00:00, 19.51it/s]


train_loss: 0.477148773839439, train_f1: 0.8659269726562532, train_auc: 0.9968693976633409, train_acc: 0.8677292486027738, val_loss: 0.5219735392411031, val_f1: 0.8472360049033915, val_auc: 0.9967372258923828, val_acc: 0.8472360049033915
Epoch 8/30


100%|██████████| 2416/2416 [02:59<00:00, 13.48it/s]
100%|██████████| 268/268 [00:13<00:00, 19.39it/s]


train_loss: 0.4542539094617927, train_f1: 0.8714898184445289, train_auc: 0.9973935201509435, train_acc: 0.8730400020699648, val_loss: 0.4901175560123882, val_f1: 0.860370089311774, val_auc: 0.9971149015941828, val_acc: 0.860370089311774
----- Save model ----- with f1: 0.860370089311774
Epoch 9/30


100%|██████████| 2416/2416 [02:57<00:00, 13.58it/s]
100%|██████████| 268/268 [00:13<00:00, 19.73it/s]


train_loss: 0.4315868401529872, train_f1: 0.877582500066523, train_auc: 0.9977345740499567, train_acc: 0.8789070585800042, val_loss: 0.4889046659609721, val_f1: 0.8601949681863289, val_auc: 0.997200476996231, val_acc: 0.8601949681863289
Epoch 10/30


100%|██████████| 2416/2416 [02:58<00:00, 13.56it/s]
100%|██████████| 268/268 [00:13<00:00, 19.55it/s]


train_loss: 0.41175998593002106, train_f1: 0.8834744909407742, train_auc: 0.9980090996818246, train_acc: 0.8846253363692818, val_loss: 0.495161481493556, val_f1: 0.860370089311774, val_auc: 0.9968884809488601, val_acc: 0.860370089311774
Epoch 11/30


100%|██████████| 2416/2416 [03:02<00:00, 13.25it/s]
100%|██████████| 268/268 [00:15<00:00, 16.89it/s]


train_loss: 0.3918364151374791, train_f1: 0.8879851269950384, train_auc: 0.9983663285280903, train_acc: 0.8889593251914717, val_loss: 0.49484333926255814, val_f1: 0.8622380479831884, val_auc: 0.9970939269490398, val_acc: 0.8622380479831884
----- Save model ----- with f1: 0.8622380479831884
Epoch 12/30


100%|██████████| 2416/2416 [03:01<00:00, 13.29it/s]
100%|██████████| 268/268 [00:16<00:00, 16.72it/s]


train_loss: 0.37049453083536815, train_f1: 0.8949041362354461, train_auc: 0.9985393920065054, train_acc: 0.895744928586214, val_loss: 0.49685462462062485, val_f1: 0.8594944836845485, val_auc: 0.9968518754087962, val_acc: 0.8594944836845485
Epoch 13/30


100%|██████████| 2416/2416 [03:00<00:00, 13.37it/s]
100%|██████████| 268/268 [00:15<00:00, 16.92it/s]


train_loss: 0.35472152153622055, train_f1: 0.8978215221214189, train_auc: 0.9987540282019, train_acc: 0.8986234734009522, val_loss: 0.501890771104885, val_f1: 0.8596112311015118, val_auc: 0.9968277618654467, val_acc: 0.8596112311015118
Epoch 14/30


100%|██████████| 2416/2416 [02:59<00:00, 13.49it/s]
100%|██████████| 268/268 [00:15<00:00, 16.93it/s]


train_loss: 0.3383792034159132, train_f1: 0.9034511131458478, train_auc: 0.9988963601737206, train_acc: 0.9040765369488719, val_loss: 0.5067217576581593, val_f1: 0.8641060066546028, val_auc: 0.9968635657034383, val_acc: 0.8641060066546028
----- Save model ----- with f1: 0.8641060066546028
Epoch 15/30


100%|██████████| 2416/2416 [02:59<00:00, 13.47it/s]
100%|██████████| 268/268 [00:15<00:00, 17.09it/s]


train_loss: 0.3221863976414532, train_f1: 0.9070764934242027, train_auc: 0.9990762517388745, train_acc: 0.9076407576071207, val_loss: 0.5275501998892028, val_f1: 0.8532484968770065, val_auc: 0.9967836328534084, val_acc: 0.8532484968770065
Epoch 16/30


100%|██████████| 2416/2416 [02:59<00:00, 13.46it/s]
100%|██████████| 268/268 [00:15<00:00, 16.82it/s]


train_loss: 0.3055100919607883, train_f1: 0.9116209023518621, train_auc: 0.9991790056892891, train_acc: 0.9121429310701719, val_loss: 0.5167063747935777, val_f1: 0.8629969061934505, val_auc: 0.9962848472745279, val_acc: 0.8629969061934505
Epoch 17/30


100%|██████████| 2416/2416 [02:59<00:00, 13.48it/s]
100%|██████████| 268/268 [00:15<00:00, 17.03it/s]


train_loss: 0.2894845689594478, train_f1: 0.9156906391690208, train_auc: 0.9992793056492777, train_acc: 0.916108207410474, val_loss: 0.5353503776644707, val_f1: 0.8590274940166949, val_auc: 0.9962664979672214, val_acc: 0.8590274940166949
Epoch 18/30


100%|██████████| 2416/2416 [03:01<00:00, 13.34it/s]
100%|██████████| 268/268 [00:13<00:00, 19.38it/s]


train_loss: 0.27338492716292495, train_f1: 0.9208435658684702, train_auc: 0.9993973955588118, train_acc: 0.9211731525564065, val_loss: 0.5297433064777906, val_f1: 0.8638141381121943, val_auc: 0.9964816507916657, val_acc: 0.8638141381121943
Epoch 19/30


100%|██████████| 2416/2416 [03:01<00:00, 13.30it/s]
100%|██████████| 268/268 [00:13<00:00, 19.45it/s]


train_loss: 0.25827259787000617, train_f1: 0.9249354460831131, train_auc: 0.9994575921457372, train_acc: 0.9252031152970399, val_loss: 0.5444442749704554, val_f1: 0.8617710583153347, val_auc: 0.9962460751765844, val_acc: 0.8617710583153347
Epoch 20/30


100%|██████████| 2416/2416 [03:00<00:00, 13.40it/s]
100%|██████████| 268/268 [00:13<00:00, 19.58it/s]


train_loss: 0.24607926318483633, train_f1: 0.9274907524336157, train_auc: 0.9995399063818905, train_acc: 0.9277452908300559, val_loss: 0.5761197935094808, val_f1: 0.8527231335006713, val_auc: 0.9962584743901981, val_acc: 0.8527231335006713
Epoch 21/30


100%|██████████| 2416/2416 [02:58<00:00, 13.53it/s]
100%|██████████| 268/268 [00:13<00:00, 19.44it/s]


train_loss: 0.22961483202529268, train_f1: 0.9322635909560975, train_auc: 0.9996132427505188, train_acc: 0.9324609294142, val_loss: 0.5686823093374054, val_f1: 0.857451403887689, val_auc: 0.9963010206974563, val_acc: 0.857451403887689
Epoch 22/30


100%|██████████| 2416/2416 [02:58<00:00, 13.55it/s]
100%|██████████| 268/268 [00:13<00:00, 19.72it/s]


train_loss: 0.2187577329625358, train_f1: 0.9349223087188451, train_auc: 0.9996647005769455, train_acc: 0.9350936659076796, val_loss: 0.5812323602931154, val_f1: 0.8499211954935497, val_auc: 0.9958960261137226, val_acc: 0.8499211954935497
Epoch 23/30


100%|██████████| 2416/2416 [02:53<00:00, 13.90it/s]
100%|██████████| 268/268 [00:13<00:00, 19.91it/s]


train_loss: 0.20622484969894148, train_f1: 0.9385206950793149, train_auc: 0.9997115414085347, train_acc: 0.938690229766094, val_loss: 0.5877468769174462, val_f1: 0.8581518883894694, val_auc: 0.9962417516061545, val_acc: 0.8581518883894694
Epoch 24/30


100%|██████████| 2416/2416 [02:56<00:00, 13.67it/s]
100%|██████████| 268/268 [00:13<00:00, 19.80it/s]


train_loss: 0.1951768040049522, train_f1: 0.9415828761006672, train_auc: 0.9997475640586502, train_acc: 0.9417175533015939, val_loss: 0.6179557618365351, val_f1: 0.8490455898663242, val_auc: 0.9959890882681232, val_acc: 0.8490455898663242
Epoch 25/30


100%|██████████| 2416/2416 [02:57<00:00, 13.60it/s]
100%|██████████| 268/268 [00:13<00:00, 19.56it/s]


train_loss: 0.18466397895499284, train_f1: 0.9445281266863541, train_auc: 0.9997729647262389, train_acc: 0.9446284413164976, val_loss: 0.6218775996674243, val_f1: 0.851614033039519, val_auc: 0.9959354936749367, val_acc: 0.851614033039519
Epoch 26/30


100%|██████████| 2416/2416 [02:57<00:00, 13.59it/s]
100%|██████████| 268/268 [00:13<00:00, 19.55it/s]


train_loss: 0.17511159152066982, train_f1: 0.9466679877728259, train_auc: 0.9998025025850651, train_acc: 0.9467695611674601, val_loss: 0.6366484570386473, val_f1: 0.8520810227073726, val_auc: 0.9959237672451825, val_acc: 0.8520810227073726
Epoch 27/30


100%|██████████| 2416/2416 [02:54<00:00, 13.84it/s]
100%|██████████| 268/268 [00:13<00:00, 19.47it/s]


train_loss: 0.16516223701915134, train_f1: 0.94898891190673, train_auc: 0.999830535711167, train_acc: 0.9490723970192507, val_loss: 0.6428541237516189, val_f1: 0.8567509193859086, val_auc: 0.9957752668833894, val_acc: 0.8567509193859086
Epoch 28/30


100%|██████████| 2416/2416 [02:53<00:00, 13.90it/s]
100%|██████████| 268/268 [00:13<00:00, 19.64it/s]


train_loss: 0.15658065229530907, train_f1: 0.9520211711359359, train_auc: 0.9998559094907327, train_acc: 0.9520803146346513, val_loss: 0.6473996080041154, val_f1: 0.8540657287957504, val_auc: 0.9958372175987152, val_acc: 0.8540657287957504
Epoch 29/30


100%|██████████| 2416/2416 [02:53<00:00, 13.90it/s]
100%|██████████| 268/268 [00:13<00:00, 19.59it/s]


train_loss: 0.14764000437282548, train_f1: 0.9545307895881741, train_auc: 0.9998630164283239, train_acc: 0.9545901469675016, val_loss: 0.7203726787050605, val_f1: 0.8466522678185745, val_auc: 0.9952422146848514, val_acc: 0.8466522678185745
Epoch 30/30


100%|██████████| 2416/2416 [02:55<00:00, 13.78it/s]
100%|██████████| 268/268 [00:13<00:00, 19.59it/s]


train_loss: 0.13979492432727714, train_f1: 0.9563583696188133, train_auc: 0.9998928247647824, train_acc: 0.9564143034568412, val_loss: 0.7137164866774163, val_f1: 0.8479364894051719, val_auc: 0.9954369422614489, val_acc: 0.8479364894051719


## GCN 模型

In [33]:
# 这段代码初始化了GCN分类器模型，并调用了训练函数train来进行模型训练。

# 1、确定类别数量：
num_classes = len(label2idx)

# 2、模型初始化：
model = GCNClassifier(args.embedding_dim, args.hidden_dim, num_classes)

# 3、打印训练信息：
print('-------- GCN 模型训练')

# 4、调用训练函数：
train(args, model,                                                 
      (train_x_adj, train_x_feature, train_df['target'].values),   
      (valid_x_adj, valid_x_feature, valid_df['target'].values),   
      num_classes,                                                 
      "GCN")

-------- GCN 模型训练
Epoch 1/30


100%|██████████| 2416/2416 [02:19<00:00, 17.35it/s]
100%|██████████| 268/268 [00:12<00:00, 21.35it/s]


train_loss: 1.70563102121286, train_f1: 0.5420636602951951, train_auc: 0.9083831769678864, train_acc: 0.56693748706272, val_loss: 1.0791760883224542, val_f1: 0.692720798552332, val_auc: 0.9769426481044641, val_acc: 0.692720798552332
----- Save model ----- with f1: 0.692720798552332
Epoch 2/30


100%|██████████| 2416/2416 [02:19<00:00, 17.30it/s]
100%|██████████| 268/268 [00:12<00:00, 21.35it/s]


train_loss: 1.0208729879424858, train_f1: 0.6973118519205526, train_auc: 0.9750637048755078, train_acc: 0.7120226143655558, val_loss: 0.8834435901701899, val_f1: 0.7512112544509952, val_auc: 0.9872050748319297, val_acc: 0.7512112544509952
----- Save model ----- with f1: 0.7512112544509952
Epoch 3/30


100%|██████████| 2416/2416 [02:19<00:00, 17.34it/s]
100%|██████████| 268/268 [00:12<00:00, 21.43it/s]


train_loss: 0.9049675517672344, train_f1: 0.732694591797364, train_auc: 0.9842084829634251, train_acc: 0.7437254191678742, val_loss: 0.8279148435859542, val_f1: 0.759033331387543, val_auc: 0.9900965561456779, val_acc: 0.759033331387543
----- Save model ----- with f1: 0.759033331387543
Epoch 4/30


100%|██████████| 2416/2416 [02:19<00:00, 17.36it/s]
100%|██████████| 268/268 [00:12<00:00, 21.41it/s]


train_loss: 0.8413294656880629, train_f1: 0.7514693443824094, train_auc: 0.9881859507991987, train_acc: 0.7608737838956737, val_loss: 0.7791434359639438, val_f1: 0.7707664467923647, val_auc: 0.9914078307577585, val_acc: 0.7707664467923647
----- Save model ----- with f1: 0.7707664467923647
Epoch 5/30


100%|██████████| 2416/2416 [02:19<00:00, 17.30it/s]
100%|██████████| 268/268 [00:12<00:00, 21.45it/s]


train_loss: 0.797553832747587, train_f1: 0.7653928319017695, train_auc: 0.9899467817897807, train_acc: 0.7733582591595943, val_loss: 0.7350120159950276, val_f1: 0.7848345105364544, val_auc: 0.9928442071434231, val_acc: 0.7848345105364544
----- Save model ----- with f1: 0.7848345105364544
Epoch 6/30


100%|██████████| 2416/2416 [02:19<00:00, 17.37it/s]
100%|██████████| 268/268 [00:12<00:00, 21.42it/s]


train_loss: 0.7645369635413813, train_f1: 0.7758688796020065, train_auc: 0.9913878466713875, train_acc: 0.782931846408611, val_loss: 0.7203054187624756, val_f1: 0.790555133967661, val_auc: 0.9932542075390813, val_acc: 0.790555133967661
----- Save model ----- with f1: 0.790555133967661
Epoch 7/30


100%|██████████| 2416/2416 [02:19<00:00, 17.37it/s]
100%|██████████| 268/268 [00:12<00:00, 21.42it/s]


train_loss: 0.738159859417291, train_f1: 0.7846174459893845, train_auc: 0.9921229911229648, train_acc: 0.7911211446905403, val_loss: 0.6985126103538631, val_f1: 0.7912556184694414, val_auc: 0.9937670633466157, val_acc: 0.7912556184694414
----- Save model ----- with f1: 0.7912556184694414
Epoch 8/30


100%|██████████| 2416/2416 [02:19<00:00, 17.37it/s]
100%|██████████| 268/268 [00:12<00:00, 21.38it/s]


train_loss: 0.7151559111569705, train_f1: 0.7904812513831898, train_auc: 0.9927982642341476, train_acc: 0.796412492237632, val_loss: 0.6771901762946997, val_f1: 0.8017628859961473, val_auc: 0.9939101852977433, val_acc: 0.8017628859961473
----- Save model ----- with f1: 0.8017628859961473
Epoch 9/30


100%|██████████| 2416/2416 [02:19<00:00, 17.34it/s]
100%|██████████| 268/268 [00:12<00:00, 21.41it/s]


train_loss: 0.696391148949105, train_f1: 0.7974773997845197, train_auc: 0.9933029875389844, train_acc: 0.8028746636307182, val_loss: 0.6507026108621218, val_f1: 0.808826104722433, val_auc: 0.994303560904337, val_acc: 0.808826104722433
----- Save model ----- with f1: 0.808826104722433
Epoch 10/30


100%|██████████| 2416/2416 [02:19<00:00, 17.36it/s]
100%|██████████| 268/268 [00:12<00:00, 21.36it/s]


train_loss: 0.6794004837507444, train_f1: 0.8025227279903628, train_auc: 0.9936346081809512, train_acc: 0.8074673980542331, val_loss: 0.6503346029724649, val_f1: 0.8101687000175121, val_auc: 0.9944705025520562, val_acc: 0.8101687000175121
----- Save model ----- with f1: 0.8101687000175121
Epoch 11/30


100%|██████████| 2416/2416 [02:19<00:00, 17.36it/s]
100%|██████████| 268/268 [00:12<00:00, 21.52it/s]


train_loss: 0.6649569172523185, train_f1: 0.8066214684592167, train_auc: 0.9940468184403971, train_acc: 0.8111739287932105, val_loss: 0.6473361017432674, val_f1: 0.8137294962348958, val_auc: 0.9947674390484095, val_acc: 0.8137294962348958
----- Save model ----- with f1: 0.8137294962348958
Epoch 12/30


100%|██████████| 2416/2416 [02:18<00:00, 17.39it/s]
100%|██████████| 268/268 [00:12<00:00, 21.42it/s]


train_loss: 0.6507172159147466, train_f1: 0.8111647404283266, train_auc: 0.9943555805743409, train_acc: 0.8154367625750363, val_loss: 0.6224231384972582, val_f1: 0.818749635164322, val_auc: 0.9945730961709727, val_acc: 0.818749635164322
----- Save model ----- with f1: 0.818749635164322
Epoch 13/30


100%|██████████| 2416/2416 [02:19<00:00, 17.34it/s]
100%|██████████| 268/268 [00:12<00:00, 21.36it/s]


train_loss: 0.6402212956562543, train_f1: 0.8142884356768689, train_auc: 0.994581634515436, train_acc: 0.8183735251500724, val_loss: 0.621001297649719, val_f1: 0.816998423909871, val_auc: 0.9949076959657297, val_acc: 0.816998423909871
Epoch 14/30


100%|██████████| 2416/2416 [02:18<00:00, 17.41it/s]
100%|██████████| 268/268 [00:12<00:00, 21.38it/s]


train_loss: 0.6289891175222618, train_f1: 0.8181693742271351, train_auc: 0.9949795032651285, train_acc: 0.8219894949285862, val_loss: 0.618053205909013, val_f1: 0.8211429572120716, val_auc: 0.994856360474898, val_acc: 0.8211429572120716
----- Save model ----- with f1: 0.8211429572120716
Epoch 15/30


100%|██████████| 2416/2416 [02:19<00:00, 17.32it/s]
100%|██████████| 268/268 [00:12<00:00, 21.22it/s]


train_loss: 0.617848438759709, train_f1: 0.8207619900324162, train_auc: 0.9952336215318419, train_acc: 0.8243311426205755, val_loss: 0.5996244533348886, val_f1: 0.8236530266767847, val_auc: 0.9950411609245347, val_acc: 0.8236530266767847
----- Save model ----- with f1: 0.8236530266767847
Epoch 16/30


100%|██████████| 2416/2416 [02:18<00:00, 17.42it/s]
100%|██████████| 268/268 [00:12<00:00, 21.37it/s]


train_loss: 0.6074996339218889, train_f1: 0.824261687470014, train_auc: 0.9953844746016522, train_acc: 0.827662492237632, val_loss: 0.6052595321506038, val_f1: 0.826338217266943, val_auc: 0.9950232564065279, val_acc: 0.826338217266943
----- Save model ----- with f1: 0.826338217266943
Epoch 17/30


100%|██████████| 2416/2416 [02:18<00:00, 17.49it/s]
100%|██████████| 268/268 [00:12<00:00, 21.37it/s]


train_loss: 0.6003346379032192, train_f1: 0.8265833445057952, train_auc: 0.9956027756426878, train_acc: 0.8298553612088595, val_loss: 0.6051640101611162, val_f1: 0.8219018154223338, val_auc: 0.9950875999828106, val_acc: 0.8219018154223338
Epoch 18/30


100%|██████████| 2416/2416 [02:17<00:00, 17.57it/s]
100%|██████████| 268/268 [00:12<00:00, 21.40it/s]


train_loss: 0.5914679703777593, train_f1: 0.829020735899134, train_auc: 0.9958533465642432, train_acc: 0.8321323225005175, val_loss: 0.6113076831089025, val_f1: 0.8212597046290351, val_auc: 0.9956156413014681, val_acc: 0.8212597046290351
Epoch 19/30


100%|██████████| 2416/2416 [02:17<00:00, 17.63it/s]
100%|██████████| 268/268 [00:12<00:00, 21.44it/s]


train_loss: 0.5844775183521066, train_f1: 0.8308937325080236, train_auc: 0.9959465035889681, train_acc: 0.8339500103498241, val_loss: 0.5916018176392944, val_f1: 0.8279726811044306, val_auc: 0.9954429762025574, val_acc: 0.8279726811044306
----- Save model ----- with f1: 0.8279726811044306
Epoch 20/30


100%|██████████| 2416/2416 [02:15<00:00, 17.83it/s]
100%|██████████| 268/268 [00:14<00:00, 18.77it/s]


train_loss: 0.5758573040674551, train_f1: 0.833591104997876, train_auc: 0.9961718420849038, train_acc: 0.8364533740426413, val_loss: 0.5840155575146425, val_f1: 0.8287899130231744, val_auc: 0.9953227749729603, val_acc: 0.8287899130231744
----- Save model ----- with f1: 0.8287899130231744
Epoch 21/30


100%|██████████| 2416/2416 [02:15<00:00, 17.87it/s]
100%|██████████| 268/268 [00:14<00:00, 18.76it/s]


train_loss: 0.5704981572679341, train_f1: 0.8354917013605583, train_auc: 0.9962224173111548, train_acc: 0.8382387186917822, val_loss: 0.6192898471742424, val_f1: 0.8214931994629618, val_auc: 0.995683829370567, val_acc: 0.8214931994629618
Epoch 22/30


100%|██████████| 2416/2416 [02:17<00:00, 17.60it/s]
100%|██████████| 268/268 [00:12<00:00, 21.51it/s]


train_loss: 0.5640172880414319, train_f1: 0.8372597403839597, train_auc: 0.9964034420351947, train_acc: 0.8399464396605257, val_loss: 0.5809881692724443, val_f1: 0.8298990134843267, val_auc: 0.9955581299601789, val_acc: 0.8298990134843267
----- Save model ----- with f1: 0.8298990134843267
Epoch 23/30


100%|██████████| 2416/2416 [02:17<00:00, 17.55it/s]
100%|██████████| 268/268 [00:12<00:00, 21.47it/s]


train_loss: 0.5573606120656845, train_f1: 0.8393272440567713, train_auc: 0.9965418638240968, train_acc: 0.8418999689505279, val_loss: 0.5631213314803458, val_f1: 0.8372541007530209, val_auc: 0.9957769029294663, val_acc: 0.8372541007530209
----- Save model ----- with f1: 0.8372541007530209
Epoch 24/30


100%|██████████| 2416/2416 [02:17<00:00, 17.61it/s]
100%|██████████| 268/268 [00:12<00:00, 21.48it/s]


train_loss: 0.5509481588563581, train_f1: 0.8406282453258962, train_auc: 0.9967002244359694, train_acc: 0.8431484164769198, val_loss: 0.570920157538199, val_f1: 0.835094273539198, val_auc: 0.995950219254646, val_acc: 0.835094273539198
Epoch 25/30


100%|██████████| 2416/2416 [02:14<00:00, 17.90it/s]
100%|██████████| 268/268 [00:14<00:00, 18.79it/s]


train_loss: 0.5473425724722496, train_f1: 0.8413587049944453, train_auc: 0.9967770819915275, train_acc: 0.8437758745601325, val_loss: 0.5688616361524631, val_f1: 0.8371957270445392, val_auc: 0.9957936364788128, val_acc: 0.8371957270445392
Epoch 26/30


100%|██████████| 2416/2416 [02:15<00:00, 17.81it/s]
100%|██████████| 268/268 [00:14<00:00, 18.74it/s]


train_loss: 0.5409764412186101, train_f1: 0.8436776230830729, train_auc: 0.9968774798940186, train_acc: 0.8460334299316912, val_loss: 0.5676428061604167, val_f1: 0.8332263148677835, val_auc: 0.9958065187952272, val_acc: 0.8332263148677835
Epoch 27/30


100%|██████████| 2416/2416 [02:14<00:00, 17.99it/s]
100%|██████████| 268/268 [00:14<00:00, 18.80it/s]


train_loss: 0.5356693285400198, train_f1: 0.8453024032307087, train_auc: 0.9969200313227096, train_acc: 0.8474824052991099, val_loss: 0.5633477215279845, val_f1: 0.837020605919094, val_auc: 0.9957996163651521, val_acc: 0.837020605919094
Epoch 28/30


100%|██████████| 2416/2416 [02:14<00:00, 17.95it/s]
100%|██████████| 268/268 [00:14<00:00, 19.01it/s]


train_loss: 0.5315739883554002, train_f1: 0.8461081819972337, train_auc: 0.9970663650796853, train_acc: 0.8482715793831505, val_loss: 0.5658971046639693, val_f1: 0.8349191524137528, val_auc: 0.9958888201925733, val_acc: 0.8349191524137528
Epoch 29/30


100%|██████████| 2416/2416 [02:14<00:00, 18.00it/s]
100%|██████████| 268/268 [00:12<00:00, 21.70it/s]


train_loss: 0.5259153211662021, train_f1: 0.847874047809756, train_auc: 0.9971989633679982, train_acc: 0.8500245808321258, val_loss: 0.5664621611584479, val_f1: 0.8371957270445392, val_auc: 0.9959073274981556, val_acc: 0.8371957270445392
Epoch 30/30


100%|██████████| 2416/2416 [02:14<00:00, 17.99it/s]
100%|██████████| 268/268 [00:12<00:00, 21.73it/s]


train_loss: 0.5214620593269136, train_f1: 0.8494699363666118, train_auc: 0.9971907440039245, train_acc: 0.851551179879942, val_loss: 0.5755264366796217, val_f1: 0.8336349308271555, val_auc: 0.9959132521428402, val_acc: 0.8336349308271555


# 预测

In [40]:
# 这段代码定义了一个load_model函数，用于加载预训练的模型权重，并将模型设置为评估模式
def load_model(model, best_model_path):
    """加载模型、加载模型权重"""
    model.load_state_dict(torch.load(best_model_path))

    # 调用model.eval()将模型设置为评估模式。在评估模式下，模型的一些行为会有所不同，
    model.eval()
    return model 

In [41]:
# 这段代码定义了test函数，用于在测试集上评估模型的性能。
def test(args, model, x_adj, x_feature, label_list, num_classes):
    """测试"""
# 1、创建测试数据集和数据加载器
    testdataset = GraphDataset(x_adj, x_feature)
    testloader = GraphDataLoader(testdataset, batch_size = args.batch_size, shuffle = False)

    # 2、模型预测
    pred_list = []
    with torch.no_grad():                             
        for idx, G in enumerate(tqdm(testloader)):    
            h = G.ndata['feat'].float()              
            log = model(G, h)                         
            logits = log.softmax(-1)                  
            pred_soft = logits.detach().cpu().numpy() 
            pred_list.append(np.argmax(pred_soft, 1)) 

        preds = np.concatenate(pred_list)             

    # 计算加权平均F1分数、精确度、召回率和准确率，使用f1_score、precision_score、recall_score和accuracy_score函数，
    # 其中average='weighted'参数表示计算加权平均值，权重由每个类别的样本数量决定
    print('F1 in test:', f1_score(label_list, preds, average = 'weighted'))
    print('precision in test:', precision_score(label_list, preds, average = 'weighted'))
    print('recall in test:', recall_score(label_list, preds, average = 'weighted'))
    print('accuracy in test:', accuracy_score(label_list, preds))

## GAT

In [42]:
# 1、确定类别数量：num_classes变量通过计算label2idx字典的长度来确定类别数量。 
num_classes = len(label2idx)

# 2、模型初始化和加载
model = GATClassifier(args.embedding_dim, args.hidden_dim, args.num_heads, num_classes)

# 定义best_model_path变量，指向保存最佳模型权重的文件路径。
best_model_path = f'{args.model_save_path}/GAT-epoch-13-0.8641060066546028.pt'

# 调用load_model函数，加载best_model_path中的模型权重到model实例上，并将模型设置为评估模式
model = load_model(model, best_model_path)

# 调用test函数，传入参数args（包含训练配置）、model（加载了最佳权重的GAT分类器模型）、测试集的邻接矩阵test_x_adj、
test(args, model, test_x_adj, test_x_feature, test_df['target'].values, len(label2idx))

100%|██████████| 508/508 [00:26<00:00, 18.85it/s]
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


F1 in test: 0.828065190694157
precision in test: 0.8405425486020889
recall in test: 0.834963701242771
accuracy in test: 0.834963701242771


## GCN

In [43]:
# 1、模型初始化：创建GCNClassifier实例，传入参数args.embedding_dim（输入特征维度）、args.hidden_dim（隐藏层维度）和num_classes（类别数量）。
model = GCNClassifier(args.embedding_dim, args.hidden_dim, num_classes)

# 2、加载最佳模型权重
best_model_path = f'{args.model_save_path}/GCN-epoch-22-0.8372541007530209.pt'
model = load_model(model, best_model_path)

# 3、用test函数，传入参数args（包含训练配置）、model（加载了最佳权重的GCN分类器模型）、测试集的邻接矩阵test_x_adj、
test(args, model, test_x_adj, test_x_feature, test_df['target'].values, len(label2idx))

100%|██████████| 508/508 [00:24<00:00, 20.56it/s]

F1 in test: 0.7988395395765523
precision in test: 0.8130721153032072
recall in test: 0.8079242032730405
accuracy in test: 0.8079242032730405



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
