In [None]:
# 1. ind.cora.x
# 内容：训练集中节点的特征矩阵。
# 作用：用于表示训练集中节点的输入特征。
# 格式：
# 数据类型：稀疏矩阵（scipy.sparse.csr_matrix）。
# 大小：(训练节点数, 特征数)。
# 每行表示一个节点，每列是一个特征（通常是基于词袋模型的特征，表示单词是否出现在论文中）。
# 示例：如果矩阵是密集的（dense），可能看起来像这样：
# plaintext
# 复制代码
# [[0. 1. 0. ... 0. 0. 0.]
#  [0. 0. 1. ... 0. 0. 0.]
#  ...]
# 2. ind.cora.y
# 内容：训练集中节点的标签。
# 作用：为训练节点提供类别信息。
# 格式：
# 数据类型：NumPy数组，大小为 (训练节点数, 类别数)。
# 每行是一个one-hot编码的标签，表示该节点所属的类别。
# 示例：
# plaintext
# 复制代码
# [[0. 1. 0. 0. 0. 0. 0.]
#  [1. 0. 0. 0. 0. 0. 0.]
#  ...]
# 3. ind.cora.allx
# 内容：训练集和验证集所有节点的特征矩阵。
# 作用：表示训练集和验证集节点的特征，用于完整训练和验证阶段。
# 格式：
# 数据类型：稀疏矩阵（scipy.sparse.csr_matrix）。
# 大小：(训练+验证节点数, 特征数)。
# 说明：包含ind.cora.x中的数据和验证集中节点的特征。
# 4. ind.cora.ally
# 内容：训练集和验证集中节点的标签。
# 作用：为训练集和验证集节点提供类别信息。
# 格式：
# 数据类型：NumPy数组。
# 大小：(训练+验证节点数, 类别数)。
# 说明：包含ind.cora.y和验证集的标签。
# 5. ind.cora.tx
# 内容：测试集中节点的特征矩阵。
# 作用：表示测试集中节点的输入特征。
# 格式：
# 数据类型：稀疏矩阵（scipy.sparse.csr_matrix）。
# 大小：(测试节点数, 特征数)。
# 说明：只包含测试集中节点的特征。
# 6. ind.cora.ty
# 内容：测试集中节点的标签。
# 作用：为测试集提供类别信息。
# 格式：
# 数据类型：NumPy数组。
# 大小：(测试节点数, 类别数)。
# 说明：每一行是测试集中节点的one-hot编码标签。
# 7. ind.cora.graph
# 内容：图的邻接表。
# 作用：描述图的结构。
# 格式：
# 数据类型：Python字典。
# 键：节点的索引。
# 值：与该节点相邻的节点的索引列表。
# 示例：
# python
# 复制代码
# {0: [633, 1862, 2582], 
#  1: [2, 652, 654], 
#  ...}
# 8. ind.cora.test.index
# 内容：测试集中节点的索引。
# 作用：标识测试节点的位置。
# 格式：
# 数据类型：纯文本文件，每行一个整数。
# 示例：
# plaintext
# 复制代码
# 1708
# 1709
# 1710
# ...

In [None]:
def load_test_index(filename):
    with open(filename, 'r') as f:
        return [int(line.strip()) for line in f.readlines()]

# 加载测试索引
test_idx = load_test_index('raw/ind.cora.test.index')

# 查看测试索引
print("Test indices:", test_idx)


In [None]:
import pickle
import scipy.sparse

# 定义加载函数
def load_pickle_file(filename):
    """加载pickle文件"""
    with open(filename, 'rb') as f:
        return pickle.load(f, encoding='latin1')  # 确保兼容旧版本

def load_graph_file(filename):
    """加载图的邻接信息"""
    with open(filename, 'rb') as f:
        return pickle.load(f, encoding='latin1')

def load_test_index_file(filename):
    """加载测试索引文件"""
    with open(filename, 'r') as f:
        return [int(line.strip()) for line in f.readlines()]

# 加载数据
x = load_pickle_file('raw/ind.cora.x')
y = load_pickle_file('raw/ind.cora.y')
allx = load_pickle_file('raw/ind.cora.allx')
ally = load_pickle_file('raw/ind.cora.ally')
tx = load_pickle_file('raw/ind.cora.tx')
ty = load_pickle_file('raw/ind.cora.ty')
graph = load_graph_file('raw/ind.cora.graph')
test_idx = load_test_index_file('raw/ind.cora.test.index')

# 打印内容
print("Training features (x):\n", x.todense() if isinstance(x, scipy.sparse.csr_matrix) else x)
print("Training labels (y):\n", y)
print("All features (allx):\n", allx.todense() if isinstance(allx, scipy.sparse.csr_matrix) else allx)
print("All labels (ally):\n", ally)
print("Test features (tx):\n", tx.todense() if isinstance(tx, scipy.sparse.csr_matrix) else tx)
print("Test labels (ty):\n", ty)
print("Graph structure (graph):\n", graph)
print("Test indices (test_idx):\n", test_idx)


In [None]:
print(x.todense().shape)

In [None]:
import numpy as np
np.set_printoptions(threshold=np.inf)  # 完全显示数组内容

# 再次打印第一个节点特征
print("First node features:\n", x.todense()[0])

In [14]:
allx.todense().shape
tx.todense().shape
x.todense().shape

(140, 1433)