#### 基本语法
##### 元组
- 有序性：元组中的元素是有序的，这意味着每个元素都有一个固定的位置，位置由索引决定（从0开始）
- 不可变性：元组一旦创建，内部元素不能被修改（不能添加、删除或者更改元素）
- 可以包含不同类型的元素：元组可以包含不同类型的元素，例如整数、字符串、列表、甚至是另一个元组
- 使用小括号定义：元组通常使用小括号 () 定义，元素之间用逗号分隔。例如，(1, 2, 3) 是一个包含三个整数的元组

##### 列表
- 有序性：列表中的元素是有序的，每个元素都有一个固定的位置，位置由索引决定（索引从0开始）
- 可变性：列表是可变的，意味着你可以随时改变列表的内容（添加、删除、修改元素等）
- 可以包含不同类型的元素：列表可以包含不同类型的元素，例如整数、字符串、列表、甚至是另一个列表或元组
- 使用方括号定义：列表使用方括号 [] 定义，元素之间用逗号分隔。例如，[1, 2, 3] 是一个包含三个整数的列表

##### 字典
- 键值对结构：每一个元素都是一个键值对
- 键：需要为不可变类型（数字类型、字符串、元组、布尔值等）；每个键是唯一的，不会有重复的键
- 值：任意类型，可以是不可变类型（如数字、字符串、元组）或者可变类型（如列表、字典、集合等）；可以重复
- 无序性：在Python 3.7之前，字典的键值对存储顺序是无序的（也就是说，不能保证键值对存储的顺序与插入的顺序一致）。从Python 3.7开始，字典在插入时会保留顺序，但一般仍然不依赖于顺序进行操作。
- 可变性：字典是可变的，这意味着你可以在字典创建后，添加、修改或删除键值对
- 快速查找：字典允许通过键快速查找对应的值，查找操作的时间复杂度通常是 O(1)，非常高效
- 使用花括号定义：字典使用大括号 {} 来定义，其中键值对以冒号 : 分隔，多个键值对之间用逗号 , 分隔

##### 集合
- 无序性：集合中的元素是无序的，这意味着你不能通过索引来访问集合中的元素
- 可变性：集合是可变的，可以添加或删除元素，但集合本身中的元素必须是不可变的（例如数字、字符串、元组）
- 唯一性：集合中的每个元素都是唯一的，重复的元素在加入集合时会被自动去重
- 使用花括号定义：集合使用花括号 {} 来定义，多个元素之间用逗号 , 分隔

##### np.zeros()/np.empty()
- np.zeros()用于创建一个全为零的数组，np.empty()用来创建一个未初始化的数组，类型是numpy.ndarray
- arg1：shape，形状，可以是整数或者整数的元组，必选
- arg2：dtype，数组中元素的数据类型，默认是float64，可选
- arg3: order，数组的存储顺序，默认按行存储

##### with open("cora/cora.content") as fp:
- with是上下文管理器，在 with 语句缩进的代码块内部，可以对文件执行各种操作，如读取、写入、遍历行内容等
- 只要代码还在 with 语句块中，文件就会保持打开状态
- 当 with 语句块内的代码执行完毕，或者遇到异常、return、break 等控制流语句导致提前退出时，即使没有显式调用 fp.close()，文件也会自动关闭
- 当使用 open() 函数打开一个文本文件并使用 for 循环来迭代文件对象时，Python 会自动逐行读取文件的内容，并将每一行作为一个字符串返回

##### enumerate()
- 用来为可迭代对象生成一个由索引和值组成的元组
- for i, line in enumerate(fp)中，i是索引（行号，从0开始）；line是该行的内容，字符串类型

##### line.strip()
- strip() 是一个字符串方法，用于移除字符串开头和结尾的所有空白字符，包括空格、制表符（\t）、换行符（\n）等

##### line.split()
- split() 是一个字符串方法，用于将字符串拆分为多个部分，默认情况下按照空白字符（空格、制表符等）进行拆分，并将这些部分存储在一个列表中返回

##### map()
- 用于将一个函数应用到一个或多个可迭代对象（如列表、元组）中的每个元素上，并返回一个映射对象（迭代器）。该迭代器可以被转换为列表、元组或其他类型
- arg1：function要应用到每个元素上的函数。可以是一个内置函数，也可以是你自己定义的函数
- arg2：iterable一个或多个可迭代对象，如列表、元组、字符串等

##### feat_data[i, :] = map(float, info[1:-1])
- info[1:-1]：表示取 info 列表中从索引1到倒数第二个元素的所有值（不包括索引0的元素和最后一个元素）；索引为-1表示最后一个元素，再python中，区间默认左闭右开
- 可以使用元组/列表对一个numpy矩阵进行赋值，但这个赋值要在二者元素数量一致的情况下进行
- float既是一个数据类型，也是一个内置函数，可以将类型的值转换成float类型

##### adj_lists = defaultdict(set)
- defaultdict(set)：如果访问一个不存在的键，defaultdict会将这个键添加到字典中，并创建一个set对象（初始化为空）作为该键的值

In [None]:
def load_cora():
    # cora dataset共用2708个样本
    num_nodes = 2708
    # 所有样本中一共有1433种不同的词汇（去掉了频率小于10的），作为特征
    num_feats = 1433
    feat_data = np.zeros((num_nodes, num_feats))
    labels = np.empty((num_nodes,1), dtype=np.int64)
    # <id:index>
    node_map = {}
    # <str:index>
    label_map = {}
    with open("cora/cora.content") as fp:
        for i,line in enumerate(fp):
            info = line.strip().split()
            feat_data[i,:] = map(float, info[1:-1])
            node_map[info[0]] = i
            if not info[-1] in label_map:
                label_map[info[-1]] = len(label_map)
            labels[i] = label_map[info[-1]]

    adj_lists = defaultdict(set)
    with open("cora/cora.cites") as fp:
        for i,line in enumerate(fp):
            info = line.strip().split()
            paper1 = node_map[info[0]]
            paper2 = node_map[info[1]]
            adj_lists[paper1].add(paper2)
            adj_lists[paper2].add(paper1)
    return feat_data, labels, adj_lists