## CORA数据集由机器学习论文组成。这些文件可分为以下七个类别之一：
    基于案例的
    遗传算法
    神经网络
    概率方法
    强化学习
    规则_学习
    理论
    
    这些论文的选择方式是，在最终语料库中，每篇论文至少引用一篇其他论文或被至少一篇其他论文引用。
    整个语料库共有2708篇论文。
    在对停顿词进行词干处理和删除之后，我们剩下1433个独特单词的词汇表。文档频率低于10的所有单词都被删除。
    
    该目录包含两个文件：
        .content文件包含以下格式的论文说明：<Paper_id><word_tributes>+<class_label>
        
    每行的第一个条目包含论文的唯一字符串ID，后跟指示词汇表中的每个单词在论文中是否存在(由1表示)或不存在(由0表示)的二进制值。
    最后，该行的最后一个条目包含纸张的类别标签。
    每行的数据格式如下: <paper_id> <word_attributes>+ <class_label>。paper id是论文的唯一标识；word_attributes是是一个维度为1433的词向量，
    词向量的每个元素对应一个词，0表示该元素对应的词不在Paper中，1表示该元素对应的词在Paper中。class_label是论文的类别，
    每篇Paper被映射到如下7个分类之一: Case_Based、Genetic_Algorithms、Neural_Networks、Probabilistic_Methods、Reinforcement_Learning、Rule_Learning、Theory。
    
        .cites文件包含语料库的引文图表。每行以以下格式描述一个链接：<被引用论文ID><引用论文ID>
        
    每行包含两个纸质ID。第一个条目是被引用论文的ID，第二个ID代表包含引文的论文。链接的方向是从右到左。如果一行由“Pap1 Pap2”表示，则链接为“Pap2->Pap1”。

In [2]:
import scipy.sparse as sp
import numpy as np

In [3]:
class CoraData():
    def __init__(self, data_root='/home/zuoyuhui/datasets/cora/'):
        self._data_root = data_root
        self._data = self.process_data()
        
    def load_data(self,dataset='cora'):
        print('Loading {} dataset...'.format(dataset))
        idx_features_labels = np.genfromtxt("{}{}.cites".format(self._data_root,dataset),dtype=np.dtype(str))
        edges = np.genfromtxt("{}{}.cites".format(self._data_root,dataset),dtype=np.int32)
        return idx_features_labels, edges
    
    def process_data(self):
        print("Process data...")
        
        idx_features_labels, edges = self.load_data()
        
        features = idx_features_labels[:,1:-1].astype(np.float32)
        features = self.normalize_feature(features)
        
        y = idx_features_labels[:,-1]
        labels = self.encode_onehot(y)
        
        idx = np.array(idx_features_labels[:,0],dtype=np.int32)
        idx_map = {j:i for i,j in enumerate(idx)}
        edge_indexs = np.array(list(map(idx_map.get,edges.flatten())),dtype=np.int32)
        edge_indexs = edge_indexs.reshape(edges.shape)
        
        edge_index_len =len(edge_indexs)
        for i in range(edge_index_len):
            edge_indexs = np.concatenate((edge_indexs,[[edge_indexs[i][1],edge_indexs[i][0]]]))
        
        adjacency = sp.coo_matrix((np.ones(len(edge_indexs)),
                                  (edge_indexs[:,0],edge_indexs[:,1])),
                                 shape=(features.shape[0],features.shape[0]),dtype='float32')
        adjacency = self.normalize_adj(adjacency)
        
        train_index = np.arange(150)
        val_index = np.arange(150,500)
        test_index = np.arange(500,2708)
        
        train_mask = np.zeros(edge_indexs.shape[0],dtype=np.bool)
        val_mask = np.zeros(edge_indexs.shape[0],dtype=np.bool)
        test_mask = np.zeros(edge_indexs.shape[0],dtype=np.bool)
        train_mask[train_index]=True
        val_mask[val_index]=True
        test_mask[test_index]=True
        
        print('Dataset has {} nodes, {} edges, {} features.'.format(features.shape[0], adjacency.shape[0], features.shape[1]))

        return features, labels, adjacency, train_mask, val_mask, test_mask
        
        
    def encode_onehot(self,label):
        classes = set(labels)
        class_dict = {c: np.identity(len(classes))[i,:] for i,c in enumerate(classes)}
        labels_onehot = np.array(list(map(classes_dict.get, labels)), dtype=np.int32)
        return labels_onehot
    
    def normalize_feature(self,features):
        noraml_features = features/features.sum(1).reshape(-1,1)
        return noraml_features
    
    def normalize_adj(self,adjacency):
        """计算 L=D^-0.5 * (A+I) * D^-0.5"""
        adjacency += sp.eye(adjacency.shape[0]) #增加自连接
        degree = np.array(adjacency.sum(1))
        d_hat = sp.diags(np.power(degree,-0.5).flatten())
        return d_hat.dot(adjacency).dot(d_hat).tocsr().todense()
    
    def data(self):
        """返回Data数据对象，包括features, labes, adjacency, train_mask, val_mask, test_mask"""
        return self._data