# 1.本体论和基因本体论

Ontology,中文称作**本体论**

本体论包括与一个、许多或所有话语领域相关的概念、数据或实体之间的类别、属性和关系的表示、正式命名和定义

在生物学里，有若干用的比较多的ontology，用的最多，应该就是Gene ontology

Gene ontology,中文称作基因本体论,简写为GO

Gene Ontology可分为：

- 分子功能（Molecular Function）
- 生物过程（biological process）
- 细胞组成（cellular component）

GO的hierarchical structure如果画出来就是这个样子，最根部是三颗树，就是这三大类，是一个有向无环图。它主要有几种存储模式，一种就是OBO文件格式，OBO是把里面的每一个概念定义为一个Term,每一个Term有一系列的特征，包括：unique ID,名字，namespace,definition,synonym同义词，is a从属关系。另一个格式就是XML格式，XML格式有点像HTML格式，把每个概念定义为一个TERM，每个TERM也有一个accession number,有它的名字，同义词还要定义，另外iaruguo这个基因在别的数据存在，也有链接存储在里面，所XML文件在电脑里，以go:accession开始，o:accesion结束

GO structure:Directed Acyclic Graph(DAG)

GO的里面的relationship:'is a', 'part of'

蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号，而GO号可对于到Term，即功能类别或者细胞定位

# 2.GO注释相似性计算

## 1.txt格式

数据来源：[AmiGo2](https://amigo.geneontology.org/amigo/landing)

搜索human,选择Ontology,再将搜索结果导出,得到[ontology.txt](./data/ontology.txt)

文件部分内容展示如下

使用R package(GOSemSim)进行计算

'./complement/Rcode/GOsim.R'

## 2.obo格式

数据来源：[go.obo](https://current.geneontology.org/ontology/go.obo)

[go.obo](./data/go.obo)文件部分内容展示如下

# 3.两组 GO 术语之间的语义相似性

## 文件预处理

In [1]:
from tqdm import tqdm
import pandas as pd

In [2]:
f = open('./data/go.obo')
# 还有go-basic.obo,goslim_generic.obo等数据可以用来使用
lines = f.readlines()
nodes = []
names = []
namespaces = []

for line in tqdm(lines):
    line = line.strip() #去掉每行头尾空白
    if line.find('id:')==0:
        node = line[line.find('GO:'):].strip()
        if node.find('GO:') == 0:
            nodes.append(node)
        else:
            break
    elif line.find('name:')==0:
        name = line[5:].strip()
        names.append(name)
    elif line.find('namespace:')==0:
        namespace = line[10:].strip()
        namespaces.append(namespace)   
 
GO_data = pd.DataFrame([nodes,names,namespaces]).T
GO_data.columns = ['GO_id','GO_name','type']
# https://blog.csdn.net/qw213e/article/details/128856842

100%|█████████████████████████████████████████████████████████████████████▉| 616664/616743 [00:01<00:00, 608128.78it/s]


In [3]:
GO_data

Unnamed: 0,GO_id,GO_name,type
0,GO:0000001,mitochondrion inheritance,biological_process
1,GO:0000002,mitochondrial genome maintenance,biological_process
2,GO:0000003,reproduction,biological_process
3,GO:0000005,obsolete ribosomal chaperone activity,molecular_function
4,GO:0000006,high-affinity zinc transmembrane transporter a...,molecular_function
...,...,...,...
47724,GO:2001313,UDP-4-deoxy-4-formamido-beta-L-arabinopyranose...,biological_process
47725,GO:2001314,UDP-4-deoxy-4-formamido-beta-L-arabinopyranose...,biological_process
47726,GO:2001315,UDP-4-deoxy-4-formamido-beta-L-arabinopyranose...,biological_process
47727,GO:2001316,kojic acid metabolic process,biological_process


In [4]:
Out_file = './data/GOid.csv'
data = GO_data
df = pd.DataFrame(data)
df.to_csv(Out_file, index = False)

## mgoSim函数

**思路**使用mgoSim函数计算go terms之间的相似性

'./complement/Rcode/GOSim.R'

输入数据：GOid.csv

输出结果：GOidsim.csv

# 4.多个基因产物之间的语义相似性

## 函数mgeneSim

**思路**先将算出处理的数据转化为ENTRZID,再使用mgeneSim函数结合相应的godata计算gene-gene之间的相似性

'./complement/Rcode/GOsim.R'

输入数据：Cosmic_CancerGeneCensus_v99_GRCh37.tsv

(canonical_drivers.txt可以自行测试，Cancer Genes Altered genes driving cancer)

输出结果：CGCsim.csv

# 关键算法

[FORMULA](./Formula.ipynb)包括mgoSim,mgeneSim函数

# 相关资料

[【5.2.1.3】基因本体论与GO注释 - Sam' Note (qinqianshan.com)](https://qinqianshan.com/bioinformatics/annotation/go/)

[GO注释 - 发那个太丢人 - 博客园 (cnblogs.com)](https://www.cnblogs.com/djx571/p/10322261.html)

[Gene Ontology - Wikipedia](https://en.wikipedia.org/wiki/Gene_Ontology)

[GO-terms Semantic Similarity Measures (GoSemSim.pdf)](./book/GoSemSim.pdf)(2013)

[GOSemSim: an R package for measuring semantic similarity among GO terms and gene products)](./book/bioinformatics_26_7_976.pdf)(2010)

[Gene_ontology](./book/Gene_Ontology.pdf)(2016)

[GO Database Guide](http://www.geneontology.org/page/lead-database-guide)

[Ontology Downloads](http://www.geneontology.org/docs/download-ontology)

[CGC](https://cancer.sanger.ac.uk/cosmic/download/cosmic/v99/cancergenecensus)