# 构建不同任务的数据集

> author: Shizhenkun   
> email: zhenkun.shi@tib.cas.cn   
> date: 2021-05-25  

# Task1. 预测是酶还是非酶数据集构建



## 任务简介
该任务通过给定蛋白序列，预测该该蛋白是酶还是非酶。本任务所使用的数据集为Sport，对数据集的数据中进行学习，然后对新给定的蛋白序列数据预测是酶还是非酶。


## 数据统计
- 数据源Sprot，共有数据564,638条，其中有EC号的数据270,236条，无EC号的数据294402条, 具体数据如下：

| 项目                           | 数据    |
| -------------------------------- | ---------:|
|  原始Sprot                     |  564,638  |
|  去重复后的Sprot            |  476,664  |
|  >50bp                           |  467,097  |
|  无EC号                        |  239,019  |
|  有3级以上EC号的           |  219,227  |
|  有EC号但不满足三级      |  8,851    |
|  (无EC号 + 有EC号但不满足三级 =(239,019 + 8,851 = 247,870)比对有EC号的返回数据条数  |  32,238    |
|  显著性大于40%的数据条数  |  13,885   |
|  筛选后的数据总数          |  453,212   |
|  筛选后的酶数据           |  219,227  |
|  筛选后的非酶数据        |  233,985  |


- 将数据集中的所有数据按照时间排序，～90%作为训练集，～10%作为测试集，找到对应时间节点为2009年12月14日。
- 以2009年12月14日为时间节点，之前的数据为训练集，之后的数据为测试集，具体数据集统计如下： 





|     Items    | 酶       |   非酶    |合计                               |
| ------------ | --------| --------- |----------------------------------|
| 训练集        | 198,692 | 208,391   | 407,083（407,083/453,212=89.82%)  |
| 测试集        | 20,535  | 25,594    | 46,129 (46,129/453,212=10.18% )  |







## 数据集构建方法

* 根据蛋白注释信息，将Sprot中的蛋白分为「酶」和 「非酶」。
* 为了保证蛋白的唯一性，按照序列对Sprot中的数据进行去重除了，以保证数据集中序列的唯一性。
* 将注释中含有3级及三级以上EC号的蛋白做为酶数据，收录于数据集中，当中正样本 。
* 将注释中不含有EC号的数据作为非酶数据，并进行如下处理后收录于数据集中，当做是负样本。
> 1. 非酶数据与酶数据进行同源比对(diamoind)，过滤掉相似性>40%的数据
> 2. 过滤掉<50bp的核算片段
> 3. 对酶数据进行CD——HIT比较，按照40%的阈值进行去冗余<span style='background:yellow'>（？有必要吗）</span>

## 1. 导入必要的包

In [150]:
import numpy as np
import pandas as pd
import random
import os
import time
import datetime
import sys
from tqdm import tqdm

from functools import reduce
import matplotlib.pyplot as plt

sys.path.append("./tools/")
import funclib

from pyecharts.globals import CurrentConfig, OnlineHostType
CurrentConfig.ONLINE_HOST = OnlineHostType.NOTEBOOK_HOST
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB

from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Faker
from pyecharts.globals import ThemeType


%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## 2. 读入数据

In [173]:
#加载数据并转换时间格式
sprot = pd.read_csv('./data/sprot_full.tsv', sep='\t',names=funclib.table_head) #读入文件
sprot.date_integraged = pd.to_datetime(sprot['date_integraged'])
sprot.date_sequence_update = pd.to_datetime(sprot['date_sequence_update'])
sprot.date_annotation_update = pd.to_datetime(sprot['date_annotation_update'])
sprot = sprot.sort_values(by='date_integraged', ascending=True)
sprot.head(2)

Unnamed: 0,id,name,isemzyme,isMultiFunctional,functionCounts,ec_number,ec_specific_level,date_integraged,date_sequence_update,date_annotation_update,seq,seqlength
0,P02802,MT1_MOUSE,False,False,1,-,0,1986-07-21,1986-07-21,2021-04-07,MDPNCSCSTGGSCTCTSSCACKNCKCTSCKKSCCSCCPVGCSKCAQ...,61
2982,P02734,ANP4_PSEAM,False,False,1,-,0,1986-07-21,1987-08-13,2019-12-11,MRITEANPDPDAKAVPAAAAPSTASDAAAAAAATAATAAAAAAATA...,85


In [177]:
# 将有EC号，但不满足三级的标记为 ‘uncertain'
# with pd.option_context('mode.chained_assignment', None):
#     sprot.isemzyme.loc[(0<sprot.ec_specific_level) & (sprot.ec_specific_level<3)] = 'uncertain'
# # sprot[(0<sprot.ec_specific_level) & (sprot.ec_specific_level<3)]
# # sprot.to_csv('./data/sprot_full.tsv', sep='\t', header=0, index=0)

### 2.1 按年份统计sprot中酶与非酶数据

In [144]:
sprot = sprot.drop_duplicates(subset=['seq'], keep='first', inplace=False)
sprot = sprot.reset_index(drop=True)

sprot_years = sprot.groupby([sprot['date_annotation_update'].dt.year, sprot['isemzyme']]).agg({'count'}).iloc[:,0:1]
sprot_years['yearc'] = sprot_years.index
sprot_years = sprot_years.reset_index(drop = True)

sprot_years['year'] = sprot_years.yearc.apply(lambda x: str(x).replace(')', '').replace('(','').split(',')[0].strip())
sprot_years['isEmzyme'] = sprot_years.yearc.apply(lambda x: str(x).replace(')', '').replace('(','').split(',')[1].strip().replace('\n',''))
sprot_years['value_count'] = sprot_years.iloc[:,0]
sprot_years = sprot_years[['year', 'isEmzyme', 'value_count']]
sprot_years = pd.DataFrame(np.array(sprot_years), columns=['year', 'isEmzyme', 'value_count'])
sprot_years.sort_values(by=['year'], inplace=True)

In [15]:
sprot_years.to_csv('./results/emzyme_year.csv')

In [149]:
sprot_years[sprot_years.isEmzyme=='False']

Unnamed: 0,year,isEmzyme,value_count
0,2019,False,9650
2,2020,False,108375
4,2021,False,138511


## 3. 数据去重, 并筛选大于50bp的序列

In [6]:
# 统计重复数据
table_repeat=pd.value_counts(sprot.seq, sort=True)
table_repeat = pd.DataFrame(table_repeat)
table_repeat['sequence'] = table_repeat.index
table_repeat.columns=['repeat', 'seq']
table_repeat = table_repeat.reset_index(drop=True)

#准备画图数据
figure_data = pd.value_counts(table_repeat.repeat, sort=True)
figure_data = pd.DataFrame(figure_data)
figure_data['x'] = figure_data.index
figure_data.columns=['y', 'x']

bar = (
    Bar(init_opts=opts.InitOpts(width="1700px",
                                height="750px",
                                page_title="sprot",
                                theme=ThemeType.CHALK))
    .add_xaxis(list(figure_data.x))
    .add_yaxis("重复次数", list(figure_data.y))
    .set_global_opts(
        title_opts=opts.TitleOpts(title="SPROT重复序列数据统计"),
        datazoom_opts=opts.DataZoomOpts()
    )
)
bar.load_javascript()
bar.render_notebook()


In [179]:
# 去除重复数据, 选择 >50bp的序列
sprot = sprot.drop_duplicates(subset=['seq'], keep='first', inplace=False)
sprot = sprot.reset_index(drop=True)
base_data = sprot[sprot.seqlength >= 50]
base_data.head(2)

Unnamed: 0,id,name,isemzyme,isMultiFunctional,functionCounts,ec_number,ec_specific_level,date_integraged,date_sequence_update,date_annotation_update,seq,seqlength
0,P02802,MT1_MOUSE,False,False,1,-,0,1986-07-21,1986-07-21,2021-04-07,MDPNCSCSTGGSCTCTSSCACKNCKCTSCKKSCCSCCPVGCSKCAQ...,61
1,P02734,ANP4_PSEAM,False,False,1,-,0,1986-07-21,1987-08-13,2019-12-11,MRITEANPDPDAKAVPAAAAPSTASDAAAAAAATAATAAAAAAATA...,85


In [6]:
dup = sprot[sprot.duplicated('seq')].sort_values(by=['seq'])
dup.to_csv('./data/sprot_duplicated.tsv', sep='\t')

## 4. 序列比对,对非酶数据选取同源率 <40% 的序列

In [195]:
emzyme_data = base_data[base_data.isemzyme == 'True']
noemzyme_data = base_data[base_data.isemzyme == 'False']
res_data = funclib.getblast(emzyme_data, noemzyme_data)

Write finished
Write finished
diamond makedb --in /tmp/train.fasta -d /tmp/train.dmnd
diamond blastp -d /tmp/train.dmnd  -q  /tmp/test.fasta -o /tmp/test_fasta_results.tsv -b5 -c1 -k 1


In [208]:
base_data

Unnamed: 0,id,name,isemzyme,isMultiFunctional,functionCounts,ec_number,ec_specific_level,date_integraged,date_sequence_update,date_annotation_update,seq,seqlength
0,P02802,MT1_MOUSE,False,False,1,-,0,1986-07-21,1986-07-21,2021-04-07,MDPNCSCSTGGSCTCTSSCACKNCKCTSCKKSCCSCCPVGCSKCAQ...,61
1,P02734,ANP4_PSEAM,False,False,1,-,0,1986-07-21,1987-08-13,2019-12-11,MRITEANPDPDAKAVPAAAAPSTASDAAAAAAATAATAAAAAAATA...,85
2,P00484,CAT3_ECOLX,True,False,1,2.3.1.28,4,1986-07-21,1988-08-01,2021-04-07,MNYTKFDVKNWVRREHFEFYRHRLPCGFSLTSKIDITTLKKSLDDS...,213
3,P00486,CAT2_STAAU,True,False,1,2.3.1.28,4,1986-07-21,1986-07-21,2021-04-07,MTFNIIKLENWDRKEYFEHYFNQQTTYSITKEIDITLFKDMIKKKG...,215
4,P60175,TPIS_PANTR,True,True,2,"5.3.1.1, 4.2.3.3",4,1986-07-21,2007-01-23,2020-12-02,MAPSRKFFVGGNWKMNGRKQSLGELIGTLNAAKVPADTEVVCAPPT...,249
...,...,...,...,...,...,...,...,...,...,...,...,...
454611,Q18490,TOST1_CAEEL,False,False,1,-,0,2021-04-07,1996-11-01,2021-04-07,MTTAIQYQVIPLADREHSNKVASILENKYKTATNKRITLNERFGVL...,142
454612,A0A1X9WEP1,NCMP_SACSY,True,False,1,2.1.1.351,4,2021-04-07,2017-08-30,2021-04-07,MVFDRLAGIYDATGVEFFRPVARRLLDLVDPRPGVDLLDVGCGRGA...,280
454613,Q6GN86,IDLC_XENLA,False,False,1,-,0,2021-04-07,2004-07-19,2021-04-07,MIPPADSLLKHDNPVLISKNTERKSPKSRPLKVSSPQTVLTAPVPP...,254
454614,K4GKX2,73C10_BARVU,True,False,1,2.4.1.368,4,2021-04-07,2013-01-09,2021-04-07,MVSEITHKSYPLHFVLFPFMAQGHMIPMVDIARLLAQRGVKITIVT...,495


In [212]:
em_nem_data=base_data[base_data.isemzyme!='uncertain']

In [213]:
# 按阈值筛选
notinlist = list(res_data[res_data.pident>40].id)

# 过滤同源性高的序列
base_data = base_data[~base_data.id.isin(notinlist)]
base_data = base_data.reset_index(drop=True)
em_nem_data=base_data[base_data.isemzyme!='uncertain']
em_nem_data.reset_index(drop=True, inplace=True)

## 5. 保存文件

In [214]:
h5 = pd.HDFStore('./data/emzyme_noemzyme_uncertain.h5', 'w', complevel=4, complib='blosc')
h5['data'] = base_data
h5.close()

h5 = pd.HDFStore('./data/emzyme_noemzyme.h5', 'w', complevel=4, complib='blosc')
h5['data'] = base_data
h5.close()

## 6. 划分训练集、测试集

In [240]:
emzyme_noemzyme_data=pd.read_hdf('./data/emzyme_noemzyme_with_unirep.h5',key='data')
emzyme_noemzyme_head = funclib.table_head + ['f'+str(i) for i in range(1, 1901) ]
emzyme_noemzyme_data.columns = emzyme_noemzyme_head

In [241]:
t_thres = datetime.datetime(2009, 12, 14, 0, 0)

#训练集
train = emzyme_noemzyme_data[emzyme_noemzyme_data.date_integraged <= t_thres ].sort_values(by='date_integraged')
#测试集
test = emzyme_noemzyme_data[emzyme_noemzyme_data.date_integraged > t_thres ].sort_values(by='date_integraged')

# 训练集
h5 = pd.HDFStore('./tasks/task1/data/train.h5', 'w', complevel=4, complib='blosc')
h5['data'] = train
h5.close()

#测试集
h5 = pd.HDFStore('./tasks/task1/data/test.h5', 'w', complevel=4, complib='blosc')
h5['data'] = test
h5.close()
# train.iloc[:,np.r_[0, 2, 7,10:12, 12:1912]]

# Task2. 预测是单功能酶还是多功能数据集构建



## 任务简介
该任务通过给定酶序列，预测该酶还是多功能酶还是单功能酶。本任务所使用的数据集为Sport，对数据集的数据中进行学习，然后对新给定的酶进行单功能/多功能预测。


## 数据统计
- 遵照任务1找到的时间节点对数据进行划分
- 以2009年12月14日为时间节点，之前的数据为训练集，之后的数据为测试集，具体数据集统计如下： 


|     Items    | 单功能酶       |   多功能非酶    |合计                               |
| ------------ | --------| --------- |----------------------------------|
| 训练集        | 185,453 | 13,239   | 198,692（198,692/219,227=90.63%)  |
| 测试集        | 18,868  | 25,594    | 20,535 (20,535/219,227=9.37% )  |


## 数据集构建方法

* 根据蛋白注释信息与之前划定的酶与非酶数据集，将「酶」数据进行分类。
* 有1个EC号的被定义为「单功能酶」，有多个EC号的被定义为「多功能酶」。


In [242]:
emzyme_data = emzyme_noemzyme_data[emzyme_noemzyme_data.isemzyme]

In [243]:
#训练集
train = emzyme_data[emzyme_data.date_integraged <= t_thres ].sort_values(by='date_integraged')
#测试集
test = emzyme_data[emzyme_data.date_integraged > t_thres ].sort_values(by='date_integraged')

# 训练集
h5 = pd.HDFStore('./tasks/task2/data/train.h5', 'w', complevel=4, complib='blosc')
h5['data'] = train
h5.close()

#测试集
h5 = pd.HDFStore('./tasks/task2/data/test.h5', 'w', complevel=4, complib='blosc')
h5['data'] = test
h5.close()

# Task3. 预测EC号



## 任务简介
该任务通过给定酶序列，预测该酶的反应类型（通过EC号表示）。本任务所使用的数据集为Sport，对数据集的数据中进行学习，然后对新给定的酶进行反应类别预测。


## 数据统计
- 遵照任务1找到的时间节点对数据进行划分
- 以2009年12月14日为时间节点，之前的数据为训练集，之后的数据为测试集，具体数据集统计如下： 


|     Items    |  |      |数据条数                     |
| ------------ | --------| --------- |----------------------------------|
| 训练集        |  |      | 185,453 |
| 测试集        |  |      | 18,868  |


## 数据集构建方法

* 根据蛋白注释信息与之前划定的「酶」数据，给序列标定EC号。
* 未根据样本数量对数据进行过滤。

In [None]:
emzyme_noemzyme_data=pd.read_hdf('./data/emzyme_noemzyme_with_unirep.h5',key='data')
emzyme_noemzyme_head = funclib.table_head + ['f'+str(i) for i in range(1, 1901) ]
emzyme_noemzyme_data.columns = emzyme_noemzyme_head

#酶
emzyme_data = emzyme_noemzyme_data[emzyme_noemzyme_data.isemzyme]
#单功能酶
emzyme_single_data = emzyme_data[~emzyme_data.isMultiFunctional].reset_index(drop=True)

#标签、标签字典
label_code = set(emzyme_single_data.ec_number)
label_dict = {v: k for k,v in zip( range(len(label_code)), label_code)} 
emzyme_single_data['ec_label'] = emzyme_single_data.apply(lambda x: label_dict.get(x['ec_number']), axis=1)

# EC 号出现频率统计
countsvlues = pd.DataFrame(emzyme_single_data['ec_number'].value_counts())
countsvlues = countsvlues.rename(columns={'ec_number': 'valuecounts'})
countsvlues['ec_number'] = countsvlues.index
countsvlues=countsvlues.reset_index(drop=True)
label_appear_dict = {v: k for v,k in zip(countsvlues.ec_number, countsvlues.valuecounts )} 
emzyme_single_data['ec_appears'] = emzyme_single_data.apply(lambda x: label_appear_dict.get(x['ec_number']), axis=1)
emzyme_single_data.head(5)

In [None]:
t_thres = datetime.datetime(2009, 12, 14, 0, 0)

#训练集
train = emzyme_single_data[emzyme_single_data.date_integraged <= t_thres ].sort_values(by='date_integraged')
#测试集
test = emzyme_single_data[emzyme_single_data.date_integraged > t_thres ].sort_values(by='date_integraged')

# 训练集
h5 = pd.HDFStore('./tasks/task3/data/train.h5', 'w', complevel=4, complib='blosc')
h5['data'] = train
h5.close()

#测试集
h5 = pd.HDFStore('./tasks/task3/data/test.h5', 'w', complevel=4, complib='blosc')
h5['data'] = test
h5.close()