TcGSA(Time-course Gene Set Analysis) 是一个R包，检验基因动态性表达水平在基因组中的显著性。基因组是已知的具有共同生物学功能或共同表达的一组基因。
TcGSA依赖线性混合模型（linear mixed model）来考虑基因组内标的潜在异质性。

本教程参考https://cran.r-project.org/web/packages/TcGSA/vignettes/TcGSA_userguide.html
本教程所对应的文章 https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004310

# 2. Getting started using TcGSA

运行TcGSA需要输入：

    gene set对象 （The gene set object)
    gene表达矩阵  (The gene expression matrix)
    数据矩阵设计 （design data matrix）


## 2.1 Gene set object

 预定义基因组是一组具有相同生物学功能的基因，它能够检测不同的基因表达，似乎比逐个基因分析更强大。  几个已经做好的基因组，这里我们重点介绍如下几个：

    Chaussabel's modules
    Gene Ontology database
    KEGG

gene set object 是gmt格式，包含有：

    Gene set 名字
    gene set 的描述，比如生物学功能
    表示每个基因集中的基因的探针列表（the list of probes representing the genes inside each gene set)

要么我们使用已经存在的gmt对象，要么自己建一个



### 2.1.1  Download gmts from Hejblum et al., 2015

To import the gmts used in Hejblum et al., 2015, one can download the supplementary file by running the following command:

 使用Hejblum et al.,2015的gmt，利用下面的代码下载：

In [1]:
temp <- tempfile()
#utils::download.file("http://doi.org/10.1371/journal.pcbi.1004310.s007", destfile = temp, mode = "wb")
load(unz(temp, "ReproducibleRFiles/GMTs_PLOScb.RData", open = "r"))
unlink(temp)
rm(temp)

它包含上面详细描述的3个基因集(对于GO来说，它只是具有与免疫系统相关的生物学功能的相互排斥的基因集的子集)。

免责声明:小心使用基因集数据库的版本，因为它们可能已经过时了。为了确保拥有最新版本的数据库，您可以(重新)按照下面的方法自己构建gmt对象。

### 2.1.2 Self-built gmt

自建gmt对I下那个，需要准备一个.gmt格式文件，该文件格式 是可以用tab分隔的文件创建的 参考http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#GMT:_Gene_Matrix_Transposed_file_format_.28.2A.gmt.29

在这个文件中，每行代表着一个基因集（gene set):

    Column 1： gene set 名称
    Column 2:  gene set 的描述
    剩下的columns： 包含在基因集中的基因列表(用探针表示)

下一步是，导入.gmt文件到R， 需要使用GSA包的GSA.read.gmt()函数。更多内容查看GSA包。

## 2.2 Gene expression matrix

基因表达矩阵 每行一个基因，每个样本一列，  在运行TcGSA之前数据应该规范化。行名为每个基因名或者probe，并且必须与gmt对象的相匹配。

## 2.3 Design data matrix

该矩阵包含每一个样本（每行），几个变量（列）。这些变量是：

    样本名称 （Sample names）
    病人id （Patient identifiers)
    时间  (Time measurements)
    多种处理，处理的名称 (In case of multiple treatments, the name of treatment)

# 3. How to use TcGSA for one treatment group?

## 3.1 Data preparation

这个例子来自Hejblum et al., 2015和DALIA-1 HIV 治疗疫苗实验。

该研究的目的是评估HIV疫苗的免疫反应。

为了开展这个研究，对19名感染艾滋病（HIV）病毒的患者进行了围棋48周的随访，分为2个阶段，每个阶段24例：

    第1阶段从第0周至第24周(治疗中断前):患者接受抗逆转录病毒治疗，第0、4、8和12周接受试验疫苗。
    第2阶段第24周至第48周(治疗中断后):随访患者，未注射试验疫苗，中断抗逆转录病毒治疗(健康问题除外)。

在每个不同的测量时间点，对每个受试者采集血样，研究基因表达随时间的动态变化。

有关数据可于GEO网站公开查阅，网址为https://www.ncbi.nlm.nih.gov/geo/GSE46734

我们将使用GEOquery包从GEO网站获取数据文件(有关GEOquery的详细信息，请参阅附录)

### 3.1.1 Import of data files

在本例中，我们需要使用getGEOSuppFiles()函数导入GEO available的补充文件(我们只需要以下三个文件，因此需要正则表达式过滤器:基因表达pre-ATI、基因表达post-ATI、实验设计)。

In [2]:
GEOquery::getGEOSuppFiles('GSE46734', filter_regex="(*NonParamCombat*)|(*DESIGN*)")

Setting options('download.file.method.GEOquery'='auto')
Setting options('GEOquery.inmemory.gpl'=FALSE)


Unnamed: 0_level_0,size,isdir,mode,mtime,ctime,atime,exe
Unnamed: 0_level_1,<dbl>,<lgl>,<octmode>,<dttm>,<dttm>,<dttm>,<chr>
C:/Users/acer/aaaalab/TcGSA/GSE46734/GSE46734_DALIA1longitudinalTranscriptome_DESIGN_anonym.txt.gz,2262,False,666,2019-05-29 20:13:46,2019-05-29 20:13:45,2019-05-29 20:13:45,no
C:/Users/acer/aaaalab/TcGSA/GSE46734/GSE46734_DALIA1longitudinalTranscriptome_PALO01_PostATI_NEQC_NonParamCombat.txt.gz,47984452,False,666,2019-05-29 20:14:44,2019-05-29 20:13:46,2019-05-29 20:13:46,no
C:/Users/acer/aaaalab/TcGSA/GSE46734/GSE46734_DALIA1longitudinalTranscriptome_PALO01_PreATI_NEQC_NonParamCombat.txt.gz,37333599,False,666,2019-05-29 20:15:24,2019-05-29 20:14:44,2019-05-29 20:14:44,no


### 3.1.2 Design data matrix

In [3]:
design <- read.delim(gzfile("GSE46734/GSE46734_DALIA1longitudinalTranscriptome_DESIGN_anonym.txt.gz"))
design_preATI <- design[-which(design$TimePoint<0 | design$TimePoint==16 | design$TimePoint>22), ]
head(design_preATI,5)

Unnamed: 0_level_0,Sample_name,Chip_ID,HYB_Chamber,HYB_Day,Patient_ID,TimePoint
Unnamed: 0_level_1,<fct>,<fct>,<fct>,<fct>,<fct>,<int>
1,X6116733008_L,C4,CH1,D1,P001,4
3,X6116733022_E,C13,CH4,D1,P001,22
5,X6116733029_A,C18,CH1,D2,P001,8
6,X6116733068_L,C25,CH3,D2,P001,12
8,X6116733073_K,C29,CH4,D2,P001,0
