<p><img alt="logo" width="200" src="https://dl.dropboxusercontent.com/s/tyyu8xr9qy8en4l/sctgif.png" align="left" /></p>

<h1>Exercise3: scTGIFのデモ</h1>


このノートブックでは、細胞型が不明な1細胞RNA-Seqデータに、関連するマーカー遺伝子や機能タームを割り当てることで、細胞型判定をサポートするためのR/Bioconductorパッケージ、scTGIFの使い方について説明します

まずは、このノートブックの実行に必要なパッケージのインストールとロードを行います

In [None]:
# パッケージインストール
install.packages(c("BiocManager", "remotes", "IRdisplay"), repos="http://cran.r-project.org")
BiocManager::install(c("SingleCellExperiment", "GSEABase", "msigdbr"), suppressUpdates=TRUE)
remotes::install_github("rikenbit/scTGIF")

# パッケージロード
library("SingleCellExperiment")
library("GSEABase")
library("msigdbr")
library("scTGIF")
library("IRdisplay")


The downloaded binary packages are in
	/var/folders/k0/tk8gl4bj2_v2mbjx80ydsznw0000gn/T//RtmpCaGzan/downloaded_packages


Bioconductor version 3.9 (BiocManager 1.30.10), R 3.6.1 (2019-07-05)
Installing package(s) 'SingleCellExperiment', 'GSEABase', 'msigdbr'


ここでは、[Barbara Treutlein, 2014, Nature](https://www.nature.com/articles/nature13173)の肺上皮細胞データを利用します

<p><img alt="logo2" width="1000" src="https://dl.dropboxusercontent.com/s/zbxdzkdkfyk7ug5/lungepithelium.jpg" /></p>




In [None]:
data("DistalLungEpithelium") # 発現量行列
data("label.DistalLungEpithelium") # 細胞型ラベル
data("pca.DistalLungEpithelium") # PCAの二次元座標

In [None]:
par(ask=FALSE)
plot(pca.DistalLungEpithelium, col=label.DistalLungEpithelium,
	pch=16, main="Distal lung epithelium dataset",
	xlab="PCA1", ylab="PCA2", bty="n")
text(0.1, 0.05, "AT1", col="#FF7F00", cex=2)
text(0.07, -0.15, "AT2", col="#E41A1C", cex=2)
text(0.13, -0.04, "BP", col="#A65628", cex=2)
text(0.125, -0.15, "Clara", col="#377EB8", cex=2)
text(0.09, -0.2, "Cilliated", col="#4DAF4A", cex=2)

scTGIFを実行するためには、他に[MSigDB](http://software.broadinstitute.org/gsea/msigdb/index.jsp)が提供している遺伝子セット（GMTファイル）が必要です

特に、Supplementary Gene Sets for Single Cell Identitiesは、細胞型を分類するのに有用なマーカー遺伝子が含まれているので、それを用いるのもいいかもしれません

ここでは、msigdbrパッケージのmsigdbr関数を使いHallmark gene sets（H）を利用します

In [None]:
m_df <- msigdbr(species = "Mus musculus", category = "H")[, c("gs_name", "entrez_gene")]

scTGIFは、GSEABaseパッケージで定義された、GeneSetCollectionオブジェクトを入力として要求します

In [None]:
hallmark = unique(m_df$gs_name)
gsc <- lapply(hallmark, function(h){
    target = which(m_df$gs_name == h)
    geneIds = unique(as.character(m_df$entrez_gene[target]))
    GeneSet(setName=h, geneIds)
})
gmt <- GeneSetCollection(gsc)

または発現量行列はSingleCellExperimentオブジェクトに、二次元座標はreducedDimsスロットに登録します

In [None]:
sce <- SingleCellExperiment(
    assays = list(counts = DistalLungEpithelium))
reducedDims(sce) <- SimpleList(PCA=pca.DistalLungEpithelium)

また、ここでは、CPMED正規化を使って、normcountsスロットに正規化済みデータを登録します

In [None]:
CPMED <- function(input){
    libsize <- colSums(input)
    median(libsize) * t(t(input) / libsize)
}

In [None]:
normcounts(sce) <- log10(CPMED(counts(sce)) + 1)

settingTGIF関数で各種設定を行います

ここではPCAの二次元座標をレポートに用い、計算にはnormcountsスロットに登録されたCPMED値を使います

In [None]:
sce2 <- settingTGIF(sce, gmt, reducedDimNames="PCA", assayNames="normcounts")

calcTGIFでjoint NMFという2つの行列$X_{1}$（1303遺伝子×2500グリット）、$X_{2}$（1303遺伝子×50機能ターム）を

$X_{1} = (W + V_{1}) H_{1}$

$X_{2} = (W + V_{2}) H_{2}$

という風に同時に分解します

この時に、共通の因子行列$W$を用いることで、2つの行列をお互いに関連づけさせながら分解することができます

$H_{1}$と$H_{2}$の各々対応するベクトルを見比べることで、二次元プロットのどこらへんの細胞が、どのような遺伝子機能に関係しているのかが推測できます

<p><img alt="logo3" width="1000" src="https://dl.dropboxusercontent.com/s/uth8c92we9g7w9b/jnmf.png" /></p>

In [None]:
set.seed(1234)
sce2 <- calcTGIF(sce2, rank=7)

最後にreportTGIF関数でHTMLレポートを出力します

In [None]:
d <- tempdir()
reportTGIF(sce2, html.open=FALSE, out.dir=d,
    title="scTGIF Report for DistalLungEpithelium dataset", author="Koki Tsuyuzaki")
display_html(file=paste0(d, "/index.html"))

In [None]:
sessionInfo()

Colaboratory ノートブックの操作について詳しくは、<a href="/notebooks/basic_features_overview.ipynb">Colaboratory の概要</a>をご覧ください。