<p><img alt="logo" width="200" src="https://dl.dropboxusercontent.com/s/nm3k2p6i3k6d6gl/sctensor.png" align="left" /></p>

<h1>Exercise2: scTensorのデモ</h1>


このノートブックでは、1細胞RNA-Seqデータ内に含まれる細胞間相互作用（CCI）を検出するためのR/Bioconductorパッケージ、scTensorの使い方について説明します

まずは、このノートブックの実行に必要なパッケージのインストールとロードを行います

In [None]:
# パッケージインストール
install.packages(c("BiocManager", "IRdisplay"), repos="http://cran.r-project.org")
BiocManager::install(c("SingleCellExperiment", "LRBase.Hsa.eg.db", "MeSH.Hsa.eg.db"), suppressUpdates=TRUE)
remotes::install_github("rikenbit/scTensor")

# パッケージロード
library("scTensor")
library("SingleCellExperiment")
library("LRBase.Hsa.eg.db")
library("MeSH.Hsa.eg.db")
library("IRdisplay")

今回は、[Li, Li et al., 2017, Cell](https://www.sciencedirect.com/science/article/pii/S1934590917300784?via%3Dihub)で報告された、ヒトの性腺内部に含まれる生殖系細胞（Germline Cells）と、ニッチ環境を形成する体細胞（Somatic Cells）間のCCIについて調べます


<p><img alt="logo2" width="1000" src="https://dl.dropboxusercontent.com/s/bax9wbdsulr15tj/germline.jpg" /></p>

[RNA-Seq Blog](https://www.rna-seqblog.com/single-cell-rna-seq-analysis-maps-development-of-human-germline-cells/)


この論文に関係したデータは、以下の3つのRオブジェクトとして、scTensorパッケージ内に保存されているため、data関数で以下のように呼び出すことができます

なお、__発現量行列の遺伝子は、テストデータとして公開する際、データサイズの制限で、[Highly Variable Genes](http://pklab.med.harvard.edu/scw2014/subpop_tutorial.html)という基準のもと、かなり数を減らしているので、ここでは、あくまでツールの操作感を知るためにこのデータを用います（生物学的考察までは保証しません）__

例えば、この論文で注目している、BMPシグナル系のリガンド・受容体ペアの発現は、数を減らした関係で再現できていません

In [None]:
data(GermMale) # 発現量行列
data(labelGermMale) # 細胞型ラベル
data(tsneGermMale) # t-SNEの二次元座標

以下のように、GermMaleは行列、labelGermMaleはベクトルです

tsneGermMaleはRtsneという別のRパッケージの出力オブジェクトであり、tsneGermMale$Yの部分に、t-SNEの二次元座標が保管されています

In [None]:
is(GermMale) # 発現量行列
is(labelGermMale) # 細胞型ラベル
is(tsneGermMale) # Rtsne関数の出力オブジェクト
is(tsneGermMale$Y) # t-SNEの二次元座標

このt-SNEの図を見てわかるように、下側に位置する暖色系（赤、朱色、オレンジ）の点が性細胞、上側に位置する寒色系（薄緑、緑、水色、紫）の点が体細胞です

In [None]:
par(ask=FALSE)
plot(tsneGermMale$Y, col=labelGermMale,
	pch=16, main="Germline - Somatic Niche Interaction",
	xlab="t-SNE1", ylab="t-SNE2", bty="n")

text(14, 5, "FGC-1", col="#9E0142", cex=2)
text(-4, -8, "FGC-2", col="#D53E4F", cex=2)
text(-10, 3, "FGC-3", col="#F46D43", cex=2)
text(5, 13, "Soma-1", col="#ABDDA4", cex=2)
text(-5, 22, "Soma-2", col="#66C2A5", cex=2)
text(0, 26, "Soma-3", col="#5E4FA2", cex=2)
text(13, 21, "Soma-4", col="#3288BD", cex=2)

scTensorの入力は、[SingleCellExperiment](https://www.bioconductor.org/packages/release/bioc/html/SingleCellExperiment.html)パッケージで定義された、SingleCellExperimentオブジェクトである必要があります

SingleCellExperimentオブジェクトの作成は簡単で、SingleCellExperimentという名前の関数に、発現量行列を以下のように指定するだけです

In [None]:
sce <- SingleCellExperiment(assays=list(counts = GermMale))

また、必須ではありませんが、最後のレポートの見やすさも考えて、推奨しているタスクとして、以下のようにこのsceオブジェクトに二次元の次元圧縮の座標を登録します

In [None]:
reducedDims(sce) <- SimpleList(TSNE=tsneGermMale$Y)

これにより、tsneGermMale$Yは、sceのreducedDimsという項目（スロット）に登録されたことがわかります

In [None]:
reducedDims(sce)$TSNE

正規化を行った遺伝子発現量をscTensorに与えることもできます

例えば、細胞ごとの総発現量が、全細胞の総発現量の中央値になるように補正を行う、[Count per Median (CPMED)](https://www.biorxiv.org/content/10.1101/642595v2)正規化は以下のように実行することができます

In [None]:
CPMED <- function(input){
    libsize <- colSums(input)
    median(libsize) * t(t(input) / libsize)
}
normcounts(sce) <- log10(CPMED(counts(sce)) + 1)

ここで、normcountsというスロットに正規化済みの値を登録したのは、正規化をしていないカウント値はcountsというスロットに登録してあるので、上書きしないように別のスロットを使いました

In [None]:
normcounts(sce)

In [None]:
counts(sce)

次に、cellCellSettingという関数を使って、scTensorに必要なセッティング（リガンド・受容体ペアの検索、ラベル情報の登録など）を行います

In [None]:
cellCellSetting(sce, LRBase.Hsa.eg.db, labelGermMale, names(labelGermMale))

cellCellRanks関数は、このすぐ後のcellCellDecomp関数で実行するテンソル分解のランク（圧縮次元数）のパラメーターを簡易的に設定します

例えば、このデータでは、リガンドパターンと受容体パターン（後述）は各々4,3と見積もりました

In [None]:
rks <- cellCellRanks(sce, assayNames="normcounts")
rks$selected

最後に、cellCellDecomp関数で、非負値テンソル分解を行います

ランクはc(4,3)とし、正規化済みの値（normcounts）をここでは使うことにします

In [None]:
set.seed(1234)
cellCellDecomp(sce, ranks=rks$selected, assayNames="normcounts")

これにより、

7×7×84の三階テンソル（$χ$）は、

$\chi = G A B$

$A$（4×7, 因子行列）: 7細胞型におけるリガンドの発現の仕方4パターン

$B$（3×7, 因子行列）: 7細胞型における受容体の発現の仕方3パターン

$G$（4×3×84, コアテンソル）: 各リガンド・受容体ペアごとに、$A$の4パターンと$B$の3パターンの全組み合わせのうち、どの組み合わせと関連度が高いか


と分解されます。




最後に、cellCellReport関数で、HTMLレポートを出力します

ここでは、Rのセッションを閉じると自動的に削除される一時ディレクトリ（**tempdir**）以下に、レポートファイルを保存しますが、自分のデータでscTensorを実行する際には、適宜自分の好きなところに設定したください

**title**にこのレポートのタイトルを、**author**にこの解析の担当者名を書きます

ここでは、**display_html**関数を使って、このノートブックにHTMLの出力を埋め込むので、あえて**html.open=FALSE**としていますが、ここをTRUEにするとレポートがWebブラウザで確認することもできます

**upper**はどの細胞型と、どの細胞型とが、何のリガンド・受容体ペアで相互作用しているのか、という三項関係をレポートする際に、コアテンソルの大きい上位2つのみに注目するというオプションです（ここでは最大4*3=12まで見ることができます）

**〜enrich**のところは、遺伝子の機能を調べる際に、エンリッチメント解析を行うのですが、その時にGene Ontology（GO）のみを使うとしています


In [None]:
d <- tempdir()
cellCellReport(sce, reducedDimNames="TSNE", assayNames="normcounts",
    title="Cell-cell interaction within Germline_Male, GSE86146",
    author="Koki Tsuyuzaki", html.open=FALSE, upper=2, out.dir=d,
    goenrich=TRUE, meshenrich=FALSE, reactomeenrich=FALSE,
    doenrich=FALSE, ncgenrich=FALSE, dgnenrich=FALSE)
display_html(file=paste0(d, "/index.html"))

出力されたHTMLレポート（index.html）をダブルクリックすると、Webブラウザで以下のようなレポートを見ることができます


このHTMLレポートは、この画面上で何でも調べ物ができるように作ってありますが、そのためかなり情報が多いので、ここでは開発者おすすめの読み進み方を紹介します

まずは、**5. CCI-wise Hypergraph**を見てください

<p><img alt="cciwise" width="1000" src="https://dl.dropboxusercontent.com/s/xbc6bmlx46nekhg/cciwise.png" /></p>

この図は今回のCCIテンソルの分解（$\chi = G A B$）を可視化しています

**Ligand Patterns**と書かれている上の段は、因子行列Aであり、色が赤くなるほど、リガンドがそこで発現する傾向があり、分解時に指定したパラメーターにより、このようなリガンドの発現の仕方が4パターンあるとしています

同様に、**Receptor Patterns**と書かれている下の段は、因子行列Bであり、色が青くなるほど、受容体がそこで発現する傾向があり、分解時に指定したパラメーターにより、このような受容体の発現の仕方が3パターンあるとしています

また**CCI-Strength**は、コアテンソル$G$（4×3×84）を、奥行き方向で和をとることで4×3の行列にして、その値を緑の線の太さに反映させて見せています

つまり、この図で言えることは、**Ligand Patternsの4番目のパターンのようなリガンドの発現の仕方と、Receptor Patternsの1番目のパターンのような受容体の発現の仕方の組み合わせによるCCIが、データ全体で見ると多い**ことがわかります

なお、このLigand/Receptor Patternsの何番目のパターンは、どの細胞型と対応しているのかというのは、**3. Ligand-Cell Patterns**や**4. Receptor-Cell Patterns**のところを見ることでわかります

例えば、Ligand Patternsの4番目は、Male_Soma1やMale_Soma3といった細胞型名であることがわかります

<p><img alt="ligand" width="1000" src="https://dl.dropboxusercontent.com/s/llq53fkjncx76i8/LigandPatterns.png" /></p>
<p><img alt="ligand2" width="1000" src="https://dl.dropboxusercontent.com/s/02yhnj45apd7b68/LigandPatterns_2.png" /></p>

また、例えば、Receptor Patternsの1番目は、Male_Soma3といった細胞型名であることがわかります

<p><img alt="receptor" width="1000" src="https://dl.dropboxusercontent.com/s/1tsg6x3h8hik1fi/ReceptorPatterns.png" /></p>

<p><img alt="receptor2" width="1000" src="https://dl.dropboxusercontent.com/s/fsd65x5ds3ysm9r/ReceptorPatterns_2.png" /></p>

このような同じ細胞型同士でのCCIは、あまり論文では注目されない傾向がありますが（異種細胞型間が多い）、実データでは良く目にします

では、どの細胞型同士がCCIしているのかというのはここでわかりましたが、これらが具体的にどのリガンド・受容体同士でCCIしているのか、**三項関係**を調べたいと思います

これは**7. (Ligand-Cell, Receptor-Cell,)-related L-R Pairs**という項目で調べることができます

ここでは、**CCI-Strength**の時と同様に、コアテンソルの値の大きさでソートして三項関係をリスト化しています

<p><img alt="triplet" width="1000" src="https://dl.dropboxusercontent.com/s/zirjql3z1ua4eyr/Triplet.png" /></p>

例えば、ここでは、7.1のところに、4番目のリガンドパターン、1番目の受容体パターンと関係したリガンド・受容体ペアの情報が書かれているので、クリックしてみます

(4,1,)パターンがまず赤線で確認することができます
<p><img alt="triplet2" width="1000" src="https://dl.dropboxusercontent.com/s/lprhs8e4zmzqpyb/Triplet2.png" /></p>


このパターンと関係度が高いリガンド・受容体ペアは11あるということがわかります

これらペア同士をエッジで繋いで、赤いノードはリガンド、青いノードは受容体として、ネットワーク図も描いています

この図はインタラクティブに配置を移動することができるので、論文の図で利用する時などは、色々調整するのに便利です
<p><img alt="triplet3" width="1000" src="https://dl.dropboxusercontent.com/s/izvib230b8gz4pe/Triplet3.png" /></p>

この11のリガンド・受容体ペアに関するあらゆる情報をリストにしているので、調べ物をする時は、ここのリンクを辿ると良いでしょう
<p><img alt="triplet4" width="1000" src="https://dl.dropboxusercontent.com/s/63y089z59wkiyda/Triplet4.png" /></p>

また、この11のリガンド・受容体ペアが発現するというのは生物学的にどういう意味があるのかを調べるために、エンリッチメント解析を行い、あらゆる機能タームとの関連性を調べています
<p><img alt="triplet5" width="1000" src="https://dl.dropboxusercontent.com/s/a9x403s2idwt5m4/Triplet5.png" /></p>

最後に、検出された三項関係が、自分の知識と一致するのかを調べるために、**6. Gene-wise Hypergraph**のところを見ます


<p><img alt="genewise" width="1000" src="https://dl.dropboxusercontent.com/s/vl3cc1nbp7ohwvn/genewise.png" /></p>


例えば、自分がDCN（[Decorin](https://en.wikipedia.org/wiki/Decorin)、プロテオグリカンの一つで細胞外マトリックスの構成要素の一つ）に興味がある研究者である場合、DCNがリガンドとして働くのがわかっているのであれば、

**Details of Ligand Gene-centric Overview (selected)**

のところで調べることができます

これらは先ほどの三項関係のリストで、一度でも関連性が見られたリガンド・受容体（selected）だけを厳選して、リガンドごとに集約したリストにしています


例えば、ここではDCNはPDGFRAやPDGFRBと共発現していること、またそれらの共発は、(4,1,)パターンや、(4,3,)パターンといったCCIの仕方と関係しているということがわかります
<p><img alt="dcn" width="1000" src="https://dl.dropboxusercontent.com/s/i2carph2go7o6ze/DCN.png" /></p>


逆に、注目している受容体がある場合は、

**Details of Receptor Gene-centric Overview (selected)**

のところを調べると、受容体ごとに集約されたリストを見ることができます


また、全リガンド受容体ペア（LRBase.XXX.eg.db内の全リスト）のうち、そもそもCCIテンソルの中に含まれているのかは、


**Details of Ligand Gene-centric Overview (all)**

や

**Details of Receptor Gene-centric Overview (all)**

をクリックすることで調べることができます

In [None]:
sessionInfo()

Colaboratory ノートブックの操作について詳しくは、<a href="/notebooks/basic_features_overview.ipynb">Colaboratory の概要</a>をご覧ください。