# Reconstructing the History of Polygenic Scores Using Coalescent Trees

******************************

## Abstract

As both GWAS and procedures for inferring gene genealogies progress, there will be major opportunities for learning about trait evolution using gene genealogies of trait-associated loci. Edge and Coop introduce statistical procedures for estimating....

Genome-wide association studies (GWAS) have revealed that many traits are highly polygenic, in that their within-population variance is governed, in part, by small-effect variants at many genetic loci. Standard population-genetic methods for inferring evolutionary history are ill-suited for polygenic traits: when there are many variants of small effect, signatures of natural selection are spread across the genome and are subtle at any one locus. In the last several years, various methods have emerged for detecting the action of natural selection on polygenic scores, sums of genotypes weighted by GWAS effect sizes. However, most existing methods do not reveal the timing or strength of selection. Here, we present a set of methods for estimating the historical time course of a population-mean polygenic score using local coalescent trees at GWAS loci. These time courses are estimated by using coalescent theory to relate the branch lengths of trees to allele-frequency change. The resulting time course can be tested for evidence of natural selection. We present theory and simulations supporting our procedures, as well as estimated time courses of polygenic scores for human height. Because of its grounding in coalescent theory, the framework presented here can be extended to a variety of demographic scenarios, and its usefulness will increase as both GWAS and ancestral-recombination-graph inference continue to progress.

ゲノムワイド関連研究（GWAS）と遺伝子系統推定手法の進展に伴い、遺伝子系統を利用した特性進化の理解には大きな機会があります。EdgeとCoopは、特性に関連する座標の遺伝子系統を推定するための統計手法を導入しています。

ゲノムワイド関連研究（GWAS）により、多くの特性が高度にポリジェニックであり、その集団内分散は多くの遺伝座での小効果変異によって部分的に制御されていることが明らかになりました。進化の歴史を推定するための標準的な集団遺伝学的手法は、ポリジェニックな特性には適していません。小効果の多くの変異が存在する場合、自然選択の痕跡はゲノム全体に広がり、任意の1つの座で微妙です。過去数年間で、GWASの効果サイズで重みづけされたジェノタイプの合計であるポリジェニックスコアに対する自然選択の影響を検出するための様々な手法が登場しています。しかし、ほとんどの既存の手法は選択のタイミングや強度を明らかにしません。ここでは、GWAS座での局所的な共同祖先樹を使用して、集団平均のポリジェニックスコアの歴史的な時間経過を推定するための一連の手法を提案します。これらの時間経過は、樹の枝の長さと等頻度変化との関係を用いてコアレセント理論を使用して推定されます。得られた時間経過は、自然選択の証拠を検証するためにテストできます。我々は、この手法をサポートする理論とシミュレーション、および人間の身長のポリジェニックスコアの推定された時間経過を示します。ここで提示されたフレームワークはコアレセント理論に基づいているため、さまざまな人口統計シナリオに拡張でき、GWASと祖先の組換えグラフ推論が進むにつれてその有用性が増すでしょう。

## Introduction

Some of the most compelling examples of phenotypic evolution come from time courses that reveal the pace of evolution, either through observations across generations (Cook et al. 1986; Grant and Grant 2002) or through changes in the fossil record (Gingerich 1983; MacFadden 2005; Bell et al. 2006). For many traits and species, it can be difficult to ascertain whether these changes reflect genetic change. For example, we have fairly detailed knowledge of human height through time, but some changes in height are likely driven by environmental and dietary changes (Stulp and Barrett 2016). Thanks to ancient DNA, we can now sometimes obtain a partial picture of long-term genetic changes involving relatively simple traits like pigmentation (Ludwig et al. 2009) or more complex traits (Mathieson et al. 2015). However, we are usually not fortunate enough to have access to genotype data from across time, and even when ancient DNA are available, the resulting time courses will necessarily be incomplete.

One alternative to direct measurement of phenotypes through time is to reconstruct the history of a phenotype using contemporary genetic data. Positive selection on simple genetic traits drives large allele-frequency changes at the causal loci and linked neutral alleles (Smith and Haigh 1974). There are many procedures for detecting this kind of selection on individual alleles and for dating and modeling their spread through populations (Tajima 1989; Fay and Wu 2000; Sabeti et al. 2002; Voight et al. 2006; Ronen et al. 2013; Garud et al. 2015; Crawford et al. 2017).

One obstacle to understanding the evolutionary basis of phenotypes is the polygenic architecture of many traits. Complex traits (traits affected by many genetic loci and by environmental variation) are ill-suited to study by single-locus methods. In recent years, genome-wide association studies (GWAS) have made it possible to aggregate subtle evolutionary signals that are distributed across the many genetic loci that are associated with a trait of interest (Turchin et al. 2012; Berg and Coop 2014; Robinson et al. 2015; Field et al. 2016; Racimo et al. 2018; Uricchio et al. 2018). For example, Field et al. (2016) developed the singleton density score (SDS) to infer recent selection on a variety of traits among the ancestors of people in the United Kingdom. [As discussed below, some empirical findings of these studies have not replicated using effect-size estimates from less-structured GWAS samples, raising the possibility that the selection tests are sensitive to residual population stratification (Berg et al. 2018; Sohail et al. 2018). Nonetheless, given correct effect-size estimates, these methods are useful.]

Field et al. relied on the fact that selection distorts the gene genealogies, or coalescent trees, at genetic loci under selection. In particular, loci under positive selection will have increased in frequency in the recent past, leading to relatively faster coalescence of lineages than if the allele frequency had been constant [the method of Palamara et al. (2018) also capitalizes on this idea]. The principle on which the SDS relies is quite general: selection, even when its effect is spread over many loci, leaves systematic signals in coalescent trees at loci underlying trait variation.

The ancestral recombination graph (ARG) (Griffiths and Marjoram 1997) collects coalescent trees at loci along a recombining sequence, encoding information about allele-frequency changes at each site, as well as recombination events between sites. Recently, computational methods for inferring ARGs have advanced considerably (Rasmussen et al. 2014; Mirzaei and Wu 2016), allowing a range of applications (Palacios et al. 2015).

In this work, we consider ways in which ARGs—and in particular, the coalescent trees of sites associated with a phenotype—might be used to reconstruct the history of the phenotype with which they are associated. The ARG-based approaches we consider are motivated by polygenic traits, and the population-mean level of a polygenic score (a prediction of phenotype from an individual’s genotype) is the target of estimation. We present methods for estimating the time course of a population-mean polygenic score through the past, as well as a test for assessing whether an estimated time course is consistent with neutral evolution alone.

We begin by describing estimators and a hypothesis test for phenotypic time courses based on previous theory. Next, we apply these procedures to simulated data, using both true and reconstructed ARGs. Finally, we apply our methods to some human heights in the GBR (Great Britain) subset of the 1000 Genomes panel (1000 Genomes Project Consortium et al. 2012), using ARGs inferred by RENT+ (Mirzaei and Wu 2016).

多くの特徴進化の魅力的な例は、進化のペースを明らかにする時間経過から得られています。これは世代間の観察（Cook et al. 1986; Grant and Grant 2002）や化石記録の変化（Gingerich 1983; MacFadden 2005; Bell et al. 2006）を通じて行われることがあります。多くの特性や種にとって、これらの変化が遺伝的な変化を反映しているかどうかを判断することは難しいことがあります。例えば、私たちは時間の経過とともに人間の身長についてかなり詳細な知識を持っていますが、身長の変化の一部は環境や食事の変化によるものと考えられます（Stulp and Barrett 2016）。古代DNAのおかげで、時折、色素沈着などの比較的単純な特性やより複雑な特性に関する長期の遺伝的変化の一部の情報を得ることができます（Ludwig et al. 2009; Mathieson et al. 2015）。ただし、通常は時間を超えた遺伝子型データにアクセスすることができず、古代DNAが利用可能であっても、得られる時間経過は必然的に不完全であることがあります。

時間を通じてフェノタイプを直接測定する代わりに、現代の遺伝的データを使用してフェノタイプの歴史を再構築する方法があります。単一の遺伝座による方法での研究には向かない複雑な特性（多くの遺伝座と環境の変動に影響を受ける特性）の多因子構造が理由です。近年、ゲノムワイド関連研究（GWAS）により、興味のある特性と関連する多くの遺伝座に分散する微妙な進化の信号を集約することが可能になりました（Turchin et al. 2012; Berg and Coop 2014; Robinson et al. 2015; Field et al. 2016; Racimo et al. 2018; Uricchio et al. 2018）。例えば、Field et al. (2016) は、イギリスの祖先において様々な特性に対する最近の選択を推測するためにシングルトンデンシティスコア（SDS）を開発しました。[以下で議論されるように、これらの研究の一部の実証的な結果は、構造の少ないGWASサンプルからの効果サイズの推定を使用した場合に再現されていない可能性があり、選択テストが残存する集団の層構造に対して敏感である可能性があります（Berg et al. 2018; Sohail et al. 2018）。それにもかかわらず、正しい効果サイズの推定がされた場合、これらの方法は有用です。]

Field et al. は、選択が遺伝座での共通祖先樹、または共進化樹を歪めることを利用しています。特に、正の選択を受けている座では、最近の過去に周波数が増加し、アリル周波数が一定であった場合よりも相対的に迅速に共同祖先が発生することになります[Palamara et al. (2018) の方法もこの考え方を活用しています。]。 SDSが依存している原則は非常に一般的です：多くの座にわたって効果が広がっていても、選択は遺伝子型変動の基になる座の共同祖先樹に系統的な信号を残します。

祖先の組換えグラフ（ARG）（Griffiths and Marjoram 1997）は、組換える配列に沿った座の共同祖先樹を収集し、各サイトでのアリル周波数の変化、およびサイト間の組換えイベントに関する情報をエンコードします。最近、ARGを推定するための計算方法はかなり進歩しています（Rasmussen et al. 2014; Mirzaei and Wu 2016）、さまざまな応用が可能になりました（Palacios et al. 2015）。

本研究では、ARG、特にフェノタイプに関連するサイトの共同祖先樹が関連しているフェノタイプの歴史を再構築する方法について検討します。我々が考慮するARGベースの手法は、多因子特性に触発され、多因子スコア（個体のゲノタイプからフェノタイプを予測するもの）の集団平均レベルが推定の対象となります。我々は、過去の理論に基づいて、集団平均多因子スコアの時間経過を推定するための方法と、推定された時間経過が単に中立的な進化に一致しているかどうかを評価するためのテストを紹介します。

まず、以前の理論に基づくフェノタイプの時間経過の推定方法と仮説検定を説明します。次に、これらの手続きを真のおよび再構築されたARGを使用してシミュレーションデータに適用します。最後に、RENT+（Mirzaei and Wu 2016）によって推定されたARGを使用して、イギリスの祖先の人々の身長の一部に我々の方法を適用します。

## Theory

### Background and motivation

The ARG expresses the shared genealogical history of a sample of individuals at a set of genetic loci, accounting for correlations among neighboring loci that arise because of linkage. The ARG contains a coalescent tree for every site in the genome—these trees for specific sites are marginal trees. Our methods make use of the marginal trees at a set of sites that are associated with a phenotype. In particular, we concentrate on the information revealed by the number of coalescent lineages that remain (i.e., that have not yet coalesced) at a time t in the past. The number of lineages at a given time in the past is described by a stochastic process called the ancestral process (e.g., Tavaré 1984).

The intuition behind the methods we present here is shown in Figure 1. If an allele has been selected upward in frequency in the recent past, then the number of chromosomes carrying the allele will likely have increased. Looking backward in time, the number of carriers in the recent past is less than in the present, which forces an excess of recent coalescence events. Similarly, if an allele has been selected downward recently, then there will tend to be fewer recent coalescent events compared with the neutral expectation. If the trait that has been under selection is polygenic, then the signal at each locus associated with the trait will be smaller, and its strength and direction will depend on the effect size at the locus. In Appendix A, we derive the relationship between the rate of coalescence and selection on the phenotype. We show that phenotypic selection acting to increase the population-mean trait value increases the rate of coalescence for alleles that increase the trait and lowers the coalescence rate for alleles that decrease the trait. In contrast, stabilizing selection acting on a trait for which the population mean is at the fitness optimum does not have a systematic directional effect on the coalescent rates.

ARGは、遺伝子座の集合における個体サンプルの共有された系統的歴史を表現し、リンケージに起因する近隣座間の相関を考慮しています。ARGにはゲノムの各サイトに対する共同祖先樹が含まれています—これらの特定のサイトの樹木はマージナルツリーと呼ばれます。我々の手法は、フェノタイプと関連する一連のサイトのマージナルツリーを利用します。特に、過去のある時点で残っている（まだ共同祖先になっていない）共同祖先の数に関連する情報に焦点を当てます。過去の特定の時点でのライン数は、祖先プロセス（例：Tavaré 1984）と呼ばれる確率過程によって記述されます。

ここで提示する手法の背後にある直感は、図1に示されています。もしアリルが最近の過去に頻度で上昇しているならば、アリルを運ぶ染色体の数はおそらく増加しているでしょう。時間を遡ると、過去の携帯者数は現在よりも少なくなり、これにより過剰な最近の共同発生イベントが生じます。同様に、最近アリルが下降している場合、中立の期待に比べて最近の共同発生イベントが少なくなる傾向があります。もし選択の対象である特性が多因子的である場合、特性に関連する各座での信号はより小さくなり、その強度と方向性は座の効果サイズに依存します。付録Aでは、共同発生の速度とフェノタイプへの選択との関係を導出しています。我々は、集団平均特性値を増加させるために作用する表現型の選択が、特性を増加させるアリルの共同発生率を増加させ、特性を減少させるアリルの共同発生率を低下させることを示しています。対照的に、集団平均が適応度の最適値にある特性に対する安定化選択は、共同発生率に対して系統的な方向性の影響を持っていません。

Our target of estimation is the population-average polygenic score for a trait going backward through time. By polygenic score, we mean a weighted sum of an individual’s genotypes, where the weights are the additive effect sizes of each allele. In our case, we are interested in the population-average polygenic score, so we take a weighted sum of the allele frequencies:

$$ 
 \tag{1} Z(t) = 2 \sum_{i=1}^{k} \beta_i p_i(t)
$$

Here, $ Z(t) $ is the population-average polygenic score at time $ t $ in the past; $ p_i(t) $ is the population frequency of one of the two alleles at locus $ i $ at time $ t $ in the past, and $ \beta_i $ is the additive effect size of the allele whose frequency is $ p_i(t) $, where the effect sizes have been scaled so that the other allele has an effect size of zero. (In practice, effect sizes will be estimated with error, but in this article we treat the effect sizes as known.) The 2 arises because of diploidy.

If the $ k $ loci included in the calculation of $ Z(t) $ include all the causal loci, then changes in $ Z(t) $ (the population-average polygenic score) reflect changes in the population-average phenotypic value in the absence of changes in the distribution of environmental effects on the trait, changes in the effect size, epistasis, and gene-by-environment interaction. Even if these strong assumptions are not met, rapid changes in $ Z(t) $ could provide evidence that natural selection has acted on the trait.

Our strategy for estimating $ Z(t) $ is to estimate the historical allele-frequency time courses, $ p_i(t) $, for the loci associated with a trait. Given an estimator of the allele-frequency time courses, $ \widehat{p_i(t)} $, we estimate polygenic scores as

$$  \tag{2}\widehat{Z(t)} = 2 \sum_{i=1}^{k} \beta_i \widehat{p_i(t)}. $$

If the loci contributing to the polygenic score are independent, then the variance of the polygenic-score estimator is

$$  \tag{3}\text{Var}\left[\widehat{Z(t)}\right] = 4 \sum_{i=1}^{k} \beta_i^2 \text{Var}\left[\widehat{p_i(t)}\right]. $$

We present three methods for estimating historical allele-frequency time courses. A number of authors have investigated estimating allele-frequency time courses from coalescent genealogies (Slatkin 2001; Coop and Griffiths 2004; Chen and Slatkin 2013) or by applying Wright–Fisher diffusion theory to time-series data (Bollback et al. 2008; Schraiber et al. 2016). Our approaches are cruder than some of these but have the advantage of being fast enough to be applicable to thousands of GWAS loci.

我々の推定の対象は、過去にさかのぼっての特定の時点での集団平均の多因子スコアです。多因子スコアとは、各アリルの加法的効果サイズが重みとなる、個々のゲノタイプの加重合計を指します。我々のケースでは、集団平均の多因子スコアに興味を持っているため、アリル頻度の加重合計を取ります：


$$
 \tag{1} Z(t) = 2 \sum_{i=1}^{k} \beta_i p_i(t). 
$$


ここで、$ Z(t) $ は過去の時点 $ t $ における集団平均の多因子スコアであり、$ p_i(t) $ は過去の時点 $ t $ における座 $ i $ のアリルのうちの一方の頻度、$ \beta_i $ は頻度 $ p_i(t) $ のアリルの加法的効果サイズを表します。ここで、他のアリルの効果サイズをゼロにスケーリングしています（実際には効果サイズは誤差を伴って推定されますが、本論文ではこれを既知としています）。２はディプロイディのためのものです。

$ k $ 個の座が $ Z(t) $ の計算に含まれている場合、$ Z(t) $（集団平均の多因子スコア）の変化は、環境効果の分布、効果サイズ、エピスタシス、遺伝子と環境の相互作用の変化がない場合に、集団平均の表現型値の変化を反映します。これらの強力な仮定が満たされなくても、 $ Z(t) $ の急激な変化は、自然選択が特性に作用した証拠となる可能性があります。

$ Z(t) $ の推定戦略は、特性に関連する座の遺伝子頻度の経時的な時系列 $ p_i(t) $ を推定することです。アリル頻度の時系列 $ p_i(t) $ の推定子 $ \widehat{p_i(t)} $ が得られた場合、多因子スコアは次のように推定されます：

$$  \tag{2}\widehat{Z(t)} = 2 \sum_{i=1}^{k} \beta_i \widehat{p_i(t)}. $$

もし、多因子スコアに寄与する座が独立しているならば、多因子スコア推定子の分散は次の通りです：

$$  \tag{3}\text{Var}[\widehat{Z(t)}] = 4 \sum_{i=1}^{k} \beta_i^2 \text{Var}[\widehat{p_i(t)}]. $$

我々は歴史的な遺伝子頻度の時系列を推定するための3つの手法を提案しています。いくつかの著者は、共同祖先系譜（Slatkin 2001; Coop and Griffiths 2004; Chen and Slatkin 2013）からアリル頻度の時系列を推定したり、Wright–Fisher拡散理論を時系列データに適用することにより（Bollback et al. 2008; Schraiber et al. 2016）、これらよりも粗い手法ですが、数千のGWAS座に適用可能な高速な手法となっています。

### Estimating the allele-frequency time course at a single locus

We present several methods for estimating the historical allele-frequency time course at a specific biallelic locus given a coalescent tree at the locus (Figure 2). (Our procedures could be generalized to loci with multiple alleles.) In each case, the goal is to estimate the frequency of an allele of interest (e.g., the effect allele) at locus i at time t in the past, or $ p_i(t) $


特定の二アリル遺伝子座におけるコアレッセントツリーを元に、歴史的な等位頻度の時間経過を推定するいくつかの方法を提案します（図2）。 （これらの手順は、複数のアリルを持つ座に一般化できます。） 各ケースでの目標は、遺伝子座iにおける興味のあるアリル（例：効果アリル）の周波数を過去の時点 $ t $ で推定することです。すなわち、$ p_i(t) $ です。

#### Proportion-of-lineages estimator:

The simplest way to estimate a historical allele frequency is to treat the lineages ancestral to the sample at time t as representative of the population at time $ t $. If the locus has evolved neutrally between the present and time $ t $ in the past, then the lineages ancestral to the sample at time $ t $ are a random sample—with respect to allelic type—from the population at time $ t $. If the lineages ancestral to the sample are a random sample from the population at time $ t $, then a reasonable estimator of $ p_i(t) $​ is the proportion of lineages at time t that carry the allele of interest,

$$
 \tag{4}\widehat{p_i(t)} = \frac{j_i(t)}{r_i(t)}
$$

where $ r_i(t)$ is the total number of lineages ancestral to the present-day sample at locus $ i $ at time $ t $ and $ j_i(t) $ is the number of lineages at time $ t $ that carry the allele of interest. Assuming that the mutation distinguishing the alleles has only appeared once in the history of the sample, the lineages that carry the derived allele are those ancestral to contemporary copies of the derived allele, which must coalesce to one lineage before coalescing with the rest of the tree. If the tree for the locus is known, then the branch on which the mutation must have appeared is known, but the exact time of the mutation is not. In practice, we assume that the mutation occurred in the middle of the branch connecting the derived subtree to the rest of the tree. (We make this assumption when implementing all estimators.)

If the population size at time $ t $ is large compared with the number of ancestral lineages at time $ t $, then conditional on $ r_i(t) $ the number of ancestral lineages carrying the allele of interest, $ j_i(t) $ is distributed approximately as a binomial $ [r_i(t),p_i(t)] $ random variable. Thus, Equation 4 is the maximum-likelihood estimator of $ p_i(t) $ and, conditional on $ r_i(t) $, its sampling variance can be estimated as (dropping the subscript $i$’s and parenthetical $t$’s for compactness)
 
$$
 \tag{5}\text{Var}(\hat{p})=\frac{\frac{j}{r}(1-\frac{j}{r})}{r}=\frac{j(r-j)}{r^3}
$$
 

In Appendix B, we give a Bayesian interpretation of the proportion-of-lineages estimator that relies on connections between neutral diffusion and the ancestral process (Tavaré 1984).
If chromosomes carrying the two alleles have differed in fitness between the present and time t, then Equation 4 will in general be a biased and inconsistent estimator of $ p_i(t) $⁠. Chromosomes carrying alleles that have been favored by selection will be more likely to leave offspring in the present-day population than will chromosomes carrying unfavored alleles. Favored alleles will thus be overrepresented among the lineages ancestral to the sample compared with their actual frequency at time $t$. However, even if Equation 4 is an inconsistent estimator of the population’s allele frequency, it retains the interpretation of being the allele frequency among lineages ancestral to the sample. Thus, when Equation 2 is applied to allele frequencies estimated by Equation 4, the result is the mean polygenic score among chromosomes ancestral to the present-day sample at some time in the past.

歴史的なアリル頻度を推定する最も簡単な方法は、時点 $ t $ でのサンプルに先立つ系統を、時点 $ t $ の人口を代表するものとして扱うことです。もし遺伝子座が現在と過去の $ t $ の間で中立的に進化していれば、時点 $ t $ でのサンプルに先立つ系統は、時点 $ t $ の人口からアリルタイプに関してランダムなサンプルです。サンプルに先立つ系統が時点 $ t $ の人口からランダムサンプルであると仮定すると、時点 $ t $ でのアリル $ p_i $ の頻度の合理的な推定値は、時点 $ t $ での系統のうち、対象のアリルを持つものの割合です。

$$
 \tag{4}\widehat{p_i(t)} = \frac{j_i(t)}{r_i(t)}
$$

ここで、$ r_i(t) $ は時点 $ t $ での遺伝子座 $ i $ のサンプルに先立つ系統の総数であり、$ j_i(t) $ は時点 $ t $ での対象のアリルを持つ系統の数です。アリルを区別する変異がサンプルの歴史で一度だけ発生したと仮定すれば、導出アリルを持つ系統は導出サブツリーに先立つ系統であり、これは他のツリーと合流する前に一本の系統に合流しなければなりません。遺伝子座のツリーが既知の場合、変異が発生した枝はわかりますが、変異の正確な時点はわかりません。実際には、変異が導入されたのは導出サブツリーを他のツリーに接続する枝の中間だと仮定します（この仮定は、すべての推定値を実装する際に行います）。

もし時点 $ t $ での人口が時点 $ t $ での先立つ系統の数に比べて大きければ、条件付きで $ r_i(t) $ が与えられた場合、対象のアリルを持つ系統の数 $ j_i(t) $ はおおよそ二項分布 $ \left[r_i(t), p_i(t)\right] $ に従います。従って、式 (4) は $ p_i(t) $ の最尤推定量であり、$ r_i(t) $ が与えられた条件で、そのサンプリング分散は次のように推定できます（簡潔さのために指標 $i$ と括弧内の $t$ を省略しています）：

$$
 \tag{5}\text{Var}(\hat{p}) = \frac{\frac{j}{r}(1-\frac{j}{r})}{r} = \frac{j(r-j)}{r^3}
$$

付録 B では、中立的な拡散と祖先プロセス（Tavaré 1984）との関連に基づく、系統の割合推定のベイズ的解釈を述べています。

もし2つのアリルを持つ染色体が現在と時点 $ t $ の間で適応度に差がある場合、式 (4) は一般に $ p_i(t) $ のバイアスがかかり、不一致な推定量となります。選択によって好まれたアリルを持つ染色体は、不利なアリルを持つ染色体よりも現代の人口に子孫を残しやすくなります。このため、好まれたアリルは時点 $ t $ での実際の頻度よりもサンプルに先立つ系統において過代表的となります。ただし、式 (4) が集団のアリル頻度の不一致な推定量であっても、サンプルに先立つ系統のアリル頻度であるという解釈は維持されます。従って、式 (2) が式 (4) で推定されたアリル頻度に適用されると、結果は過去のある時点で現代のサンプルに先立つ染色体の平均多遺伝子スコアとなります。

#### Waiting-time estimator:

The proportion-of-lineages estimator proposed in Equation 4 works well under neutrality, but under selection it tends to underestimate the degree of allele-frequency change experienced by selected alleles. One potential solution is to consider the chromosomes in the population as two separate subpopulations (Hudson and Kaplan 1988)—one for the carriers of each of the two alleles at the locus—and to estimate the sizes of those two populations over time. At locus i, denote the sizes of these two subpopulations at time $t$ as $N_i(t)$ (for the allele of interest) and $M_i(t)$ (for the other allele). The frequency of the allele of interest at time $t$ in the past, or $p_i(t)$, is

$$
 \tag{6}p_i(t)=\frac{N_i(t)}{N_i(t)+M_i(t)}
$$
 
Here, we propose to estimate $N_i(t)$ and $M_i(t)$ on the basis of properties of the coalescent trees for the two alleles. We then estimate by plugging these estimates, $\widehat{N_i(t)}$ and $\widehat{M_i(t)}$ into Equation 6, giving

$$
 \tag{7}\widehat{p_i(t)}=\frac{\widehat{N_i(t)}}{\widehat{N_i(t)}+\widehat{M_i(t)}}
$$

The estimator in Equation 7 is not unbiased in general, even if the estimates of $N_i(t)$ and $M_i(t)$ are unbiased. But separating the problems of estimating the two subpopulations confers an advantage: this estimator does not assume, as the proportion-of-lineages estimator does, that the two allelic types have had equal fitness between $t$ and the present.

Assuming that the mutation that distinguished the two alleles occurred only once in the history of the sample, the chromosomes carrying the two alleles can be treated as two distinct subsamples between the time of the mutation and the present. Among the ancestors of the allele subsample carrying the allele of interest, coalescent time τ accrues according to

$$
τ_i(t)=\int_{0}^{t} \mathrm 1/N_i(z) \mathrm{d} z
$$

where $t$ is measured in generations. It follows that
 
$$
\frac{\mathrm{d}τ_i(t)}{\mathrm{d}t}=1/N_i(t)
$$

suggesting that $N_i(t)$ can be estimated by assessing the rate at which coalescent time accrues. $M_i(t)$ can then be estimated analogously and $p_i(t)$ can be estimated by Equation 7. We present two related approaches to estimating the rate of accrual of coalescent time in each subsample: one approach in which estimates are made with respect to waiting times between coalescent events, and another in which estimates are made with respect to the number of lineages ancestral to the subsample at a specified time in the past. In both approaches, we assume that $N_i(t)$ and $M_i(t)$ are piecewise constant, but it is possible to modify these estimators under other assumptions about how $N_i(t)$ and $M_i(t)$ change between time points.

The number of coalescence events in a time interval depends on the amount of coalescent time passed. Our approaches amount to inverting this relationship to estimate the amount of coalescent time passed on each lineage (and thus their relative population sizes) in a method-of-moments framework. In this subsection, we assess $N_i(t)$ and $M_i(t)$ according to the time passed between fixed numbers of coalescent events.

Suppose that $N_i(t)=N$ assumed to be constant from a time point of interest (defined here to be $t=0$⁠) until $l$ coalescences have occurred within the subsample, which at $t=0$ consists of $n_i$ lineages. Define $Y_k$ as the waiting time to the $k$th coalescence, starting from the $k-1$th coalescence event (or from $t=0$ if $k=1$⁠). Define the total waiting time from $t=0$ to the $l$th coalescence as $Y=\sum_{k=1}^l Y_k$. Then, in units of generations, each $Y_k$ is an independent, exponentially distributed random variable with rate $(n_i-k+1)(n_i-k)/(2N)$. Thus,
 
$$
\tag{8}
E(Y) = \sum_{k=1}^l \frac{2N}{(n_i-k+1)(n_i-k)}\\
=\sum_{w=n_i-l+1}^{n_i} \frac{2N}{w(w-1)} \\
= 2N(\frac{1}{n_i-l}-\frac{1}{n_i})
$$ 
and
$$
\tag{9}
\text{Var}(Y) = 4N^2 \sum_{w=n_i-l+1}^{n_i} \frac{1}{w^2(w-1)^2}
$$ 

方程式4で提案された比率法の推定値は、中立の条件下ではうまく機能しますが、選択がある場合、選択を受けたアレルの周波数変化の程度を過小評価する傾向があります。その一つの解決策は、集団内の染色体を遺伝子座ごとに2つの異なるサブポピュレーション（Hudson and Kaplan 1988）と見なし、その2つのサブポピュレーションのサイズを時間とともに推定することです。ここでは、座標iで、時刻tにおけるこれら2つのサブポピュレーションのサイズをそれぞれ$N_i(t)$（対象アレル用）および$M_i(t)$（他のアレル用）と表記します。過去の時点tにおける対象アレルの周波数$p_i(t)$は次の通りです。

$$
 \tag{6}p_i(t)=\frac{N_i(t)}{N_i(t)+M_i(t)}
$$

ここでは、これらの2つのサブポピュレーションの共同祖先の特性に基づいて$N_i(t)$と$M_i(t)$を推定することを提案します。次に、これらの推定値$\hat{N}_i(t)$および$\hat{M}_i(t)$を方程式6に代入して、次のように推定します。

$$
 \tag{7}\widehat{p_i(t)}=\frac{\widehat{N_i(t)}}{\widehat{N_i(t)}+\widehat{M_i(t)}}
$$

方程式7の推定値は一般にはバイアスがかかっている可能性がありますが、$N_i(t)$および$M_i(t)$の推定値がバイアスがかかっていなくても、バイアスがかかっていないとは限りません。ただし、2つのサブポピュレーションの推定問題を分離することには利点があります。この推定法は、比率法が仮定するように、$t$から現在までの間に2つのアレル型が等しい適応度を持っていたと仮定しません。

2つのアレルを区別する突然変異がサンプルの歴史の中で1回だけ発生したと仮定すると、対象のアレルを運ぶ染色体は突然変異が発生した時点から現在までの間、2つの異なるサブサンプルとして扱うことができます。対象のアレルを運ぶサブサンプルの先祖の間での共結合時間τは、次のようになります。

$$
τ_i(t)=\int_{0}^{t} \mathrm 1/N_i(z) \mathrm{d} z
$$

ここで、tは世代で測定されます。したがって

$$
\frac{\mathrm{d}τ_i(t)}{\mathrm{d}t}=1/N_i(t)
$$

となり、$N_i(t)$は共結合時間がどれだけ速く蓄積するかを評価することによって推定できます。$M_i(t)$も同様に推定され、$p_i(t)$は方程式7によって推定されます。ここでは、各サブサンプルにおける共結合時間の蓄積率を推定する2つの関連したアプローチを提案します。一つは共結合イベント間の待ち時間に関する見積もりを使用する方法であり、もう一つは過去の特定の時点でサブサンプルの先祖に起源を持つラインナップの数に関する見積もりを使用するものです。両方のアプローチでは、$N_i(t)$および$M_i(t)$が各時間点でどのように変化するかに関する他の仮定の下で、これらの推定法を変更することが可能です。

一定の時間間隔内での共結合イベントの数は共結合時間の量に依存します。これらのアプローチは、この関係を逆にして、各ラインナップで蓄積された共結合時間（およびそれによる相対的な人口サイズ）を推定するモーメント法の枠組みです。このサブセクションでは、固定された共結合イベント数の間に経過した時間に基づいて$N_i(t)$および$M_i(t)$を評価します。

$t=0$での特定の時点から、サブサンプル内でl回の共結合が発生するまでの間、$N_i(t)=N$を一定と仮定します。ここで、$t=0$でのサブサンプルは$n_i$のラインナップから成り立っています。$k$番目の共結合までの待ち時間を$Y_k$と定義します。ここで、$k=1$の場合は$k-1$番目の共結合イベントから始まります（または$k=1$の場合は$t=0$から始まります）。$l$回の共結合までの総待ち時間を$Y=\sum_{k=1}^l Y_k$と定

義します。そして、世代単位で、各$Y_k$は独立な指数分布の確率変数であり、その率は$(n_i-k+1)(n_i-k)/(2N)$です。したがって、

$$
\tag{8}
E(Y) = \sum_{k=1}^l \frac{2N}{(n_i-k+1)(n_i-k)}\\
=\sum_{w=n_i-l+1}^{n_i} \frac{2N}{w(w-1)} \\
= 2N(\frac{1}{n_i-l}-\frac{1}{n_i})
$$ 

および

$$
\tag{9}
\text{Var}(Y) = 4N^2 \sum_{w=n_i-l+1}^{n_i} \frac{1}{w^2(w-1)^2}
$$ 

For large $n_i$ and intermediate values of $l$, $Y$ is approximately normally distributed with expectation and variance given by Equation 8 and Equation 9 (Chen and Chen 2013). One estimator of $N_i(t)=N$, which is both a method-of-moments estimator and the maximum-likelihood estimator under the asymptotically normal distribution of $Y$, is

$$
\tag{10}
\widehat{N_i(t)}=\frac{Y}{2[1/(n_i-l)-1/n_i]}
$$

With $l=1$ this is the “skyline” estimator of Pybus et al. (2000), and with $l \geqq 1$, it is the generalized skyline estimator of Strimmer and Pybus (2001). It is unbiased under the assumption of constant $N_i(t)$ between coalescence events. In our implementation, after the tree has coalesced down to one lineage, we assume that $N_i(t)$ remains constant into the past if its allele is ancestral and that $N_i(t)$ remains constant before dropping to zero in the middle of the branch on which the mutation arose if its allele is derived. (In principle, derived vs. ancestral status may be determined by the tree topology or “forced” on the basis of prior knowledge if the tree topology may be in error. We use the tree topology.)

One may estimate $p_i(t)$ by

$$
\tag{11}
\widehat{p_i(t)}=\frac{\widehat{N_i(t)}}{\widehat{N_i(t)}+\widehat{M_i(t)}}
$$

where $M_i(t)$ is estimated analogously to $N_i(t)$. In principle, the estimates of $N_i(t)$ and $M_i(t)$ may be based on waiting times for different numbers of coalescences $(l)$, and they will likely be constant for different intervals of time. By a first-order Taylor approximation argument described in Appendix C,

$$
E[\widehat{p_i(t)}] \approx p_i(t)
$$

but in practice, $\widehat{p_i(t)}$ can be substantially biased. Its approximate variance is given in Appendix C.

One important decision in using this estimator is the choice of $l$—i.e., the number of coalescence events to wait for—for each allele. Small values of $l$ lead to variable estimates. On the other hand, the estimator assumes that the size of the subpopulation is constant until $l$ coalescent events have occurred, which may be increasingly unrealistic for large $l$. In this article, we use $l=1$ and defer investigation of different choices of $l$ for future work.

大きな $n_i$ および中間の $l$ の値に対して、$Y$ はおおよそ正規分布に従います。その期待値および分散は、方程式8および方程式9で与えられます（Chen and Chen 2013）。$N_i(t)=N$ の一つの推定値は、$Y$ の漸近的な正規分布の下でのモーメント法の推定値であり、かつ最尤法の推定値でもあります。この推定値は次の通りです。

$$
\tag{10}
\widehat{N_i(t)}=\frac{Y}{2[1/(n_i-l)-1/n_i]}
$$

$l=1$ の場合、これは Pybus et al. (2000) の "skyline" 推定値であり、$l \geqq 1$ の場合、Strimmer and Pybus (2001) の一般化された "skyline" 推定値です。この推定値は、共結合イベントの間に $N_i(t)$ が一定であるという仮定のもとではバイアスがかかっていません。我々の実装では、木が1つのラインナップに共結合した後、そのアレルが先祖である場合は $N_i(t)$ が過去でも一定であると仮定し、そのアレルが派生している場合は突然変異が発生した枝の中央でゼロに下がるまで $N_i(t)$ が一定であると仮定しています（原理的には、派生 vs. 先祖の状態は木のトポロジーによって判断されるか、木のトポロジーが誤っている可能性がある場合は事前知識に基づいて "forced" されるかもしれません。我々は木のトポロジーを使用しています）。

$p_i(t)$ は次のように推定できます。

$$
\tag{11}
\widehat{p_i(t)}=\frac{\widehat{N_i(t)}}{\widehat{N_i(t)}+\widehat{M_i(t)}}
$$

ここで、$M_i(t)$ は $N_i(t)$ と同様に推定されます。原則として、$N_i(t)$ および $M_i(t)$ の推定は異なる共結合回数 $(l)$ の待ち時間に基づく可能性があり、異なる時間区間に対してこれらの推定はおそらく一定であるでしょう。付録 C で説明されている1次のテイラー近似によれば、

$$
E[\widehat{p_i(t)}] \approx p_i(t)
$$

しかし、実際には $\widehat{p_i(t)}$ はかなりバイアスがかかる可能性があります。その近似的な分散は付録 C で与えられています。

この推定子を使用する際の重要な決定の一つは、各アレルに対して待機する共結合イベントの数である $l$（すなわち、$l$ の選択）です。$l$ の小さい値は変動の大きな推定値を導く可能性があります。一方で、この推定子は、サブポピュレーションのサイズが $l$ 回の共結合イベントが発生するまで一定であると仮定していますが、これは $l$ が大きい場合にますます非現実的になる可能性があります。本記事では $l=1$ を使用し、異なる $l$ の選択についての調査を将来の課題としています。

#### Lineages-remaining estimator:

The next estimator, which we term the “lineages-remaining” estimator, operates on a principle similar to the waiting-time estimator. The coalescent time passed on each allele’s background is evaluated by looking at the local rate of coalescence, and the relative numbers of carriers of each allele are estimated to form an allele-frequency estimate. The difference is that whereas the waiting-time estimator estimates population sizes for each allele between coalescent events, the lineages-remaining estimator estimates the population sizes between prespecified times by comparing the number of lineages of each type that remain (i.e., have not coalesced) at the more ancient end of a time interval with the number present at the more recent end of the interval.

次の推定子は「残存リニアージ推定子」と呼び、待ち時間推定子と同様の原理で動作します。各アレルの背景で経過した共結合時間は、共結合の局所的な速度を見ることによって評価され、各アレルの担い手の相対数を推定してアレル頻度の推定値を形成します。待ち時間推定子が共結合イベントの間に各アレルの人口サイズを推定するのに対して、残存リニアージ推定子は、所定の時間間隔のより古い端で残存している（すなわち、共結合していない）各タイプのラインナップの数を、より新しい端の数と比較することによって、所定の時間間隔ごとの人口サイズを推定します。

Suppose that $N_i(t)=N$ during an interval of $\Delta t$ generations. At the end of the interval closer to the present there are $n_i^{(0)}$ lineages, and at the end of the interval further into the past there are $n_i^{(t)}$ lineages. The expected number of lineages remaining at the end of the interval can be approximated as

$$
\tag{12}
E[n_i^{(t)}] \approx \frac{n_i^{(0)}}{n_i^{(0)}+[1-n_i^{(0)}]e^{-τ/2}}
$$

where $τ$ is the amount of coalescent-scaled time elapsed during the interval (Griffiths 1984; Maruvka et al. 2011; Chen and Chen 2013; Jewett and Rosenberg 2014). Here, $N_i(t)=N$ is a haploid population size, so $τ=\Delta t/N_i(t)$. For large $n_i^{(0)}$ and intermediate lengths of time, $n_i^{(t)}$ is approximately normally distributed (Griffiths 1984; Chen and Chen 2013). An estimator for $N_i(t)=N$, which is both a method-of-moments estimator — one based on the approximate value of $E[n_i^{(t)}]$ — and the maximum-likelihood estimator under the limiting normal distribution, is
 
$$
\tag{13}
\widehat{N_i(t)}=\frac{\Delta t}{2\{\log[\frac{n_i^{(t)}}{n_i^{(t)}-1}]-\log[\frac{n_i^{(0)}}{n_i^{(0)}-1}] \}}
$$

$\Delta t$ 世代にわたって $N_i(t)=N$ と仮定します。$\Delta t$ の終わりには $n_i^{(0)}$ のラインナップがあり、より過去の方の終わりには $n_i^{(t)}$ のラインナップがいます。時間の間隔の終わりに残存するラインナップの期待値は、次のように近似できます。

$$
\tag{12}
E[n_i^{(t)}] \approx \frac{n_i^{(0)}}{n_i^{(0)}+[1-n_i^{(0)}]e^{-τ/2}}
$$

ここで、$τ$ は時間間隔中に経過した共結合スケーリングされた時間であり（Griffiths 1984; Maruvka et al. 2011; Chen and Chen 2013; Jewett and Rosenberg 2014）、$N_i(t)=N$ はハプロイド人口サイズであるため、$τ=\Delta t/N_i(t)$ です。大きな $n_i^{(0)}$ および中程度の時間の長さでは、$n_i^{(t)}$ はおおよそ正規分布しています（Griffiths 1984; Chen and Chen 2013）。$N_i(t)=N$ の推定子は、$E[n_i^{(t)}]$ の近似値に基づく方法のモーメント推定子であり、限定的な正規分布の下での最尤推定子です。

$$
\tag{13}
\widehat{N_i(t)}=\frac{\Delta t}{2\{\log[\frac{n_i^{(t)}}{n_i^{(t)}-1}]-\log[\frac{n_i^{(0)}}{n_i^{(0)}-1}] \}}
$$

As the tree coalesces to few lineages, there are several edge cases in which the estimator is undefined. Our methods for handling these cases are discussed in Appendix C.
It may be impractical to estimate $N_i(t)$ because $\Delta t$ in generations may be unknown. However, $\Delta t$ cancels in the estimator of the allele frequency $p_i(t)$
 
$$
\tag{14}
\frac{\widehat{N_i(t)}}{\widehat{N_i(t)}+\widehat{M_i(t)}}=\frac{\log[\frac{m_i^{(t)}}{m_i^{(t)}-1}]-\log[\frac{m_i^{(0)}}{m_i^{(0)}-1}]}{\log[\frac{m_i^{(t)}}{m_i^{(t)}-1}]-\log[\frac{m_i^{(0)}}{m_i^{(0)}-1}]+\log[\frac{n_i^{(t)}}{n_i^{(t)}-1}]-\log[\frac{n_i^{(0)}}{n_i^{(0)}-1}]}
$$

where $M_i(t)$ is the number of carriers of the reference allele in the population at locus $i$ at time $t$, and $m_i(0)$ and $m_i(t)$ are the numbers of lineages carrying the reference allele at the ends of the time interval closer to and more distant from the present, respectively. Approximate expressions for the variance of the estimator in Equation 14 are in Appendix C.

In practice, the estimator in Equation 14 will be evaluated at a set of times. Here, we evaluate the estimator every 0.001 coalescent units, starting at the present and extending back four coalescent units. The grid of times at which changes in the number of lineages of each type are considered will influence the estimate. Finer grids will lead to estimates that are more variable but less biased by the assumption of constant $N_i(t)$ and $M_i(t)$ between time points.

木がわずかなラインナップに収束すると、推定子が未定義のいくつかのエッジケースがあります。これらのケースに対処するための方法は付録 C で議論されています。
$\Delta t$ が世代ごとに不明であるため、$N_i(t)$ を推定するのは実用的でないかもしれません。ただし、$\Delta t$ はアリル頻度 $p_i(t)$ の推定子でキャンセルされます。

$$
\tag{14}
\frac{\widehat{N_i(t)}}{\widehat{N_i(t)}+\widehat{M_i(t)}}=\frac{\log[\frac{m_i^{(t)}}{m_i^{(t)}-1}]-\log[\frac{m_i^{(0)}}{m_i^{(0)}-1}]}{\log[\frac{m_i^{(t)}}{m_i^{(t)}-1}]-\log[\frac{m_i^{(0)}}{m_i^{(0)}-1}]+\log[\frac{n_i^{(t)}}{n_i^{(t)}-1}]-\log[\frac{n_i^{(0)}}{n_i^{(0)}-1}]}
$$

ここで、$M_i(t)$ は時刻 $t$ における座位 $i$ の集団内の参照アリルのキャリア数であり、$m_i(0)$ および $m_i(t)$ は、それぞれ現在に近い時間間隔の終わりに参照アリルを運ぶラインナップの数と、より遠い終わりに運ぶものです。適切な式は付録 C に記載されています。

実際には、式（14）の推定子は一連の時点で評価されます。ここでは、現在から遡って 4 つの共結合ユニットまで、0.001 共結合ユニットごとに推定子を評価します。各タイプのラインナップの数に変化が考慮される時刻のグリッドは、推定値に影響を与えます。より細かいグリッドは、より変動が大きく、かつ $N_i(t)$ および $M_i(t)$ が時間ポイント間で一定であるという仮定によるバイアスが少ない推定値になります。

#### Testing time courses for selection

Once a polygenic-score time course has been constructed, it can be tested for selection. Whereas the relevance for trait evolution of the estimators proposed in the previous sections depends on the proportion of trait variance accounted for by the polygenic score, polygenic-score time courses can be tested for selection even if they account for a small proportion of the trait variance. Further, although we apply the test in this section to estimated polygenic-score time courses, it is also applicable to measured time-series data on allele frequencies when available.

ポリジェニックスコアのタイムコースが構築されたら、それを選択に対してテストすることができます。前のセクションで提案された推定子のトレイト進化への関連性は、ポリジェニックスコアがトレイト分散の何割を説明しているかに依存しますが、ポリジェニックスコアのタイムコースはトレイト分散のわずかな部分しか説明していない場合でも選択に対してテストできます。さらに、このセクションでテストを推定されたポリジェニックスコアのタイムコースに適用していますが、利用可能な場合はアレル頻度の測定された時系列データにも適用できます。

We propose a test for selection that amounts to a modification of the $Q_X$ framework of Berg and Coop (2014), an analog of $Q_{ST}$–$F_{ST}$ tests for phenotypic selection (Whitlock 2008). Berg and Coop proposed $Q_X$ to test for overdispersion of polygenic scores among population samples, relative to neutral expectations. Here, we check for overdispersion among a set of time points along one population branch. We denote our time-based modification of $Q_X$ as $T_X$

我々は、選択のためのテストとして、BergとCoop（2014）の$Q_X$フレームワークの修正を提案します。これは、表現型の選択のための$Q_{ST}$-$F_{ST}$テストのアナログです（Whitlock 2008）。BergとCoopは$Q_X$を提案し、中立的な期待値に対して集団サンプル間でポリジェニックスコアの過度な分散を検定するためのものでした。ここでは、ある集団枝に沿った一連の時間点の間で過度の分散をチェックします。私たちは、$Q_X$の時間ベースの変更を$T_X$と呼びます。

Suppose that for each time $t_j$ in a sequence of times, we observe a population-level polygenic score, $Z(t_j)=2\sum_{i=1}^{k} \beta p_i(t_j)$, as in Equation 1. Assume that changes across time at distinct loci are independent. Following the $Q_X$ framework, we model polygenic scores using a multivariate normal distribution. Specifically, we posit that at each locus, over short timescales, allele-frequency changes between time points follow a normal $[0,fp_i(1-p_i)]$ distribution (Cavalli-Sforza et al. 1964; Nicholson et al. 2002). (Approximate normality fails over longer timescales, in part because allele frequencies are bounded by 0 and 1.) Here, $f$ is the coalescent time that has passed between time points and $p_i$ is the allele frequency at locus i at one end of the interval. (In practice, we choose $p_i$ to be the allele frequency at the end of the interval closer to the present.) The parameter $f$ is constant across loci.

各時点$t_j$で、Equation 1のようにポリジェニックスコア$Z(t_j)=2\sum_{i=1}^{k} \beta p_i(t_j)$を観察すると仮定します。異なる座標での時間の変化は独立していると仮定します。$Q_X$フレームワークに従い、ポリジェニックスコアは多変量正規分布を使用してモデル化されます。具体的には、各座標で、短い時間スケールでの時点間の遺伝子座のアレル頻度の変化が正規$[0,fp_i(1-p_i)]$分布に従うと仮定します（Cavalli-Sforza et al. 1964; Nicholson et al. 2002）。 （アレル頻度は0から1の間で制約されているため、長い時間スケールでは近似的な正規性が失敗することがあります。）ここで、$f$は座標間で経過した共焦時間であり、$p_i$は区間の一方の端での座標iのアレル頻度です。 （実際には、$p_i$は現在に近い方の区間の端でのアレル頻度を選択します。）パラメータ$f$は遺伝子座ごとに一定です。

If allele-frequency changes at each locus are independent and normally distributed, then changes between time points in the polygenic scores are normal with expectation $0$ and variance $f4\sum_{i=1}^{k} \beta^2 p_i(1-p_i)$. The variance of polygenic-score changes can also be written as $f2V_A$ where $V_A=2\sum_{i=1}^{k} \beta^2 p_i(1-p_i)$ is the additive genetic variance of the trait.

各座標の遺伝子座におけるアレル頻度の変化が独立で正規分布に従っている場合、ポリジェニックスコアの時点間の変化は期待値が$0$で分散が$f4\sum_{i=1}^{k} \beta^2 p_i(1-p_i)$の正規分布に従います。ポリジェニックスコアの変化の分散はまた、$f2V_A$と書くことができます。ここで、$V_A=2\sum_{i=1}^{k} \beta^2 p_i(1-p_i)$はトレイトの加法遺伝分散です。

Imagine we have a time course of polygenic scores $Z(t_0)$,$Z(t_1)$,$Z(t_2)$,...$Z(t_w)$, with $t_0 < t_1 < ... < t_w$. Under neutrality, for each time point $j \in 1$ the statistic

$$
\tag{15}
X_j=\frac{Z(t_j)-Z(t_{j-1})}{\sqrt{2V_A(t_j-t_{j-1})}}
$$

has a normal $(0,1)$ distribution. (⁠$V_A$ can be recomputed for each value of $j$ using allele frequencies at $t_{t-1}$. In practice, we use the same $V_A$ — the one computed from allele-frequency estimates closest to the present—for each time interval.) Moreover, under neutrality, allele-frequency changes in distinct time intervals are independent, so values of $X_j$ are independent for distinct $j$. Thus, the sum across time points

$$
\tag{16}
T_X=\sum_{j=1}^w X_j^2
$$

has a $\chi^2(w)$  distribution. [For details on the equivalence of the $T_X$ statistic in Equation 16 to the $Q_X$ statistic of Berg and Coop (2014) in this scenario, see Appendix D.] In contrast, under directional selection, changes in allele frequency across time depend on the effect size of the locus, leading to large changes in the polygenic score and $T_X$ values larger than predicted by the $\chi^2(w)$ distribution. This test is an analog of time-course tests for phenotypic selection based on neutral Brownian motion (Lande 1976; Turelli et al. 1988), but with the advantage that we know $V_A$.

$T_X$ can be compared with a $\chi^2(w)$ distribution to test for significance, or it can be compared with a distribution obtained by permuting either effect sizes or their signs. If the $\chi^2(w)$ distribution is used, then coalescent times elapsed between polygenic scores can be estimated by assessing estimated allele-frequency changes between time points, either at putatively neutral loci or trait-associated loci. Using estimated times produces type-I error rates closer to the nominal value because the estimators we use tend to change at a systematically different rate than the actual allele frequencies: the proportion-of-lineages estimator changes more slowly than do population allele frequencies, and the other estimators change more quickly than population allele frequencies. In practice, we use the sample variance of $\Delta(\hat{p})/[\hat{p}(1-\hat{p})]$ as an estimate of coalescent time passed between time points, where $\Delta(\hat{p})$ is an estimated allele-frequency change at a variable locus and $\hat{p}$ is the estimated allele frequency at the more recent end of the time interval. Assessing elapsed time on the basis of trait-associated loci may lead to a power decrement, but it will not be large—most of the $T_X$ signal comes from coordination of small shifts across loci and not from larger-than-expected allele-frequency changes (Berg and Coop 2014).

想定された近似では、各時点 $j \in 1$ に対して、次の統計量

$$
\tag{15}
X_j=\frac{Z(t_j)-Z(t_{j-1})}{\sqrt{2V_A(t_j-t_{j-1})}}
$$

が正規分布 $(0,1)$ に従います。($V_A$ は $t_{j-1}$ でのアレル頻度を用いて各 $j$ の値ごとに再計算できます。実際には、各時間区間ごとに計算されたアレル頻度の推定値が最も近いものを用いて同じ $V_A$ を使用します。) また、中立状態では異なる時間間隔でのアレル頻度の変化は独立していますので、異なる $j$ に対して $X_j$ の値も独立しています。したがって、時間点全体の合計

$$
\tag{16}
T_X=\sum_{j=1}^w X_j^2
$$

は $\chi^2(w)$ 分布に従います。[このシナリオにおける方程式16の $T_X$ 統計量とBerg and Coop (2014)の $Q_X$ 統計量の同等性の詳細については、付録Dを参照してください。] 対照的に、方向性のある選択では、時間とともにアレル頻度が変化し、それによりポリジェニックスコアが大きく変化し、$\chi^2(w)$ 分布で予測されるよりも大きな $T_X$ 値が生じます。このテストは、中立的なブラウニアンモーションに基づく表現型選択のための時間経過テストのアナログです (Lande 1976; Turelli et al. 1988) が、$V_A$ が分かっているという利点があります。

#### Data availability

Supplemental material, including code for the article, available at Figshare: https://doi.org/10.25386/genetics.6955367. Additionally, code used for running the simulations and implementing all data analyses presented here is available at http://github.com/mdedge/rhps_coalescent. The version of the code used here is permanently archived at doi: 10.5281/zenodo.1461077.

## Simulation Results

We examined the performance of our methods in coalescent simulations. In particular, we simulated coalescent trees for unlinked loci associated with a phenotype. The simulated loci evolve neutrally or under directional selection. In particular, if an allele at locus $i$ has effect size $\beta$ on a trait, and the trait experiences a selection gradient $\alpha(t)$ at time $t$, then the selection coefficient on the allele—representing the fitness of the heterozygote minus the fitness of the ancestral homozygote—is $s(t)=\alpha(t)\beta_i$ (Charlesworth and Charlesworth 2010, equation B3.7.7). The coalescent simulations were run in mssel (Berg and Coop 2015), a version of ms (Hudson 2002) that takes allele-frequency time courses that may be produced by selection, and assumed a constant population size. Effect sizes for the derived allele are drawn from a normal distribution centered at zero. For details on the simulations, see Appendix E.

We consider the performance of the methods when (1) the true trees are provided as input, and (2) when the trees must be reconstructed from sequence data. We use the software RENT+ (Mirzaei and Wu 2016) for tree reconstruction.

Before considering systematic results over many simulations, we present estimated time courses for one representative simulation (Figure 3). In the simulation shown, the trait was under selection upward in the past but has evolved neutrally recently.

私たちは、共焦点シミュレーションにおける当社の手法の性能を検証しました。具体的には、表現型と関連する非連結座の共焦点ツリーをシミュレートしました。シミュレートされた座は、中立的に進化するか、方向性の選択の下で進化します。特に、座$i$のアリルがトレイトに対して効果サイズ$\beta$を持ち、トレイトが時点$t$で選択勾配$\alpha(t)$を経験する場合、そのアリルの選択係数—ヘテロ接合体の適応度から祖先のホモ接合体の適応度を引いたもの—は$s(t)=\alpha(t)\beta_i$です（Charlesworth and Charlesworth 2010、equation B3.7.7）。共焦点シミュレーションは、mssel（Berg and Coop 2015）で実行されました。これは、選択によって生成される可能性のあるアリル周波数の経時変化を考慮するms（Hudson 2002）のバージョンであり、一定の集団サイズを仮定しています。導出アリルの効果サイズはゼロを中心にした正規分布から抽出されます。シミュレーションの詳細については、付録Eを参照してください。

手法の性能を検証する際、（1）真のツリーが入力として提供される場合と、（2）ツリーをシーケンスデータから再構築する必要がある場合の2つのケースを考慮しています。ツリーの再構築には、ツリー再構築のためのソフトウェアRENT+（Mirzaei and Wu 2016）を使用しています。

多くのシミュレーションにわたる体系的な結果を考慮する前に、1つの代表的なシミュレーションの推定された経時変化を示します（図3）。表示されているシミュレーションでは、トレイトは過去に上向きの選択の影響を受けていますが、最近は中立的に進化しています。

The proportion-of-lineages estimator (Equation 4) estimates allele frequencies as the proportion of lineages ancestral to the sample carrying each allele. It is expected to perform well under neutrality, and it does here: in the neutral period between the offset of selection and the present, it tracks the true polygenic score closely. During the period of selection, looking backward in time, the proportion-of-lineages estimator strays off target, slowly recovering in the period before the onset of selection. Looking forward in time, it is as if the proportion-of-lineages estimator “anticipates” shifts due to selection. As mentioned in the Proportion-of-lineages estimator subsection, the apparent anticipation occurs because, if there has been selection between the present and time $t$ in the past, then the ancestors of the present-day sample at time $t$ are a biased sample from the population at time $t$. For example, if the trait has been selected upward, then the ancestors of a present-day sample will have had high trait values compared with their peers.

The waiting-time estimator (Equation 11) and the lineages-remaining estimator (Equation 14) do not rely on an explicit neutrality assumption. Instead, they track the relative passage of coalescent time—measured, roughly, in terms of coalescence events—for each allelic type. These estimators track the rapid change in the polygenic score during the period of selection much more closely than the proportion-of-lineages estimator. (Only the lineages-remaining estimator is shown in Figure 3.) At the same time, these estimators rely on a highly stochastic signal—in the case of the waiting-time estimator (with $l=1$⁠), single coalescence events—and they are noisier than the proportion-of-lineages estimator as a result.

The patterns seen in Figure 3 reflect the performance of the methods over many simulations, as detailed in the next subsections.

比率の系統推定器（式4）は、各アリルを運ぶサンプルの祖先の割合としてアリル頻度を推定します。これは中立の下ではうまく機能すると予想され、実際にもその通りです。選択のオフセットと現在の中立期間では、真の多遺伝子スコアを密接に追跡します。選択期間中、時間を遡って見ると、比率の系統推定器は目標から外れ、選択の始まる前の期間にゆっくり回復します。時間を前向きに見ると、比率の系統推定器はまるで選択によるシフトを「予測」しているかのようです。比率の系統推定器のサブセクションで述べたように、この見かけの予測は、過去の現在と時刻$t$の間で選択があった場合、時刻$t$での現在のサンプルの祖先は時刻$t$の人口からのバイアスのあるサンプルであるため発生します。たとえば、トレイトが上向きに選択されている場合、現在のサンプルの祖先はその仲間と比較して高いトレイト値を持っていた可能性があります。

待ち時間推定器（式11）および系統残存推定器（式14）は、明示的な中立の仮定に依存しません。代わりに、それらは各アリル型の系統時間の相対的な経過を追跡します。これらの推定器は、選択期間中の多遺伝子スコアの急激な変化を、比率の系統推定器よりもはるかに密接に追跡します（図3には系統残存推定器のみが表示されています）。同時に、これらの推定器は非常に確率的な信号に依存しており、待ち時間推定器の場合（$l=1$の場合）、単一の系統合体イベントとなり、その結果、比率の系統推定器よりもノイズが多くなります。

図3で見られるパターンは、次のサブセクションで詳細に説明されるように、多くのシミュレーションを通じての手法の性能を反映しています。

### Estimator performance: bias and mean squared error

Figure 4 shows bias and mean squared error (MSE) of our estimators of the historical polygenic score across three scenarios: one in which the trait has evolved neutrally, one in which there has been recent directional selection on the trait, and a third in which there has been directional selection on the trait in the past but the trait has recently evolved neutrally. These estimators are also compared with a “straight-line” estimator: a straight line that goes from the present value to the ancestral state (i.e., all derived-allele frequencies zero) in two coalescent units. In the neutral case, none of the estimators show marked bias and the proportion-of-lineages estimator has the lowest variance (and thus lowest MSE). Estimators formed from trees reconstructed by RENT+ (dashed lines) rather than the true trees (solid lines) are noisier and they do not outperform the straight-line estimator under neutrality.

図4は、トレイトが中立に進化した場合、トレイトに最近の方向性選択があった場合、および過去にトレイトに方向性選択があったが、最近は中立に進化している場合の3つのシナリオでの歴史的な多遺伝子スコアの推定量のバイアスと平均二乗誤差（MSE）を示しています。これらの推定器は、「直線」推定器と比較されます。これは、現在の値から祖先の状態（すなわち、すべての派生アリルの頻度がゼロ）までの2つの連鎖単位を移動する直線です。中立の場合、どの推定器も著しいバイアスを示さず、比率の系統推定器が最も低い分散（したがって、最も低いMSE）を有しています。 RENT+によって再構築された木から形成された推定器（破線）は、真の木（実線）よりもノイズが多く、中立の下では直線推定器を上回ることはありません。

In the presence of selection, the proportion-of-lineages estimator is badly biased, and the severity of the bias increases during the interval of selection (looking backward in time). The waiting-time and lineages-remaining estimators are less strongly biased in the presence of selection and they achieve similar MSEs under selection and neutrality. Again, estimators formed from RENT+ trees perform worse than estimators formed from the true trees, but in the presence of selection, they outperform the straight-line estimator.

選択が存在する場合、比率の系統推定器は大きなバイアスがあり、バイアスの厳しさは選択の間隔中（時間を逆行して）で増加します。待ち時間および残存系統の推定器は、選択の存在下でもバイアスが強くなく、選択と中立の下で類似したMSEを達成します。再度、RENT+木から形成された推定器は、真の木から形成された推定器よりも性能が劣りますが、選択が存在する場合、直線推定器を上回ります。

### Interval estimation: coverage probabilities

Figure 5 shows the coverage probabilities of nominal 95% confidence intervals formed on the basis of the proportion-of-lineages, waiting-time, and lineages-remaining estimators and their (approximate) variances.

Figure 5は、比率の系統推定器、待ち時間および残存系統推定器、およびそれら（近似）分散に基づいて形成された名目の95％信頼区間の被覆確率を示しています。

Under neutrality, and when using the true trees, all confidence intervals have approximately the correct coverage, although coverage for confidence intervals for both the lineages-remaining and waiting-time estimators decays further into the past. The decay of the coverage probability far in the past makes sense for the lineages-remaining and waiting-time estimators: both of these estimators implicitly assume that the number of carriers of each allele in the population remains constant between coalescent events. This assumption may be a reasonable approximation in the recent past, when coalescent events are frequent, but become untenable in the distant past, when coalescence times are longer.

Confidence intervals computed on the basis of RENT+ trees only achieve the nominal coverage in the very recent past and become anticonservative further back in time. This behavior is expected; the variances we use incorporate stochasticity in the coalescent process but do not account for randomness arising from errors in tree estimation. [Stochasticity in the coalescent process has been called “coalescent error” and contrasted with randomness from errors in tree estimation, or “phylogenetic error” (Ho and Shapiro 2011)].

Under selection, confidence intervals from the proportion-of-lineages estimator have very low coverage—this arises from the bias documented in Figure 4. The coverage probabilities of the waiting-time and lineages-remaining estimators are less changed by selection.

中立性の下では、真の系譜を使用すると、すべての信頼区間がほぼ正しい被覆率を有していますが、lineages-remainingおよびwaiting-time推定器の信頼区間に関しては、過去に進むにつれて被覆が低下します。過去に進むにつれて被覆確率が低下する現象は、lineages-remainingおよびwaiting-time推定器にとって合理的な近似である可能性があるためです。これらの推定器の両方は、各遺伝子座の担い手の数が系統的な事象の間で一定であるという前提を含んでいます。この前提は、共系統的な事象が頻繁に発生する近い過去では合理的な近似であるかもしれませんが、共系統的な時間が長くなる遠い過去では妥当ではありません。

RENT+ツリーに基づいて計算された信頼区間は、非常に最近の過去では名目の被覆率を達成し、過去に進むにつれて非保守的になります。この挙動は予想されるものであり、使用する分散は共系統的な過程の中の確率的な要素を取り入れていますが、系統の推定の誤差から生じるランダム性を考慮していません。【共系統的な過程の中の確率的な要素は「共系統誤差」と呼ばれ、系統の推定の誤差から生じるランダム性、「系統誤差」と対比されています (Ho and Shapiro 2011)】

選択の下では、proportion-of-lineages推定器からの信頼区間の被覆確率は非常に低くなります。これは、Figure 4で文書化されたバイアスに起因しています。waiting-timeおよびlineages-remaining推定器の信頼区間の被覆確率は、選択によってあまり変化しません。

### Power of $T_X$

We assessed the performance of the $T_X$ statistic (Equation 16) as a test statistic for detecting selection in the simulations shown in Figure 4 and Figure 5. We constructed the test statistic from the allele-frequency estimates produced by each of the proposed estimators and compared it against both the theoretical $\chi^2$ distribution and against a permutation distribution. Table 1 shows the results. Under neutrality (first two rows), comparing $T_X$ against a distribution formed by randomly permuting the effect sizes produces acceptable type-I error rates. (There are 100 simulations using RENT+ and the values in Table 1 do not differ significantly from 0.05.) When the theoretical $\chi^2$ distribution is used, RENT+ type-I error rates are unacceptably high, but the type-I error rates produced from the true trees are acceptable.

#### Power/type-I error of various implementations of the $T_X$ statistic

Of the methods with acceptable type-I error, tests using the allele frequencies estimated by the proportion-of-lineages estimator have by far the highest power. It may seem paradoxical that the proportion-of-lineages estimator is the best of our estimators at detecting selection, given that the estimated time courses produced by the proportion-of-lineages estimator are biased in the presence of selection. However, in our simulations, the proportion-of-lineages estimator generally moves in the correct direction in the presence of selection, albeit more slowly than it should. In contrast, the other two allele-frequency estimators are highly variable, leading to wide null distributions and decreased power. The proportion-of-lineages estimator can also be thought of as the mean polygenic score among lineages ancestral to the sample, and the test for selection responds to changes in the mean polygenic score of the ancestors that are faster than would be expected under the null hypothesis of neutral evolution.

With the proportion-of-lineages estimator, using true trees unsurprisingly gives better power than RENT+ trees, but RENT+ trees still have substantial power.

受け入れ可能な第I型エラーを持つ方法の中で、比例のラインエージ推定器によって推定されたアリル頻度を使用した検定ははるかに高いパワーを持っています。比例のラインエージ推定器が選択を検出するために最も優れた推定器であることは、選択の存在下で比例のラインエージ推定器によって生成された推定された時間軸がバイアスを持っているという事実とは矛盾するように思えるかもしれません。ただし、シミュレーションでは、比例のラインエージ推定器は一般的に選択の存在下で正しい方向に動きますが、その速さは本来よりも遅いです。対照的に、他の2つのアリル頻度推定器は非常に変動が激しく、広いヌル分布となり、パワーが低下します。比例のラインエージ推定器は、サンプルの先祖の平均遺伝子スコアと考えることもでき、選択を検出するテストは、中立進化のヌル仮説の下で予想されるよりも速いペースで先祖の平均遺伝子スコアの変化に応答します。

比例のラインエージ推定器では、真のツリーを使用することが当然のようにより高いパワーをもたらし、RENT+ツリーはそれでもかなりのパワーを持っています。

In Table 1, power is higher when selection occurs closer to the present. To explore the relationship between the timing of selection and present-day sample size, we conducted additional simulations. In these simulations, we assessed the power of the $T_X$ test (using the proportion-of-lineages allele-frequency estimates from true trees, and comparing with a permutation distribution) to detect an approximate one-standard-deviation shift in the population-mean polygenic score. We varied the timing of the shift and the present-day sample size. Figure 6 shows the results. For detecting selection close to the present, power increases with sample size. However, for selection further in the past, power reduces to the type-I error rate, regardless of the present-day sample size. This is because power to detect selection depends on unusual coalescent times during the period of selection, and by 0.1 coalescent units in the past, most coalescent events have already occurred, even in large samples. For example, even extremely large present-day samples have, in expectation, $\sim 200.5$ ancestors tracing back 0.01 coalescent units in the past and $\sim 20.5$ ancestors 0.1 coalescent units in the past (Maruvka et al. 2011; Jewett and Rosenberg 2014). Thus, it will likely be impossible to detect all but the strongest selective events by their signatures in coalescent trees if they are over 0.1 coalescent units in the past. $T_X$’s power to detect selection up to $\sim 0.02 - 0.04$ coalescent units into the past represents an extension of the SDS statistic (figure S6 in Field et al. 2016), which has excellent power in the very recent past but very little power beyond the expected length of a terminal branch [$2/n$ in coalescent units, where n is the present-day sample size (Fu and Li 1993)]. In Appendix F, we show empirical power for a test statistic analogous to SDS computed from the lengths of the terminal branches (Figure F1). This SDS analog has similar power to $T_X$ near the present, but its power decays more rapidly for selection further in the past.

表1では、選択が現在に近いとより高いパワーがあります。選択のタイミングと現代のサンプルサイズの関係を探るために、追加のシミュレーションを行いました。これらのシミュレーションでは、$T_X$テスト（真のツリーからの比例のラインエージアリル頻度推定を使用し、パーミュテーション分布と比較）のパワーを評価して、集団平均ポリジェニックスコアの概算1標準偏差のシフトを検出しました。シフトのタイミングと現代のサンプルサイズを変化させました。図6にその結果を示します。現在に近い選択を検出する場合、パワーはサンプルサイズとともに増加します。ただし、選択が過去に遠い場合、パワーは現代のサンプルサイズに関係なく、第I型エラー率に低下します。これは、選択を検出するためのパワーが選択期間中の異常な合祖時間に依存するためであり、過去0.1の連鎖単位では、ほとんどの合祖イベントが既に発生しているため、大規模なサンプルでもほとんど検出できないでしょう。たとえば、極めて大きな現代のサンプルであっても、期待値で遡及0.01の連鎖単位にさかのぼる$\sim 200.5$の先祖と、遡及0.1の連鎖単位にさかのぼる$\sim 20.5$の先祖がいます（Maruvka et al. 2011; Jewett and Rosenberg 2014）。したがって、もし選択が0.1連鎖単位以上の過去にある場合、その共祖のサインによって強力な選択イベントを検出するのはほぼ不可能でしょう。$T_X$が過去$\sim 0.02 - 0.04$の連鎖単位までの選択を検出するパワーは、SDS統計量の拡張を表しています（Field et al. 2016のfigure S6）。SDS統計量は非常に近い過去に優れたパワーを持っていますが、終端枝の予想される長さを超えてほとんどパワーがありません（Fu and Li 1993による連鎖単位での予想される長さ$2/n$、ここでnは現代のサンプルサイズです）。付録Fでは、終端枝の長さから計算されたSDSと類似のテスト統計量の実効的なパワーを示しています（図F1）。このSDSアナログは現在に近いところで$T_X$と同様のパワーを持っていますが、過去に選択がある場合、そのパワーはより急速に低下します。

#### Simulations with larger numbers of loci

All of the above simulations are of polygenic scores that incorporate 100 loci each. Reassuringly, the performance is extremely similar for all estimators and tests if the number of loci is increased, using the estimators based on the true trees. In Supplemental Material, Figure S1, Figure S2, and Table S1, we show results analogous to Figure 4, Figure 5, and Table 1 with 1000 loci per polygenic score.

以上のすべてのシミュレーションは、それぞれ100のローカスを組み込んだポリジェニックスコアのものです。安心してください、ローカスの数が増加すると、真のツリーに基づく推定器を使用した場合には、すべての推定器とテストに対するパフォーマンスが非常に類似しています。補足資料のFigure S1、Figure S2、およびTable S1では、ローカスごとに1000個のポリジェニックスコアを使用した場合のFigure 4、Figure 5、およびTable 1に類似した結果を示しています。

## Empirical Application: Human Height

We applied our proposed estimators to human polygenic scores for height. Genetic variation within Europe related to human height has been studied by many investigators interested in polygenic selection (Turchin et al. 2012; Berg and Coop 2014; Robinson et al. 2015; Field et al. 2016; Berg et al. 2017; Racimo et al. 2018; Uricchio et al. 2018). A recent pair of articles compared the results produced by existing tests for polygenic selection when applied to human height using GWAS effect sizes from two different studies (Berg et al. 2018; Sohail et al. 2018). Most previous work has used GWAS effect sizes from the Genetic Investigation of Anthropometric Traits (GIANT) consortium (Wood et al. 2014), whereas the new work uses GWAS effect sizes from the larger and presumably less structured UK Biobank sample (Sudlow et al. 2015). Tests for polygenic selection on height provide much less evidence for selection when UK Biobank effect sizes are used than when effect sizes from GIANT are used. One possible explanation is that GIANT effect sizes are contaminated by some degree of population stratification.

In Figure 7, we show estimated population-mean polygenic-score time courses among populations ancestral to the GBR (British in England and Scotland) subsample of the 1000 Genomes Project (1000 Genomes Project Consortium et al. 2012). In the top panel GIANT effect sizes are used, and in the bottom panel UK Biobank effect sizes are used. Polygenic scores were constructed by taking the top locus in each of $\sim 1700$ approximately independent genetic regions. [These polygenic scores are identical to those used in Berg et al. (2018); our “UK Biobank” is their “UKB-GB.”] Coalescent trees for these loci were estimated in RENT+. (Details in Appendix G.)

提案された推定器を人間の身長のポリジェニックスコアに適用しました。ヨーロッパ内の遺伝的な変動は、多くのポリジェニック選択に関心を持つ研究者によって人間の身長に関連して研究されてきました（Turchin et al. 2012; Berg and Coop 2014; Robinson et al. 2015; Field et al. 2016; Berg et al. 2017; Racimo et al. 2018; Uricchio et al. 2018）。最近の2つの記事は、既存のポリジェニック選択のテストを、2つの異なる研究からのGWAS効果サイズを用いて人間の身長に適用した結果を比較しています（Berg et al. 2018; Sohail et al. 2018）。以前のほとんどの研究は、遺伝学的人類測定トレイト（GIANT）コンソーシアム（Wood et al. 2014）のGWAS効果サイズを使用してきましたが、新しい研究では、より大規模で構造が少ないと推定されるUK Biobankサンプル（Sudlow et al. 2015）のGWAS効果サイズを使用しています。身長に関するポリジェニック選択のテストは、GIANTの効果サイズを使用する場合よりも、UK Biobankの効果サイズを使用する場合にははるかに少ない選択の証拠を提供しています。その一つの可能な説明は、GIANTの効果サイズにはある程度の集団構造が混入している可能性があることです。

図7では、1000 Genomes Project（1000 Genomes Project Consortium et al. 2012）のGBR（イングランドおよびスコットランドのイギリス人）サブサンプルに由来する人口平均のポリジェニックスコアの時間経過を推定しています。上部パネルではGIANTの効果サイズを使用し、下部パネルではUK Biobankの効果サイズを使用しています。ポリジェニックスコアは、約1700の独立した遺伝的領域の各々のトップローカスを取ることで構築されました（これらのポリジェニックスコアはBerg et al.（2018）で使用されているものと同じです；私たちの「UK Biobank」は彼らの「UKB-GB」です）。これらのローカスのコアレセントツリーはRENT+で推定されました（詳細は付録Gを参照）。

When the time courses are constructed using GIANT, all three estimators suggest that the population-mean polygenic score for height has increased in the recent past. Using the proportion-of-lineages approach, an increase of approximately three present-day polygenic-score standard deviations is estimated. In contrast, time courses estimated using the UK Biobank effect sizes show little apparent change in the recent past: the proportion-of-lineages estimator suggests a recent decrease of ∼0.34 standard deviations.

Further, when the change from the present to the most recent time point (0.001 units in RENT+) is assessed by the $T_X$ test, both sets of effect sizes yield some evidence of selection, but the evidence is stronger with GIANT effect sizes than with UK Biobank effect sizes. Specifically, with GIANT, $T_X(1)=14.9, P=0.0005$  from 10,000 permutations, and with UK Biobank, $T_X(1)=7.0, P=0.0112$⁠. [We do not claim that the difference between the $T_X$ values across the data sets is itself significant (Gelman and Stern 2006), merely that the pattern of weakened evidence in the UK Biobank matches that observed by recent work (Berg et al. 2018; Sohail et al. 2018).] However, using both data sets, the evidence for selection is limited to periods very close to the present. If the same set of times evaluated in the simulations is evaluated for the height polygenic scores (approximate coalescent times $0,0.01,0.02,...,0.1$ before the present), neither polygenic-score time course provides evidence for selection (⁠$P \approx 0.2$ in both cases). GIANT effect sizes produced much lower P-values for recent selection on height in the UK in a recent article (Field et al. 2016), but that work used a sample of 3195 genomes, whereas the GBR subset of the 1000 Genomes sample contains only 91 genomes.

Thus, our estimators broadly recapitulate the pattern of other methods for detecting polygenic selection, finding evidence suggestive of selection when GIANT effect sizes are used but much weaker evidence when UK Biobank effect sizes are used.

GIANTを使用して構築された時間経過では、3つの推定器全てが過去において身長の人口平均ポリジェニックスコアが増加したことを示唆しています。Proportion-of-lineagesアプローチを使用すると、現在のポリジェニックスコアの標準偏差が約3増加したと推定されます。対照的に、UK Biobankの効果サイズを使用して推定された時間経過では、最近の過去におけるほとんど変化が見られません。Proportion-of-lineages推定器は、最近の約0.34標準偏差の減少を示唆しています。

さらに、現在から最も最近の時間点（RENT+の0.001単位）への変化を$T_X$テストで評価すると、両方の効果サイズセットが選択のいくつかの証拠を提供しますが、GIANTの効果サイズではUK Biobankの効果サイズよりも証拠が強いです。具体的には、GIANTでは$T_X(1)=14.9, P=0.0005$（10,000回の置換から）、UK Biobankでは$T_X(1)=7.0, P=0.0112$となります。 [私たちはデータセット間の$T_X$値の差がそれ自体で有意であると主張していません（Gelman and Stern 2006）が、単にUK Biobankでの弱まった証拠のパターンが最近の研究（Berg et al. 2018; Sohail et al. 2018）で観察されたものと一致していることを指摘しています。] ただし、両方のデータセットを使用しても、選択の証拠は非常に最近の時期に限定されています。シミュレーションで評価された同じ一連の時間（約共立時0, 0.01, 0.02、...、現在の10年前）を身長のポリジェニックスコアに評価すると、いずれのポリジェニックスコアの時間経過も選択の証拠を提供しません（両方の場合で$P \approx 0.2$）。GIANTの効果サイズは、最近の論文（Field et al. 2016）でイギリスでの身長に対する最近の選択に対するP値がはるかに低かったが、その研究は3195ゲノムのサンプルを使用しており、1000 GenomesサンプルのGBRサブセットはわずか91ゲノムしか含まれていません。

したがって、私たちの推定器は、GIANTの効果サイズを使用すると選択の兆候が見られる一方、UK Biobankの効果サイズを使用するとはるかに弱い証拠が得られるという、他のポリジェニック選択を検出するための手法のパターンを広く反映しています。

## Discussion

We have proposed a set of estimators and tests for population-mean polygenic scores over time, given (additive) effect sizes for a trait at independent trait-associated loci and coalescent trees for the trait-associated loci. Estimation of the population-mean polygenic-score time course is most effective when the trait (and its associated loci) evolves neutrally and the ancestors of the sample are representative of the ancestral population. When the trait has been under selection, estimation is still possible, but the estimates obtained are noisier. Tests for polygenic selection that are based on coalescent trees have the potential to be powerful in the recent past.

In terms of practical applications, we have produced one estimator that produces good estimates of population-mean polygenic-score time courses under neutrality and that is also well powered to detect departures from neutrality (the proportion-of-lineages estimator). The other two estimators are less biased by selection, but they are variable and less useful for detecting selection. At this writing, one sensible procedure for fitting these methods to data would be to form initial estimates using the proportion-of-lineages estimator and test them for selection using the statistic. If the test suggests selection, then the ancestors of the sample may not be representative of the ancient population and polygenic-score time courses from the proportion-of-lineages estimator may be biased. In that case, the waiting-time or lineages-remaining estimators might be applied.

提案された一連の推定量と検定は、独立した関連遺伝子座でのトレイトの（加法的な）効果サイズと、トレイト関連座のコアレッセンスツリーが与えられた場合の、時間の経過とともに変化する集団平均多遺伝子スコアに対しています。集団平均多遺伝子スコアの時間経過の推定は、トレイト（およびその関連座）が中立的に進化し、サンプルの祖先が祖先集団を代表している場合に最も効果的です。トレイトが選択の影響を受けている場合、推定はまだ可能ですが、得られる推定値はノイズが多くなります。コアレッセンスツリーに基づく多遺伝子選択の検定は、近い過去で強力である可能性があります。

実用的な応用の観点から、我々は中立的な条件下で集団平均多遺伝子スコアの時間経過を良好に推定し、また中立性からの逸脱を検出するのにも十分なパワーを持つ推定量を一つ提案しています（系統の割合推定量）。もう一方の2つの推定量は選択によるバイアスが少ないですが、変動が大きく、選択を検出するのにはあまり役立ちません。この時点では、これらの方法をデータに適用する合理的な手順の一つは、系統の割合推定量を使用して初期の推定値を形成し、それらを選択に対して検定することです。もし検定が選択を示唆する場合、サンプルの祖先が古代の人口を代表していない可能性があり、系統の割合推定量からの多遺伝子スコアの時間経過はバイアスがかかるかもしれません。その場合は、待ち時間推定量または残存系統推定量が適用されるかもしれません。

These methods add to a set of methods that use GWAS information to study the history of complex traits (Berg and Coop 2014; Field et al. 2016; Berg et al. 2017; Racimo et al. 2018; Uricchio et al. 2018). Many of these methods have been applied to human height, and our methods produce similar conclusions when applied to the same data (Berg et al. 2018; Racimo et al. 2018; Sohail et al. 2018; Uricchio et al. 2018). Our methods add to previous work by estimating the historical time courses of mean polygenic scores and by leveraging ARGs.

As with other population-genetic methods for studying polygenic traits, results from our methods are accompanied by many qualifiers to interpretation (Novembre and Barton 2018).

これらの方法は、GWAS情報を使用して複雑なトレイトの歴史を研究する一連の手法に追加されます（Berg and Coop 2014; Field et al. 2016; Berg et al. 2017; Racimo et al. 2018; Uricchio et al. 2018）。これらの手法の多くは人間の身長に適用されており、同じデータに適用された場合、我々の手法も同様の結論を導き出します（Berg et al. 2018; Racimo et al. 2018; Sohail et al. 2018; Uricchio et al. 2018）。我々の手法は、平均多遺伝子スコアの歴史的な時系列を推定し、ARGsを活用することにより、以前の研究に貢献しています。

他の多遺伝子トレイトを研究するための集団遺伝学的手法と同様に、我々の手法から得られる結果には多くの解釈の修飾が伴います（Novembre and Barton 2018）。

In general, estimates arising from the methods presented here should not be viewed as necessarily reflecting the historical time course of trait values within a population. In our simulations, the association between genotype and phenotype was assumed to remain constant over time. In contrast, polygenic scores estimated in practice are better thought of as functions that encode present-day associations between genotype and phenotype. The genotype–phenotype association captured by a polygenic score may be due to causal effects of the included genotypes, but it might also be due to linkage disequilibrium between tag SNPs and ungenotyped causal SNPs, to indirect genetic effects (Kong et al. 2018; Walsh and Lynch 2018, Chap. 22), or to environmental effects that covary with genotype for other reasons. Any of these sources of association between genotype and phenotype might change as the environment and genetic background of the population change over time, causing time courses estimated by our method to deviate from the history of average trait values in the population. For example, the genetic architecture may change across the time period over which estimates are made, for example because of changes in linkage disequilibrium between tag loci and causal loci (Martin et al. 2017), or because loci that explained trait variation in the past have since fixed or been lost. Further, real-world estimates of effect size will be subject to noise in estimation and possibly bias due to stratification. [Even small amounts of stratification can seriously mislead tests for selection (Berg et al. 2018; Sohail et al. 2018).] Particularly in case-control studies, ascertainment biases may also lead to confounding between the evolutionary status of an allele (i.e., derived or ancestral status) and power to detect trait associations (Chan et al. 2014). Also, importantly, changes in the environment may drive changes in mean levels of the trait that either amplify or oppose changes in population-mean polygenic scores, either via their direct effects or via gene–environment interactions. Finally, for most human traits, current polygenic scores explain relatively small proportions of the trait variance. In addition to all the issues above that might lead to bias in an inferred time course, using a weakly predictive polygenic score adds measurement error to the inferred time course—much of the variance in the trait will not be reflected by the polygenic score. This added variance would not be expected to increase the type-I error rate of tests of neutrality, but it will make the inferred time courses less likely to reflect the history of the trait closely.

一般的に、ここで提示された方法による推定値は、必ずしも集団内のトレイト値の歴史的な時系列を反映しているわけではありません。シミュレーションでは、遺伝子型と表現型の関連性が時間とともに一定であると仮定されました。対照的に、実際に推定される多遺伝子スコアは、現在の遺伝子型と表現型の関連性をエンコードする関数として考える方が良いです。多遺伝子スコアによって捉えられる遺伝子型-表現型の関連性は、含まれる遺伝子型の因果的な効果に起因するかもしれませんが、tag SNPと非型化された因果関係のあるSNPとのリンケージジーキルブリウム、間接的な遺伝的影響（Kong et al. 2018; Walsh and Lynch 2018, Chap. 22）、または他の理由で遺伝子型と共変する環境効果によるものかもしれません。これらの遺伝子型と表現型の関連性のいずれもが、環境や集団の遺伝的背景が時間とともに変化するにつれて変化する可能性があり、これが我々の手法によって推定される時間軌跡を集団の平均トレイト値の歴史から逸脱させる可能性があります。例えば、推定が行われる時間の範囲を通じて遺伝子型と表現型の間のリンケージジーキルブリウムの変化によるもの（Martin et al. 2017）、または過去にトレイトの変動を説明していたローカイが固定化されたり失われたりしたことによるものが考えられます。さらに、実世界での効果サイズの推定は推定のノイズや層別化によるバイアスの可能性にさらされます。[わずかな層別化でも選択のテストを混乱させる可能性があります（Berg et al. 2018; Sohail et al. 2018）。] 特に対照群対照研究では、収集バイアスが派生遺伝子または祖先遺伝子の進化的な状態とトレイトの関連性を検出するパワーとの間に混同を引き起こす可能性があります（Chan et al. 2014）。また、重要なこととして、環境の変化はトレイトの平均値の変化を引き起こす可能性があり、これは直接的な効果または遺伝子-環境相互作用を介して、集団平均多遺伝子スコアの変化を増幅または阻害する可能性があります。最後に、ほとんどの人間のトレイトにおいて、現在の多遺伝子スコアはトレイト分散の比較的小さな割合を説明します。推定される時間軌跡にバイアスをもたらす可能性のある上記のすべての問題に加えて、予測力の弱い多遺伝子スコアは推定された時間軌跡に測定誤差を追加します。トレイトの分散の多くは多遺伝子スコアによって反映されないでしょう。この追加の分散は、中立性のテストのタイプIエラー率を増加させることは期待されていませんが、推定された時間軌跡がトレイトの歴史をより正確に反映する可能性を減少させるでしょう。

Beyond these general caveats, the methods we propose here have several limitations that suggest directions for future work. The first three limitations concern outstanding statistical issues. First, the polygenic scores we estimate here are weighted sums of effect sizes estimated under additive models. Our variance estimates also assume that the loci incorporated in the polygenic score are in linkage equilibrium. Because our estimators work by estimating historical allele frequencies at the loci contributing to the polygenic score, they can in principle be adapted to estimate any function of allele frequencies, including trait predictions that account for dominance, epistasis, and linkage among loci, and also to single-locus trajectories. However, the strategies we use here for variance estimation and hypothesis testing may need to be modified for more general functions of allele frequencies. Second, any applications of these methods to real data will entail noise that is not accounted for by the variance estimates we propose. In particular, effect sizes will be estimated with error and so will the coalescent trees for sites included in the polygenic score. It will be important to incorporate these sources of variance in future estimates of sampling variation. Third, as suggested in the Theory section, the waiting-time and lineages-remaining estimators implicitly contain smoothing parameters. Fully characterizing the effects of these smoothing parameters and of alternative smoothing strategies—such as those used to smooth coalescent-based estimates of population-size history (Drummond et al. 2005; Minin et al. 2008)—will reveal the potential of these estimators, which have high variance in the forms in which they are used here.

これらの一般的な注意事項に加えて、ここで提案する方法にはいくつかの制約があり、今後の研究の方向性を示唆しています。最初の3つの制約は未解決の統計的な問題に関連しています。まず第一に、ここで推定する多遺伝子スコアは、加法モデルの下で推定された効果サイズの加重和です。また、我々の分散の推定値は、多遺伝子スコアに組み込まれた座標がリンケージ平衡にあると仮定しています。推定手法は原則として、多遺伝子スコアに寄与する座標の歴史的なアレル頻度を推定することによって機能し、これには優性、相互作用、および座標間のリンケージを考慮したトレイト予測を含む任意のアレル頻度の関数を推定することができます。ただし、ここで使用されているアレル頻度の関数に対しては、分散推定および仮説検定に使用される戦略が、アレル頻度のより一般的な関数に対して変更が必要かもしれません。第二に、これらの方法を実データに適用する場合、提案された分散推定に考慮されていないノイズが発生します。特に、効果サイズと多遺伝子スコアに含まれるサイトのコアレッセントツリーはエラーで推定されます。これらの分散の要因を将来のサンプリング変動の推定に組み込むことが重要です。第三に、理論のセクションで示唆されているように、待ち時間および残存ラインエージスの推定器には暗黙のうちにスムージングパラメータが含まれています。これらのスムージングパラメータと代替のスムージング戦略（Drummond et al. 2005; Minin et al. 2008 で人口サイズの歴史を平滑化するために使用されるものなど）の効果を完全に特徴づけることは、これらの推定器の潜在能力を明らかにするでしょう。

The next three possible extensions are suggested by biological applications and by the coalescent framework in which we work. First, the theory we develop here is for a single population, but our setting within a coalescent framework suggests the possibility for extension to multiple populations, perhaps by developing multivariate analogs of our statistics within a coalescent-with-migration framework (Kaplan et al. 1991). Similarly, whereas we work with polygenic scores for a single trait, our methods can be extended to consider polygenic scores for multiple, correlated traits. In a similar vein, Berg et al. (2017) have recently extended the $Q_X$ statistic to multiple correlated traits, drawing inspiration from the framework of Lande and Arnold (1983). Working with multiple traits will allow us to distinguish hypotheses in which a trait is directly subject to selection from hypotheses in which a correlated trait is the target of selection. Finally, because the coalescent framework explicitly represents the evolution of the sample backward in time, it will be productive to incorporate ancient samples.

The methods we propose are promising in part because they capitalize on illuminating descriptions of genetic variation that will become increasingly widely available. ARGs encode all the coalescence and recombination events reflected in the present-day sample, and thus are richly informative about the history of the sample’s ancestors. Statistics computed from these ARGs have the potential to capture all the information about an allele’s frequency time course that is available in a present-day sample. Approaches to traits that are based on sample ARGs will improve with the development of our understanding of the architecture of complex traits and of our ability to reconstruct ARGs.

次に、バイオロジカルな応用と、我々が取り組むコアレッセントの枠組みから示唆される可能性のある3つの拡張があります。まず第一に、ここで開発した理論は単一の集団に対するものですが、コアレッセントの枠組みの中での我々の設定は、複数の集団に拡張する可能性を示唆しています。これは、移民があるコアレッセントと共に組み合わさったフレームワーク内で、我々の統計の多変量アナログを開発することによって実現できるかもしれません（Kaplan et al. 1991）。同様に、単一のトレイトのための多遺伝子スコアで作業しているが、我々の方法は複数の相関するトレイトのための多遺伝子スコアを考慮するように拡張できます。Berg et al. (2017) も最近、Land e and Arnold (1983) の枠組みからインスパイアを得ながら、$Q_X$ 統計を複数の相関するトレイトに拡張しています。複数のトレイトで作業することで、あるトレイトが直接的に選択の対象である仮説と、相関するトレイトが選択の対象である仮説を区別することができます。最後に、コアレッセントの枠組みが明示的にサンプルの進化を時間逆行で表現しているため、古代のサンプルを組み込むことが有益でしょう。

提案する方法は、遺伝的変異に関する明快な記述を活かしているため、一部有望です。ARGs は、現代のサンプルに反映されるすべてのコアレッセンスと組み換えのイベントをエンコードしており、したがってサンプルの祖先の歴史に関する豊かな情報を提供しています。これらのARGs から計算された統計量は、現代のサンプルで利用可能なアレルの頻度経時のすべての情報を捉える潜在能力があります。ARGs を使用したトレイトへのアプローチは、複雑なトレイトのアーキテクチャに対する理解の進展と、ARGs の再構築能力の向上とともに改善されるでしょう。

# Code Test

**************

In [1]:
ls

06_231226_PRSadvance.ipynb  EdgeCoop2019.ipynb  README.md  rhps_coalescent


事前にコードがアップロードされているGitHubから必要なレポジトリをダウンロードしてある。

    git clone git@github.com:mdedge/rhps_coalescent.git
    cd rhps_coalescent
    rm -r .git #gitから切り離し

In [2]:
cd rhps_coalescent
ls

height_analyses              msseldir      small_example
helper_functions_coal_sel.R  README.md
maintext_sims_rent_061318    RentPlus.jar


具体的な内容はREADMEにある

https://github.com/mdedge/rhps_coalescent/tree/master

>The small_example directory contains a small working example to show how the functions in helper_functions_coal_sel.R were used to generate simulations, estimate trees with RENT+, and estimate/test polygenic score trajectories on the basis of the (both true and RENT+-estimated) trees. If you download this repository, the example should run if you have R with the ape package installed as well as a version of java compatible with RENT+ (see the RENT+ github page above). The height_analyses and maintext_sims directories (described below) are not necessary. See the readme.md file in the directory for instructions.

>small_exampleディレクトリには、helper_functions_coal_sel.Rの関数がどのように使用され、シミュレーションが生成され、RENT+で木が推定され、（真の木とRENT+で推定された）木に基づいてポリジェニックスコアの軌跡が推定/テストされるかを示す小規模な作業例が含まれています。このリポジトリをダウンロードすると、Rとapeパッケージがインストールされており、RENT+と互換性のあるJavaのバージョンがあれば、この例が実行されるはずです（上記のRENT+ GitHubページを参照）。height_analysesおよびmaintext_simsディレクトリ（後述）は必要ありません。詳細については、ディレクトリ内のreadme.mdファイルを参照してください。

In [3]:
cd small_example
ls

analyze_sim_rent.R  analyze_sim_true.R  example  pheno_sim_1iter.R  README.md


READMEの内容は以下の通り。

>This directory contains code to run a small working example of simulations like those in figures 3-5 of the paper. You can run the example if you have the repository downloaded (not necessary to include the maintext_sims or height_analyses directories), you have R installed (with the ape package also installed), and you have a version of java compatible with RENT+. To run the example, navigate to the small_example/example folder and open R. Then run
>
>```R
>source("loop_pheno_sims_reps.R")
>```
>
>The script will, for several polygenic scores, simulate allele frequency histories and trees, estimate trees using RENT+ at each locus, and run the estimators and tests proposed in the paper on both the true and RENT+-estimated trees. Plots analogous to figures 3-5 will be produced with the trajectories for a single trial, as well as bias/mean squared error and confidence interval coverage. (The bias/MSE and confidence interval plots will look noisy if few trials are run, as is the default.) By default, the parameters
>
>```R
>N <- 10000
>sel.intenses <- .005
>n.locis <- 20
>n_chromss <- 30
>ts <- 0.04
>t.offs <- 0.02
>phen_nums <- 1:5 
>```
>
>specify a constant effective population size of 10000, a selection intensity of .005, 20 loci per polygenic score/trait, 30 chromosomes per simulated sample, selection that is "on" between .02 and .04 coalescent units in the past, and to run 5 simulated trials. The number of simulations, loci per trait, and chromosomes per sample are all smaller than in the paper so that this example will run relatively quickly. On my machine, it runs in a few (~10) minutes.

>このディレクトリには、論文の図3〜5のようなシミュレーションの小規模な作業例を実行するためのコードが含まれています。例を実行するには、リポジトリをダウンロードしている必要があります（maintext_simsまたはheight_analysesディレクトリは含める必要はありません）、Rがインストールされている必要があります（apeパッケージもインストールされている必要があります）、およびRENT+と互換性のあるJavaのバージョンがある必要があります。例を実行するには、small_example/exampleフォルダに移動してRを開き、次のコマンドを実行します。

>```R
>source("loop_pheno_sims_reps.R")
>```

>このスクリプトは、いくつかのポリジェニックスコアに対して、アリール頻度履歴と木をシミュレートし、各ローカスでRENT+を使用して木を推定し、提案された推定器とテストを論文の真の木およびRENT+で推定された木の両方に実行します。単一の試行の軌跡とバイアス/平均二乗誤差、信頼区間のカバレッジと同様のプロットが生成されます（バイアス/MSEおよび信頼区間のプロットは、デフォルトでは少数の試行が実行されるとノイズが多くなります）。デフォルトでは、次のパラメータが定義されています。

>```R
>N <- 10000
>sel.intenses <- .005
>n.locis <- 20
>n_chromss <- 30
>ts <- 0.04
>t.offs <- 0.02
>phen_nums <- 1:5 
>```

>これらのパラメータは、定数の有効個体数が10000、選択強度が0.005、トレイトごとに20のローカス、シミュレートされたサンプルごとに30のクロモソーム、過去の0.02から0.04の共立単位にわたる選択が "オン"であること、および5つのシミュレートされたトライアルを実行するように指定されています。シミュレーションの回数、トレイトごとのローカスの数、およびサンプルごとのクロモソームの数は、この例が比較的速く実行されるように、論文よりも小さく設定されています。私のマシンでは、約10分で実行されます。