# Pràctica amb ordinador 1. Teoria de la coalescència

## Preparació de l'ordinador
Si intentes utilitzar aquest arxiu al teu propi ordinador, t'has d'assegurar que tens instal·lat `jupyter lab`, `R`, i el paquet d'`R` `learnPopGen` [1]. Aleshores, executa el bloc següent per activar les funcions necessàries. Si reinicies el *kernel* en algun moment, caldrà tornar a executar aquest bloc.

In [None]:
# El paquet "learnPopGen" ha d'estar prèviament instal·lat.
# El pots instal·lar amb el comandament: install.packages('learnPopGen')
library('learnPopGen')
# A més, l'script "genealogia.R" conté les funcions "genealogia()" i "mrca()".
source('genealogia.R')

## Com utilitzar aquest document
Açò és un quadern Jupyter que combina text i comandaments del llenguatge informàtic `R` que es poden executar. Cal tenir present el següent:

- Este document és completament editable: pots introduir canvis, personalitzar-lo, ampliar-lo, i fins i tot destruir-lo accidentalment!
- Cada 2 minuts es guarda automàticament la versió actual en un *checkpoint*, i pots recuperar l'últim *checkpoint* amb el menú `File -> Revert Notebook to Checkpoint`.
- També pots guardar els canvis amb `File -> Save Notebook` o amb la combinació de tecles `Ctrl+S`.
- Els blocs de text com aquest es poden editar fent un doble click a sobre. Observaràs que s'utilitza la sintaxi *markdown* per transformar el text pla en HTML.
- Prem el botó de *play* sobre estes línies, o ves a `Run -> Run Selected Cell`, o prem `Shift+Enter` per *executar* una cel·la o bloc. Si és un cel·la de text que estaves editant, tornarà a mostrar-se en un format visualment més còmode.
- És recomanable executar els blocs de codi en ordre: perquè funcione bé un bloc de codi, és possible que s'haja d'haver executat l'anterior. Pots executar el document sencer en `Run -> Run All Cells`, amb l'opció de reiniciar el *kernel* abans, la qual cosa esborraria els resultats d'execucions anteriors.

## Objectius de la pràctica
- Familiaritzar-nos amb el concepte i les característiques del procés de **coalescència**.
- Realitzar simulacions de la coalescència i estimar alguns paràmetres.
- Comparar els paràmetres estimats amb els esperats a partir de la teoria.

## Exercici 1. Nombre de descendents vius
Utilitza la funció `coalescent.plot()` per simular i representar gràficament una població de Fisher-Wright de 20 individus haploides (`n=20`) durant 40 generacions (`ngen = 40`). I contesta (sobre aquest mateix document) les preguntes següents.

In [None]:
sim01 <- coalescent.plot(n = 20, ngen = 40, sleep = 0)

### 1.1 Quina és la mitjana del nombre de descendents d'un individu de la generació zero que estan vius (presents) a la generació 40? És a dir, quants descendents vius d'ací a 40 generacions pot esperar que li queden, un individu qualsevol de la generació actual?
[Ací la teua resposta]

### 1.2 El resultat, depén del nombre de generacions que deixem passar?
[Ací la teua resposta]

### 1.3 Depén de la mida de la població?
[Ací la teua resposta]

### 1.4 És la mitjana un valor representatiu dels valors observats?
[Ací la teua resposta]

### 1.5 Llegeix el text següent i pensa quina opinió et mereix.

> Suposa que la població de Dinamarca compleix les suposicions: 6 milions de persones, un nombre
indefinit de generacions en el passat, sense estructura social i amb un temps de generació de 25
anys. Per estar pràcticament segurs que un individu d’aleshores o bé no té cap descendent en
el present o bé és l’ancestre de tots en el present, ens hauríem de remuntar 966 anys. Com que
el rey Gorm (primer rei danés, mort l’any 958) té descendents en la població actual, ha de ser
necessàriament ancestre de tot el regne.

<div style="text-align: right"> Hein, J., Schierup, M.H. i Wiuf, C. 2005, p. 251 </div>

## Exercici 2. Temps de coalescència de 2 individus
L’objectiu és estimar la mitjana i la variància del nombre de generacions que ens hem de remuntar en el
passat per trobar l’ancestre comú més recent de dos individus actuals triats a l’atzar. Per obtenir uns
valors representatius cal utilitzar almenys 10 simulacions diferents. Simularem poblacions de 20 individus
durant 60 generacions. Per triar 2 individus aleatoris entre 20, utilitza la funció `sample(1:20, 2)`. Per
facilitar la identificació de l’ancestre comú més recent, utilitza la funció `genealogia()`, que necessita que especifiquem dos paràmetres: el nom de la simulació realitzada i els individus triats aleatòriament, dels quals volem conéixer la genealogia:

In [None]:
# Aquest és el bloc que has d'executar almenys 10 vegades.
# Cal guardar el resultat de "coalescent.plot()" en un objecte
# ("sim02" o com li vulgues dir), per poder afegir al gràfic la
# genealogia dels individus triats a l'atzar.

sim02  <- coalescent.plot(n = 20, ngen = 60, sleep = 0)
mostra <- sample(1:20, 2)
genealogia(sim02, mostra)

Si en alguna de les simulacions, 60 generacions enrere encara existien 2 ancestres diferents per als dos individus seleccionats aleatòriament, cal fer el següent:

1. Simular una altra vegada 60 generacions, que representaran les ancestrals a les de la simulació original.
2. Identificar l'ancestre comú més recent d'*altres dos* individus triats novament a l'atzar (que representen els ancestres respectius dels que havies triat primer).
3. I afegir a 60 el nombre de generacions que t'has hagut de remuntar en la segona simulació per trobar aquell ancestre comú més recent.

### 2.1 Quines són la mitjana i la variança del nombre de generacions que t'has hagut de remuntar en el passat per trobar l'ancestre comú més recent de dos individus haploides triats a l'atzar en les simulacions?

In [None]:
# Pots estimar la mitjana i la variança dels números obtinguts ací,
# substituint els "NA" pels valors obtinguts:
Valors_obtinguts <- c(NA, NA, NA, NA, NA, NA, NA, NA, NA, NA)
mean(Valors_obtinguts)
var(Valors_obtinguts)

### 2.2 Quines haurien de ser la mitjana i la variança d'acord amb la teoria, i com es comparen amb els valors estimats?

### 2.3 Si la mida poblacional efectiva de la població humana fóra de 10000 individus, quantes generacions ens hauríem de remuntar en el passat per trobar l'ancestre comú més recent de l'ADN mitocondrial de dos individus triats a l'atzar?

### 2.4 I per trobar l'ancestre comú més recent de dues còpies d'un gen nuclear?

## Exercici 3. Temps de coalescència de 5 individus.
Cal tornar a fer simulacions, però ara buscant l'ancestre comú més recent de 5 individus triats a l'atzar en una població de 20 individus. Pots fer el mostreig amb la funció `sample(1:20, 5)`. Aquesta vegada, per ajudar-te a comptar les generacions, pots utilitzar la funció `mrca()`, que necessita dos arguments: la simulació obtinguda amb `coalescent.plot()` i la mostra dels 5 individus triats a l'atzar. Aprofitant que no cal identificar l'ancestre comú en el gràfic, pots simular 100 (o més) generacions, per assegurar-te que trobaràs l'ancestre comú dels 5 individus en una sola simulació.

Si, a pesar d'això, en la generació més antiga de la simulació encara hi havia més d'un anecestre dels 5 individus triats a l'atzar, caldrà afegir una segona simulació: la de les 100 generacions anteriors. I aleshores caldrà triar a l'atzar tants individus com ancestres quedaven (segurament, 2), i trobar el seu ancestre comú més recent en aquesta simulació addicional. Finalment sumem els dos números: el nombre de generacions simulades inicialment i el nombre de generacions més remotes necessàries per arribar a la coalescència.

In [None]:
# Executa-ho almenys 10 vegades i pren nota dels resultats.
sim03  <- coalescent.plot(n = 20, ngen = 100, sleep = 0)
mostra <- sample(1:20, 5)
genealogia(sim03, mostra)
mrca(sim03, mostra)

### 3.1 Quines són la mitjana i la variança del nombre de generacions que t'has hagut de remuntar en les genealogies simulades per trobar l'ancestre comú més recent de 5 individus triats a l'atzar?

In [None]:
# Pots ajudar-te d'aquesta plantilla.
Valors_obtinguts <- c(NA, NA, NA, NA, NA, NA, NA, NA, NA, NA)
mean(Valors_obtinguts)
var(Valors_obtinguts)

### 3.2 Com es compara el resultat empíric amb l'esperança teòrica del nombre de generacions que cal retrocedir en el passat per trobar l'ancestre comú més recent de 5 individus haploides?

### 3.3 Quina era la fòrmula de l'esperança teòrica del temps de coalescència de tota una espècie?

### 3.4 Quin resultat donaria per a la coalescència global del cromosoma mitocondrial humà? Utilitza un temps de generació de 20 anys per traduir generacions a anys.

### 3.5 I quin és el temps de coalescència global esperat per un gen nuclear humà?

### 3.6 Compara els temps de coalescència de 2 individus ($T_{MRCA}(2)$) i de tota l'espècie ($T_{MRCA}(N_e)$): et sembla que estan ben proporcionats?

## Representació dinàmica de la coalescència
Si queda temps, visita l'enllaç [http://bedford.io/projects/coaltrace](http://bedford.io/projects/coaltrace) i observa la representació dinàmica i en temps continu del procés de coalescència. Les boles de colors representen individus i les línies que deixen enrere, relacions d'ancestralitat. Els llinatges extingits desapareixen. En tot moment veiem un arbre amb la forma típica del procés de coalescència, amb aproximadament la meitat de tota la profunditat de l'arbre ocupada per només dos llinatges. Si fas *click* sobre el gràfic, activaràs els comandaments. Aleshores, prem la tecla *H* per veure les opcions i prova l'efecte de modificar els paràmetres següents sobre la forma de l'arbre:

- El temps de generació.
- La mida poblacional.
- Les mutacions.
- La migració.

# Apèndix 1. Resum de la teoria
En una població de Fisher-Wright de mida $N$, on $N$ és el nombre de \emph{gàmetes} que passen d'una generació a la següent, el temps mig fins la primera coalescència entre $n$ gens mostrejats a l'atzar és:

$$E(T_n) = \frac{N}{\binom{n}{2}} = \frac{2N}{n(n-1)}$$

I la variància seria:

$$\sigma^2(T_n) = \frac{4N^2}{(n(n-1))^2}$$

Per tant, el temps esperat per trobar l'ancestre comú de dos gens en una població de $N$ gàmetes és $T_2=N$ generacions, amb una variància $\sigma^2(T_2)=N^2$.

El temps mig fins la coalescència completa d'una mostra de $n$ gens i la seua variància són:

$$E(T_{MRCA}(n)) = \sum_{j=2}^n E(T_j) = \sum_{j=2}^n \frac{2N}{j(j-1)}$$

$$ = 2N\left ( 1 - \frac{1}{n}\right )$$

$$\sigma^2(T_{MRCA}(n)) = 4N\sum_{j=2}^n \frac{1}{j^2(j-1)^2}$$

$$ \sim 1.16N$$

El temps mig fins la coalescència de tots els $N$ gens de la població, en principi és: $E(T_{MRCA}(N))=2N-2$, d'acord amb la fòrmula anterior. A pesar que les fòrmules estan pensades per a mostres molt menors que la mida real de la població, aquest resultat és adequat, perquè el nombre de llinatges es redueix ràpidament durant les primeres generacions.

Havent definit $N$ com el nombre de gàmetes, les fòrmules anteriors són vàlides tant per a poblacions haploides com diploides. Però en poblacions diploides és més comú referir-se al nombre d'individus. Per tant, es pot substituir $N=2N_e$, on $N_e$ és el nombre efectiu d'individus. En qualsevol cas, es pot generalitzar a unitats de coalescència, definides com el nombre de generacions esperades fins la coalescència de 2 gens. És a dir, si $T_2=1$ unitats de coalescència, aleshores, $E(T_n)=\frac{2}{n(n-1)}$, $E(T_{MRCA}(n))=2(1 - 1/n)$ i $E(T_{MRCA}(N)) \sim 2$. Així les fòrmules s'apliquen a poblacions de qualsevol mida. La mida poblacional només afecta l'escala temporal. En totes les poblacions de Fisher-Wright s'espera que l'ancestre comú a tots els individus es remonta només al doble del nombre de generacions necessàries per trobar l'ancestre comú de dos individus triats a l'atzar.

## Bibliografia
[1] Revell LJ (2019). *learnPopGen: Population Genetic Simulations & Numerical Analysis.* R package version 1.0.4, [https://CRAN.R-project.org/package=learnPopGen](https://CRAN.R-project.org/package=learnPopGen)

[2] Hein, J., Schierup, M.H. i Wiuf, C. 2005. *Gene genealogies, variation and evolution; a primer in coalescent theory*. Oxford University Press.
