# Pràctica amb ordinador 3. Filogènia mitocondrial

## Preparació de l'ordinador
En aquesta pràctica utilitzarem els paquets `DECIPHER` (Wright, 2016) i `phangorn` (Schliep, 2011) d'`R`. Assegura't d'haver-los instal·lat, si no els tens instal·lats ja, executant els comandaments següents en una consola d'`R`:

> `install.packages('phangorn')`

> `install.packages('BiocManager')`

> `BiocManager::install('DECIPHER')`

I a continuació carrega'ls:


In [None]:
# La funció "supressMessages()" ens estalvia informació innecessària.
suppressMessages(library('phangorn'))
suppressMessages(library('DECIPHER'))

## Objectiu
L'objectiu d'esta pràctica és reproduir la filogènia dels primats catarrins a
partir de les seqüències mitocondrials completes de 13 individus de 9 espècies
diferents, tal com apareix a la figura següent, procedent del web de PhyloTree:
[http://www.phylotree.org/resources/mtDNA_human_relatives.htm](http://www.phylotree.org/resources/mtDNA_human_relatives.htm).

![](Catarrhini_phylogeny.png)

El procediment hauria d'incloure els passos següents:

1. Descarregar les seqüències nucleotídiques dels genomes mitocondrials.
2. Alinear-les amb el mètode implementat al paquet `DECIPHER`.
3. Obtenir la filogènia mitjançant algun mètode ràpid, com ara el *Neighbor-Joining*.

## Exercci 1. Descàrrega de les seqüències

La taula següent indica els **números d'accés** de les seqüències que necessitem i
l'espècie a la qual pertany cada seqüència.

| Número d'accés | Espècie |
| ---------------------- | ------- |
| [Y18001](https://www.ebi.ac.uk/ena/browser/view/Y18001) | *Papio hamadryas* |
| [AJ309865](https://www.ebi.ac.uk/ena/browser/view/AJ309865) | *Macaca sylvanus* |
| [AY612638](https://www.ebi.ac.uk/ena/browser/view/AY612638) | *Macaca mulata* |
| [X99256](https://www.ebi.ac.uk/ena/browser/view/X99256) | *Hylobates lar* |
| [D38115](https://www.ebi.ac.uk/ena/browser/view/D38115) | *Pongo pygmaeus* |
| [D38114](https://www.ebi.ac.uk/ena/browser/view/D38114) | *Gorilla gorilla* |
| [X93347](https://www.ebi.ac.uk/ena/browser/view/X93347) | *Gorilla gorilla* |
| [GU189661](https://www.ebi.ac.uk/ena/browser/view/GU189661) | *Pan paniscus* |
| [D38113](https://www.ebi.ac.uk/ena/browser/view/D38113) | *Pan troglodytes* |
| [X93335](https://www.ebi.ac.uk/ena/browser/view/X93335) | *Pan trglodytes verus* |
| [AM948965](https://www.ebi.ac.uk/ena/browser/view/AM948965) | *H. sapiens neanderthalensis* |
| [J01415](https://www.ebi.ac.uk/ena/browser/view/J01415) | *Homo sapiens* (Cambridge) |
| [AF347015](https://www.ebi.ac.uk/ena/browser/view/AF347015) | *Homo sapiens* (Yoruba)|

Pots descarregar les seqüències en format FASTA, una a una, seguint els enllaços
de la taula anterior. Caldria guardar-les totes al mateix arxiu de text pla, respectant el format FASTA. Alternativament, podem utilitzar els comandaments següents per descarregar en la carpeta de treball un arxiu FASTA amb les 13 seqüències:

In [None]:
Numeros <- c('Y18001', 'AJ309865', 'AY612638', 'X99256', 'D38115',
             'D38114', 'X93347', 'GU189661', 'D38113', 'X93335',
             'AM948965', 'J01415', 'AF347015')
API     <- 'https://www.ebi.ac.uk/ena/browser/api/fasta/'
URL     <- paste0(API, paste(Numeros, collapse = ','))
URL
download.file(URL, destfile = 'primats.fasta')

Executa el codi anterior i comprova que a la carpeta de treball se t'ha descarregat
un arxiu anomenat `primats.fasta`. Pots obrir l'arxiu per inspeccionar-lo. Però no és recomanable editar manualment els arxius de dades.

## Exercici 2. Alineament
Per alinear les 13 seqüències, necessitem haver carregat el paquet `DECIPHER`, llegir
les seqüències i guardar-les en un objecte dins la sessió d'`R`, i aplicar la
funció `AlignSeqs()` per crear un nou objecte amb les seqüències alineades. Comencem per llegir les seqüències i guardar-les en un *objecte* o variable d'`R`:

In [None]:
senseAlinear <- readDNAStringSet('primats.fasta')
senseAlinear

Ara, l'objecte `senseAlinear` conté les 13 seqüències mitocondrials. Observa com en invocar el nom de l'objecte, ens apareix un resum del seu contingut. Si executes `names(senseAlinear)` en un bloc de codi, observaràs els noms de les seqüències i veuràs que són innecessàriament llargs. Abans d'alinear, és convenient acurtar els noms, cosa que podem fer re-assignant el valor dels noms, respectant l'ordre en el qual estan les seqüències:

In [None]:
names(senseAlinear)

In [None]:
names(senseAlinear) <- c('Papio hamadryas', 'Macaca sylvanus', 'Macaca mulatta',
           'Hylobates lar', 'Pongo pygmaeus', 'Gorilla gorilla',
           'Gorilla gorilla gorilla', 'Pan paniscus', 'Pan troglodytes',
           'Pan troglodytes verus', 'H. sapiens neanderthalensis', 
           'H. sapiens (Cambridge)', 'H. sapiens (Yoruba)')

In [None]:
names(senseAlinear)

Una vegada comprovat que els noms de les seqüències són els adequats, procedim amb l'alineament:

In [None]:
alineades <- AlignSeqs(senseAlinear, verbose = FALSE)
alineades

Observa que la funció `AlignSeqs()` **no** modifica l'objecte original (`senseAlinear`), sinó que en crea un altre. Per això necessitem *assignar* (`<-`) el resultat de la funció a un nou objecte (`alineades`) per tal de retenir en la memòria de treball el resultat de l'alineament.

Observa també que el nou objecte `alineades` té un aspecte diferent al de
`senseAlinear`. Per tal de veure l'alineament complet, executa el comandament
següent, amb el qual es crea i s'obri l'arxiu `alineades.html` en una nova pestanya del teu navegador.

In [None]:
BrowseSeqs(alineades, htmlFile = 'alineades.html', openURL = TRUE)

### 2.1 Per què creus que algunes seqüències semblen tenir fragments addicionals al principi o al final de l'alineament?

### 2.2 Amb la funció `readDNAStringSet()` carrega l'alineament contingut a l'arxiu `primats2.fasta` en un nou objecte, explora'l amb la funció `BrowseSeqs()` i determina en què es diferencia de l'alineament que has creat tu abans.

In [None]:
# Introudeix ací els comandaments que necessites, basant-te en els
# blocs anteriors.



### 2.3 Decideix quin dels dos alineaments, el que has creat tu o el que has carregat a partir de l'arxiu `primats2.fasta`, és el més adequat per utilitzar-lo en el pas següent.

## Exercici 3. Reconstrucció filogenètica
Una vegada disposem d'un alineament, podem inferir les relacions filogenètiques
entre les 13 seqüències. Hi ha molts mètodes diferents: màxima parsimònia, màxima
versemblança, UPGMA, etc. Utilitzarem el mètode de Neighbor-Joining, basat en la
matriu de distàncies genètiques entre les seqüències, perquè és un mètode ràpid.

### Distàncies
El primer pas és obtenir la **matriu de distàncies**, cosa que podem fer amb la funció `dist.dna()` (del paquet `ape`, carregat automàticament junt amb `phangorn`). Ara bé, l'alineament de partida és un objecte de classe `DNAStringSet`, mentre que la funció `dist.dna()` requereix que l'alineament siga un objecte de classe `DNAbin`. Per tant, cal utilitzar la funció `as.DNAbin()` per transformar l'objecte. Edita el bloc de codi següent, per tal de fer servir l'alineament que hages triat a l'exercici 2.3.

In [None]:
aln <- as.DNAbin( primats2 )
aln

Les distàncies són una estimació del nombre mig de substitucions nucleotídiques acumulades entre dues seqüències des del moment que van divergir, per cada posició del seu alineament. Una distància genètica d'1 implicaria que *en terme mig* totes les posicions han patit una mutació. Com que és una mitjana entre totes les posicions de l'alineament, generalment és possible reconéixer l'homologia de dues seqüències i alinear-les fins i tot amb distàncies majors que 1: en algunes posicions s'han produït més d'una mutació al llarg dels dos llinatges, mentre que en moltes altres posicions no s'ha produït cap mutació.

Per poder estimar aquestes distàncies és necessari adoptar un **model d'evolució molecular**, el qual ens permet suposar quantes substitucions més de les observades deuen haver-se produït, a partir del nombre de canvis observats. Al bloc següent, suggerim el model *K81* (Kimura, 1981). Per veure quines altres opcions tens, consulta l'ajuda de la funció `dist.dna()` executant l'ordre `help(dist.dna)` en un bloc de codi.

In [None]:
distancies.K81 <- dist.dna(aln, model = 'K81')
as.matrix(round(distancies.K81, 3))

### Neighbor-Joining
El mètode de *neighbor-joining* produeix un arbre no *ultramètric* i no *arrelat* a partir de les distàncies. Podem aplicar aquest mètode a un objecte de classe *dist* amb la funció `NJ()` del paquet `phangorn`:

In [None]:
NJ.K81 <- NJ(distancies.K81)
plot(NJ.K81)

Podem *arrelar* l'arbre amb la funció `root()`, perquè sabem que el *clade* format per *Papio hamadryas*, *Macaca mulatta* i *Macaca sylvanus* és un **outgroup** de tota la resta. És a dir, pertanyen a un llinatge que va divergir abans que la resta de llinatges divergiren entre ells.

In [None]:
NJ.K81.arrelat <- root(NJ.K81,
      outgroup = c('Papio hamadryas', 'Macaca mulatta', 'Macaca sylvanus'))
plot(NJ.K81.arrelat)

### Bootstrap
Si et queda temps, executa els blocs següents per afegir a les branques de l'arbre el seu suport de *bootstrap*. El suport de *bootstrap* és una mesura (entre 0 i 100) del grau de suport que les dades (l'alineament) atorguen a cada branca. 

In [None]:
funcio <- function(x) NJ(dist.dna(as.DNAbin(x), model = 'K81'))
bootstrap <- bootstrap.phyDat(as.phyDat(as.DNAbin(primats2)), funcio, bs = 500)
plotBS(NJ.K81, bootstrap)

## Bibliografia

- Kimura, M. (1981) Estimation of evolutionary distances between homologous nucleotide sequences. *Proceedings of the National Academy of Sciences USA*, 78, 454–458.
- Schliep, K.P. (2011) *phangorn*: phylogenetic analysis in R. *Bioinformatics* 27 (4): 592-593. [10.1093/bioinformatics/btq706](https://doi.org/10.1093/bioinformatics/btq706)
- Wright, E.S. (2016) Using DECIPHER v2.0 to analyze big biological sequence data in R. *The R journal* 8 (1): 352-359. [10.32614/RJ-2016-025](https://doi.org/10.32614/RJ-2016-025)