# **Dia 3: Filogenia**

Neste Notebook, iremos realizar algumas etapas importantes para realizar análises filogenéticas utilizando o método de máxima verossimilhança:
*   Alinhamento dados de sequências genômicas;
*   Avaliar sinal filogenético;
*   Escolher o melhor modelo de substituição de nucleotídeos;
*   Gerar a árvore filogenética.

## Programas ou pacotes necessários

*   **MAFFT** para alinhamento do genoma (https://mafft.cbrc.jp/alignment/software/)
*   **IQ-TREE** para construção de árvore filogenética de máxima verossimilhança (http://www.iqtree.org/)
*   **iTOL** para visualização e edição da árvore filogenética (https://itol.embl.de/).

*   **Phylo** do biopython para visualização rápida da árvore (https://biopython.org/wiki/Phylo).

In [None]:
!python --version

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

In [None]:
!conda install -c bioconda mafft iqtree

## Baixe o conjunto de dados a ser analisado.

Utilizaremos um conjunto de dados de DENV para esta aula prática. O conjunto possui um isolado chamado “ID9999|BR-Bahia|2016” e o objetivo é determinar o tipo e genótipo de DENV que circulou na Bahia em 2016.

In [None]:
!wget https://raw.githubusercontent.com/khourious/IGM-TRAIN/main/course_data/IGM-TRAIN_DENV.fasta

In [None]:
!cat IGM-TRAIN_DENV.fasta

### Alinhamento

Usaremos MAFFT para alinhamento das sequências. É bastante rápido e preciso.

Existem muitas opções para alinhar sequências utilizando o MAFFT. --auto é uma boa opção onde o próprio programa escolhe o algoritmo mais eficiente (bom equilíbrio entre velocidade e precisão). O alinhamento pode levar dias para sequências muito longas, se tiver optado o algoritmo mais preciso. Se você estiver alinhando sequências curtas, como um gene menos conservado, poderá usar opções mais precisas. O MAFFT tem bons exemplos do que usar e quando usar em seu site: https://mafft.cbrc.jp/alignment/software/algorithms/algorithms.html.

In [None]:
!mafft --help

In [None]:
!mafft --auto IGM-TRAIN_DENV.fasta > IGM-TRAIN_DENV_aln.fasta

In [None]:
!cat IGM-TRAIN_DENV_aln.fasta

### Inferência Filogenética

O IQ-TREE permite realizar análises filogenéticas de máxima verossimilhança de centenas ou milhares de sequências. Com ele é possível:

*   **Avaliar a informação filogenética de um alinhamento:** recomenda-se que o número de quartetos avaliados sejam pelo menos 25 vezes o número de sequências no alinhamento, garantindo que cada sequência seja coberta aproximadamente 100 vezes no conjunto de quartetos sorteados na análise. *O alinhamento **IGM-TRAIN_DENV_aln.fasta** possui 35 sequências, ou seja, a análise irá avaliar pelo menos 875 quartetos.*
*   **Estimar o modelo evolutivo:** possui um programa integrado chamado ModeFinder, o qual avalia rapidamente uma grande quantidade de modelos de substituição de nucleotídeos e escolhe o mais adequado para o conjunto de dados em questão.
*   **Inferir árvore de máxima verossimilhança:** estima e avalia a robustez da melhor árvore utilizando abordagens como bootstrap, bootstrap ultra-rápido ou avaliações probabilísticas.

O programa também pode ser executado em servidores online:
*   W-IQ-TREE Server – http://iqtree.cibiv.univie.ac.at/
*   Cyberinfrastructure for Phylogenetic Research (CIPRES) – https://www.phylo.org/
*   HIV Sequence Database – https://www.hiv.lanl.gov/content/sequence/IQTREE/iqtree.html

In [None]:
!iqtree -h

In [None]:
!iqtree -s IGM-TRAIN_DENV_aln.fasta -lmap 875 -m TEST -B 1000
# -s: nome do arquivo de alinhamento
# -lmap: número de quartetos a serem sorteados aleatoriamente. Se especificar -lmap ALL, todos os quartetos únicos serão sorteados
# -m: estratégia de seleção de modelo. Se nenhuma opção for especificada
# -B: número de réplicas para bootstrap ultra-rápido

Quando o processo estiver concluído, os arquivos de saída serão encontrados na pasta, incluindo:

*   **IGM-TRAIN_DENV_aln.fasta.lmap.svg:** gráfico de mapeamento de verossimilhança (SVG)
*   **IGM-TRAIN_DENV_aln.fasta.treefile:** a árvore ML no formato NEWICK, que pode ser visualizada por qualquer programa de visualização de árvore que suporta NEWICK
*   **IGM-TRAIN_DENV_aln.fasta.treefile:** a árvore ML no formato NEWICK, que pode ser visualizada por qualquer programa de visualização de árvore suportado, como o FigTree.
*   **IGM-TRAIN_DENV_aln.fasta.iqtree:** o arquivo principal de relatório da análise. Ele também contém uma representação textual da árvore final
*   **IGM-TRAIN_DENV_aln.fasta.log:** arquivo de log de toda a execução (o mesmo que é exibido na tela).

### Interpretação do siinal filogenético

![IGM-TRAIN_DENV_aln.fasta.lmap[1].svg]()

*   **Triângulo do top:** distribuição dos quartetos representados por pontos.
*   **Triângulo à esquerda:** as três áreas mostram apoio para um dos diferentes agrupamentos formado pelos quartetos (a,b)-(c,d), (a,c)-(b,d) e (a,d)-(b,c).
*   **Triângulo à direita:** quartetos que caem nos três cantos são informativos. Os retângulos são parcialmente informativos e os quartetos no centro são não informativos.

***Um bom conjunto de dados deve ter um alto número de quartetos informativos e um baixo número de quartetos não informativos.***

### Para visualizar o gráfico de sinal filogenético:

1.   Ir na aba à esquerda do Google Colab da figura do diretório/pasta.
Baixar o arquivo **IGM-TRAIN_DENV_aln.fasta.lmap.svg** clicando nos três pontinhos ao lado do nome do arquivo.
2.   Abrir o arquivo **IGM-TRAIN_DENV_aln.fasta.lmap.svg** no navegador.

In [None]:
!cat IGM-TRAIN_DENV_aln.fasta.iqtree

### Perguntas

1.   Qual é o modelo evolutivo mais adequado para este conjunto de dados?
2.   O conjunto de dados possui sinal filogenético?
3.   Qual a porcentagem de quarteros totalmente resolvidos?


### Visualização externa da árvore filogenética

Para isso utilizaremos o iTOL. Siga os seguintes passos:

1.   Ir na aba à esquerda do Google Colab da figura do diretório/pasta.
2.   Baixar o arquivo **IGM-TRAIN_DENV_aln.fasta.iqtree** clicando nos três pontinhos ao lado do nome do arquivo.
3.   Ir para o site: https://itol.embl.de/.
4.   Clicar em **Upload** e enviar o arquivo baixado **IGM-TRAIN_DENV_aln.fasta.iqtree**.
5.   Editar a árvore com as seguintes condições:
> * Basic – Mode: Rectangular
> * Basic – Branch lengths: Use
> * Basic – Label options: Position At tips
> * Advanced – Leaf sorting: Default
> * Advanced – Invert sort order: Yes
> * Advanced – Bootstraps: Text, Font 15px
> * Advanced – Root the tree midpoint: Midpoint root


### Perguntas

1.   Qual tipo e genótipo de DENV a sequência “ID9999|BR-Bahia|2016” pertence?
2.   Qual é a sequência mais relacionada (mais próxima) da “ID9999|BR-Bahia|2016”?

Para poder salvar as alterações desse arquivo:
*   Clique em **Arquivo** no canto superior esquerdo e selecione **Salvar uma cópia no Drive**.