<div style="text-align: center">
    <h1>Filogenia</h1>
</div>

<div style="text-align: center">
    <h2>Estratégia de Seleção de Homólogos e Filogenia</i></h2>
</div>

A construção da árvore filogenética foi desenhada para garantir robustez estatística e relevância biológica, não se limitando a estirpes de Staphylococcus aureus. A estratégia baseou-se em quatro pilares fundamentais:

- **Aumentar a Diversidade Sequencial:**
    Inclusão de fagos de diferentes contextos evolutivos para identificar regiões conservadas e variáveis.
 
- **Análise de Coevolução:**
    Observação das relações entre o gene do __*Staphylococcus phage 88*__ e fagos que infetam diversos hospedeiros do género *Staphylococcus*.

- **Validação de Domínios:**

    Confirmação da estabilidade dos domínios funcionais da proteína face à divergência taxonómica.
    
- **Utilização de Grupo Externo:**

    Inclusão de sequência bacteriana como a autolisina bacteriana (*MZ7 chromosome*) para servir de grupo externo e validar a topologia da árvore.

    
As sequências abaixo foram processadas através da função `extrair_genes()`, que utiliza o `Bio.Entrez` para descarregar os registos e filtrar as sequências codificantes (CDS) via palavra-chave.

Grupo de Referência e Proximidade:
* NC_007063 (*Staphylococcus phage 88*) - sequência de referência (usado como controlo interno);
* PP098624 (*Staphylococcus phage 7206*) - considerado mosaico genético;
* NC_007060 (*Staphylococcus phage 55*) - fago clássico bem descrito na literatura;
* NC_007062 (*Staphylococcus phage 52A*) - fago clássico bem descrito na literatura.

Diversidade e Topologia:
* ON571632  (*Staphylococcus phage Sushi*) - aumento da diversidade do alinhamento;
* NC_028917 (*Staphylococcus phage 3MRA*) - aumento da diversidade do alinhamento;
* NC_010147 (*Staphylococcus phage phiMR11*) - referência bibliográfica consolidada;
* NC_054980 (*Staphylococcus phage Henu2*) - garantia de amplitude taxonómica;
* NC_010808 (*Staphylococcus phage phiMR25*) - definição de topologia (elevada divergência);
* NC_011614 (*Staphylococcus phage phiSauS*) - definição de topologia (elevada divergência).

Grupo Externo:
* CP076027 (*Staphylococcus sp. MZ7* chromosome) - raiz da árvore (profago integrado no cromossoma bacteriano);

Nota de Exclusão:
* EU573240 (*Staphylococcus phage phiH5*) - crucial para o combate a estirpes multirresistentes (excluído da análise final por falta de anotação compatível).


<div style="text-align: center">
    <h2>Metodologia de Análise Filogenética</i></h2>
</div>

1. **Extração de Sequências Homólogas**
Para a obtenção dos dados, utilizou-se o módulo `Bio.Entrez` para descarregar os registos GenBank dos hits selecionados previamente no BLAST. Através da função `extrair_genes()`, o script percorre as anotações de cada genoma para identificar e extrair especificamente a sequência codificante (CDS) do gene de interesse. Esta seleção é automatizada pela procura de palavras-chave nos campos `product` ou `locus_tag`, consolidando os resultados num ficheiro FASTA.

2. **Avaliação de Alinhamento e Identidade**
Após o alinhamento múltiplo, a função `avaliar_alinhamento()` procede à leitura do ficheiro (formato Clustal). Para quantificar a conservação das sequências antes da análise filogenética, a função utiliza a classe `DistanceCalculator` do Biopython. Este processo permite calcular uma matriz de identidade e gerar uma lista ordenada de similaridade entre todos os pares de sequências, revelando o grau de parentesco molecular inicial.

3. **Construção e Visualização da Árvore Filogenética**
A etapa final consiste na representação gráfica da estrutura evolutiva. Utilizando o módulo `Bio.Phylo`, as funções `imprimir_arvore()` e `desenhar_arvore()` processam o ficheiro `.phylotree` (em formato Newick). Esta visualização é crucial para interpretar as relações evolutivas e os agrupamentos taxonómicos entre o Fago 88 e os seus homólogos, permitindo uma análise clara da divergência genética.

In [1]:
from bioinformatica import extrair_genes, avaliar_alinhamento, imprimir_arvore, desenhar_arvore

<div style="text-align: center">
    <h2>Lisina</i></h2>
</div>

In [2]:
extrair_genes(
    gb_file = "5133735.gb",
    ids_hits = ["PP098624", "NC_007063", "ON571632", "NC_010147", "NC_054980", "NC_010808",
                "NC_028917", "NC_007060", "NC_007062", "EU573240", "NC_011614", "CP076027"],
    palavra_chave = "lysin",
    email = "pg59766@uminho.pt",
    output_fasta = "sequencias_hits_lisina.fasta"
)

Sucesso: 12 sequências gravadas em sequencias_hits_lisina.fasta


[SeqRecord(seq=Seq('ATGCAAGCAAAATTAACTAAAAAAGAGTTTATAGAGTGGTTGAAAACTTCTGAG...TAG'), id='Local_NC_007063.1', name='<unknown name>', description='Produto: endolysin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGGATTACCTAACCCAAAGACTAGAAAGCCTACAGCTAGTGAAGTGGTGGAG...TAA'), id='PP098624', name='<unknown name>', description='lysin n-acetylmuramoyl-l-alanine amidase', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGCAAGCAAAATTAACTAAAAAAGAGTTTATAGAGTGGTTGAAAACTTCTGAG...TAG'), id='NC_007063', name='<unknown name>', description='endolysin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGGATTACCTAACCCAAAGACTAGAAAGCCTACAGCTAGTGAAGTGGTGGAG...TAA'), id='ON571632', name='<unknown name>', description='lysin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGCAAGCAAAATTAACTAAAAAAGAGTTTATAGAGTGGTTGAAAACTTCTGAG...TAG'), id='NC_010147', name='<unknown name>', description='endolysin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGAGTATCATCATGGAGGTGGCGACAATGCAAGCAAAATTAACTAAAAAAGAG...TAG'), id='NC_054980', name='<unknown name>', description='endolysin', dbxre

In [3]:
avaliar_alinhamento(file_alignment = "lysin.aln-clustal_num", format_alignment = "clustal")

Número de sequências: 12
Comprimento do alinhamento: 1915 bp

CP076027_lysin - ------------------GTGCAAAAAAAAGTA---------ATTGCAGCTATTATTGGGACAAGCGCGATTAGCGCTGTTGCGGCAACTCAAGCAAATGCGGCTACAACTCACACAGTAAAACCGGGTGAATCAGTGTGGGCAA--TTTCAAATAAGTATGGGATTTCGATTGCTAAATTAAAGTCATTAAACAATTTAACATCTAATCTAATTTTCCCAAACCAAGTACTAAAAGTATCTGGCTCAAGTAATTCTACGAGTAATAGTAGCCGTCCAT-CAACGAACTCAGGTGGCGGATCATACTACACAGTACAAGCAGGCGACTCATTATCATTAATCGCATCAAAATATGGTACAACTTACCAAAACATTATGCGACTTA-ATGGTTTAA-----ATAATTTCTTTATTTATCCAG----------------------------------GTCAAAAATTAAA--------------------------AGTATCAGGTACTGCTAGCTCAAGTAACGCTGCG-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------AGCAATAGTAGCCGTCCAT--------------CAACGAACTCAGGTGGCGGATCATACTATACAGTA--CAAGCAGGTGACTCATTGTCATTAATCGCATCAAAATATGGTACAACTTATCAAAAAATTATGAGCTTAAATGGCTT----AAATAATTTCTTT--------------------

[('Phage_88_Original', 'NC_007063_lysin', 100.0),
 ('PP098624_lysin', 'ON571632_lysin', 99.94778067885117),
 ('Phage_88_Original', 'NC_010147_lysin', 99.1644908616188),
 ('NC_007063_lysin', 'NC_010147_lysin', 99.1644908616188),
 ('NC_010147_lysin', 'NC_054980_lysin', 98.01566579634465),
 ('NC_007062_lysin', 'NC_007060_lysin', 97.18015665796345),
 ('Phage_88_Original', 'NC_054980_lysin', 97.18015665796345),
 ('NC_007063_lysin', 'NC_054980_lysin', 97.18015665796345),
 ('NC_010808_lysin', 'NC_010147_lysin', 96.91906005221932),
 ('NC_028917_lysin', 'NC_007060_lysin', 96.55352480417754),
 ('NC_010808_lysin', 'Phage_88_Original', 96.39686684073106),
 ('NC_010808_lysin', 'NC_007063_lysin', 96.39686684073106),
 ('NC_007062_lysin', 'NC_010147_lysin', 96.34464751958225),
 ('NC_007060_lysin', 'Phage_88_Original', 96.13577023498695),
 ('NC_007060_lysin', 'NC_007063_lysin', 96.13577023498695),
 ('NC_007062_lysin', 'NC_028917_lysin', 96.0313315926893),
 ('NC_007062_lysin', 'NC_010808_lysin', 96.0313

In [4]:
tree_lysin = imprimir_arvore("lysin.phylotree", "newick")

Tree(rooted=False, weight=1.0)
    Clade()
        Clade(branch_length=0.00888)
            Clade(branch_length=0.01184)
                Clade(branch_length=0.01303)
                    Clade(branch_length=0.24453)
                        Clade(branch_length=0.30143, name='CP076027_lysin')
                        Clade(branch_length=0.25437)
                            Clade(branch_length=0.00022, name='PP098624_lysin')
                            Clade(branch_length=0.00032, name='ON571632_lysin')
                    Clade(branch_length=0.04302, name='NC_011614_lysin')
                Clade(branch_length=0.0073)
                    Clade(branch_length=0.01588, name='NC_007062_lysin')
                    Clade(branch_length=0.00625)
                        Clade(branch_length=0.01297, name='NC_028917_lysin')
                        Clade(branch_length=0.014, name='NC_007060_lysin')
            Clade(branch_length=0.0261, name='NC_010808_lysin')
        Clade(branch_length=0.00225)
    

In [5]:
desenhar_arvore(tree = tree_lysin) 

                             ______________________________ CP076027_lysin
     _______________________|
    |                       |                         , PP098624_lysin
   ,|                       |_________________________|
   ||                                                 | ON571632_lysin
   ||
  _||___ NC_011614_lysin
 | |
 | |_ NC_007062_lysin
 | |
 | |, NC_028917_lysin
 | ||
 |  | NC_007060_lysin
 |
 |__ NC_010808_lysin
 |
_|, Phage_88_Original
 ,|
 || NC_007063_lysin
 |
 | NC_010147_lysin
 |
 | NC_054980_lysin



Tree(rooted=False, weight=1.0)

<div style="text-align: center">
    <h2>Holina</i></h2>
</div>

In [6]:
extrair_genes(
    gb_file = "5133736.gb",
    ids_hits = ["PP098624", "NC_007063", "ON571632", "NC_010147", "NC_054980", "NC_010808",
                "NC_028917", "NC_007060", "NC_007062", "EU573240", "NC_011614", "CP076027"],
    palavra_chave = "holin",
    email = "pg59766@uminho.pt",
    output_fasta = "sequencias_hits_holina.fasta"
)

Sucesso: 11 sequências gravadas em sequencias_hits_holina.fasta


[SeqRecord(seq=Seq('ATGGATATTAACTGGAAATTGAGATTCAAAAACAAAGCAGTACTAACTGGTTTA...TAA'), id='Local_NC_007063.1', name='<unknown name>', description='Produto: holin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGATATTAACTGGAAATTGAGATTCAAAAACAAAGCAGTACTAACTGGTTTA...TAA'), id='PP098624', name='<unknown name>', description='holin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGATATTAACTGGAAATTGAGATTCAAAAACAAAGCAGTACTAACTGGTTTA...TAA'), id='NC_007063', name='<unknown name>', description='holin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGATATTAACTGGAAATTGAGATTCAAAAACAAAGCAGTACTAACTGGTTTA...TAA'), id='ON571632', name='<unknown name>', description='holin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGATATTAACTGGAAATTGAGATTCAAAAACAAAGCAGTACTAACTGGTTTA...TAA'), id='NC_010147', name='<unknown name>', description='holin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGATATTAACTGGAAATTGAGATTCAAAAACAAAGCAGTACTAACTGGTTTA...TAA'), id='NC_054980', name='<unknown name>', description='holin', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGATATTAACTGGAAATTGAG

In [7]:
avaliar_alinhamento(file_alignment = "holin.aln-clustal_num", format_alignment = "clustal")

Número de sequências: 11
Comprimento do alinhamento: 490 bp

CP076027_holin - ATGGTCGTGAAACAACAAAAAGACGCATCAAAACCAGCACACTTTTTTCACCAAGTCATTGTAATTGCTTTAGTACTCTTTGTATCGAAAATAATTGAATCATTTATGCCAATTCCTAT-------------------GCCTGCATCAGTAATCGGTT---T----------AGTATTATTATTTGTATTATTATGTACTGGTGCTGTTAAGTTAGGCGAAGTCGAAAAAGTAGGAACGACACTAACAAATAACATTGGCTTACTCTTCGTACCAGCCG------GTATCTCAGTTGTTAACTCTTTAGGTGTCATTAGCCAAGCACCATTTTTAATCATTGGACTAATAATCGTCTCAACAATACTATTACTTATTTGTACTGGCTATGTCACACAAATTATTATGAAAGTTACTTCGAGATCTAAAGGTGACAAAGTCAAAAAAAAGATCAAAATAGAGGAGGCACAAGCTCATGATTAA--------
NC_011614_holin - ATGGATATTAACT-GGAA-ATTGAGATTTAAAAACAAAGCAGTATTAACA----GGTTTAGTTGGTGCATTGTTGCTATTTATCAAGCAAATCAC----GGATTTATTCGGATTAGATTTATCTACTCAATTAAATCAAGCTAGCGCAATTATAGGCGCCATCCTCACGTTACTTACAGGTATTGGCGTTATTACTGACCCGAC-------GTCAAAAGGTGTTGCCGATTCATCTATAGCACAG--ACATATCAAGCGCCTAGAGATAGTAGCAAAGAAGAACAACAAGTGACTT-GGAAAACTTCACAAGATACTAGCTTAACACCGGAATTAAGCGCGAAAGTACCGAAAG-------AGT---ATGACACAT---CACAGCCATTTACA-GACGCCTCTAATGAGGTTG

[('Phage_88_Original', 'PP098624_holin', 100.0),
 ('Phage_88_Original', 'NC_007063_holin', 100.0),
 ('Phage_88_Original', 'ON571632_holin', 100.0),
 ('Phage_88_Original', 'NC_010147_holin', 100.0),
 ('Phage_88_Original', 'NC_054980_holin', 100.0),
 ('PP098624_holin', 'NC_007063_holin', 100.0),
 ('PP098624_holin', 'ON571632_holin', 100.0),
 ('PP098624_holin', 'NC_010147_holin', 100.0),
 ('PP098624_holin', 'NC_054980_holin', 100.0),
 ('NC_007063_holin', 'ON571632_holin', 100.0),
 ('NC_007063_holin', 'NC_010147_holin', 100.0),
 ('NC_007063_holin', 'NC_054980_holin', 100.0),
 ('ON571632_holin', 'NC_010147_holin', 100.0),
 ('ON571632_holin', 'NC_054980_holin', 100.0),
 ('NC_010147_holin', 'NC_054980_holin', 100.0),
 ('Phage_88_Original', 'NC_007060_holin', 99.18367346938776),
 ('PP098624_holin', 'NC_007060_holin', 99.18367346938776),
 ('NC_007063_holin', 'NC_007060_holin', 99.18367346938776),
 ('ON571632_holin', 'NC_007060_holin', 99.18367346938776),
 ('NC_010147_holin', 'NC_007060_holin', 

In [8]:
tree_holin = imprimir_arvore("holin.phylotree", "newick")

Tree(rooted=False, weight=1.0)
    Clade()
        Clade(branch_length=0.0)
            Clade(branch_length=0.0)
                Clade(branch_length=0.0)
                    Clade(branch_length=0.00228)
                        Clade(branch_length=0.02156)
                            Clade(branch_length=0.02741)
                                Clade(branch_length=0.47449, name='CP076027_holin')
                                Clade(branch_length=0.00657)
                                    Clade(branch_length=0.03159, name='NC_011614_holin')
                                    Clade(branch_length=0.0369, name='NC_007062_holin')
                            Clade(branch_length=0.02248, name='NC_010808_holin')
                        Clade(branch_length=0.00685, name='NC_007060_holin')
                    Clade(branch_length=0.0, name='Phage_88_Original')
                Clade(branch_length=0.0, name='PP098624_holin')
            Clade(branch_length=0.0, name='NC_007063_holin')
        Cla

In [9]:
desenhar_arvore(tree = tree_holin) 

       ____________________________________________________ CP076027_holin
    __|
   |  | __ NC_011614_holin
  _|  ||
 | |   |___ NC_007062_holin
 | |
 | |__ NC_010808_holin
 |
 | NC_007060_holin
 |
 | Phage_88_Original
 |
 | PP098624_holin
 |
 | NC_007063_holin
_|
 , ON571632_holin
 |
 | NC_010147_holin
 |
 | NC_054980_holin



Tree(rooted=False, weight=1.0)

<div style="text-align: center">
    <h2>Fibra Caudal</i></h2>
</div>

In [10]:
extrair_genes(
    gb_file = "5133742.gb",
    ids_hits = ["PP098624", "NC_007063", "ON571632", "NC_010147", "NC_054980", "NC_010808",
                "NC_028917", "NC_007060", "NC_007062", "EU573240", "NC_011614", "CP076027"],
    palavra_chave = "tail fiber",
    email = "pg59766@uminho.pt",
    output_fasta = "sequencias_hits_fibracaudal.fasta"
)

Sucesso: 11 sequências gravadas em sequencias_hits_fibracaudal.fasta


[SeqRecord(seq=Seq('ATGAAAATCACAGTAAACGATAAAAACGAAGTTATCGGATTCGTTAATACTGGC...TAA'), id='Local_NC_007063.1', name='<unknown name>', description='Produto: tail fiber protein', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGTACAAAATAAAAGATGTTGAAACGAGAATAAAAAATGATGGTGTTGACTTA...TGA'), id='PP098624', name='<unknown name>', description='tail fiber protein', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGAAAATCACAGTAAACGATAAAAACGAAGTTATCGGATTCGTTAATACTGGC...TAA'), id='NC_007063', name='<unknown name>', description='tail fiber protein', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGGTAGTAGATAATTTTTCAAAAGATGATAACTTAATCGAGTTACAAACAACA...TAA'), id='ON571632', name='<unknown name>', description='long tail fiber', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGAAAATCACAGTAAACGATAAAAACGAAGTTATCGGATACGTTAATACTGGC...TAA'), id='NC_010147', name='<unknown name>', description='tail fiber protein', dbxrefs=[]),
 SeqRecord(seq=Seq('ATGAAAATCACAGTAAACGATAAAAACGAAGTTATCGGATACGTTAATACTGGC...TAA'), id='NC_054980', name='<unknown name>', description='ta

In [11]:
avaliar_alinhamento(file_alignment = "tail.aln-clustal_num", format_alignment = "clustal")

Número de sequências: 11
Comprimento do alinhamento: 1894 bp

NC_010808_tail - -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ATGACACCAAACTTAC--------------------------------------AACTTTATA----ATAATGCGTTTGAAACGCTACAAGGATATGGATTCCCTGTTATTTCTCGTAAAGAGATGCAACAAGAGGTTCCGTATCCTTTTTTTGTAATAAAAATGCCGGAGTCAAACAGAAGTAAATACACGTTTGATAGTTATTCTGGTGACACGAATTTAGTTATTGATATTTGGAGTGTAAGTGATGATTTAGGACATCATGACGGACTTGTTAAAAGATGTATTGATGATTTAACACCTAGCGTTAAAACAAACGATTATGACTTTGAAGAAGATGATACTAACATCACACAGTTAGTTGATGATACTACCA---------ATCAAGAA----------------------------TTGCTACACACA------------------------------------TCAGT--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

[('Phage_88_Original', 'NC_007063_tail', 100.0),
 ('NC_054980_tail', 'NC_007062_tail', 99.68321013727561),
 ('Phage_88_Original', 'NC_010147_tail', 99.68321013727561),
 ('NC_007063_tail', 'NC_010147_tail', 99.68321013727561),
 ('NC_010808_tail', 'NC_011614_tail', 99.20802534318902),
 ('NC_007060_tail', 'NC_010147_tail', 99.15522703273496),
 ('NC_007060_tail', 'Phage_88_Original', 99.04963041182681),
 ('NC_007060_tail', 'NC_007063_tail', 99.04963041182681),
 ('NC_007062_tail', 'Phage_88_Original', 98.89123548046463),
 ('NC_007062_tail', 'NC_007063_tail', 98.89123548046463),
 ('NC_054980_tail', 'NC_010147_tail', 98.78563885955649),
 ('NC_054980_tail', 'NC_007060_tail', 98.73284054910243),
 ('NC_054980_tail', 'Phage_88_Original', 98.68004223864835),
 ('NC_054980_tail', 'NC_007063_tail', 98.68004223864835),
 ('NC_007062_tail', 'NC_010147_tail', 98.57444561774024),
 ('NC_007062_tail', 'NC_007060_tail', 98.52164730728616),
 ('PP098624_tail', 'NC_028917_tail', 90.3907074973601),
 ('NC_010808_

In [12]:
tree_tail = imprimir_arvore("tail.phylotree", "newick")

Tree(rooted=False, weight=1.0)
    Clade()
        Clade(branch_length=0.0086)
            Clade(branch_length=0.01277)
                Clade(branch_length=0.01562)
                    Clade(branch_length=0.28999)
                        Clade(branch_length=0.09769)
                            Clade(branch_length=0.28318)
                                Clade(branch_length=0.0134, name='NC_010808_tail')
                                Clade(branch_length=0.02566, name='NC_011614_tail')
                            Clade(branch_length=0.20693, name='ON571632_tail')
                        Clade(branch_length=0.16029)
                            Clade(branch_length=0.02217, name='PP098624_tail')
                            Clade(branch_length=0.03386, name='NC_028917_tail')
                    Clade(branch_length=0.01866)
                        Clade(branch_length=0.00813, name='NC_054980_tail')
                        Clade(branch_length=0.00774, name='NC_007062_tail')
                C

In [13]:
desenhar_arvore(tree = tree_tail) 

                                                         _ NC_010808_tail
                                   _____________________|
                           _______|                     |__ NC_011614_tail
                          |       |
    ______________________|       |_______________ ON571632_tail
   |                      |
   |                      |             _ PP098624_tail
  ,|                      |____________|
  ||                                   |__ NC_028917_tail
  ||
 ,|| , NC_054980_tail
 |||_|
 ||  | NC_007062_tail
 ||
 ||_ NC_007060_tail
 |
_| NC_010147_tail
 |
 | Phage_88_Original
 |
 | NC_007063_tail



Tree(rooted=False, weight=1.0)