<a href="https://colab.research.google.com/github/thiago22yow/bioinfo_portfolio/blob/main/aula_anotacao_genomica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Anotação genômica e funcional de genoma.**

Nesta aula, exploraremos como realizar a anotação genômica e funcional de proteínas utilizando as ferramentas Prodigal e  InterProScan. A anotação funcional é uma etapa essencial na análise de dados genômicos e proteômicos, permitindo que associemos sequências biológicas a funções conhecidas, como domínios proteicos, famílias de proteínas e termos de ontologia genética (Gene Ontology - GO).

**Objetivos**

*   Realizar a predição gênica em um genoma
*   Submeter sequências de proteínas para análise funcional usando a API REST do InterProScan.
*   Interpretar e explorar os resultados da anotação funcional.

Ao final desta aula, você terá adquirido uma compreensão prática de como realizar predição gênica a partir de um genoma e executar a anotação funcional de proteínas e interpretar os resultados em termos biológicos.

**1. Ambiente de Trabalho: Instalação de Dependências.**
Vamos começar instalando os pacotes necessários: Prodigal, Biopython e requests.

In [1]:
# Instalação das ferramentas
!apt-get install prodigal
!pip install biopython
!pip install requests

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  prodigal
0 upgraded, 1 newly installed, 0 to remove and 49 not upgraded.
Need to get 640 kB of archives.
After this operation, 12.3 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/universe amd64 prodigal amd64 1:2.6.3-5 [640 kB]
Fetched 640 kB in 1s (562 kB/s)
Selecting previously unselected package prodigal.
(Reading database ... 123622 files and directories currently installed.)
Preparing to unpack .../prodigal_1%3a2.6.3-5_amd64.deb ...
Unpacking prodigal (1:2.6.3-5) ...
Setting up prodigal (1:2.6.3-5) ...
Processing triggers for man-db (2.10.2-1) ...
Collecting biopython
  Downloading biopython-1.84-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Downloading biopython-1.84-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━

**2. Download do Genoma.** Vamos baixar o genoma de Enterobacteria phage N4 de um repositório público, o NCBI.

In [2]:
# Baixar genomas de Enterobacteria phage N4
!wget -O phage_n4.fna.gz "https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/867/865/GCF_000867865.1_ViralProj18511/GCF_000867865.1_ViralProj18511_genomic.fna.gz"

# Descompactar o arquivo .gz
!gunzip phage_n4.fna.gz



--2024-10-22 22:38:56--  https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/867/865/GCF_000867865.1_ViralProj18511/GCF_000867865.1_ViralProj18511_genomic.fna.gz
Resolving ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)... 130.14.250.13, 130.14.250.31, 130.14.250.7, ...
Connecting to ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)|130.14.250.13|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 21530 (21K) [application/x-gzip]
Saving to: ‘phage_n4.fna.gz’


2024-10-22 22:38:56 (362 KB/s) - ‘phage_n4.fna.gz’ saved [21530/21530]



**3. Predição gênica do genoma com Prodigal.**
O Prodigal será utilizado para a predição de genes e proteínas codificantes.

In [3]:
# Anotação do genoma de Enterobacteria phage N4
!prodigal -i phage_n4.fna -a phage_n4_proteins.faa -o phage_n4.genes -p meta


-------------------------------------
PRODIGAL v2.6.3 [February, 2016]         
Univ of Tenn / Oak Ridge National Lab
Doug Hyatt, Loren Hauser, et al.     
-------------------------------------
Request:  Metagenomic, Phase:  Training
Initializing training files...done!
-------------------------------------
Request:  Metagenomic, Phase:  Gene Finding
Finding genes in sequence #1 (70153 bp)...done!


**4. Vistoriar as proteínas.** Contar as proteínas e ver uma amostra

In [4]:
# Contar a quantidade de proteínas preditas
!echo "O arquivo contém $(grep -c ">" phage_n4_proteins.faa) proteinas"

# Exibir 20 linhas do arquivo
!echo "Amostra do arquivo:"
!head phage_n4_proteins.faa -n 20

O arquivo contém 72 proteinas
Amostra do arquivo:
>NC_008720.1_1 # 154 # 480 # 1 # ID=1_1;partial=00;start_type=ATG;rbs_motif=GGAG/GAGG;rbs_spacer=5-10bp;gc_cont=0.364
MTTQANVRMTVGTLLGTVNEAATTVADTFGTATKAVGMLNRYVTKQADKQIIRDKLEMHE
FTNKLIEETAMQEAIRQKQILDFCKDEQNKELFSNAYDRLSKILADSK*
>NC_008720.1_2 # 586 # 1071 # 1 # ID=1_2;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.409
MHPILYEILTFCLGLLTDKVVSTNQNQLSGEYKMAITTFAKTFGQASTKTESNNGSRPKA
QFWINVGYVANEGTEDERFISLPTGIPLDTQEHLPTNSSNEDFRAMRCAQNDLLDQLMEF
AKTLEPGQEGVISLQVQLRRVKEEAPAISASENKYARKLTF*
>NC_008720.1_3 # 1214 # 1528 # 1 # ID=1_3;partial=00;start_type=ATG;rbs_motif=AGGA;rbs_spacer=5-10bp;gc_cont=0.403
MHPLIKRFLMDYQEWLDNGASEPHYLFDRGSGLCVQLGKYLRRQPISEETVDALCKSFTH
LLPDNDTNLPFNVDVLDYMMECSDGRCHLNQSRINWIKSQLESK*
>NC_008720.1_4 # 1532 # 1969 # 1 # ID=1_4;partial=00;start_type=ATG;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;gc_cont=0.386
MSYEIVKHWTSKVGLRAWVLLVNGGSHHCGYVEIPEALLDKNFYDYICDDEETLHIAVHG
GVTYQGVPQWADGVKVIGYDCAHAGDKLKC

**5. Realizar a anotação funcional das proteínas preditas.** O InterProScan será utilizado.

In [5]:
import requests
import time
import sys

# Função para remover asteriscos das sequências
def remover_asteriscos(fasta_data):
    return fasta_data.replace('*', '')

# Função para submeter as sequências FASTA ao InterProScan usando a API REST
def submit_interproscan(fasta_file):
    url = 'https://www.ebi.ac.uk/Tools/services/rest/iprscan5/run'
    headers = {'User-Agent': 'Colab Python Client'}

    # Abrir o arquivo FASTA para leitura e garantir que ele está no formato correto
    with open(fasta_file, 'r') as f:
        fasta_data = f.read().strip()

    # Remover asteriscos da sequência
    fasta_data = remover_asteriscos(fasta_data)

    # Definir os parâmetros da requisição corretamente
    params = {
        'email': 'seu-email@example.com',  # Substitua pelo seu e-mail
        'title': 'InterProScan Job from Colab',
        'sequence': fasta_data,
        'format': 'tsv',  # Formato de saída
        'stype': 'p'  # Tipo de sequência (proteína - 'p')
    }

    # Submeter a requisição POST
    response = requests.post(url, data=params, headers=headers)

    # Verificar o status da submissão
    if response.status_code == 200:
        job_id = response.text
        print(f"Job ID: {job_id}")
        return job_id
    else:
        print(f"Erro ao submeter as sequências: {response.status_code}")
        print(f"Detalhes: {response.text}")
        sys.exit()

# Função para verificar o status do job
def check_status(job_id):
    status_url = f'https://www.ebi.ac.uk/Tools/services/rest/iprscan5/status/{job_id}'
    while True:
        response = requests.get(status_url)
        status = response.text
        if status == 'FINISHED':
            print("Job concluído!")
            return True
        elif status in ['RUNNING', 'PENDING']:
            print(f"Status: {status}. Aguardando conclusão...")
            time.sleep(10)
        else:
            print(f"Erro: Status do Job = {status}")
            sys.exit()

# Função para baixar os resultados do job
def download_results(job_id, output_file_name):
    result_url = f'https://www.ebi.ac.uk/Tools/services/rest/iprscan5/result/{job_id}/tsv'

    # Baixar os resultados
    response = requests.get(result_url)

    # Salvar os resultados no arquivo especificado
    result_file = f"{output_file_name}.tsv"
    with open(result_file, 'w') as f:
        f.write(response.text)

    print(f"Resultados salvos no arquivo: {result_file}")
    return result_file

# Função principal
def main(fasta_file, output_file_name):
    # 1. Submeter o arquivo FASTA para o InterProScan via API REST
    job_id = submit_interproscan(fasta_file)

    # 2. Aguardar até que o job seja concluído
    check_status(job_id)

    # 3. Baixar os resultados e salvar no arquivo especificado
    download_results(job_id, output_file_name)

# Executar o script com o arquivo .faa e nome do arquivo de saída
fasta_file = "phage_n4_proteins.faa"  # Nome do arquivo FASTA que foi carregado
output_file_name = "interproscan_m_pox_results"  # Nome desejado para o arquivo de saída
main(fasta_file, output_file_name)


Job ID: iprscan5-R20241022-234009-0250-25796876-p1m
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Status: RUNNING. Aguardando conclusão...
Job concluído!
Resultados salvos no arquivo: interproscan_m_pox_results.tsv


**6. Visualização dos Resultados.**
Podemos dar uma olhada nas primeiras linhas do arquivo contendo as anotações funcionais.

In [6]:
# Exibir 20 linhas do arquivo
!head interproscan_m_pox_results.tsv -n 20

NC_008720.1_48	eea1298b8609d6a4e28470663aae967e	123	Pfam	PF13876	Phage protein (N4 Gp49/phage Sf6 gene 66) family	4	97	2.8E-31	T	22-10-2024	IPR025915	Phage protein (N4 Gp49/phage Sf6 gene 66) family	-	-
NC_008720.1_36	b097c72d681312127b44ed1192ba2aa4	109	Gene3D	G3DSA:1.10.3420.10	putative ntp pyrophosphohydrolase like domain	3	109	3.2E-20	T	22-10-2024	IPR023292	NTP pyrophosphohydrolase-like domain superfamily	-	-
NC_008720.1_59	58495e035da2434c7d89191268d1b034	763	Coils	Coil	Coil	618	663	-	T	22-10-2024	-	-	-	-
NC_008720.1_39	3f88522bfd3eb3a132b8b616df7d4608	859	Coils	Coil	Coil	432	452	-	T	22-10-2024	-	-	-	-
NC_008720.1_39	3f88522bfd3eb3a132b8b616df7d4608	859	PRINTS	PR00868	DNA-polymerase family A (pol I) signature	538	560	5.2E-10	T	22-10-2024	IPR002298	DNA polymerase A	GO:0003887(InterPro)|GO:0006261(InterPro)	MetaCyc:PWY-7250|Reactome:R-DME-5685939|Reactome:R-HSA-5685939|Reactome:R-HSA-6783310|Reactome:R-MMU-5685939|Reactome:R-MMU-6783310
NC_008720.1_39	3f88522bfd3eb3a132b8b616df7d460

**7. Contagem de termos Gene Ontology.** Vamos contar os termos mais frequentes.

In [7]:
import pandas as pd
from collections import Counter

# Carregar o arquivo TSV do InterProScan
# Substitua 'interproscan_output.tsv' pelo nome do seu arquivo de entrada
df = pd.read_csv('interproscan_m_pox_results.tsv', sep='\t', header=None)

# A coluna que contém os GO terms no arquivo InterProScan está na posição 14 (indexada como 13 em Python)
go_terms_column = df[13]

# Filtrar apenas as linhas que possuem termos GO
go_terms = go_terms_column[go_terms_column != '-'].dropna()

# Os termos GO podem estar separados por vírgula, então vamos separá-los
go_terms_list = go_terms.str.split('(').str[0].str.strip() # remove a parte (InterPro)

# Explodir a lista de termos GO para contar corretamente
all_go_terms = go_terms_list.explode()

# Contar a frequência de cada GO term
go_term_counts = Counter(all_go_terms)

# Obter os 10 termos GO mais comuns
top_20_go_terms = go_term_counts.most_common(20)

# Exibir os 10 termos mais frequentes
print("Top 20 GO Terms:")
for term, count in top_20_go_terms:
    print(f"GO Term: {term}, Count: {count}")


Top 20 GO Terms:
GO Term: GO:0003887, Count: 6
GO Term: GO:0006231, Count: 4
GO Term: GO:0003677, Count: 3
GO Term: GO:0003676, Count: 2
GO Term: GO:0004519, Count: 1
GO Term: GO:0005515, Count: 1
GO Term: GO:0008829, Count: 1
GO Term: GO:0006229, Count: 1
