# Manipulação de dados biológicos com Python

Este notebook apresenta várias situações cotidianas do trabalho do bioinformata onde pode ser aplicada a linguagem Python usando um pacote chamado BioPython (https://biopython.org).

### Passo01: Instalação dos pacotes necessários

In [1]:
! pip install biopython
! pip install requests



### Passo 02: Importação das bibliotecas necessárias

In [2]:
# Importando as bibliotecas de Byopython que serao usadas
from Bio.Seq import Seq
from Bio.Data import CodonTable
from Bio import SeqIO
from Bio import Align
from Bio.KEGG import REST
from Bio.KEGG import Enzyme
from Bio.KEGG import REST
from Bio import ExPASy
from Bio import SeqIO
import requests

#### Problema: nucleotídeos com maiúsculas  e minúsculas em uma sequência
#### Solução: converter todos os caracteres para maiúsculo

In [5]:
dna_exemplo = Seq("ATGgccattgTAATGGGCCGCTgaaagggTGCCCGATAG")
dna_exemplo = dna_exemplo.upper()
print(dna_exemplo)

ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG


#### Problema: Obter a fita complementar de uma fita de DNA
#### Solução: Calcular o nucleotídeo que se liga a cada nucleotídeo da fita original

In [6]:
rev_compl_dna_exemplo = dna_exemplo.reverse_complement()
print(rev_compl_dna_exemplo)

CTATCGGGCACCCTTTCAGCGGCCCATTACAATGGCCAT


#### Problema: Obter a fita de RNA transcrita de uma fita de DNA
#### Solução: Calacular os nucleotídeos da fita de DNA que serão transcritos pela enzima RNA polimerase

In [7]:
rna_mensageiro = dna_exemplo.transcribe()
print(rna_mensageiro)

AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG


#### Problema: Obter a sequência de aminoácidos que será traduzida a partir de uma fita de DNA
#### Solução: Traduzir de DNA para aminoácidos usando uma tabela de codons

In [8]:
tabela_padrao = CodonTable.unambiguous_dna_by_id[1]
print(tabela_padrao)
aminoacidos = rna_mensageiro.translate()
print(aminoacidos)

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

#### Problema: Obter a sequência de aminoácidos que será traduzida a partir de uma fita de DNA em uma mitocôndria humana
#### Solução: Traduzir de DNA para aminoácidos usando uma tabela de codons mitocondriais em vertebrados

In [9]:
tabela_mitocondrial = CodonTable.unambiguous_dna_by_id[2]
print(tabela_mitocondrial)
aminoacidos = rna_mensageiro.translate(table="Vertebrate Mitochondrial")
print(aminoacidos)

Table 2 Vertebrate Mitochondrial, SGC1

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA W   | A
T | TTG L   | TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L   | CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA M(s)| ACA T   | AAA K   | AGA Stop| A
A | ATG M(s)| ACG T   | AAG K   | AGG Stop| G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GCG A   | GAG E   | GGG G   

#### Problema: Baixar e ler em uma variável o genoma original do vírus Sars-Cov-2 de Wuhan
#### Solução: Fazer uma requisição via URL e carregar o arquivo do genoma em formato genbank para uma variável

In [42]:
# Baixar para  notebook o genoma do Sars-Cov-2 em formato genbank
url =  "https://raw.githubusercontent.com/waldeyr/apostila_bioinfo/main/arquivos/Sars_Cov_2_Genoma.gb"
r = requests.get(url, allow_redirects=True)
open('genoma_sars_cov_2.gb', 'wb').write(r.content)
# Ler o genoma em formato genbank e mostrar o NCBI ID do genoma
genoma_sars_cov_2 = SeqIO.read("genoma_sars_cov_2.gb", "genbank")
print(genoma_sars_cov_2.id)

NC_045512.2


#### Problema: Verificar metadados do genoma
#### Solução: Imprimir na tela o NCBI ID do genoma, seu tamanho, quantidade de anotações (features) e quantidade de genes anotados

In [12]:
# Imprimindo algumas caracteristicas de interesse
print("NCBI ID: %s;\t Tamanho do genoma: %i bp;\t  Qtd features: %i;\t Qtd de genes anotados: %i;" % (
    genoma_sars_cov_2.id, # NCBI ID
    len(genoma_sars_cov_2), # tamanho do genoma em pares de bases
    len(genoma_sars_cov_2.features), #quantidades de features
    len(genoma_sars_cov_2.annotations)# quantidade de genes anotados
))

NCBI ID: NC_045512.2;	 Tamanho do genoma: 29903 bp;	  Qtd features: 57;	 Qtd de genes anotados: 13;


#### Problema: Obter a sequência de aminoácidos da proteína spike do vírus
#### Solução: Percorrer o genoma procurando por regiões codificadoras (CDS) e, ao identificar a regição da proteína spike, traduzir os aminoácidos a partir daquele trecho de DNA

In [13]:
# Gerar um fasta com os aminoacidos da regiao codificadora do gene da proteina spike 
for seq_feature in genoma_sars_cov_2.features: # ler as features do genoma
    if seq_feature.type == "CDS": # misc_feature, gene, misc_RNA, CDS
        for key, value in seq_feature.qualifiers.items(): # ler qualificadores de cada feature
            if key == "translation": # verificar o qualificador de interesse que é translation
                if seq_feature.qualifiers['locus_tag'][0] == "GU280_gp02":# Gene da proteina spike
                    print(f">{seq_feature.qualifiers['locus_tag'][0]}") # imprimir o nome do gene
                    print(f"{str(value[0])}")#imprimir a sequencia da regiao codificadora do gene traduzida para proteina

>GU280_gp02
MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFLLKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITNLCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAIHADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPRRARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFNGLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQNVLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDKVE

#### Problema: Obter sequencias de aminoácidos de anticorpos humanos que interagem com a proteína spike
#### Solução: Utilizar uma requisição via URL com o endereço onde está o arquivo

In [None]:
# Baixar arquivo com 4 sequencias de anticorpos humanos para a proteina spike do sars-cov-2 (GU280_gp02)
url = "https://raw.githubusercontent.com/waldeyr/apostila_bioinfo//main/arquivos/imunoglobulinas_humanas_cadeia_pesada.fasta"
r = requests.get(url, allow_redirects=True)
open('anticorpos_sars_cov_2.fasta', 'wb').write(r.content)

#### Problema: Alinhar 2 sequências de anticorpos para encontrar suas similaridades e diferenças
#### Solução: Utilizar um algoritmo de alinhamento com sistema de pontuação reportando na tela todos os alinhamentos ótimos

In [29]:
# Comparar duas squencias de anticorpos com alinhamento pairwise
lista_de_aticorpos = [] # lista para guardar separadamente cada sequencia do arquivo multifasta
for seq_record in SeqIO.parse("anticorpos_sars_cov_2.fasta", "fasta"):
    lista_de_aticorpos.append(str(seq_record.seq)) # adicionando cada sequencia a lista

alinhador = Align.PairwiseAligner()                          
alinhador.match_score = 100 # pontuacao para match
alinhador.mismatch_score = 0 # pontuacao para mismatch
alinhador.gap_score = -100 # pontuacao para gap
alinhamentos = alinhador.align(lista_de_aticorpos[0], lista_de_aticorpos[1])

qtdAlinhamentos  = len(alinhamentos)
print(f"Quantidade de alinhamentos ótimos: {qtdAlinhamentos}\n")

for alinhamento in alinhamentos:
    print(alinhamento)

Quantidade de alinhamentos ótimos: 40

CAGGTGCAGCTGGTGGAGTCTGGGGGAGGCGTGGTCCAGCCTGGGAGGTCCCTGAGACTCTCCTGTGCAGCCTCTGGATTCACCTTCAGTAGCTATGCTATGCACTGGGTCCGCCAGGCTCCAGGCAAGGGGCTGGAGTGGGTGGCAGGTATATCATATGATGGAAGCAATAAATACTACGCAGACTCCGTGAAGGGCCGATTCACCATCTCCAGAGACAATTCCAAGAACACGCTGTATCTGCAAATGAACAGCCTGAGAGCTGAGGACACGGCTGTGTATTACTGTGCGAGAGCGGACACTATGGTTCGGGGAACTTATTTTGAGTACTGGGGCCAGGGAACCCTGGTCACCGTCTCCTCA
.|||||||||||||||||||||||||||||.||||||||||||||.|||||||||||||||||||||.||||||||||||||||||.|||..||||...|||..|||||||||||||||||||||.||||||||.|||||||||||....|||....|.||||||.|..|.||||||||.|..|||||.||||||||||||||||||||||||||||||||..||||||||.|.|||||||||||||||||||||||||||||.||||||||||||||||||||||||||||||-|.|.|.....|...|.||||-|||-|---||.||||||||||||||||||||||||||||||||||||
GAGGTGCAGCTGGTGGAGTCTGGGGGAGGCTTGGTCCAGCCTGGGGGGTCCCTGAGACTCTCCTGTGTAGCCTCTGGATTCACCTTTAGTTTCTATTGGATGAGCTGGGTCCGCCAGGCTCCAGGAAAGGGGCTCGAGTGGGTGGCCAACATAAAGCAAGATGGAGGTGAGAAATACTATGTGGACTCTGTGAAGGGCCGATTCACCATCTCCAGAGACAACGCCAAGAACTC

#### Problema: Obter os nomes de genes da via metabólica de vitamina C
#### Solução: Consultar os dados de vias metabólicas no banco de dados KEGG

In [43]:
# Obter dados de genes relacionados a via metabolica de vitamina C em humanos
human_pathways = REST.kegg_list("pathway", "hsa").read()

# Filtar para humanos, Ascorbate
Ascorbate_pathways = []
for line in human_pathways.rstrip().split("\n"):
    entry, description = line.split("\t")
    if "Ascorbate" in description:
        Ascorbate_pathways.append(entry)

# Pegar genes da via de Ascorbate e adicionar em uma lista
Ascorbate_genes = [] 
for pathway in Ascorbate_pathways:
    pathway_file = REST.kegg_get(pathway).read()  # for each pathway

    # Iterar sobre o pathway
    current_section = None
    for line in pathway_file.rstrip().split("\n"):
        section = line[:12].strip()  # nomes na 12a coluna
        if not section == "":
            current_section = section
        
        if current_section == "GENE":
            gene_identifiers, gene_description = line[12:].split("; ")
            gene_id, gene_symbol = gene_identifiers.split()

            if not gene_symbol in Ascorbate_genes:
                Ascorbate_genes.append(gene_symbol)

                
print(f"Existe(m) {len(Ascorbate_pathways)} via(s) de Ascorbate e {len(Ascorbate_genes)} genes relacionados.")
print(f"Os genes são: ")
print(", ".join(Ascorbate_genes))

Existe(m) 1 via(s) de Ascorbate e 30 genes relacionados.
Os genes são: 
UGDH, UGT2A1, UGT2A3, UGT2B17, UGT2B11, UGT2B28, UGT1A6, UGT1A4, UGT1A1, UGT1A3, UGT2B10, UGT1A9, UGT2B7, UGT1A10, UGT1A8, UGT1A5, UGT2B15, UGT1A7, UGT2B4, UGT2A2, GUSB, KL, MIOX, AKR1A1, RGN, ALDH2, ALDH3A2, ALDH1B1, ALDH7A1, ALDH9A1


#### Problema: Obter detalhes de uma proteína a partir de seu ID no banco de dados Uniprot
#### Solução: Consultar os dados da proteína no banco de dados Uniprot

In [38]:
# Obter detalhes da proteina: Immunoglobulin heavy variable 3-23 (P01764)
with ExPASy.get_sprot_raw("P01764") as handle:
    seq_record = SeqIO.read(handle, "swiss")
print(seq_record.id)
print(seq_record.name)
print(seq_record.description)
print(repr(seq_record.seq))
print("Length %i" % len(seq_record))
print(seq_record.annotations["keywords"])

P01764
HV323_HUMAN
RecName: Full=Immunoglobulin heavy variable 3-23 {ECO:0000303|PubMed:11340299, ECO:0000303|Ref.8}; AltName: Full=Ig heavy chain V-III region LAY {ECO:0000305|PubMed:4139708}; AltName: Full=Ig heavy chain V-III region POM {ECO:0000305|PubMed:4139708}; AltName: Full=Ig heavy chain V-III region TEI {ECO:0000305|PubMed:4522793}; AltName: Full=Ig heavy chain V-III region TIL {ECO:0000305|PubMed:409716}; AltName: Full=Ig heavy chain V-III region TUR {ECO:0000305|PubMed:4522793}; AltName: Full=Ig heavy chain V-III region VH26 {ECO:0000305|PubMed:6450418}; AltName: Full=Ig heavy chain V-III region WAS {ECO:0000305|PubMed:4522793}; AltName: Full=Ig heavy chain V-III region ZAP {ECO:0000305|PubMed:4522793}; Flags: Precursor;
Seq('MEFGLSWLFLVAILKGVQCEVQLVESGGGLVQPGGSLRLSCAASGFTFSSYAMS...CAK')
Length 117
['3D-structure', 'Adaptive immunity', 'Cell membrane', 'Direct protein sequencing', 'Disulfide bond', 'Immunity', 'Immunoglobulin', 'Immunoglobulin domain', 'Membrane', 'Referen