# Instalar biblioteca Biopython


In [36]:
pip install biopython

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


# Importar bibliotecas para o desenvolvimento do projeto

In [37]:
import Bio
from Bio import SeqIO
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

# Fazer upload do arquivo Influenza H3N2.fasta

In [38]:
from google.colab import files
uploaded = files.upload()

Saving Influenza H3N2.fasta to Influenza H3N2.fasta


# Pegue um dos 8 segmentos da Influenza H3N2 e converta para RNA

<blockquote> Algoritmo:

- Acessar a sequencia desejada por meio do arquivo de entrada.
- Criar uma variável auxiliar que recebe o valor da sequencia de DNA.
- Percorrer a sequencia de DNA e substituir todos nucleotídeos T (Timina) por U (Uracila).
</blockquote>

In [39]:
num_seq = 0

for record in SeqIO.parse("Influenza H3N2.fasta", "fasta"):

    if (num_seq < 1):
      Seq = record.seq
      print(f"Tamanho da sequencia genética: {len(Seq)}\n")
      print(f"Sequencia de DNA: {Seq}")
      
    num_seq += 1

RNA_Seq = Seq.replace("T", "U")
print(f"Sequencia de RNA: {RNA_Seq}")

Tamanho da sequencia genética: 2341

Sequencia de DNA: AGCAAAAGCAGGTCAATTATATTCAGTATGGAAAGAATAAAAGAACTACGGAACCTGATGTCGCAGTCTCGCACTCGCGAGATACTGACAAAAACCACAGTGGACCATATGGCCATAATTAAGAAGTACACATCGGGGAGACAGGAAAAGAACCCGTCACTTAGGATGAAATGGATGATGGCAATGAAATACCCAATCACTGCTGACAAAAGGATAACAGAAATGGTTCCGGAGAGAAATGAACAAGGACAAACTCTATGGAGTAAAATGAGTGATGCTGGATCAGATCGAGTGATGGTATCACCTTTGGCTGTAACATGGTGGAATAGAAATGGACCCGTGGCAAGTACGGTCCATTACCCAAAAGTATACAAGACTTATTTTGACAAAGTCGAAAGGTTAAAACATGGAACCTTTGGCCCTGTTCATTTTAGAAATCAAGTCAAGATACGCAGAAGAGTAGACATAAACCCTGGTCATGCAGACCTCAGTGCCAAAGAGGCACAAGATGTAATTATGGAAGTTGTTTTTCCCAATGAAGTGGGAGCCAGGATACTAACATCAGAATCGCAATTAACAATAACTAAAGAGAAAAAAGAAGAACTCCGAGATTGCAAAATTTCTCCCTTGATGGTTGCATACATGTTAGAGAGAGAACTTGTCCGAAAAACAAGATTTCTCCCAGTTGCTGGCGGAACAAGCAGTATATACATTGAAGTCTTACATTTGACTCAAGGAACGTGTTGGGAACAAATGTACACTCCAGGTGGAGAAGTGAGGAATGACGATGTTGACCAAAGCCTAATTATTGCGGCCAGGAACATAGTAAGAAGAGCTGCAGTATCAGCAGATCCACTAGCATCTTTATTGGAGATGTGCCACAGCACACAAATTGGCGGGACAAGGATGGTGGACATTCTTAGACAGAACCCGACTGAAGAACAA

# Criação da tabela do código genético utilizando estrutura de dados

<blockquote> Algoritmo:

- Criar uma estrutura de dados capaz de armazenar informações da sequência de aminoácidos correspondente a uma proteína.
- Para tanto, pode-se utilizar: Array 2D / Objeto / Tabela Hash / Dicionário
- Neste exercício, o dicionário representa a estrutura de dados escolhida
</blockquote>

In [40]:
geneticTable = {
    
    'UUU': "F", 'UUC': "F",
    'UUA': "L", 'UUG': "L", 'CUU': "L", 'CUC': "L", 'CUA': "L", 'CUG': "L",
    'UCU': "S", 'UCC': "S", 'UCA': "S", 'UCG': "S", 'AGU': "S", 'AGC': "S",
    'UAU': "Y", 'UAC': "Y",
    'UAA': "*", 'UAG': "*", 'UGA': "*",
    'UGU': "C", 'UGC': "C",
    'UGG': "W",
    'CCU': "P", 'CCC': "P", 'CCA': "P", 'CCG': "P",
    'CAU': "H", 'CAC': "H",
    'CAA': "Q", 'CAG': "Q",
    'CGU': "R", 'CGC': "R", 'CGA': "R", 'CGG': "R", 'AGA': "R", 'AGG': "R",
    'AUU': "I", 'AUC': "I", 'AUA': "I",
    'AUG': "M",
    'ACU': "T", 'ACC': "T", 'ACA': "T", 'ACG': "T",
    'AAU': "N", 'AAC': "N",
    'AAA': "K", 'AAG': "K",
    'GUU': "V", 'GUC': "V", 'GUA': "V", 'GUG': "V",
    'GCU': "A", 'GCC': "A", 'GCA': "A", 'GCG': "A",
    'GAU': "D", 'GAC': "D",
    'GAA': "E", 'GAG': "E",
    'GGU': "G", 'GGC': "G", 'GGA': "G", 'GGG': "G"
}

print("Tabela do código genético: \n")

for key, value in geneticTable.items():
  print(f"{key} {value}");

Tabela do código genético: 

UUU F
UUC F
UUA L
UUG L
CUU L
CUC L
CUA L
CUG L
UCU S
UCC S
UCA S
UCG S
AGU S
AGC S
UAU Y
UAC Y
UAA *
UAG *
UGA *
UGU C
UGC C
UGG W
CCU P
CCC P
CCA P
CCG P
CAU H
CAC H
CAA Q
CAG Q
CGU R
CGC R
CGA R
CGG R
AGA R
AGG R
AUU I
AUC I
AUA I
AUG M
ACU T
ACC T
ACA T
ACG T
AAU N
AAC N
AAA K
AAG K
GUU V
GUC V
GUA V
GUG V
GCU A
GCC A
GCA A
GCG A
GAU D
GAC D
GAA E
GAG E
GGU G
GGC G
GGA G
GGG G


#  Pegando a sequência convertida para RNA e fazendo a tradução para sequência de Amino-ácidos proteína na codificação de 1 letra - somente do 1o. frame. 

<blockquote> Algoritmo:

- Criar uma varíavel que armazenará a sequencia de RNA traduzida.
- Criar uma variável auxiliar que recebe a quantidade total das sequencias de DNA do arquivo FASTA.
- Criar um loop realizando uma varredura da quantidade de sequencias de DNA.
</blockquote>

In [41]:
aminoAcid = []
protein = ""


for i in range(0, len(RNA_Seq), 3):

  if ((i + 3) <= len(RNA_Seq)):

    aminoSeq = geneticTable[RNA_Seq[i:i+3]]
    aminoAcid.append(RNA_Seq[i:i+3])
    protein += aminoSeq

# Tabela Amino-ácido x Proteína da Sequencia RNA traduzida

In [42]:
print("Amino-ácido  |  Proteína")
print("--------------------------")

for i in range(len(protein)):
  print(f"   {aminoAcid[i]} \t     |     {protein[i]}")

Amino-ácido  |  Proteína
--------------------------
   AGC 	     |     S
   AAA 	     |     K
   AGC 	     |     S
   AGG 	     |     R
   UCA 	     |     S
   AUU 	     |     I
   AUA 	     |     I
   UUC 	     |     F
   AGU 	     |     S
   AUG 	     |     M
   GAA 	     |     E
   AGA 	     |     R
   AUA 	     |     I
   AAA 	     |     K
   GAA 	     |     E
   CUA 	     |     L
   CGG 	     |     R
   AAC 	     |     N
   CUG 	     |     L
   AUG 	     |     M
   UCG 	     |     S
   CAG 	     |     Q
   UCU 	     |     S
   CGC 	     |     R
   ACU 	     |     T
   CGC 	     |     R
   GAG 	     |     E
   AUA 	     |     I
   CUG 	     |     L
   ACA 	     |     T
   AAA 	     |     K
   ACC 	     |     T
   ACA 	     |     T
   GUG 	     |     V
   GAC 	     |     D
   CAU 	     |     H
   AUG 	     |     M
   GCC 	     |     A
   AUA 	     |     I
   AUU 	     |     I
   AAG 	     |     K
   AAG 	     |     K
   UAC 	     |     Y
   ACA 	     |     T
   UCG 	     |     S
   

# Criar arquivo FASTA e adicionando a sequência de RNA, Amino-ácidos/Proteína para o primeiro frame.

In [43]:
content = []

new_content = SeqRecord(
    RNA_Seq,
    id = "Seq(1)",
    description = "|Sequencia convertida para RNA|"
)
content.append(new_content)

protein = Bio.Seq.Seq(protein)

new_content = SeqRecord(
    protein,
    id = "Frame(1)",
    description= "|RNA Traduzido|"
)
content.append(new_content)

SeqIO.write(
    content,
    "Ex3_RNA_FRAME_01.fasta",
    "fasta"
) 

2

# Pegar todos os segmentos de DNA do arquivo Influenza H3N2 e converter para RNA - Criar arquivo fasta que armazena todas as sequencias de RNA.

<blockquote> Algoritmo:

- Acessar as sequencias desejadas por meio do arquivo de entrada.
- Criar array/lista que recebe o valor da sequencia de DNA.
- Percorrer a sequencia de DNA e substituir todos nucleotídeos T (Timina) por U (Uracila).
- Armezar sequencia de RNA no array/lista.
</blockquote>


In [44]:
RNA_Seq = []
content = []
i = 0

for record in SeqIO.parse("Influenza H3N2.fasta", "fasta"):
    
    RNA_Seq.append(record.seq.transcribe())

    print(f"Sequencia Genetica {i + 1}")
    print(f"Tamanho da sequencia genética: {len(record.seq)}")
    print(f"Sequencia de DNA: {record.seq}")
    print(f"Sequencia de RNA: {RNA_Seq[i]}\n")

    id_seq = "Seq(" + str(i + 1) + ")"
    description_seq = "|Sequencia (" + str(i + 1) + ") convertida para RNA|"

    new_content = SeqRecord(
        RNA_Seq[i],
        id = id_seq,
        description = description_seq
    )
    content.append(new_content)

    i += 1

SeqIO.write(
    content,
    "Ex3_RNA_SEQS.fasta",
    "fasta"
) 

Sequencia Genetica 1
Tamanho da sequencia genética: 2341
Sequencia de DNA: AGCAAAAGCAGGTCAATTATATTCAGTATGGAAAGAATAAAAGAACTACGGAACCTGATGTCGCAGTCTCGCACTCGCGAGATACTGACAAAAACCACAGTGGACCATATGGCCATAATTAAGAAGTACACATCGGGGAGACAGGAAAAGAACCCGTCACTTAGGATGAAATGGATGATGGCAATGAAATACCCAATCACTGCTGACAAAAGGATAACAGAAATGGTTCCGGAGAGAAATGAACAAGGACAAACTCTATGGAGTAAAATGAGTGATGCTGGATCAGATCGAGTGATGGTATCACCTTTGGCTGTAACATGGTGGAATAGAAATGGACCCGTGGCAAGTACGGTCCATTACCCAAAAGTATACAAGACTTATTTTGACAAAGTCGAAAGGTTAAAACATGGAACCTTTGGCCCTGTTCATTTTAGAAATCAAGTCAAGATACGCAGAAGAGTAGACATAAACCCTGGTCATGCAGACCTCAGTGCCAAAGAGGCACAAGATGTAATTATGGAAGTTGTTTTTCCCAATGAAGTGGGAGCCAGGATACTAACATCAGAATCGCAATTAACAATAACTAAAGAGAAAAAAGAAGAACTCCGAGATTGCAAAATTTCTCCCTTGATGGTTGCATACATGTTAGAGAGAGAACTTGTCCGAAAAACAAGATTTCTCCCAGTTGCTGGCGGAACAAGCAGTATATACATTGAAGTCTTACATTTGACTCAAGGAACGTGTTGGGAACAAATGTACACTCCAGGTGGAGAAGTGAGGAATGACGATGTTGACCAAAGCCTAATTATTGCGGCCAGGAACATAGTAAGAAGAGCTGCAGTATCAGCAGATCCACTAGCATCTTTATTGGAGATGTGCCACAGCACACAAATTGGCGGGACAAGGATGGTGGACATTCTTAGAC

8

# Criar arquivos FASTA para armazenar os 6 frames de todas as sequencias do arquivo Influenza H3N2

In [45]:
file_name = []

for i in range(6):

  name = "EX3_ALL_RNA_FRAME_0" + str(i + 1) + ".fasta"
  print(f"Nome do arquivo: {name}")
  file_name.append(name)

Nome do arquivo: EX3_ALL_RNA_FRAME_01.fasta
Nome do arquivo: EX3_ALL_RNA_FRAME_02.fasta
Nome do arquivo: EX3_ALL_RNA_FRAME_03.fasta
Nome do arquivo: EX3_ALL_RNA_FRAME_04.fasta
Nome do arquivo: EX3_ALL_RNA_FRAME_05.fasta
Nome do arquivo: EX3_ALL_RNA_FRAME_06.fasta


# Aplicar a tradução para o Genoma de todas sequencias de RNA

<blockquote> Algoritmo:

- Criar um loop acessando uma sequencia desejada por meio do array/lista de sequencias de RNA.
- Criar segundo loop para os 6 frames de tradução de RNA.
- Armezenar conteúdo da sequencia no arquivo fasta desejado.
</blockquote>

In [46]:
from Bio.Seq import Seq

SeqLst = []

for seq in RNA_Seq:
  
  SeqLst.append(seq)

j = 0

for frame in range(6):
  
  content = []
  print()

  for i in range(len(SeqLst)):
    
    seq = SeqLst[i]
    RNA_translated = Seq(seq[frame:((len(seq) - frame))]).translate()
    print(f"Frame({frame + 1}) - Tradução: {RNA_translated}")

    idFrame = "Frame(" + str(frame + 1) + ")"
    descriptionFrame = "|Sequencia (" + str(i + 1) + ") Traduzida|"

    new_content = SeqRecord(
        RNA_translated,
        id = idFrame,
        description = descriptionFrame
    )
    content.append(new_content)

  SeqIO.write(
          content,
          file_name[j],
          "fasta"
      ) 
  j += 1



Frame(1) - Tradução: SKSRSIIFSMERIKELRNLMSQSRTREILTKTTVDHMAIIKKYTSGRQEKNPSLRMKWMMAMKYPITADKRITEMVPERNEQGQTLWSKMSDAGSDRVMVSPLAVTWWNRNGPVASTVHYPKVYKTYFDKVERLKHGTFGPVHFRNQVKIRRRVDINPGHADLSAKEAQDVIMEVVFPNEVGARILTSESQLTITKEKKEELRDCKISPLMVAYMLERELVRKTRFLPVAGGTSSIYIEVLHLTQGTCWEQMYTPGGEVRNDDVDQSLIIAARNIVRRAAVSADPLASLLEMCHSTQIGGTRMVDILRQNPTEEQAVDICKAAMGLRISSSFSFGGFTFKRTSGSSVKKEEEVLTGNLQTLKIRVHEGYEEFTMVGKRATAILRKATRRLVQLIVSGRDEQSIAEAIIVAMVFSQEDCMIKAVRGDLNFVNRANQRLNPMHQLLRHFQKDAKVLFQNWGIEHIDSVMGMVGVLPDMTPSTEMSMRGIRVSKMGVDEYSSTERVVVSIDRFLRVRDQRGNVLLSPEEVSETQGTERLTITYSSSMMWEINGPESVLVNTYQWIIRNWEAVKIQWSQNPAMLYNKMEFEPFQSLVPKAIRSQYSGFVRTLFQQMRDVLGTFDTTQIIKLLPFAAAPPKQSRMQFSSLTVNVRGSGMRILVRGNSPVFNYNKTTKRLTILGKDAGTLIEDPDESTSGVESAVLRGFLIIGKEDRRYGPALSINELSNLAKGEKANVLIGQGDVVLVMKRKRDSSILTDSQTATKRIRMAIN*C*IV*KRPCFY
Frame(1) - Tradução: SKSRQTI*MDVNPTLLFLKVPAQNAISTTFPYTGDPPYSHGTGTGYTMDTVNRTHQYSEKGKWTTNTETGAPQLNPIDGPLPEDNEPSGYAQTDCVLEAMAFLEESHPGIFENSCLETMEVVQQTRVDKLTQGRQTYDWTLNRNQPAATALANTIEVFRSNGLTANESGRLIDFLK



# Descrever e discutir a diferença entre o uso das funções de transcription e translate na análise das sequências no genoma da H3N2

<blockquote> 

- Transcription(): Dado uma sequencia de DNA no formato Seq Object, retorna uma nova sequencia de RNA no formato Seq Object.
- Translate(): Transforma uma sequencia de nucleotídeos em uma sequencia de proteínas no formato Seq Object.
</blockquote>