<a href="https://colab.research.google.com/github/CatarinaRRF/IC_design_de_siRNA/blob/main/code/IC_design_de_siRNA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <b><font color=2C3E50> IC - Design de siRNA</a></font></b>
<hr color ='2C3E50' size="10">

<font color=RED><b>O que precisa ser feito</b></font>
<hr>

* Descobrir os parametros

<font color=RED><b>Erros e duvidas</b></font>
<hr>

* Quais seriam os parâmetros que seriam alterados caso se queira sequência de siRNA para pareamento em local específico ou outra característica específica ( modificado normalmente nos parâmetros de busca no Whitehead ou no Blast)



## <font color=2C3E50><b> 01. Introdução</b>

Com a crescente importância das pesquisas em biologia molecular e terapia genética, a identificação e seleção eficiente de pequenas moléculas de RNA interferente (siRNA) tornaram-se cruciais para a regulação precisa da expressão gênica. Neste contexto, é preciso criar um algoritmo que automatize e melhore a seleção de siRNA.

O algoritimo que será desenvolido utilizará do banco de dados mantido pelo NCBI <i>gene</i> onde, a partir dos arquivos inseridos pelo usuario, será analizado a viabilidade dos possiveis siRNA produzidos. Terá então 9 etapas principais, resumidas a seguir:

<br>

<img style="display: inline; margin: 15px 0;" title="heartica_logo" src= https://raw.githubusercontent.com/CatarinaRRF/IC_design_de_siRNA/main/media/algoritimo_siRNA.png alt="" />

<b>Etapa 1: Entrada de Dados</b>

O algoritmo recebe um arquivo FASTA inserido pelo usuario contendo sequências de DNA que se deseja analisar. Cada sequência no arquivo FASTA é identificada por um cabeçalho (linha que começa com ">") e é seguida pela própria sequência.

<b>Etapa 2: Transcrição das Sequências de DNA</b>

Para a sequência de DNA encontrada no arquivo FASTA, o algoritmo realiza a transcrição, convertendo a sequência de DNA em uma sequência de RNA complementar.

<b>Etapa 3: Identificação de siRNA</b>

O algoritmo procura na sequência de RNA resultante por potenciais sequências de 22pb que serão potenciais siRNA.

<b>Etapa 4: Verificação da Qualidade do siRNA</b>

Cada sequência de siRNA identificada é submetida a uma análise de qualidade. Isso pode incluir a verificação da estrutura secundária, conteúdo de GC, estabilidade termodinâmica, e de posições de nucleotidios indicadas de acordo com a literatura consutada.

<b>Etapa 5: Excluir siRNA que não se enquadram nos critérios</b>

Os siRNAs que não atendem aos critérios de qualidade são excluídos da análise subsequente.

<b>Etapa 6: Execução do BLAST</b>

Para cada siRNA de qualidade, o algoritmo executa uma busca BLAST em um banco de dados de referência para encontrar alvos potenciais no transcriptoma. O BLAST ajuda a identificar possíveis correspondências com sequências conhecidas.

<b>Etapa 7: Extração de Informações do BLAST</b>

Após a execução do BLAST, o algoritmo extrai informações relevantes, como a sequência do alvo, o score do alinhamento e outros parâmetros importantes.

<b>Etapa 8: Criação de Tabela de Resultados</b>

Com as informações extraídas do BLAST, o algoritmo cria uma tabela de resultados que pode ser usada para análise posterior. Esta tabela inclui a sequência de siRNA, o score do BLAST, o algoritmo realiza a transcrição, convertendo a sequência de DNA em uma sequência de RNA complementar.

<b>Etapa 9: Fim</b>

O algoritmo conclui a análise das sequências de DNA, fornecendo uma tabela de resultados que pode ser usada para inferir a função ou alvo dos siRNAs identificados.



## <font color=2C3E50><b> 02.Buscando a sequencia do Gene</b>



Bloco de código onde o usuário adiciona o aquivo fasta baixado do NCBI, logo em seguida, será exibido detalhes do genes

<font color=82D712><b>Importando Bibliotecas

In [1]:
pip install biopython

Collecting biopython
  Downloading biopython-1.81-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/3.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.3/3.1 MB[0m [31m7.6 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.7/3.1 MB[0m [31m9.5 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/3.1 MB[0m [31m11.2 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━[0m [32m1.8/3.1 MB[0m [31m12.6 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━[0m [32m2.5/3.1 MB[0m [31m14.5 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m3.1/3.1 MB[0

In [2]:
import Bio
from Bio import Entrez
from Bio import SeqIO
from Bio.Seq import Seq

###<font color=82D712><b> Insirindo os dados

In [3]:
from Bio import SeqIO

# selecionar o arquivo FASTA
nome_arquivo = "/content/sequence.fasta"

try:
    # Le o arquivo FASTA e armazena as sequencias em uma lista
    sequencias = list(SeqIO.parse(nome_arquivo, 'fasta'))

    # Verifica se o arquivo nao está vazio
    if len(sequencias) > 0:
        # Define o nome do arquivo de saída
        nome_arquivo_saida = 'meugene.fasta'

        # Salva as sequencias no arquivo de saida
        SeqIO.write(sequencias, nome_arquivo_saida, 'fasta')
        print(f'O arquivo {nome_arquivo} foi salvo como {nome_arquivo_saida}.')

        # Exibe os dados das sequencias para o usuario
        for sequencia in sequencias:
            print()
            print("*"*28, 'Informações', "*"*28)
            print(f'Nome: {sequencia.name}')
            print(f'Descrição: {sequencia.description}')
            print(f'Tamanho: {len(sequencia.seq)}')

            # Converte as letras T para U
            a = sequencia.seq.reverse_complement()
            sequencia_convertida = Bio.Seq.transcribe(a)

            print()
            print("*"*28, 'Sequências', "*"*28)
            print(f'* Sequência de DNA:\n {sequencia.seq}')
            print(f'\n* RNA complementar reverso:\n {sequencia_convertida}')
    else:
        print('O arquivo FASTA está vazio.')
except Exception as e:
    print(f'Ocorreu um erro ao ler o arquivo FASTA: {str(e)}')

O arquivo /content/sequence.fasta foi salvo como meugene.fasta.

**************************** Informações ****************************
Nome: NM_004502.4
Descrição: NM_004502.4 Homo sapiens homeobox B7 (HOXB7), mRNA
Tamanho: 1363

**************************** Sequências ****************************
* Sequência de DNA:
 CTTTTTGGTGTAAATCTGGACTCTAATTCTGTAATATATCAAGGAATCTCGTAAAACCGACACTAAAACGTCCCTGCCTACAAATCATCCGGCCAAATTATGAGTTCATTGTATTATGCGAATACTTTATTTTCTAAATATCCAGCCTCAAGTTCGGTTTTCGCTACCGGAGCCTTCCCAGAACAAACTTCTTGTGCGTTTGCTTCCAACCCCCAGCGCCCGGGCTATGGAGCGGGTTCGGGCGCTTCCTTCGCCGCCTCGATGCAGGGCTTGTACCCCGGCGGGGGGGGCATGGCGGGCCAGAGCGCGGCCGGCGTCTACGCGGCCGGCTATGGGCTCGAGCCGAGTTCCTTCAACATGCACTGCGCGCCCTTTGAGCAGAACCTCTCCGGGGTGTGTCCCGGCGACTCCGCCAAGGCGGCGGGCGCCAAGGAGCAGAGGGACTCGGACTTGGCGGCCGAGAGTAACTTCCGGATCTACCCCTGGATGCGAAGCTCAGGAACTGACCGCAAACGAGGCCGCCAGACCTACACCCGCTACCAGACCCTGGAGCTGGAGAAAGAATTTCACTACAATCGCTACCTGACGCGGCGGCGGCGCATCGAGATCGCGCACACGCTCTGCCTCACGGAAAGACAGATCAAGATTTGGTTTCAGAACCGGCGCATGAAGTGGAAAAA

## <font color=2C3E50><b> 03.Construção dos possiveis siRNA</b>
<hr>


retira-se as sequencias de possiveis de siRNAs

<font color=82D712><b>Achando as possiveis sequencias de siRNA

In [4]:
possiveis_siRNA = []
for index, sequence in enumerate(sequencia_convertida):
   f = index+22
   possiveis_siRNA.append(str(sequencia_convertida[index:f]))
   siRNA = possiveis_siRNA[:-21]

siRNA[-10:]

['CAGAAUUAGAGUCCAGAUUUAC',
 'AGAAUUAGAGUCCAGAUUUACA',
 'GAAUUAGAGUCCAGAUUUACAC',
 'AAUUAGAGUCCAGAUUUACACC',
 'AUUAGAGUCCAGAUUUACACCA',
 'UUAGAGUCCAGAUUUACACCAA',
 'UAGAGUCCAGAUUUACACCAAA',
 'AGAGUCCAGAUUUACACCAAAA',
 'GAGUCCAGAUUUACACCAAAAA',
 'AGUCCAGAUUUACACCAAAAAG']

## <font color=2C3E50><b> 04. Classificação dos siRNA</b>
<hr>

Reynolds et al. (2004), Ui-Tei et al. (2004) e Amarzguioui et al. estabeleceram critérios para determinar a funcionalidade das sequências de siRNA, que incluem o conteúdo de CG%, temperatura de melting e baixa estabilidade interna.

Se uma sequência atender a esses critérios, ela é considerada funcional. Os critérios são classificados em ordem de importância da seguinte forma:

| Rank | Critério                                   | Pontuação |
| ---- | ------------------------------------------ | --------- |
| 1    | Ausência de repetições invertidas (hairpin) | -         |
| 2    | Estabilidade interna baixa                 | -2 a 10   |
| 3    | Baixo teor de GC                           | 0 ou 4    |
| 4    | Posições específicas                       | -4 a 6    |

Assim, os siRNAs candidatos são avaliados de acordo com esses critérios para determinar sua viabilidade. Para o primeiro critério, os siRNAs que não atendem são descartados. Para os demais critérios, é atribuída uma pontuação: 10 pontos para o critério de estabilidade baixa, 4 ponto para o critério de baixo teor GC e 1 ponto para o critério 4.

É importante destacar que, no caso das posições específicas, cada posição que corresponde a um nucleotídeo ideal recebe 1 ponto, enquanto a não conformidade com essa posição retorna 0 pontos. Nas posições onde o nucleotídeo precisa ser específico, é deduzido 1 ponto se não estiver em conformidade.

A pontuação então sera trasformada em pencentual, onde apenas as sequencias com mais de 80% de conformidade seram levadas para as proximas fases.

<hr>

> <font size="2.5"> codigo usado como base de biologyguy in <a href="https://github.com/biologyguy/public_scripts/blob/master/siRNA_predict.py" rel="">github</a>

<font color=82D712><b>Importando Bibliotecas

In [5]:
import re
from Bio.SeqUtils import MeltingTemp as mt
from Bio.SeqUtils import gc_fraction
from Bio.Seq import Seq
import pandas as pd

<font color=82D712><b>Determinando a qualidade do siRNA

In [6]:
def siRNA_score (sequence, MaxTm, index):
  score = 0

  # Ausência de repetições invertidas Tm
  tm = round(mt.Tm_GC(sequence), 4)
  #-------------------------------------------------#

  # Estabilidade interna baixa
  for letra in sequence[14:19]:
    if letra == "A" or letra == "U":
      score += 2
    else:
      score -= 2
  #-------------------------------------------------#

  # Conteudo Baixo GC
  conteudo_gc = round(gc_fraction(sequence)*100, 2)
  if 30 <= conteudo_gc <= 52:
    score += 4
  #-------------------------------------------------#

  # Posições específicas - Critérios REYNOLDS et al. (2004) e AMARZGUIOUI et al. (2004)
  if sequence[0] == "A" or sequence[9] != "U":
    score += 1
  if sequence[5] == "A":
    score += 1
  else: score -= 1
  if sequence[9] == "U":
    score += 1
  if sequence[9] != "G":
    score += 1
  else: score -= 1
  if sequence[18] != "G" and sequence[18] != "C":
    score += 1
  else: score -= 1
  if sequence[18] == "A":
    score += 1
  else: score -= 1
  #-------------------------------------------------#

  return score, tm, conteudo_gc, MaxTm

<font color=82D712><b>Verificando cada sequencia de siRNA e salvando suas pontuações

In [7]:
# Definindo Variaveis
siRNA_verificados = []
score = []
tm = []
conteudo_gc = []
#-------------------------------------------------#

for index, sequence in enumerate(siRNA):
  #Veficando a qualidade
  resultado = siRNA_score(sequence, 60, index)

  #Exclui RNAs indesejadas
  if resultado[0] <= 16 or resultado[1] > resultado[3]:
    siRNA.pop(index)
  else:
  #Salvando os parametros
    siRNA_verificados.append(sequence)
    score.append(resultado[0])
    tm.append(resultado[1])
    conteudo_gc.append(resultado[2])

  # Printando as sequencias possiveis
    print(sequence, 'score:', resultado[0], 'Tm:', resultado[1])

UAUUUUUAAUUGCGUUUUAUUU score: 17 Tm: 38.2211
CCACAAAGACAGCAUUAAAGAG score: 19 Tm: 49.4029
ACAAAACUGCAAGAUUUUACAA score: 19 Tm: 43.812
ACAGAACAGGUAGAUAAUAUCC score: 17 Tm: 47.5393
AUAAUAUCCUUUUCAUAUUGUA score: 18 Tm: 40.0847
UUCAUAUUGUACAAAAAAACCA score: 19 Tm: 41.9484
UGUUGAAAAACCAAAAUUUCUC score: 17 Tm: 43.812
UCCUUAAAAAAUGUUUUUAAAC score: 19 Tm: 40.0847
CCUUAAAAAAUGUUUUUAAACU score: 19 Tm: 40.0847
CUUAAAAAAUGUUUUUAAACUC score: 19 Tm: 40.0847
UUUAAACUCCUUUCAUUUAAAU score: 19 Tm: 40.0847
UUAAACUCCUUUCAUUUAAAUA score: 17 Tm: 40.0847
UAAACUCCUUUCAUUUAAAUAG score: 17 Tm: 41.9484
CAUUUAAAUAGGGUUUUUUUUU score: 17 Tm: 40.0847
CUGGAUAUUUAGAAAAUAAAGU score: 17 Tm: 41.9484
AUAAAGUAUUCGCAUAAUACAA score: 18 Tm: 41.9484
AAUACAAUGAACUCAUAAUUUG score: 17 Tm: 41.9484
AUACAAUGAACUCAUAAUUUGG score: 17 Tm: 43.812
UACGAGAUUCCUUGAUAUAUUA score: 17 Tm: 43.812
ACGAGAUUCCUUGAUAUAUUAC score: 17 Tm: 45.6756
GAAUUAGAGUCCAGAUUUACAC score: 19 Tm: 47.5393


## <font color=2C3E50><b>05. Blast</b>
<hr>


Essa parte tras as informações BLAST do arquivo fasta, porém o processamento é online, demorando alguns minutos

<font color=82D712><b> Criando um fasta

In [8]:
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
from Bio import SeqIO

In [9]:
records = []
for index, sequence in enumerate(siRNA_verificados):
    # Criando o cabeçalho enumerado
    header = f"sequencia_{index+1}"

    # Criando um objeto SeqRecord com a sequência e o cabeçalho
    record = SeqRecord(Seq(sequence), id=header, description="")

    # Adicionando o registro à lista
    records.append(record)

# Salvando os registros no arquivo FASTA
fasta_filename = "minha_sequencia.fasta"
with open(fasta_filename, "w") as output_file:
    SeqIO.write(records, output_file, "fasta")

print(f"As sequências foram salvas em '{fasta_filename}'.")


As sequências foram salvas em 'minha_sequencia.fasta'.


<font color=82D712><b>Rodando o BLAST

* O max score é o valor máximo que pode ser obtido naquele alinhamento, enquanto o total score é o valor obtido pelo alinhamento. Se o total score for igual ao max score significa que o alinhamento obteve o maior valor possível.
* Cobertura da query é um valor dos parâmetros do alinhamento que demonstra o quanto da sequência enviada conseguiu realizar um alinhamento. Esse valor é importante de ser analisado, uma vez que podem existir casos em que apenas um pedaço da sequência enviada seja alinhada e, por isso, os valores do alinhamento sejam bons.
* E-value é um parâmetro muito importante do alinhamento. Ele demonstra a possibilidade do alinhamento ter sido realizado ao acaso. Quanto mais próximo ao zero (0) o valor for, mais confiabilidade pode se ter no alinhamento.
* A porcentagem de identidade está relacionada com a similaridade da sequência enviada pelo usuário com a sequência alinhada, levando-se em consideração a cobertura da sequência.

In [10]:
from Bio import SeqIO
from Bio.Blast import NCBIWWW
from Bio.Blast import NCBIXML

In [11]:
%%time
fasta_string = open("meugene.fasta").read()
result_handle = NCBIWWW.qblast("blastn", "refseq_rna", fasta_string)

blast_records = NCBIXML.parse(result_handle)
print("{:<20} {:<20} {:<10} {:<10} {:<10} {:<10} {:<10} {:<10} {:<10}".format("description", "scientific name", "max score", "total score", "query cover", "E value", "per. ident", "acc. len", "accession"))
alignments = []
for blast_record in blast_records:
    for alignment in blast_record.alignments:
        for hsp in alignment.hsps:
            if hsp.expect < 0.01:
                alignments.append((
                    alignment.hit_def[:20],
                    alignment.hit_id.split("|")[4][:20],
                    hsp.score,
                    hsp.bits,
                    hsp.align_length / blast_record.query_length,
                    hsp.expect,
                    hsp.identities / hsp.align_length,
                    alignment.length,
                    alignment.accession
                ))
alignments.sort(key=lambda x: x[5])
for alignment in alignments:
    print("{:<20} {:<20} {:<10} {:<10} {:<10.2f} {:<10.2e} {:<10.2f} {:<10} {:<10}".format(*alignment))


description          scientific name      max score  total score query cover E value    per. ident acc. len   accession 
Homo sapiens homeobo                      2726.0     2459.28    1.00       0.00e+00   1.00       1363       NM_004502 
PREDICTED: Pan trogl                      2665.0     2404.28    1.00       0.00e+00   0.99       1628       XM_511938 
PREDICTED: Gorilla g                      2596.0     2342.06    1.00       0.00e+00   0.98       1387       XM_004041393
PREDICTED: Hylobates                      2552.0     2302.38    0.99       0.00e+00   0.98       1354       XM_032163347
PREDICTED: Pongo abe                      2538.0     2289.76    1.00       0.00e+00   0.97       1382       XM_002834255
PREDICTED: Pongo pyg                      2523.0     2276.24    1.00       0.00e+00   0.97       1373       XM_054455998
PREDICTED: Symphalan                      2522.0     2275.33    1.00       0.00e+00   0.97       1362       XM_055258483
PREDICTED: Nomascus                 

#teste

In [19]:
result_handle

<_io.StringIO at 0x78b2df6e9c60>

In [21]:
import xml.etree.ElementTree as et
arquivo = et.parse('teste.xml')
raiz = arquivo.getroot()

for filhas in raiz:
    print(filhas.tag, filhas.attrib)

BlastOutput_program {}
BlastOutput_version {}
BlastOutput_reference {}
BlastOutput_db {}
BlastOutput_query-ID {}
BlastOutput_query-def {}
BlastOutput_query-len {}
BlastOutput_param {}
BlastOutput_iterations {}


In [15]:
pd.read_xml ('teste.xml')

Unnamed: 0,BlastOutput_program,BlastOutput_version,BlastOutput_reference,BlastOutput_db,BlastOutput_query-ID,BlastOutput_query-def,BlastOutput_query-len,Parameters,Iteration
0,blastn,,,,,,,,
1,,BLASTN 2.14.1+,,,,,,,
2,,,"Stephen F. Altschul, Thomas L. Madden, Alejand...",,,,,,
3,,,,nt,,,,,
4,,,,,Query_29683,,,,
5,,,,,,No definition line,,,
6,,,,,,,1363.0,,
7,,,,,,,,,
8,,,,,,,,,


## <font color=2C3E50><b>06. Dataset, Visualização e plotly</b>
<hr>

In [None]:
import pandas as pd
#from google.colab import data_table

In [None]:
dataset = pd.DataFrame({"Sequência 5'➔ 3'": siRNA_verificados,
                        "Score": score,
                        "Temperatura de Melting": tm,
                        "Conteudo CG": conteudo_gc})
dataset = dataset.sort_values(by=["Score"], ascending=False, ignore_index=True)

In [None]:
dataset