<a href="https://colab.research.google.com/github/CatarinaRRF/IC_design_de_siRNA/blob/main/code/IC_design_de_siRNA(upload_arquivos).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <b><font color=2C3E50> IC - Design de siRNA</a></font></b>
<hr color ='2C3E50' size="10">

<font color=RED><b>O que precisa ser feito</b></font>
<hr>

* Trascrever o DNA que foi importando
* Encontrar as sequencias de 22 pb
* Integrar o blast do valdeir com este codigo
* Criar um dataset com as sequencias e seus score

<font color=RED><b>Erros que precisam ser resolvidos</b></font>
<hr>

Lembrar de alterar o resultado da função siRNA_score

O limite de conformidade de 80% deve ser analizado com mais precisão



## <font color=2C3E50><b> 01. Introdução</b>

Com a crescente importância das pesquisas em biologia molecular e terapia genética, a identificação e seleção eficiente de pequenas moléculas de RNA interferente (siRNA) tornaram-se cruciais para a regulação precisa da expressão gênica.

Nesse contexto, se faz necessario a criação de algoritmo capaz de automatizar e aprimorar o processo de escolha de siRNA. Ao integrar dados genômicos, informações sobre o alvo gênico e considerações terapêuticas, o algoritmo visa simplificar a complexidade inerente à seleção de siRNA, oferecendo aos pesquisadores uma ferramenta confiável para acelerar suas investigações e aplicações práticas.

O algoritimo utiliza do banco de dados mantido pelo NCBI <i>gene</i> onde, a partir dos codigo do gene de interesse fornecido pelo usuario, será analizado a viabilidade dos possiveis siRNA produzidos. Segue o desenho esquematico da logica do programa.


<img style="display: inline; margin: 15px 0;" title="heartica_logo" src= https://raw.githubusercontent.com/CatarinaRRF/IC_design_de_siRNA/main/media/siRNA.drawio%20.png alt="" />

## <font color=2C3E50><b> 02.Buscando a sequencia do Gene</b>



Bloco de código onde o usuário entra com o nome do genes (HOXB7) a pesquisar no portal NCBI, após a pesquisa, será exibido detalhes do genes, e será salvo automaticamente no formato fasta

email = catarinafreitas1605@gmail.com

<font color=82D712><b>Importando Bibliotecas

In [1]:
pip install biopython



In [2]:
import Bio
from Bio import Entrez
from Bio import SeqIO
from Bio.Seq import Seq

###<font color=82D712><b> Insirindo os dados

In [10]:
from Bio import SeqIO
def converter_letras(sequencia):
    return sequencia.seq[:-1].replace('T', 'U')

# selecionar o arquivo FASTA
nome_arquivo = '/content/sequence.fasta'

try:
    # Le o arquivo FASTA e armazena as sequencias em uma lista
    sequencias = list(SeqIO.parse(nome_arquivo, 'fasta'))

    # Verifica se o arquivo nao está vazio
    if len(sequencias) > 0:
        # Define o nome do arquivo de saída
        nome_arquivo_saida = 'meugene.fasta'

        # Salva as sequencias no arquivo de saida
        SeqIO.write(sequencias, nome_arquivo_saida, 'fasta')
        print(f'O arquivo {nome_arquivo} foi salvo como {nome_arquivo_saida}.')

        # Exibe os dados das sequencias para o usuario
        for sequencia in sequencias:
            print()
            print("*"*28, 'Informações', "*"*28)
            print(f'Nome: {sequencia.name}')
            print(f'Descrição: {sequencia.description}')
            print(f'Tamanho: {len(sequencia.seq)}')

            # Converte as letras T para U
            a = sequencia.seq.complement()
            sequencia_convertida = Bio.Seq.transcribe(a)
            print()
            print("*"*28, 'Sequências', "*"*28)
            print(f'* Sequência de DNA:\n {sequencia.seq}')
            print(f'\n* Sequência convertida em RNA:\n {sequencia_convertida}')
    else:
        print('O arquivo FASTA está vazio.')
except Exception as e:
    print(f'Ocorreu um erro ao ler o arquivo FASTA: {str(e)}')


O arquivo /content/sequence.fasta foi salvo como meugene.fasta.

**************************** Informações ****************************
Nome: NM_004502.4
Descrição: NM_004502.4 Homo sapiens homeobox B7 (HOXB7), mRNA
Tamanho: 1363

**************************** Sequências ****************************
* Sequência de DNA:
 CTTTTTGGTGTAAATCTGGACTCTAATTCTGTAATATATCAAGGAATCTCGTAAAACCGACACTAAAACGTCCCTGCCTACAAATCATCCGGCCAAATTATGAGTTCATTGTATTATGCGAATACTTTATTTTCTAAATATCCAGCCTCAAGTTCGGTTTTCGCTACCGGAGCCTTCCCAGAACAAACTTCTTGTGCGTTTGCTTCCAACCCCCAGCGCCCGGGCTATGGAGCGGGTTCGGGCGCTTCCTTCGCCGCCTCGATGCAGGGCTTGTACCCCGGCGGGGGGGGCATGGCGGGCCAGAGCGCGGCCGGCGTCTACGCGGCCGGCTATGGGCTCGAGCCGAGTTCCTTCAACATGCACTGCGCGCCCTTTGAGCAGAACCTCTCCGGGGTGTGTCCCGGCGACTCCGCCAAGGCGGCGGGCGCCAAGGAGCAGAGGGACTCGGACTTGGCGGCCGAGAGTAACTTCCGGATCTACCCCTGGATGCGAAGCTCAGGAACTGACCGCAAACGAGGCCGCCAGACCTACACCCGCTACCAGACCCTGGAGCTGGAGAAAGAATTTCACTACAATCGCTACCTGACGCGGCGGCGGCGCATCGAGATCGCGCACACGCTCTGCCTCACGGAAAGACAGATCAAGATTTGGTTTCAGAACCGGCGCATGAAGTGGAAAAA

## <font color=2C3E50><b> 03.Construção dos possiveis siRNA</b>
<hr>


Bloco de codigo onde se vai retirar as sequencias de possiveis de siRNAs

<font color=82D712><b>Achando as possiveis sequencias de siRNA

In [14]:
possiveis_siRNA = []
for index, sequence in enumerate(sequencia_convertida):
   f = index+22
   possiveis_siRNA.append(str(sequencia_convertida[index:f]))
   siRNA = possiveis_siRNA[:-21]

siRNA[:10]

['GAAAAACCACAUUUAGACCUGA',
 'AAAAACCACAUUUAGACCUGAG',
 'AAAACCACAUUUAGACCUGAGA',
 'AAACCACAUUUAGACCUGAGAU',
 'AACCACAUUUAGACCUGAGAUU',
 'ACCACAUUUAGACCUGAGAUUA',
 'CCACAUUUAGACCUGAGAUUAA',
 'CACAUUUAGACCUGAGAUUAAG',
 'ACAUUUAGACCUGAGAUUAAGA',
 'CAUUUAGACCUGAGAUUAAGAC']

## <font color=2C3E50><b> 04. Classificação dos siRNA</b>
<hr>

Reynolds et al. (2004), Ui-Tei et al. (2004) e Amarzguioui et al. estabeleceram critérios para determinar a funcionalidade das sequências de siRNA, que incluem o conteúdo de CG%, temperatura de melting e baixa estabilidade interna.

Se uma sequência atender a esses critérios, ela é considerada funcional. Os critérios são classificados em ordem de importância da seguinte forma:

| Rank | Critério                                   | Pontuação |
| ---- | ------------------------------------------ | --------- |
| 1    | Ausência de repetições invertidas (hairpin) | -         |
| 2    | Estabilidade interna baixa                 | -2 a 10   |
| 3    | Baixo teor de GC                           | 0 ou 4    |
| 4    | Posições específicas                       | -4 a 6    |

Assim, os siRNAs candidatos são avaliados de acordo com esses critérios para determinar sua viabilidade. Para o primeiro critério, os siRNAs que não atendem são descartados. Para os demais critérios, é atribuída uma pontuação: 10 pontos para o critério de estabilidade baixa, 4 ponto para o critério de baixo teor GC e 1 ponto para o critério 4.

É importante destacar que, no caso das posições específicas, cada posição que corresponde a um nucleotídeo ideal recebe 1 ponto, enquanto a não conformidade com essa posição retorna 0 pontos. Nas posições onde o nucleotídeo precisa ser específico, é deduzido 1 ponto se não estiver em conformidade.

A pontuação então sera trasformada em pencentual, onde as sequencias apenas as sequencias com mais de 80% de conformidade seram levadas para as proximas fases.

<hr>

> <font size="2.5"> codigo usado como base de biologyguy in <a href="https://github.com/biologyguy/public_scripts/blob/master/siRNA_predict.py" rel="">github</a>

<font color=82D712><b>Importando Bibliotecas

In [7]:
import re
from Bio.SeqUtils import MeltingTemp as mt
from Bio.SeqUtils import gc_fraction
from Bio.Seq import Seq
import pandas as pd

<font color=82D712><b>Determinando a qualidade do siRNA

In [8]:
def siRNA_score (sequence):
  score = 0

  # Ausência de repetições invertidas (Tm_GC)
  tm = round(mt.Tm_GC(sequence), 4)
  if tm > 21.5:
    print("não funcional") #trocar para remove() quando a lista de rna for produzida

  # Estabilidade interna baixa
  for letra in sequence[14:19]:
    if letra == "A" or letra == "U":
      score += 2
    else:
      score -= 2

  # Conteudo Baixo GC
  conteudo_gc = round(gc_fraction(sequence)*100, 2)
  if 30 <= conteudo_gc <= 52:
    score += 4

  # Posições específicas - Critérios REYNOLDS et al. (2004) e AMARZGUIOUI et al. (2004)
  if sequence[0] == "A" or sequence[9] != "U":
    score += 1
  if sequence[5] == "A":
    score += 1
  else: score -= 1
  if sequence[9] == "U":
    score += 1
  if sequence[9] != "G":
    score += 1
  else: score -= 1
  if sequence[18] != "G" and sequence[18] != "C":
    score += 1
  else: score -= 1
  if sequence[18] == "A":
    score += 1
  else: score -= 1

  return score, tm,

<font color=82D712><b>Verificando cada sequencia de siRNA e salvando suas pontuações

In [None]:
for sequence in siRNA:
  print(siRNA_score(sequence))

## <font color=2C3E50><b>05. Blast</b>
<hr>


Essa parte é especializada em trazer as informações BLAST do arquivo fasta, porém o processamento é online, demorando alguns minutos

<font color=82D712><b>Importando Bibliotecas

## <font color=2C3E50><b>06. Dataset, Visualização e plotly</b>
<hr>