<a href="https://colab.research.google.com/github/jaque26souza-ctrl/classificador-ncRNA/blob/main/classificador_ncRNA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Classificador de ncRNAs
# Projeto PyLadies - Jaqueline Alves de Souza

# Função para ler um arquivo FASTA simples
def ler_fasta(caminho_arquivo):
    sequencias = {}
    nome = None
    seq = []

    with open(caminho_arquivo, "r") as f:
        for linha in f:
            linha = linha.strip()

            if linha.startswith(">"):
                if nome:
                    sequencias[nome] = "".join(seq)
                nome = linha[1:]
                seq = []
            else:
                seq.append(linha)

        if nome:
            sequencias[nome] = "".join(seq)

    return sequencias

# Função para classificar RNA pelo tamanho

def classificar_tamanho(seq):
    tamanho = len(seq)

    if tamanho < 18:
        return "Fragmento muito curto"

    if 18 <= tamanho <= 24:
        return "miRNA"
    if 26 <= tamanho <= 31:
        return "piRNA"
    if 60 <= tamanho <= 100:
        return "snoRNA"
    if 101 <= tamanho <= 300:
        return "snRNA"
    if tamanho > 350:
        return "lncRNA"

    return "ncRNA não identificado pelo tamanho"

# Função para calcular GC%

def calcular_gc(seq):
    g = seq.count("G")
    c = seq.count("C")
    total = len(seq)

    if total == 0:
        return 0

    gc_percent = (g + c) / total * 100
    return round(gc_percent, 2)


# Interpretação do GC%

def interpretar_gc(gc):
    if 40 <= gc <= 60:
        return "GC moderado, comum em miRNAs)"
    if gc < 30:
        return "GC baixo, possível lncRNA"
    if gc > 60:
        return "GC alto, não é um ncRNAs"
    return "GC dentro do esperado"

# Programa principal

def main():
    arquivo = "/content/sequencias-fasta.txt"  # caminho
    sequencias = ler_fasta(arquivo)

    print("\n=== Classificação de ncRNAs ===\n")

    for id_seq, seq in sequencias.items():
        tamanho = len(seq)
        tipo = classificar_tamanho(seq)
        gc = calcular_gc(seq)
        interpretacao = interpretar_gc(gc)

        print(f"ID: {id_seq}")
        print(f"Tamanho: {tamanho} bases")
        print(f"Classificação: {tipo}")
        print(f"GC%: {gc}")
        print(f"Interpretação GC: {interpretacao}")
        print("-" * 40)

# Executa o programa
if __name__ == "__main__":
    main()


=== Classificação de ncRNAs ===

ID: hsa-miR-21-5p
Tamanho: 22 bases
Classificação: miRNA
GC%: 36.36
Interpretação GC: GC dentro do esperado
----------------------------------------
ID: hsa-mir-34a
Tamanho: 22 bases
Classificação: miRNA
GC%: 50.0
Interpretação GC: GC moderado, comum em miRNAs)
----------------------------------------
ID: piR-hsa-651
Tamanho: 28 bases
Classificação: piRNA
GC%: 53.57
Interpretação GC: GC moderado, comum em miRNAs)
----------------------------------------
ID: piR-hsa-823
Tamanho: 30 bases
Classificação: piRNA
GC%: 50.0
Interpretação GC: GC moderado, comum em miRNAs)
----------------------------------------
ID: SNORD46
Tamanho: 98 bases
Classificação: snoRNA
GC%: 48.98
Interpretação GC: GC moderado, comum em miRNAs)
----------------------------------------
ID: SNORD50A
Tamanho: 75 bases
Classificação: snoRNA
GC%: 36.0
Interpretação GC: GC dentro do esperado
----------------------------------------
ID: RNU1-1
Tamanho: 164 bases
Classificação: snRNA
GC%: 54