Neste estudo de caso, faremos a comparação entre duas sequências de DNA: 
(1) ser humano & (2) bactéria.

DNA é uma molécula presente em todos os seres vivos, que é responsável por armazenar as características hereditárias. Ela é composta por sequências de nucleotídeos, que podem de quatro tipos: adenina, timina, citosina ou guanina.

"Computacionalmente" falando podemos representá-los através de 4 letras: A, T, C ou G.

Neste estudo de caso, queremos avaliar se estruturas com funções parecidas (estamos usando sequências de RNA ribossomal) de organismos diferentes têm diferenças. Para isso vamos avaliar a quantidade de pares de nucleotídeos.

Dados utilizados:

Human 18S rRNA gene, complete
Fonte: https://www.ncbi.nlm.nih.gov/nuccore/M10098.1?report=fasta

Escherichia coli strain U 5/41 16S ribosomal RNA gene, partial sequence
Fonte: https://www.ncbi.nlm.nih.gov/nuccore/NR_024570.1?report=fasta

In [316]:
# SAIDA --> Bacteria 
# 16s_bacteria.txt

# SAIDA --> Humana
# 18s_human.txt
 

entrada_bacteria = open("16s_bacteria.txt").read()
entrada_human = open("18s_human.txt").read()
saida = open("16s_bacteria.html", "w")

In [317]:
entrada_bacteria = entrada_bacteria.replace("\n", "")
entrada_human = entrada_human.replace("\n", "")

In [318]:
def entradas(entrada):
    cont = {}
        
    for i in ['A', 'T', 'C', 'G']:
        for j in ['A', 'T', 'C', 'G']:
            cont[i+j] = 0

    for k in range(len(entrada)-1):
        cont[entrada[k] + entrada[k+1]] += 1
    return cont

In [319]:
cont_bac = entradas(entrada_bacteria)
cont_human = entradas(entrada_human)
print(cont_bac)
print('-' * 170)
print(cont_human)

{'AA': 105, 'AT': 64, 'AC': 86, 'AG': 111, 'TA': 64, 'TT': 57, 'TC': 60, 'TG': 108, 'CA': 83, 'CT': 75, 'CC': 74, 'CG': 97, 'GA': 113, 'GT': 93, 'GC': 109, 'GG': 147}
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------
{'AA': 116, 'AT': 95, 'AC': 97, 'AG': 113, 'TA': 85, 'TT': 113, 'TC': 109, 'TG': 111, 'CA': 87, 'CT': 105, 'CC': 184, 'CG': 170, 'GA': 134, 'GT': 105, 'GC': 155, 'GG': 184}


In [320]:
# -------------- HTML --------------

def HTML(cont, frase):
    saida.write("<div>")

    i = 1
    saida.write(f"<p>{frase}</p>")
    for k in cont:
        transparencia = cont[k] / max(cont.values())
        saida.write("<div style='width:100px; border:1px solid #111; color: #fff; height: 100px; float: left; background-color: rgba(0, 0, 0, "+str(transparencia)+"')>"+k+"</div>")
        if i%4 == 0:
            saida.write("<div style='clear:both'></div>")
        
        i+=1

    saida.write("<br>")

In [321]:
HTML(cont_bac, 'Bactéria')
HTML(cont_human, 'Humano')

In [322]:
saida.close()