In [1]:
def leitura_fasta(nome_arquivo):
    'Processamento de arquivo fasta e retorno de dicionario com as sequencias lidas'
    
    sequencias = {}
    seq_id = ''
    
    try:
        arquivo_fasta =  open(nome_arquivo)
    except 'IOError':
       print('Arquivo nao encontrado!') 

    for linha in arquivo_fasta:
        if linha[0] == '>':
            seq_id = linha.rstrip()[1:linha.find(' ')]
            sequencias[seq_id] = ''
        elif linha != '':
            sequencias[seq_id] = sequencias[seq_id] + linha.rstrip()
    print('quantidade de sequencias lidas=>', len(sequencias))
    return sequencias

In [2]:
def obter_tamanho_sequencias(sequencias):
    'obtem um dicionario de sequencias e retorna o tamanho delas ordenado de forma descendente '
    tamanhos = {}
    for id_seq, sequencia in sequencias.items():
        tamanhos[id_seq] = len(sequencia)
    return  sorted(tamanhos.items(), key=lambda x: x[1], reverse=True)

In [3]:
def obter_fita_reversa_complementar(sequencia):
    pareamento_bases = {'A':'T', 'T':'A', 'C':'G', 'G':'C', 'N':'N'}
    sequencia_invertida = list(sequencia[::-1]) 
    complemento = [pareamento_bases[base] for base in sequencia_invertida]
    return ''.join(complemento)

In [4]:
def obter_orfs(sequencia, frame=1, reverso_complementar = False):
    'obtem as ORFs de uma sequencia em determinado frame (1,2 ou 3). O frame default é 1'
    start_codon  = 'ATG'
    stop_codons  = ['TAA', 'TAG', 'TGA']
    tamanho_codon= 3
    sequencia_frame = sequencia[frame-1:]
    
    if reverso_complementar:
        sequencia_frame =  obter_fita_reversa_complementar(sequencia_frame)
            
    orfs = []
    orf = ['' , '', '']
    
    for i in range (0, len(sequencia_frame)-tamanho_codon + 1, tamanho_codon):
        if sequencia_frame[i:i+3] == start_codon and orf[0] == '' :
            orf[0] = i + frame #pos start
        
        if sequencia_frame[i:i+3] in stop_codons and orf[0] != '':
            orf[1] = i + frame #pos stop
            orf[2] = (orf[1] + tamanho_codon) - orf[0] #tamanho 
            orfs.append(orf)
            orf = ['' , '', '']
            
    return orfs

In [5]:
'obter as orfs de cada sequencia ordenadas de forma descendente'
def obter_orfs_sequencias (sequencias, frame):
    seq_forward_orfs = {}
    for seq_id, sequencia in sequencias.items():
        orfs = obter_orfs(sequencia, frame )
        seq_forward_orfs[seq_id]=orfs
    return seq_forward_orfs

In [6]:
def encontrar_repeticoes_palavra(sequencia, palavra):
    'encontrar repetições da palavra'
    repeticoes_palavra = []
    for i in range (len(sequencia) - len(palavra) + 1):
        encontrou = True
        for j in range(len(palavra)):
            if sequencia[i+j] != palavra[j]:
                encontrou = False
                break
        if encontrou: 
            repeticoes_palavra.append(i)
        
    return repeticoes_palavra

In [7]:
def encontrar_palavras_sequencia(sequencia, tamanho):
    palavras = []
    for i in range(len(sequencia) - tamanho + 1):
        palavra = sequencia[i:i+tamanho]
        palavras.append(palavra)
    return palavras

In [8]:
'buscar palavras repetidas nas sequencias'
def encontrar_repeticoes_sequencia(sequencia, tamanho):
    palavra_repeticoes = {}
    palavras = encontrar_palavras_sequencia(sequencia, tamanho)
    if len(palavras) != 0:
        for palavra in palavras: 
            repeticoes = encontrar_repeticoes_palavra(sequencia, palavra) 
            palavra_repeticoes[palavra] = repeticoes
    return palavra_repeticoes  

In [9]:
def obter_rank_repeticoes(repeticoes_sequencias, min_ocorrencias):
    'obter palavras repetidas em comum nas sequencias'
    todas_palavras = []
    contagem_palavras = {}
    contagem_palavras_filtered = {}
    
    for seq_id, palavras in repeticoes_sequencias.items():
        for palavra, repeat in palavras.items():
            todas_palavras.append(palavra)
    todas_palavras = set(todas_palavras)
    
    'obter rank das palavras mais frequentes'
    for palavra in todas_palavras:
        contador = 0
        for seq_id, palavras in repeticoes_sequencias.items():     
            if palavra  in palavras:
                contador = contador + len(palavras[palavra])
                contagem_palavras[palavra] = contador
            
    'extrair apenas as repeticoes com um numero minimo de ocorrencias'
    for palavra, contagem in contagem_palavras.items():
        if contagem >= min_ocorrencias:
            contagem_palavras_filtered[palavra] = contagem
        
    return sorted(contagem_palavras_filtered.items(), key=lambda x: x[1], reverse=True)

In [10]:
'ler arquivo fasta'
arquivo = 'dna2.fasta'
sequencias = leitura_fasta(arquivo)

quantidade de sequencias lidas=> 18


In [11]:
'obter o tamanho das sequencias'
tamanhos = obter_tamanho_sequencias(sequencias)
tamanhos

[('gi|142022655|gb|EQ086233.1|255', 4894),
 ('gi|142022655|gb|EQ086233.1|16', 4804),
 ('gi|142022655|gb|EQ086233.1|91', 4635),
 ('gi|142022655|gb|EQ086233.1|454', 4564),
 ('gi|142022655|gb|EQ086233.1|293', 4338),
 ('gi|142022655|gb|EQ086233.1|396', 4076),
 ('gi|142022655|gb|EQ086233.1|45', 3511),
 ('gi|142022655|gb|EQ086233.1|250', 2867),
 ('gi|142022655|gb|EQ086233.1|527', 2646),
 ('gi|142022655|gb|EQ086233.1|4', 2095),
 ('gi|142022655|gb|EQ086233.1|277', 1432),
 ('gi|142022655|gb|EQ086233.1|75', 1352),
 ('gi|142022655|gb|EQ086233.1|304', 1151),
 ('gi|142022655|gb|EQ086233.1|594', 967),
 ('gi|142022655|gb|EQ086233.1|584', 964),
 ('gi|142022655|gb|EQ086233.1|88', 890),
 ('gi|142022655|gb|EQ086233.1|322', 442),
 ('gi|142022655|gb|EQ086233.1|346', 115)]

In [None]:
'obtem as palavras do tamanho informado nas sequencias'
repeticoes_sequencias = {}
for seq_id, sequencia in sequencias.items():
    repeticoes = encontrar_repeticoes_sequencia(sequencia, 6)
    repeticoes_sequencias[seq_id] = repeticoes

In [None]:
'''obtem as palavras em comum mais frequentes (de acordo com o numero minimo de repeticoes informado)
e ordenadas de forma descendente '''
rank_palavras_6 = obter_rank_repeticoes(repeticoes_sequencias, 100)
rank_palavras_6

In [None]:
'obter orfs do frame 1 forward de cada sequencia'
seq_forward_orfs_frame_1 = obter_orfs_sequencias(sequencias, 1)
seq_forward_orfs_frame_1

In [None]:
'obter orfs do frame 2 forward de cada sequencia. Para cada orf são exibidas as posicoes de start, stop e o tamanho'
seq_forward_orfs_frame_2 = obter_orfs_sequencias(sequencias, 2)
seq_forward_orfs_frame_2

In [None]:
'obter orfs do frame 3 forward de cada sequencia'
seq_forward_orfs_frame_3 = obter_orfs_sequencias(sequencias, 3)
seq_forward_orfs_frame_3