In [13]:
import os
from Bio import SeqIO
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

In [14]:
# Função para verificar se uma sequência possui mais de 30 N's consecutivos
def possui_mais_de_30_Ns(sequencia):
    return 'N' * 30 in sequencia

In [15]:
def read_gene_sequences(file_genome_sequences):
    multiple_genomes = []
    with open(file_genome_sequences) as handle:
        for values in SeqIO.FastaIO.SimpleFastaParser(handle):
            sequence_id, sequence = values
            multiple_genomes.append((sequence_id, sequence))

    return multiple_genomes

In [16]:
# Diretório principal onde você possui várias pastas
diretorio_principal = '/home/m_souza/tcc/dataset/teste'

# Iterar sobre as pastas no diretório principal
for pasta in os.listdir(diretorio_principal):
    pasta_path = os.path.join(diretorio_principal, pasta)

    # Verificar se é um diretório
    if os.path.isdir(pasta_path):
        # Procurar pelo arquivo sequencias_cortadas.fasta na pasta
        arquivo_sequencias = os.path.join(pasta_path, 'sequencias_spike_alinhadas.fasta')

        path_sequencias_filtradas = os.path.join(pasta_path, 'sequencias_spike_filtradas.fasta')

        # Verificar se o arquivo existe
        if os.path.exists(arquivo_sequencias):
            print(f'Analisando sequências em {pasta}')

            # Ler as sequências do arquivo usando a Biopython
            sequencias = read_gene_sequences(arquivo_sequencias)
            # for seq in sequencias:
            #     print(seq[1])

            # Filtrar sequências com mais de 30 N's consecutivos
            sequencias_filtradas = []
            for seq_tuple in sequencias:
                seq_id, seq_sequence = seq_tuple
                if not possui_mais_de_30_Ns(seq_sequence):
                    # Criar um objeto SeqRecord com ID e sequência
                    seq_record = SeqRecord(Seq(seq_sequence), id=seq_id, description='')
                    sequencias_filtradas.append(seq_record)

            # Sobrescrever o arquivo original com as sequências filtradas
            with open(path_sequencias_filtradas, "w") as novo_arquivo:
                SeqIO.write(sequencias_filtradas, novo_arquivo, "fasta")

            # # Imprimir ou fazer o que quiser com as sequências filtradas
            # for seq in sequencias_filtradas:
            #     # print(f'Sequência ID: {seq.id} - Comprimento: {len(seq.seq)}')
            #     print(seq)

print('Concluído!')


Analisando sequências em A.1
Analisando sequências em AV.1
Analisando sequências em A.6
Analisando sequências em A.2.5.2
Analisando sequências em AY.3
Analisando sequências em A.5
Analisando sequências em AY.2
Analisando sequências em A.23.1
Analisando sequências em AA.1
Analisando sequências em A.21
Analisando sequências em AY.1
Analisando sequências em A.2.2
Analisando sequências em A.2
Analisando sequências em AD.2
Analisando sequências em A.29
Analisando sequências em A.2.5
Analisando sequências em A.28
Analisando sequências em A.3
Analisando sequências em A.27
Analisando sequências em A
Concluído!
