### Importação da bibs

In [1]:
import os
import subprocess
import datetime
from collections import defaultdict
from Bio import SeqIO
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

date = datetime.datetime.now()

In [2]:
# Função para remover duplicatas e salvar o arquivo final
def remove_duplicates(input_file, output_file, lineage):
    # Input
    input_obj = open(input_file, 'r')

    # Output
    output_obj = open(output_file, 'w')

    # Print info
    print("[Input file]\t: " + input_obj.name)
    print("[Output file]\t: " + output_obj.name)
    print("[Lineage]\t: " + lineage)

    # Dictionary to store unique sequences by their sequence string
    uniq_seqs = {}

    # Iterate through input sequences
    for qry in SeqIO.parse(input_obj, 'fasta'):
        seq_str = str(qry.seq)

        # Check if this sequence string has been seen before
        if seq_str not in uniq_seqs:
            # If it's a new sequence string, save it
            uniq_seqs[seq_str] = qry

    # Making unique sequences
    final_seq = list(uniq_seqs.values())

    # Write output file
    output_num = SeqIO.write(final_seq, output_obj, 'fasta')

    # Close objects
    input_obj.close()
    output_obj.close()

    # Sequence counts
    input_num = 0
    for input_seqs in open(input_file, 'r'):
        if input_seqs.startswith(">"):
            input_num += 1

    # Number of duplicate sequences
    Duplicate_num = input_num - output_num

    # Print stats
    print("[Input seq]\t:", input_num)
    print("[Output seq]\t:", output_num)
    print("[Duplicates]\t:", Duplicate_num)
    print("[Lineage]\t:", lineage)


### Main

In [3]:
# Diretório principal onde você possui várias pastas
diretorio_principal = '/home/m_souza/tcc/dataset/new_dataset_vagner'

print("[Program]\t: Filtra Sequências Únicas")
print("[Date]\t\t: " + date.strftime("%Y-%m-%d %H:%M:%S"))

# Iterar sobre as pastas no diretório principal
for pasta in os.listdir(diretorio_principal):
    pasta_path = os.path.join(diretorio_principal, pasta)

    # Verificar se é um diretório
    if os.path.isdir(pasta_path):
        # Procurar pelo arquivo sequencias_cortadas.fasta na pasta
        arquivo_sequencias = os.path.join(pasta_path, 'sequencias_spike_filtradas.fasta')
        path_sequencias_filtradas = os.path.join(pasta_path, 'sequencias_spike_final.fasta')

        # Verificar se o arquivo existe
        if os.path.exists(arquivo_sequencias):
            print(f'Analisando sequências em {pasta}')

            # Chamar a função para remover duplicatas e salvar o arquivo final
            remove_duplicates(arquivo_sequencias, path_sequencias_filtradas, pasta)

print('Concluído!')

[Program]	: Filtra Sequências Únicas
[Date]		: 2023-10-11 11:31:15
Analisando sequências em B.1.1.529
[Input file]	: /home/m_souza/tcc/dataset/new_dataset_vagner/B.1.1.529/sequencias_spike_filtradas.fasta
[Output file]	: /home/m_souza/tcc/dataset/new_dataset_vagner/B.1.1.529/sequencias_spike_final.fasta
[Lineage]	: B.1.1.529
[Input seq]	: 3122
[Output seq]	: 1937
[Duplicates]	: 1185
[Lineage]	: B.1.1.529
Analisando sequências em B.1.1.7
[Input file]	: /home/m_souza/tcc/dataset/new_dataset_vagner/B.1.1.7/sequencias_spike_filtradas.fasta
[Output file]	: /home/m_souza/tcc/dataset/new_dataset_vagner/B.1.1.7/sequencias_spike_final.fasta
[Lineage]	: B.1.1.7
[Input seq]	: 6716
[Output seq]	: 1924
[Duplicates]	: 4792
[Lineage]	: B.1.1.7
Analisando sequências em B.1.617.2
[Input file]	: /home/m_souza/tcc/dataset/new_dataset_vagner/B.1.617.2/sequencias_spike_filtradas.fasta
[Output file]	: /home/m_souza/tcc/dataset/new_dataset_vagner/B.1.617.2/sequencias_spike_final.fasta
[Lineage]	: B.1.617.2
[