In [8]:
import os
from Bio import SeqIO

# Caminho para a pasta contendo os arquivos .fas (diretório atual)
folder_path = os.getcwd()

# Função para obter IDs de sequências de um arquivo .fas (apenas a parte antes do "-")
def get_ids_from_fasta(file_path):
    ids = set()
    with open(file_path, 'r') as file:
        for record in SeqIO.parse(file, 'fasta'):
            # Extrair a parte antes do "-"
            base_id = record.id.split('-')[0]
            ids.add(base_id)
    return ids

# Obter IDs dos arquivos cmyc
cmyc_ids = set()
for file_name in os.listdir(folder_path):
    if 'cmyc' in file_name and file_name.endswith('.fas'):
        file_path = os.path.join(folder_path, file_name)
        file_ids = get_ids_from_fasta(file_path)
        print(f"IDs encontrados em {file_name}: {file_ids}")  # Depuração
        cmyc_ids.update(file_ids)

print(f"IDs combinados dos arquivos cmyc: {cmyc_ids}")

# Filtrar sequências dos arquivos cytb e ND2 e comparar quantidades
for file_name in os.listdir(folder_path):
    if ('cytb' in file_name or 'ND2' in file_name) and file_name.endswith('.fas'):
        input_file_path = os.path.join(folder_path, file_name)
        output_file_path = os.path.join(folder_path, 'filtered_' + file_name)
        
        # Contadores para análise
        total_sequences = 0
        kept_sequences = 0

        with open(input_file_path, 'r') as input_file, open(output_file_path, 'w') as output_file:
            for record in SeqIO.parse(input_file, 'fasta'):
                total_sequences += 1  # Contar todas as sequências originais
                # Comparar a parte antes do "-"
                base_id = record.id.split('-')[0]
                if base_id in cmyc_ids:
                    SeqIO.write(record, output_file, 'fasta')
                    kept_sequences += 1  # Contar sequências mantidas após o filtro

        # Exibir resultados da filtragem
        print(f"Arquivo: {file_name}")
        print(f"  Total de sequências antes da filtragem: {total_sequences}")
        print(f"  Sequências mantidas após a filtragem: {kept_sequences}")
        print(f"  Sequências filtradas: {total_sequences - kept_sequences}\n")

IDs encontrados em cmyc-phased_exon2.fas: {'AA925', 'FC1015', 'BC765', 'TAP1475', 'FC1038', 'BC727', 'BC728', 'BC730', 'FC1037', 'SM1553', 'SM1582', 'AA946', 'BC726', 'FC1020', 'TAP1476', 'SM1577', 'SM1580', 'SM1587', 'BC729', 'SM1578', 'TAP1477', 'AA936', 'TAP1483', 'BMD376', 'FC481', 'BC766', 'AA949', 'TAP1479', 'AA947', 'BMD840', 'FC1058', 'TAP1480', 'BMD377', 'BMD826', 'BC763', 'TAP1474', 'BC770', 'SM1581', 'AA948', 'BMD830', 'FC1065', 'FC1059'}
IDs encontrados em cmyc-phased_intron2.fas: {'AA925', 'FC1015', 'BC765', 'TAP1475', 'FC1038', 'BC727', 'BC728', 'BC730', 'FC1037', 'SM1553', 'SM1582', 'AA946', 'BC726', 'FC1020', 'TAP1476', 'SM1577', 'SM1580', 'SM1587', 'BC729', 'SM1578', 'TAP1477', 'AA936', 'TAP1483', 'BMD376', 'FC481', 'BC766', 'AA949', 'TAP1479', 'AA947', 'BMD840', 'FC1058', 'TAP1480', 'BMD377', 'BMD826', 'BC763', 'TAP1474', 'BC770', 'SM1581', 'AA948', 'BMD830', 'FC1065', 'FC1059'}
IDs encontrados em cmyc-phased_exon3.fas: {'AA925', 'FC1015', 'BC765', 'TAP1475', 'FC1038'