In [None]:
import pandas as pd
import os

In [None]:
arquivo_200 = "/home/gabrielacastilho/Jo/idxstats/200_top_delta_CDS.csv"

df_200 = pd.read_csv(arquivo_200, sep='\t')
cds_interesse = set(df_200["CDS"])

print(f"Total de CDS de interesse: {len(cds_interesse)}\n")

In [6]:
bases = {
    "DB1": "/home/gabrielacastilho/Jo/diamond_1_inital/1_matches_concat.tsv",
    "DB2": "/home/gabrielacastilho/Jo/diamond_2_inital_aligned/2_matches_concat.tsv",
    "DB3": "/home/gabrielacastilho/Jo/diamond_3_essential_signat/3_matches_concat.tsv",
    "DB4": "/home/gabrielacastilho/Jo/diamond_4_essential_aligned/4_matches_concat.tsv",
    "DB5": "/home/gabrielacastilho/Jo/diamond_5_without_extra/5_matches_concat.tsv",
    "DB6": "/home/gabrielacastilho/Jo/diamond_6_without_extra_aligned/6_matches_concat.tsv",
    "NCBI_NR": "/home/gabrielacastilho/Jo/diamond_ncbi/nr_matches_concat.tsv"
}


In [7]:
dir_saida = "/home/gabrielacastilho/Jo/diamond_comparacao_200_CDS"
os.makedirs(dir_saida, exist_ok=True)


In [8]:
resumo = []

for nome_base, caminho in bases.items():
    print(f"Processando {nome_base}...")

    df = pd.read_csv(caminho, sep="\t")

    # Filtra apenas CDS de interesse
    df_filtrado = df[df["CDS"].isin(cds_interesse)]

    # Remove possíveis duplicatas CDS–Amostra (segurança extra)
    df_filtrado = df_filtrado.drop_duplicates(subset=["CDS", "Amostra"])

    # Salva arquivo
    arquivo_saida = os.path.join(
        dir_saida,
        f"200_CDS_presentes_{nome_base}.tsv"
    )

    df_filtrado.to_csv(arquivo_saida, sep="\t", index=False)

    n_cds = df_filtrado["CDS"].nunique()

    resumo.append({
        "Base": nome_base,
        "CDS_anotados": n_cds,
        "Total_200": len(cds_interesse)
    })

    print(f"  → {n_cds} / {len(cds_interesse)} CDS anotados\n")

Processando DB1...
  → 117 / 200 CDS anotados

Processando DB2...
  → 12 / 200 CDS anotados

Processando DB3...
  → 7 / 200 CDS anotados

Processando DB4...
  → 7 / 200 CDS anotados

Processando DB5...
  → 3 / 200 CDS anotados

Processando DB6...
  → 3 / 200 CDS anotados

Processando NCBI_NR...
  → 200 / 200 CDS anotados



In [9]:
df_resumo = pd.DataFrame(resumo)
df_resumo = df_resumo.sort_values("CDS_anotados", ascending=False)

resumo_saida = os.path.join(dir_saida, "resumo_cobertura_bases.tsv")
df_resumo.to_csv(resumo_saida, sep="\t", index=False)

print("Resumo final:")
print(df_resumo)
print(f"\nArquivos salvos em: {dir_saida}")

Resumo final:
      Base  CDS_anotados  Total_200
6  NCBI_NR           200        200
0      DB1           117        200
1      DB2            12        200
2      DB3             7        200
3      DB4             7        200
4      DB5             3        200
5      DB6             3        200

Arquivos salvos em: /home/gabrielacastilho/Jo/diamond_comparacao_200_CDS
