In [None]:
import pandas as pd

# Cargar archivos
df_gdi = pd.read_csv("../results/gdi_results.csv")
df_yeast = pd.read_csv("../data/yeast.genes.list", sep="\t")
df_tryp = pd.read_csv("../data/tryp.genes.list", sep="\t")

# Filtrar solo los que tienen species_code == 'tcr'
df_tryp = df_tryp[df_tryp['species_code'] == 'tcr']

# Merge para agregar omcl y gene_product de yeast.genes.list a gdi_results.csv (por orf == gene_name de yeast)
df_merged = pd.merge(
    df_gdi,
    df_yeast[['gene_name', 'omcl', 'gene_product']],
    left_on='orf',
    right_on='gene_name',
    how='left'
)

# Merge para agregar gene_name y gene_product de tryp.genes.list según omcl
df_merged = pd.merge(
    df_merged,
    df_tryp[['omcl', 'gene_name', 'gene_product']],
    on='omcl',
    how='left',
    suffixes=('_sce', '_tcr')
)

# Seleccionar columnas finales y renombrar para claridad
df_final = df_merged[[
    'orf',
    'gene_product_sce',
    'inchiKey',
    'omcl',
    'gene_name_tcr',
    'gene_product_tcr'
]]

df_final = df_final.rename(columns={
    'orf': 'gene_name_sce',
    'gene_product_sce': 'gene_product_sce',
    'gene_product_tcr': 'gene_product_tcr'
})

# Guardar CSV
df_final.to_csv("gdi_yeast_tryp_cross_extended.csv", index=False)

In [7]:
num_orf = df_gdi['orf'].nunique()
num_inchikey = df_gdi['inchiKey'].nunique()

print(f"Número de ORFs únicos: {num_orf}")
print(f"Número de InChIKeys únicos: {num_inchikey}")

Número de ORFs únicos: 99
Número de InChIKeys únicos: 211


In [6]:
num_orf_final = df_final['gene_name_sce'].nunique()
num_inchikey_final = df_final['inchiKey'].nunique()
num_omcl_final = df_final['omcl'].nunique()
num_tryp_gene_name_final = df_final['gene_name_tryp'].nunique()

print(f"Número de ORFs únicos en df_final: {num_orf_final}")
print(f"Número de InChIKeys únicos en df_final: {num_inchikey_final}")
print(f"Número de Orthomcl únicos en df_final: {num_omcl_final}")
print(f"Número de gene_name (tryp) únicos en df_final: {num_tryp_gene_name_final}")

Número de ORFs únicos en df_final: 99
Número de InChIKeys únicos en df_final: 211
Número de Orthomcl únicos en df_final: 96
Número de gene_name (tryp) únicos en df_final: 221


In [5]:
import pandas as pd

# Cargar archivos
df_gdi = pd.read_csv("../Genes_after_filtering.csv")
df_yeast = pd.read_csv("../data/yeast.genes.list", sep="\t")
df_tryp = pd.read_csv("../data/tryp.genes.list", sep="\t")

# Filtrar solo los que tienen species_code == 'tcr'
df_tryp = df_tryp[df_tryp['species_code'] == 'tcr']

# Merge para agregar omcl y gene_product de yeast.genes.list a gdi_results.csv (por orf == gene_name de yeast)
df_merged = pd.merge(
    df_gdi,
    df_yeast[['gene_name', 'omcl', 'gene_product']],
    left_on='orf',
    right_on='gene_name',
    how='left'
)

# Merge para agregar gene_name y gene_product de tryp.genes.list según omcl
df_merged = pd.merge(
    df_merged,
    df_tryp[['omcl', 'gene_name', 'gene_product']],
    on='omcl',
    how='left',
    suffixes=('_sce', '_tcr')
)

# Seleccionar columnas finales y renombrar para claridad
df_final = df_merged[[
    'orf',
    'gene_product_sce',
    'inchiKey',
    'omcl',
    'gene_name_tcr',
    'gene_product_tcr'
]]

df_final = df_final.rename(columns={
    'orf': 'gene_name_sce',
    'gene_product_sce': 'gene_product_sce',
    'gene_product_tcr': 'gene_product_tcr'
})

# Guardar CSV
df_final.to_csv("gdi_yeast_tryp_cross_extended_before_merge.csv", index=False)

In [7]:
df_final.head()

Unnamed: 0,gene_name_sce,gene_product_sce,inchiKey,omcl,gene_name_tcr,gene_product_tcr
0,YOR317W,long-chain fatty acid-CoA ligase FAA1,FBOZXECLQNJBKD-UHFFFAOYSA-N,OG5_126601,TcCLB.506829.110,"fatty acyl CoA synthetase 2, putative"
1,YOR317W,long-chain fatty acid-CoA ligase FAA1,FBOZXECLQNJBKD-UHFFFAOYSA-N,OG5_126601,TcCLB.510943.33,"fatty acyl CoA synthetase, putative"
2,YOR317W,long-chain fatty acid-CoA ligase FAA1,FBOZXECLQNJBKD-UHFFFAOYSA-N,OG5_126601,TcCLB.506829.100,"fatty acyl CoA syntetase 1, putative"
3,YOR317W,long-chain fatty acid-CoA ligase FAA1,FBOZXECLQNJBKD-UHFFFAOYSA-N,OG5_126601,TcCLB.503575.50,"fatty acyl CoA synthetase, putative"
4,YOR317W,long-chain fatty acid-CoA ligase FAA1,FBOZXECLQNJBKD-UHFFFAOYSA-N,OG5_126601,TcCLB.504177.20,"fatty acyl CoA synthetase 2, putative"


In [8]:
num_orf_final = df_final['gene_name_sce'].nunique()
num_inchikey_final = df_final['inchiKey'].nunique()
num_omcl_final = df_final['omcl'].nunique()
num_tryp_gene_name_final = df_final['gene_name_tcr'].nunique()

print(f"Número de ORFs únicos en df_final: {num_orf_final}")
print(f"Número de InChIKeys únicos en df_final: {num_inchikey_final}")
print(f"Número de Orthomcl únicos en df_final: {num_omcl_final}")
print(f"Número de gene_name (tryp) únicos en df_final: {num_tryp_gene_name_final}")

Número de ORFs únicos en df_final: 995
Número de InChIKeys únicos en df_final: 1342
Número de Orthomcl únicos en df_final: 815
Número de gene_name (tryp) únicos en df_final: 1737
