## KEGG_2021_Human

In [1]:
import pandas as pd

# Cargar el archivo CSV con los datos filtrados y con Fold Change
file_path_fc = 'deSeqRes_filtrado_Fusobacterium_Nucleatum_with_FC.csv'
data_with_fc = pd.read_csv(file_path_fc)

# Renombrar las columnas
data_with_fc = data_with_fc.rename(columns={
    'GeneSymbol': 'Genes',
    'DirectionalFoldChange': 'FoldChange'
})

# Crear una nueva columna 'Regulation' basada en el signo de 'FoldChange'
data_with_fc['Regulation'] = data_with_fc['FoldChange'].apply(lambda x: 'UpRegulated' if x > 0 else 'DownRegulated')

# Tomar el valor absoluto de 'FoldChange'
data_with_fc['FoldChange'] = data_with_fc['FoldChange'].abs()

# Cargar el archivo TSV con los términos GO
file_path_go = r'C:\\Users\\3060\\OneDrive\\Documentos\\Tesis de Grado\\Protocolo\\4_Análisis de Enriquecimiento Funcional\\Fusobacterium Nucleatum\\Enrichr\\Pathways\\KEGG_2021_Human_table.txt'
df = pd.read_csv(file_path_go, sep='\t')

# Eliminar las columnas especificadas
columns_to_drop = ["Overlap", "P-value", "Old P-value", "Old Adjusted P-value", "Odds Ratio", "Combined Score"]
df = df.drop(columns=columns_to_drop)

# Filtrar los registros con "Adjusted P-value" <= 0.05
df_filtered = df[df["Adjusted P-value"] <= 0.05]

# Expandir la columna "Genes" para que cada gen tenga su propia fila
df_expanded = df_filtered.assign(Genes=df_filtered['Genes'].str.split(';')).explode('Genes')

# Agrupar los términos asociados a cada gen en una lista
df_grouped = df_expanded.groupby('Genes').agg({
    'Term': lambda x: list(x),
    'Adjusted P-value': 'first'  # Mantener el primer valor de "Adjusted P-value" para cada gen
}).reset_index()

# Combinar df_grouped con data_with_fc
df_combined = pd.merge(df_grouped, data_with_fc, on='Genes', how='left')

# Ordenar los registros por el valor de "FoldChange" del más alto al más bajo
df_combined_sorted = df_combined.sort_values(by='FoldChange', ascending=False)

# Convertir la columna 'Term' a un string con los elementos de la lista separados por comas
df_combined_sorted['Term'] = df_combined_sorted['Term'].apply(lambda x: ', '.join(x))

# Mostrar las primeras filas del dataframe combinado y ordenado
print(df_combined_sorted.head())

# Guardar el DataFrame combinado y ordenado en un nuevo archivo CSV
df_combined_sorted.to_csv('deSeqRes_combined_with_KEGG_2021_Human_terms_sorted.csv', index=False)

# Guardar el DataFrame combinado y ordenado en un archivo Excel
df_combined_sorted.to_excel('deSeqRes_combined_with_KEGG_2021_Human_terms_sorted.xlsx', index=False)

   Genes                     Term  Adjusted P-value  Log2FoldChange  \
6  SMAD7  Hippo signaling pathway           0.00246       -2.336285   
1   CCN2  Hippo signaling pathway           0.00246       -2.274382   
7  SNAI2  Hippo signaling pathway           0.00246       -1.960788   
5    ID2  Hippo signaling pathway           0.00246       -1.948755   
8  WNT16  Hippo signaling pathway           0.00246        1.584950   

   FoldChange     Regulation  
6    5.050006  DownRegulated  
1    4.837905  DownRegulated  
7    3.892745  DownRegulated  
5    3.860412  DownRegulated  
8    2.999974    UpRegulated  


## Metabolomics_Workbench_Metabolites_2022

In [1]:
import pandas as pd

# Cargar el archivo CSV con los datos filtrados y con Fold Change
file_path_fc = 'deSeqRes_filtrado_Fusobacterium_Nucleatum_with_FC.csv'
data_with_fc = pd.read_csv(file_path_fc)

# Renombrar las columnas
data_with_fc = data_with_fc.rename(columns={
    'GeneSymbol': 'Genes',
    'DirectionalFoldChange': 'FoldChange'
})

# Crear una nueva columna 'Regulation' basada en el signo de 'FoldChange'
data_with_fc['Regulation'] = data_with_fc['FoldChange'].apply(lambda x: 'UpRegulated' if x > 0 else 'DownRegulated')

# Tomar el valor absoluto de 'FoldChange'
data_with_fc['FoldChange'] = data_with_fc['FoldChange'].abs()

# Cargar el archivo TSV con los términos GO
file_path_go = r'C:\\Users\\3060\\OneDrive\\Documentos\\Tesis de Grado\\Protocolo\\4_Análisis de Enriquecimiento Funcional\\Fusobacterium Nucleatum\\Enrichr\\Pathways\\Metabolomics_Workbench_Metabolites_2022_table.txt'
df = pd.read_csv(file_path_go, sep='\t')

# Eliminar las columnas especificadas
columns_to_drop = ["Overlap", "P-value", "Old P-value", "Old Adjusted P-value", "Odds Ratio", "Combined Score"]
df = df.drop(columns=columns_to_drop)

# Filtrar los registros con "Adjusted P-value" <= 0.05
df_filtered = df[df["Adjusted P-value"] <= 0.05]

# Expandir la columna "Genes" para que cada gen tenga su propia fila
df_expanded = df_filtered.assign(Genes=df_filtered['Genes'].str.split(';')).explode('Genes')

# Agrupar los términos asociados a cada gen en una lista
df_grouped = df_expanded.groupby('Genes').agg({
    'Term': lambda x: list(x),
    'Adjusted P-value': 'first'  # Mantener el primer valor de "Adjusted P-value" para cada gen
}).reset_index()

# Combinar df_grouped con data_with_fc
df_combined = pd.merge(df_grouped, data_with_fc, on='Genes', how='left')

# Ordenar los registros por el valor de "FoldChange" del más alto al más bajo
df_combined_sorted = df_combined.sort_values(by='FoldChange', ascending=False)

# Convertir la columna 'Term' a un string con los elementos de la lista separados por comas
df_combined_sorted['Term'] = df_combined_sorted['Term'].apply(lambda x: ', '.join(x))

# Mostrar las primeras filas del dataframe combinado y ordenado
print(df_combined_sorted.head())

# Guardar el DataFrame combinado y ordenado en un nuevo archivo CSV
df_combined_sorted.to_csv('deSeqRes_combined_with_Metabolomics_Workbench_Metabolites_2022_terms_sorted.csv', index=False)

# Guardar el DataFrame combinado y ordenado en un archivo Excel
df_combined_sorted.to_excel('deSeqRes_combined_with_Metabolomics_Workbench_Metabolites_2022_terms_sorted.xlsx', index=False)

Empty DataFrame
Columns: [Genes, Term, Adjusted P-value, Log2FoldChange, FoldChange, Regulation]
Index: []


## Reactome_2022

In [1]:
import pandas as pd

# Cargar el archivo CSV con los datos filtrados y con Fold Change
file_path_fc = 'deSeqRes_filtrado_Fusobacterium_Nucleatum_with_FC.csv'
data_with_fc = pd.read_csv(file_path_fc)

# Renombrar las columnas
data_with_fc = data_with_fc.rename(columns={
    'GeneSymbol': 'Genes',
    'DirectionalFoldChange': 'FoldChange'
})

# Crear una nueva columna 'Regulation' basada en el signo de 'FoldChange'
data_with_fc['Regulation'] = data_with_fc['FoldChange'].apply(lambda x: 'UpRegulated' if x > 0 else 'DownRegulated')

# Tomar el valor absoluto de 'FoldChange'
data_with_fc['FoldChange'] = data_with_fc['FoldChange'].abs()

# Cargar el archivo TSV con los términos GO
file_path_go = r'C:\\Users\\3060\\OneDrive\\Documentos\\Tesis de Grado\\Protocolo\\4_Análisis de Enriquecimiento Funcional\\Fusobacterium Nucleatum\\Enrichr\\Pathways\\Reactome_2022_table.txt'
df = pd.read_csv(file_path_go, sep='\t')

# Eliminar las columnas especificadas
columns_to_drop = ["Overlap", "P-value", "Old P-value", "Old Adjusted P-value", "Odds Ratio", "Combined Score"]
df = df.drop(columns=columns_to_drop)

# Filtrar los registros con "Adjusted P-value" <= 0.05
df_filtered = df[df["Adjusted P-value"] <= 0.05]

# Expandir la columna "Genes" para que cada gen tenga su propia fila
df_expanded = df_filtered.assign(Genes=df_filtered['Genes'].str.split(';')).explode('Genes')

# Agrupar los términos asociados a cada gen en una lista
df_grouped = df_expanded.groupby('Genes').agg({
    'Term': lambda x: list(x),
    'Adjusted P-value': 'first'  # Mantener el primer valor de "Adjusted P-value" para cada gen
}).reset_index()

# Combinar df_grouped con data_with_fc
df_combined = pd.merge(df_grouped, data_with_fc, on='Genes', how='left')

# Ordenar los registros por el valor de "FoldChange" del más alto al más bajo
df_combined_sorted = df_combined.sort_values(by='FoldChange', ascending=False)

# Convertir la columna 'Term' a un string con los elementos de la lista separados por comas
df_combined_sorted['Term'] = df_combined_sorted['Term'].apply(lambda x: ', '.join(x))

# Mostrar las primeras filas del dataframe combinado y ordenado
print(df_combined_sorted.head())

# Guardar el DataFrame combinado y ordenado en un nuevo archivo CSV
df_combined_sorted.to_csv('deSeqRes_combined_with_Reactome_2022_terms_sorted.csv', index=False)

# Guardar el DataFrame combinado y ordenado en un archivo Excel
df_combined_sorted.to_excel('deSeqRes_combined_with_Reactome_2022_terms_sorted.xlsx', index=False)

Empty DataFrame
Columns: [Genes, Term, Adjusted P-value, Log2FoldChange, FoldChange, Regulation]
Index: []


## Elsevier_Pathway_Collection

In [2]:
import pandas as pd

# Cargar el archivo CSV con los datos filtrados y con Fold Change
file_path_fc = 'deSeqRes_filtrado_Fusobacterium_Nucleatum_with_FC.csv'
data_with_fc = pd.read_csv(file_path_fc)

# Renombrar las columnas
data_with_fc = data_with_fc.rename(columns={
    'GeneSymbol': 'Genes',
    'DirectionalFoldChange': 'FoldChange'
})

# Crear una nueva columna 'Regulation' basada en el signo de 'FoldChange'
data_with_fc['Regulation'] = data_with_fc['FoldChange'].apply(lambda x: 'UpRegulated' if x > 0 else 'DownRegulated')

# Tomar el valor absoluto de 'FoldChange'
data_with_fc['FoldChange'] = data_with_fc['FoldChange'].abs()

# Cargar el archivo TSV con los términos GO
file_path_go = r'C:\\Users\\3060\\OneDrive\\Documentos\\Tesis de Grado\\Protocolo\\4_Análisis de Enriquecimiento Funcional\\Fusobacterium Nucleatum\\Enrichr\\Pathways\\Elsevier_Pathway_Collection_table.txt'
df = pd.read_csv(file_path_go, sep='\t')

# Eliminar las columnas especificadas
columns_to_drop = ["Overlap", "P-value", "Old P-value", "Old Adjusted P-value", "Odds Ratio", "Combined Score"]
df = df.drop(columns=columns_to_drop)

# Filtrar los registros con "Adjusted P-value" <= 0.05
df_filtered = df[df["Adjusted P-value"] <= 0.05]

# Expandir la columna "Genes" para que cada gen tenga su propia fila
df_expanded = df_filtered.assign(Genes=df_filtered['Genes'].str.split(';')).explode('Genes')

# Agrupar los términos asociados a cada gen en una lista
df_grouped = df_expanded.groupby('Genes').agg({
    'Term': lambda x: list(x),
    'Adjusted P-value': 'first'  # Mantener el primer valor de "Adjusted P-value" para cada gen
}).reset_index()

# Combinar df_grouped con data_with_fc
df_combined = pd.merge(df_grouped, data_with_fc, on='Genes', how='left')

# Ordenar los registros por el valor de "FoldChange" del más alto al más bajo
df_combined_sorted = df_combined.sort_values(by='FoldChange', ascending=False)

# Convertir la columna 'Term' a un string con los elementos de la lista separados por comas
df_combined_sorted['Term'] = df_combined_sorted['Term'].apply(lambda x: ', '.join(x))

# Mostrar las primeras filas del dataframe combinado y ordenado
print(df_combined_sorted.head())

# Guardar el DataFrame combinado y ordenado en un nuevo archivo CSV
df_combined_sorted.to_csv('deSeqRes_combined_with_Elsevier_Pathway_Collection_terms_sorted.csv', index=False)

# Guardar el DataFrame combinado y ordenado en un archivo Excel
df_combined_sorted.to_excel('deSeqRes_combined_with_Elsevier_Pathway_Collection_terms_sorted.xlsx', index=False)

Empty DataFrame
Columns: [Genes, Term, Adjusted P-value, Log2FoldChange, FoldChange, Regulation]
Index: []
