## KEGG_2021_Human

In [1]:
import pandas as pd

# Cargar el archivo CSV con los datos filtrados y con Fold Change
file_path_fc = 'deSeqRes_filtrado_Propionibacterium freudenreichii_with_FC.csv'
data_with_fc = pd.read_csv(file_path_fc)

# Renombrar las columnas
data_with_fc = data_with_fc.rename(columns={
    'GeneSymbol': 'Genes',
    'DirectionalFoldChange': 'FoldChange'
})

# Crear una nueva columna 'Regulation' basada en el signo de 'FoldChange'
data_with_fc['Regulation'] = data_with_fc['FoldChange'].apply(lambda x: 'UpRegulated' if x > 0 else 'DownRegulated')

# Tomar el valor absoluto de 'FoldChange'
data_with_fc['FoldChange'] = data_with_fc['FoldChange'].abs()

# Cargar el archivo CSV con los términos GO
file_path_go = r'C:\\Users\\3060\\OneDrive\\Documentos\\Tesis de Grado\\Protocolo\\4_Análisis de Enriquecimiento Funcional\\Propionibacterium freudenreichii\\Enrichr\\Pathways\\KEGG_2021_Human_table.txt'
df = pd.read_csv(file_path_go, sep='\t')

# Eliminar las columnas especificadas
columns_to_drop = ["Overlap", "P-value", "Old P-value", "Old Adjusted P-value", "Odds Ratio", "Combined Score"]
df = df.drop(columns=columns_to_drop)

# Filtrar los registros con "Adjusted P-value" <= 0.05
df_filtered = df[df["Adjusted P-value"] <= 0.05]

# Expandir la columna "Genes" para que cada gen tenga su propia fila
df_expanded = df_filtered.assign(Genes=df_filtered['Genes'].str.split(';')).explode('Genes')

# Agrupar los términos asociados a cada gen en una lista
df_grouped = df_expanded.groupby('Genes').agg({
    'Term': lambda x: list(x),
    'Adjusted P-value': lambda x: list(x)  # Mantener todos los valores de "Adjusted P-value" para cada gen
}).reset_index()

# Combinar df_grouped con data_with_fc
df_combined = pd.merge(df_grouped, data_with_fc, on='Genes', how='left')

# Ordenar los registros por el valor de "FoldChange" del más alto al más bajo
df_combined_sorted = df_combined.sort_values(by='FoldChange', ascending=False)

# Convertir las columnas 'Term' y 'Adjusted P-value' a strings con los elementos de la lista separados por comas
df_combined_sorted['Term'] = df_combined_sorted['Term'].apply(lambda x: ', '.join(x))
df_combined_sorted['Adjusted P-value'] = df_combined_sorted['Adjusted P-value'].apply(lambda x: ', '.join(map(str, x)))

# Mostrar las primeras filas del dataframe combinado y ordenado
print(df_combined_sorted.head())

# Guardar el DataFrame combinado y ordenado en un nuevo archivo CSV
df_combined_sorted.to_csv('deSeqRes_combined_with_KEGG_2021_Human_terms_sorted.csv', index=False)

# Guardar el DataFrame combinado y ordenado en un archivo Excel
df_combined_sorted.to_excel('deSeqRes_combined_with_KEGG_2021_Human_terms_sorted.xlsx', index=False)

    Genes        Term    Adjusted P-value  Log2FoldChange  FoldChange  \
6  CDKN1A  Cell cycle  0.0079451469569449        4.205535   18.449818   
8  CDKN2B  Cell cycle  0.0079451469569449        2.841668    7.168482   
7  CDKN1C  Cell cycle  0.0079451469569449        2.437113    5.415570   
9  CDKN2D  Cell cycle  0.0079451469569449        1.850438    3.606095   
2   CCNB2  Cell cycle  0.0079451469569449       -1.747174    3.357003   

      Regulation  
6    UpRegulated  
8    UpRegulated  
7    UpRegulated  
9    UpRegulated  
2  DownRegulated  


## Metabolomics_Workbench_Metabolites_2022

In [1]:
import pandas as pd

# Cargar el archivo CSV con los datos filtrados y con Fold Change
file_path_fc = 'deSeqRes_filtrado_Propionibacterium freudenreichii_with_FC.csv'
data_with_fc = pd.read_csv(file_path_fc)

# Renombrar las columnas
data_with_fc = data_with_fc.rename(columns={
    'GeneSymbol': 'Genes',
    'DirectionalFoldChange': 'FoldChange'
})

# Crear una nueva columna 'Regulation' basada en el signo de 'FoldChange'
data_with_fc['Regulation'] = data_with_fc['FoldChange'].apply(lambda x: 'UpRegulated' if x > 0 else 'DownRegulated')

# Tomar el valor absoluto de 'FoldChange'
data_with_fc['FoldChange'] = data_with_fc['FoldChange'].abs()

# Cargar el archivo CSV con los términos GO
file_path_go = r'C:\\Users\\3060\\OneDrive\\Documentos\\Tesis de Grado\\Protocolo\\4_Análisis de Enriquecimiento Funcional\\Propionibacterium freudenreichii\\Enrichr\\Pathways\\Metabolomics_Workbench_Metabolites_2022_table.txt'
df = pd.read_csv(file_path_go, sep='\t')

# Eliminar las columnas especificadas
columns_to_drop = ["Overlap", "P-value", "Old P-value", "Old Adjusted P-value", "Odds Ratio", "Combined Score"]
df = df.drop(columns=columns_to_drop)

# Filtrar los registros con "Adjusted P-value" <= 0.05
df_filtered = df[df["Adjusted P-value"] <= 0.05]

# Expandir la columna "Genes" para que cada gen tenga su propia fila
df_expanded = df_filtered.assign(Genes=df_filtered['Genes'].str.split(';')).explode('Genes')

# Agrupar los términos asociados a cada gen en una lista
df_grouped = df_expanded.groupby('Genes').agg({
    'Term': lambda x: list(x),
    'Adjusted P-value': lambda x: list(x)  # Mantener todos los valores de "Adjusted P-value" para cada gen
}).reset_index()

# Combinar df_grouped con data_with_fc
df_combined = pd.merge(df_grouped, data_with_fc, on='Genes', how='left')

# Ordenar los registros por el valor de "FoldChange" del más alto al más bajo
df_combined_sorted = df_combined.sort_values(by='FoldChange', ascending=False)

# Convertir las columnas 'Term' y 'Adjusted P-value' a strings con los elementos de la lista separados por comas
df_combined_sorted['Term'] = df_combined_sorted['Term'].apply(lambda x: ', '.join(x))
df_combined_sorted['Adjusted P-value'] = df_combined_sorted['Adjusted P-value'].apply(lambda x: ', '.join(map(str, x)))

# Mostrar las primeras filas del dataframe combinado y ordenado
print(df_combined_sorted.head())

# Guardar el DataFrame combinado y ordenado en un nuevo archivo CSV
df_combined_sorted.to_csv('deSeqRes_combined_with_Metabolomics_Workbench_Metabolites_2022_terms_sorted.csv', index=False)

# Guardar el DataFrame combinado y ordenado en un archivo Excel
df_combined_sorted.to_excel('deSeqRes_combined_with_Metabolomics_Workbench_Metabolites_2022_terms_sorted.xlsx', index=False)

   Genes     Term    Adjusted P-value  Log2FoldChange  FoldChange  \
2  DHRS9  Retinol  0.0313889678948545        1.627909    3.090648   
0  DGAT1  Retinol  0.0313889678948545        1.581632    2.993082   
3  RDH13  Retinol  0.0313889678948545        1.349133    2.547590   
1  DHRS3  Retinol  0.0313889678948545       -1.149200    2.217909   

      Regulation  
2    UpRegulated  
0    UpRegulated  
3    UpRegulated  
1  DownRegulated  


## Reactome_2022

In [1]:
import pandas as pd

# Cargar el archivo CSV con los datos filtrados y con Fold Change
file_path_fc = 'deSeqRes_filtrado_Propionibacterium freudenreichii_with_FC.csv'
data_with_fc = pd.read_csv(file_path_fc)

# Renombrar las columnas
data_with_fc = data_with_fc.rename(columns={
    'GeneSymbol': 'Genes',
    'DirectionalFoldChange': 'FoldChange'
})

# Crear una nueva columna 'Regulation' basada en el signo de 'FoldChange'
data_with_fc['Regulation'] = data_with_fc['FoldChange'].apply(lambda x: 'UpRegulated' if x > 0 else 'DownRegulated')

# Tomar el valor absoluto de 'FoldChange'
data_with_fc['FoldChange'] = data_with_fc['FoldChange'].abs()

# Cargar el archivo CSV con los términos GO
file_path_go = r'C:\\Users\\3060\\OneDrive\\Documentos\\Tesis de Grado\\Protocolo\\4_Análisis de Enriquecimiento Funcional\\Propionibacterium freudenreichii\\Enrichr\\Pathways\\Reactome_2022_table.txt'
df = pd.read_csv(file_path_go, sep='\t')

# Eliminar las columnas especificadas
columns_to_drop = ["Overlap", "P-value", "Old P-value", "Old Adjusted P-value", "Odds Ratio", "Combined Score"]
df = df.drop(columns=columns_to_drop)

# Filtrar los registros con "Adjusted P-value" <= 0.05
df_filtered = df[df["Adjusted P-value"] <= 0.05]

# Expandir la columna "Genes" para que cada gen tenga su propia fila
df_expanded = df_filtered.assign(Genes=df_filtered['Genes'].str.split(';')).explode('Genes')

# Agrupar los términos asociados a cada gen en una lista
df_grouped = df_expanded.groupby('Genes').agg({
    'Term': lambda x: list(x),
    'Adjusted P-value': lambda x: list(x)  # Mantener todos los valores de "Adjusted P-value" para cada gen
}).reset_index()

# Combinar df_grouped con data_with_fc
df_combined = pd.merge(df_grouped, data_with_fc, on='Genes', how='left')

# Ordenar los registros por el valor de "FoldChange" del más alto al más bajo
df_combined_sorted = df_combined.sort_values(by='FoldChange', ascending=False)

# Convertir las columnas 'Term' y 'Adjusted P-value' a strings con los elementos de la lista separados por comas
df_combined_sorted['Term'] = df_combined_sorted['Term'].apply(lambda x: ', '.join(x))
df_combined_sorted['Adjusted P-value'] = df_combined_sorted['Adjusted P-value'].apply(lambda x: ', '.join(map(str, x)))

# Mostrar las primeras filas del dataframe combinado y ordenado
print(df_combined_sorted.head())

# Guardar el DataFrame combinado y ordenado en un nuevo archivo CSV
df_combined_sorted.to_csv('deSeqRes_combined_with_Reactome_2022_terms_sorted.csv', index=False)

# Guardar el DataFrame combinado y ordenado en un archivo Excel
df_combined_sorted.to_excel('deSeqRes_combined_with_Reactome_2022_terms_sorted.xlsx', index=False)

     Genes                                               Term  \
8   CDKN1A  Cell Cycle R-HSA-1640170, G2/M Transition R-HS...   
25   TUBB3  Cell Cycle R-HSA-1640170, Cell Cycle, Mitotic ...   
10  CDKN2B  Cell Cycle R-HSA-1640170, Cell Cycle, Mitotic ...   
9   CDKN1C  Cell Cycle R-HSA-1640170, Cell Cycle, Mitotic ...   
16  KIF20A  Cell Cycle R-HSA-1640170, Cell Cycle, Mitotic ...   

                                     Adjusted P-value  Log2FoldChange  \
8   0.0226681326689343, 0.0226681326689343, 0.0226...        4.205535   
25                0.0226681326689343, 0.0283882473921        3.221219   
10  0.0226681326689343, 0.0283882473921, 0.0431739...        2.841668   
9   0.0226681326689343, 0.0283882473921, 0.0431739...        2.437113   
16                0.0226681326689343, 0.0283882473921       -2.198054   

    FoldChange     Regulation  
8    18.449818    UpRegulated  
25    9.325744    UpRegulated  
10    7.168482    UpRegulated  
9     5.415570    UpRegulated  
16    4.58

## Elsevier Pathway Collection

In [2]:
import pandas as pd

# Cargar el archivo CSV con los datos filtrados y con Fold Change
file_path_fc = 'deSeqRes_filtrado_Propionibacterium freudenreichii_with_FC.csv'
data_with_fc = pd.read_csv(file_path_fc)

# Renombrar las columnas
data_with_fc = data_with_fc.rename(columns={
    'GeneSymbol': 'Genes',
    'DirectionalFoldChange': 'FoldChange'
})

# Crear una nueva columna 'Regulation' basada en el signo de 'FoldChange'
data_with_fc['Regulation'] = data_with_fc['FoldChange'].apply(lambda x: 'UpRegulated' if x > 0 else 'DownRegulated')

# Tomar el valor absoluto de 'FoldChange'
data_with_fc['FoldChange'] = data_with_fc['FoldChange'].abs()

# Cargar el archivo CSV con los términos GO
file_path_go = r'C:\\Users\\3060\\OneDrive\\Documentos\\Tesis de Grado\\Protocolo\\4_Análisis de Enriquecimiento Funcional\\Propionibacterium freudenreichii\\Enrichr\\Pathways\\Elsevier_Pathway_Collection_table.txt'
df = pd.read_csv(file_path_go, sep='\t')

# Eliminar las columnas especificadas
columns_to_drop = ["Overlap", "P-value", "Old P-value", "Old Adjusted P-value", "Odds Ratio", "Combined Score"]
df = df.drop(columns=columns_to_drop)

# Filtrar los registros con "Adjusted P-value" <= 0.05
df_filtered = df[df["Adjusted P-value"] <= 0.05]

# Expandir la columna "Genes" para que cada gen tenga su propia fila
df_expanded = df_filtered.assign(Genes=df_filtered['Genes'].str.split(';')).explode('Genes')

# Agrupar los términos asociados a cada gen en una lista
df_grouped = df_expanded.groupby('Genes').agg({
    'Term': lambda x: list(x),
    'Adjusted P-value': lambda x: list(x)  # Mantener todos los valores de "Adjusted P-value" para cada gen
}).reset_index()

# Combinar df_grouped con data_with_fc
df_combined = pd.merge(df_grouped, data_with_fc, on='Genes', how='left')

# Ordenar los registros por el valor de "FoldChange" del más alto al más bajo
df_combined_sorted = df_combined.sort_values(by='FoldChange', ascending=False)

# Convertir las columnas 'Term' y 'Adjusted P-value' a strings con los elementos de la lista separados por comas
df_combined_sorted['Term'] = df_combined_sorted['Term'].apply(lambda x: ', '.join(x))
df_combined_sorted['Adjusted P-value'] = df_combined_sorted['Adjusted P-value'].apply(lambda x: ', '.join(map(str, x)))

# Mostrar las primeras filas del dataframe combinado y ordenado
print(df_combined_sorted.head())

# Guardar el DataFrame combinado y ordenado en un nuevo archivo CSV
df_combined_sorted.to_csv('deSeqRes_combined_with_Elsevier_Pathway_Collection_terms_sorted.csv', index=False)

# Guardar el DataFrame combinado y ordenado en un archivo Excel
df_combined_sorted.to_excel('deSeqRes_combined_with_Elsevier_Pathway_Collection_terms_sorted.xlsx', index=False)

     Genes                                               Term  \
10  CDKN1A  S/G2 Phase Transition, EZH2 Methyltransferase ...   
12  CDKN2B                                 Cell Cycle Overiew   
11  CDKN1C  S/G2 Phase Transition, EZH2 Methyltransferase ...   
16  KIF20A                              G2/M Phase Transition   
15    KAT5                              S/G2 Phase Transition   

                                     Adjusted P-value  Log2FoldChange  \
10  4.449443403486534e-05, 0.0002620097366408474, ...        4.205535   
12                              0.0002620097366408474        2.841668   
11  4.449443403486534e-05, 0.0002620097366408474, ...        2.437113   
16                              0.0002620097366408474       -2.198054   
15                              4.449443403486534e-05       -2.143539   

    FoldChange     Regulation  
10   18.449818    UpRegulated  
12    7.168482    UpRegulated  
11    5.415570    UpRegulated  
16    4.588599  DownRegulated  
15    4.41