# Análisis de enriquecimiento con blitzGSEA
```
Autor:  Martín Sende Pombo (email: martinsendepombo@outlook.com)
Se utilizó ChatGPT 3.5 como asistente de programación, para elaborar este código basado en los ejemplos proporcionados por el Ma'ayan Laboratory.
Creado: 16-01-2024
Última modificación: 13-08-2024
Propósito: Este cuaderno de Jupyter permite efectuar un análisis de enriquecimiento de conjuntos de genes (GSEA) utilizando la biblioteca blitzGSEA.
```
Copyright (C) 2024  Martín Sende Pombo

    Este programa es software libre: puede redistribuirlo y/o modificarlo
    bajo los términos de la Licencia Pública General de GNU publicada por la
    Free Software Foundation, ya sea la versión 3 de la Licencia,
    o (a su elección) cualquier versión posterior.

    Este programa se distribuye con la esperanza de que sea útil,
    pero SIN NINGUNA GARANTÍA; ni siquiera la garantía implícita
    de COMERCIABILIDAD o IDONEIDAD PARA UN PROPÓSITO PARTICULAR.
    Consulte la Licencia Pública General GNU para más detalles.

    Debería haber recibido una copia de la Licencia Pública General
    GNU junto con este programa. Si no es así, consulte <https://www.gnu.org/licenses/>.

## Instalación

In [1]:
!pip3 install blitzgsea



## Ejecución del análisis de enriquecimiento con blitzGSEA

### Ejemplo en Python

In [3]:
import blitzgsea as blitz
import pandas as pd

# read signature as pandas dataframe
signature = pd.read_csv("https://github.com/MaayanLab/blitzgsea/raw/main/testing/ageing_muscle_gtex.tsv")

# list available gene set libraries in Enrichr
blitz.enrichr.print_libraries()

# use enrichr submodule to retrieve gene set library
library = blitz.enrichr.get_library("KEGG_2021_Human")

# run enrichment analysis
if __name__ == "__main__":  # make sure process is main, when run in a script it can cause errors otherwise
  result = blitz.gsea(signature, library)

{'LIBRARY_LIST_URL': 'https://maayanlab.cloud/speedrichr/api/listlibs', 'LIBRARY_DOWNLOAD_URL': 'https://maayanlab.cloud/Enrichr/geneSetLibrary?mode=text&libraryName='}
0 - GeneSigDB
1 - Enrichr_Submissions_TF-Gene_Coocurrence
2 - SysMyo_Muscle_Gene_Sets
3 - WikiPathway_2021_Human
4 - HomoloGene
5 - WikiPathways_2013
6 - PFOCR_Pathways_2023
7 - serine_threonine_kinome_atlas_2023
8 - OMIM_Disease
9 - Data_Acquisition_Method_Most_Popular_Genes
10 - Cancer_Cell_Line_Encyclopedia
11 - WikiPathways_2016
12 - WikiPathways_2015
13 - RNAseq_Automatic_GEO_Signatures_Human_Up
14 - Human_Gene_Atlas
15 - KOMP2_Mouse_Phenotypes_2022
16 - MoTrPAC_2023
17 - Kinase_Perturbations_from_GEO_down
18 - Disease_Signatures_from_GEO_down_2014
19 - Disease_Perturbations_from_GEO_up
20 - Old_CMAP_down
21 - MCF7_Perturbations_from_GEO_up
22 - NIH_Funded_PIs_2017_GeneRIF_ARCHS4_Predictions
23 - PPI_Hub_Proteins
24 - DepMap_WG_CRISPR_Screens_Sanger_CellLines_2019
25 - Disease_Signatures_from_GEO_up_2014
26 - GTEx_

### Bibliotecas de conjuntos de genes seleccionables:

In [8]:
import blitzgsea as blitz
# lista de bibliotecas de conjuntos de genes disponibles en Enrichr
blitz.enrichr.print_libraries()

{'LIBRARY_LIST_URL': 'https://maayanlab.cloud/speedrichr/api/listlibs', 'LIBRARY_DOWNLOAD_URL': 'https://maayanlab.cloud/Enrichr/geneSetLibrary?mode=text&libraryName='}
0 - GeneSigDB
1 - Enrichr_Submissions_TF-Gene_Coocurrence
2 - SysMyo_Muscle_Gene_Sets
3 - WikiPathway_2021_Human
4 - HomoloGene
5 - WikiPathways_2013
6 - PFOCR_Pathways_2023
7 - serine_threonine_kinome_atlas_2023
8 - OMIM_Disease
9 - Data_Acquisition_Method_Most_Popular_Genes
10 - Cancer_Cell_Line_Encyclopedia
11 - WikiPathways_2016
12 - WikiPathways_2015
13 - RNAseq_Automatic_GEO_Signatures_Human_Up
14 - Human_Gene_Atlas
15 - KOMP2_Mouse_Phenotypes_2022
16 - MoTrPAC_2023
17 - Kinase_Perturbations_from_GEO_down
18 - Disease_Signatures_from_GEO_down_2014
19 - Disease_Perturbations_from_GEO_up
20 - Old_CMAP_down
21 - MCF7_Perturbations_from_GEO_up
22 - NIH_Funded_PIs_2017_GeneRIF_ARCHS4_Predictions
23 - PPI_Hub_Proteins
24 - DepMap_WG_CRISPR_Screens_Sanger_CellLines_2019
25 - Disease_Signatures_from_GEO_up_2014
26 - GTEx_

Bibliotecas escogidas:
* Cancer_Cell_Line_Encyclopedia
* MSigDB_Computational

### Para analizar todas las firma de genes

In [5]:
import os
import blitzgsea as blitz
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

def generar_graficos_desde_excel(result_file_path, signature, library, result):
    """
    Genera y guarda gráficos a partir de un archivo Excel.

    Args:
        result_file_path (str): Ruta del archivo Excel.
        signature: Tu definición de signature.
        library: Tu definición de library.
        result: Tu definición de result.
    """
    # Leer el archivo .xlsx
    df = pd.read_excel(result_file_path)

    # Filtrar los términos que cumplen con los criterios especificados
    terms = []
    for index, row in df.iterrows():
        if pd.isna(row[0]) or row[5] > 0.05:
            break
        terms.append(row[0])

    # Carpeta para guardar los resultados
    output_folder = file_output_dir

    # Generar y guardar los gráficos para cada término
    for term in terms:
        fig = blitz.plot.running_sum(signature, term, library, result=result, compact=False)
        fig.savefig(os.path.join(output_folder, f"running_sum_{term.replace(' ', '_')}.png"), bbox_inches='tight')
        plt.close(fig)

        fig_compact = blitz.plot.running_sum(signature, term, library, result=result, compact=True)
        fig_compact.savefig(os.path.join(output_folder, f"running_sum_compact_{term.replace(' ', '_')}.png"), bbox_inches='tight')
        plt.close(fig_compact)
        
    # Cerrar todas las figuras abiertas (opcional, por seguridad)
    plt.close('all')

# Directorios de entrada y salida
input_dir = "Firmas_genes/CSV"
output_dir = "Resultados"
output_dir2 = "Hojas_resultados"

# Obtener lista de archivos .csv en el directorio de entrada
csv_files = [file for file in os.listdir(input_dir) if file.endswith(".csv")]

# Solicitar al usuario el nombre de la librería
library_name = input("Introduce el nombre de la librería a utilizar: ")

# Iterar sobre cada archivo .csv en el directorio de entrada
for file in csv_files:
    # Obtener el nombre del archivo sin la extensión
    file_name = os.path.splitext(file)[0]
    
    # Leer el archivo .csv como pandas DataFrame
    signature = pd.read_csv(os.path.join(input_dir, file))
    
    # Obtener la librería especificada por el usuario
    library = blitz.enrichr.get_library(library_name)
    
    # Realizar análisis de enriquecimiento
    try:
        if __name__ == "__main__":  # make sure process is main, when run in a script it can cause errors otherwise
          result = blitz.gsea(signature, library)
    except (ZeroDivisionError, ValueError) as e:
        print(f"Error en el archivo '{file}': {e}. Saltando este archivo.")
        continue
    
    # Crear directorio para los resultados del archivo actual
    file_output_dir = os.path.join(output_dir, file_name)
    os.makedirs(file_output_dir, exist_ok=True)
    
    # Guardar los resultados en un archivo .xlsx en el directorio de salida correspondiente
    result_file_path = os.path.join(file_output_dir, file_name + "_resultados_GSEA.xlsx")
    result.to_excel(result_file_path, index=True)
    result_file_path2 = os.path.join(output_dir2, file_name + "_resultados_GSEA.xlsx")
    result.to_excel(result_file_path2, index=True)
    
    # Generar y guardar el gráfico de la tabla superior como .png
    try:
        fig_table = blitz.plot.top_table(signature, library, result, n=15)
        fig_table.savefig(os.path.join(file_output_dir, "top_table.png"), bbox_inches='tight')
        plt.close(fig_table)
    except IndexError as e:
        print(f"Error al generar el gráfico para el archivo '{file}': {e}. No se guardará el gráfico.")
        
    # Llama a la función
    generar_graficos_desde_excel(result_file_path, signature, library, result)
    
    # Cerrar todas las figuras abiertas (opcional, por seguridad)
    plt.close('all')
    
print("Proceso completado.")

Introduce el nombre de la librería a utilizar:  MSigDB_Computational


Error en el archivo 'SLC5A8_2.csv': float division by zero. Saltando este archivo.
Proceso completado.


### Para analizar una sola firma de expresión génica

In [16]:
import blitzgsea as blitz
import pandas as pd

# read signature as pandas dataframe
signature = pd.read_csv("Firmas_genes/CSV/APC_2.csv")

# use enrichr submodule to retrieve gene set library
library = blitz.enrichr.get_library("MSigDB_Computational")
#library = blitz.enrichr.get_library("Cancer_Cell_Line_Encyclopedia")

# run enrichment analysis
if __name__ == "__main__":  # make sure process is main, when run in a script it can cause errors otherwise
  result = blitz.gsea(signature, library)

In [17]:
# Ejecute este bloque de código si quiere ver un resumen de la tabla resultante de la ejecuión de blitzGSEA.
result

Unnamed: 0_level_0,es,nes,pval,sidak,fdr,geneset_size,leading_edge
Term,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
MORF PDPK1,-0.725246,-2.709892,0.006731,0.929633,0.49051,6,"PDPK1,LMTK2,ANKRD12,GIGYF2,PHIP"
GNF2 MAP2K3,0.749419,2.617741,0.008851,0.969624,0.49051,5,XPO7
MODULE 308,0.752516,2.617267,0.008864,0.969771,0.49051,6,DNMT1
GNF2 PAK2,0.740207,2.576300,0.009986,0.980637,0.49051,5,"RAF1,ACAP2"
MORF MYC,0.740197,2.561852,0.010412,0.983645,0.49051,6,KAT8
...,...,...,...,...,...,...,...
MODULE 163,0.191929,-0.000000,1.000000,1.000000,1.00000,17,"PGS1,RANBP3,NFATC2IP,FAM199X,FBXL5,GIT2,RBM17,..."
GCM SUFU,0.231214,-0.000000,1.000000,1.000000,1.00000,19,"FBXO3,NCOA5,RALGAPA1"
MORF ATF2,0.197500,-0.000000,1.000000,1.000000,1.00000,29,MPP3
MORF RFC5,0.233437,-0.000000,1.000000,1.000000,1.00000,11,"TAF2,SCAMP1"


In [5]:
result.to_excel("Resultados/Resultados_GSEA.xlsx", index=True)

In [None]:
# plot the enrichment results and save to pdf
fig_table = blitz.plot.top_table(signature, library, result, n=15)
fig_table.savefig("top_table.png", bbox_inches='tight')

In [23]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt

# Leer el archivo .xlsx
file_path = 'Resultados/Resultados_GSEA.xlsx'
df = pd.read_excel(file_path)

# Filtrar los términos que cumplen con los criterios especificados
terms = []
for index, row in df.iterrows():
    if pd.isna(row[0]) or row[5] > 0.49051:
        break
    terms.append(row[0])

# Carpeta para guardar los resultados
output_folder = 'Resultados'

# Generar y guardar los gráficos para cada término
for term in terms:
    fig = blitz.plot.running_sum(signature, term, library, result=result, compact=False)
    fig.savefig(os.path.join(output_folder, f"running_sum_{term.replace(' ', '_')}.png"), bbox_inches='tight')
    plt.close(fig)

    fig_compact = blitz.plot.running_sum(signature, term, library, result=result, compact=True)
    fig_compact.savefig(os.path.join(output_folder, f"running_sum_compact_{term.replace(' ', '_')}.png"), bbox_inches='tight')
    plt.close(fig_compact)

## Guardado de los resultados del GSEA estadísticamente significativos

In [7]:
import os
import pandas as pd

# Ruta de la carpeta que contiene los archivos .xlsx
folder_path = 'Hojas_resultados'

# Obtener la lista de todos los archivos .xlsx en la carpeta
files = [f for f in os.listdir(folder_path) if f.endswith('.xlsx')]

# Preguntar al usuario por el método de filtrado
print("Los métodos estadísticos disponibles para filtrar los resultados son:")
print("1: Tasa de descubrimiento falso (FDR)")
print("2: Corrección de Šidák")
print("3: La combinación de ambos métodos")
filter_choice = input("Introduzca el número correspondiente a la opción elegida (1, 2 o 3): ")

# Validar la entrada del usuario
while filter_choice not in ['1', '2', '3']:
    filter_choice = input("Entrada no válida. Introduce 1, 2, o 3: ")

for file in files:
    # Leer el archivo .xlsx
    input_path = os.path.join(folder_path, file)
    df = pd.read_excel(input_path)

    # Filtrar las filas que cumplen las condiciones especificadas
    if filter_choice == '1':
        filtered_df = df[df['fdr'] <= 0.05]
    elif filter_choice == '2':
        filtered_df = df[df['sidak'] <= 0.05]
    else:
        filtered_df = df[(df['fdr'] <= 0.05) & (df['sidak'] <= 0.05)]

    # Verificar si el DataFrame filtrado está vacío
    if filtered_df.empty:
        print(f"El archivo {file} no contiene términos enriquecidos de forma estadísticamente significativa.")
        continue

    # Crear el nombre del archivo de salida
    output_file_name = file.replace('.xlsx', '_significativos.xlsx')
    output_path = 'Resultados_significativos'
    if not os.path.exists(output_path):
        os.makedirs(output_path)
    output_path = os.path.join(output_path, output_file_name)

    # Escribir el DataFrame resultante a un nuevo archivo .xlsx
    filtered_df.to_excel(output_path, index=False)

    print(f"El archivo filtrado ha sido guardado en: {output_path}")
    
print("Proceso completado.")

Los métodos estadísticos disponibles para filtrar los resultados son:
1: Tasa de descubrimiento falso (FDR)
2: Corrección de Šidák
3: La combinación de ambos métodos


Introduzca el número correspondiente a la opción elegida (1, 2 o 3):  1


El archivo IDO2_2_resultados_GSEA.xlsx no contiene términos enriquecidos de forma estadísticamente significativa.
El archivo NMRK2_2_resultados_GSEA.xlsx no contiene términos enriquecidos de forma estadísticamente significativa.
El archivo Resultados_GSEA.xlsx no contiene términos enriquecidos de forma estadísticamente significativa.
El archivo Resultados_GSEA_APCDD1.xlsx no contiene términos enriquecidos de forma estadísticamente significativa.
El archivo filtrado ha sido guardado en: Resultados_significativos\Resultados_GSEA_APC_2_significativos.xlsx
Proceso completado.


## Filtrar resultados según su relevancia funcional para el tipo de tumor de interés

In [9]:
import os
import pandas as pd

# Definimos las rutas de las carpetas
ruta_resultados_significativos = 'Resultados_significativos'
ruta_criterios_filtrado = 'Criterios_filtrado'
ruta_resultados_filtrados = 'Resultados_filtrados'

# Leer los términos de Inclusion.txt y Exclusion.txt
with open(os.path.join(ruta_criterios_filtrado, 'Inclusion.txt'), 'r') as file:
    inclusion_terms = [line.strip() for line in file]

with open(os.path.join(ruta_criterios_filtrado, 'Exclusion.txt'), 'r') as file:
    exclusion_terms = [line.strip() for line in file]

# Aseguramos que la carpeta de resultados filtrados exista
os.makedirs(ruta_resultados_filtrados, exist_ok=True)

# Procesar cada archivo .xlsx en la carpeta Resultados_significativos
for filename in os.listdir(ruta_resultados_significativos):
    if filename.endswith('.xlsx'):
        filepath = os.path.join(ruta_resultados_significativos, filename)
        df = pd.read_excel(filepath)

        # Filtrar las filas según los términos de inclusión y exclusión
        inclusion_mask = df['Term'].apply(lambda x: any(term in x for term in inclusion_terms))
        exclusion_mask = df['Term'].apply(lambda x: any(term in x for term in exclusion_terms))

        filtered_df = df[inclusion_mask & ~exclusion_mask]

        if not filtered_df.empty:
            # Guardar el nuevo archivo si hay filas que cumplen los criterios
            new_filename = filename.replace('_resultados_GSEA_significativos.xlsx', '_resultados_GSEA_RF.xlsx')
            filtered_df.to_excel(os.path.join(ruta_resultados_filtrados, new_filename), index=False)
        else:
            # Avisar al usuario si no hay filas que cumplan los criterios
            print(f'No hay filas que cumplan los criterios en el archivo: {filename}')
            
print("Proceso completado.")

No hay filas que cumplan los criterios en el archivo: APCDD1_resultados_GSEA_significativos.xlsx
No hay filas que cumplan los criterios en el archivo: APC_2_resultados_GSEA_significativos.xlsx
No hay filas que cumplan los criterios en el archivo: Resultados_GSEA_significativos.xlsx
Proceso completado.


## Vaciado de las carpetas de archivos
Tras copiar los archivos que considere de interés a otra ubicación, puede ejecutar este código para borrar todos los archivos presentes en las carpetas indicadas en la "Lista de las carpetas".

In [161]:
import os

# Lista de las carpetas
carpetas = [
    "Hojas_resultados",
    "Resultados_significativos",
    "Resultados_filtrados"
]

def eliminar_archivos(carpeta):
    # Listar todos los elementos en la carpeta
    for filename in os.listdir(carpeta):
        file_path = os.path.join(carpeta, filename)
        try:
            # Verificar si es un archivo y eliminarlo
            if os.path.isfile(file_path) or os.path.islink(file_path):
                os.unlink(file_path)
                print(f'Archivo {file_path} eliminado')
            # Si es un directorio, lo ignoramos
        except Exception as e:
            print(f'No se pudo eliminar {file_path}. Razón: {e}')

# Eliminar archivos en cada carpeta
for carpeta in carpetas:
    eliminar_archivos(carpeta)
    
print("Proceso completado.")

Archivo Resultados_significativos\APCDD1L_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\CAMK2A_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\CSNK1A1_2_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\CSNK2B_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\CTNNBIP1_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\DAAM2_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\DKK2_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\DVL1_2_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\FRZB_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\FZD1_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\NFATC2_resultados_GSEA_significativos.xlsx eliminado
Archivo Resultados_significativos\NFATC4_res