# Consulta de la base de datos KEGG con Python/Biopython

## Pregunta

> ¿Cómo podemos acceder a las bases de datos de KEGG a través del módulo **Bio.KEGG** de Biopython y extraer información relevante sobre genes y vías metabólicas para su análisis bioinformático?

## Objetivos

### General
> Aprender a usar el módulo **Bio.KEGG** de Biopython para consultar información biológica en la base de datos KEGG y comprender los tipos de datos que se pueden obtener.

### Específicos
1. Conocer qué es **Bio.KEGG** y para qué se utiliza.
2. Realizar consultas básicas a KEGG para obtener información sobre genes, rutas metabólicas, compuestos, entre otros.
3. Interpretar de manera sencilla los resultados obtenidos de las consultas.
4. Extraer y organizar información útil para su análisis posterior o visualización.

## 1. ¿Qué es Bio.KEGG?

De manera general, [**Bio.KEGG**](https://biopython.org/docs/1.84/Tutorial/chapter_kegg.html) es un módulo de [**Biopython**](https://biopython.org/) que permite acceder y manipular datos de la base de datos [**KEGG**](https://www.genome.jp/kegg/) directamente desde Python.  

En términos simples:

**KEGG** es una base de datos que nos permite entender cómo funcionan las células, los organismos y los ecosistemas a partir de información molecular. Contiene datos sobre genes, rutas metabólicas, compuestos y organismos, entre otros.

**Bio.KEGG** actúa como un puente entre Python y KEGG, facilitando la consulta, descarga y análisis de estos datos.

Se basa en la REST API (una forma de “pedir y recibir datos” entre programas a través de Internet, usando URLs y peticiones HTTP) de KEGG, por lo que puedes hacer consultas programáticas y obtener resultados en formatos fáciles de manejar con Python.

Permite tanto consultas simples (por ejemplo, obtener la información de un gen) como operaciones más complejas (como analizar rutas metabólicas completas o relacionar genes con compuestos).
 
En la siguiente tabla se muestran las funciones para hacer consultas a **KEGG** por medio de **Bio.KEGG**:

| Función         | Descripción                                                                 |
|-----------------|-----------------------------------------------------------------------------|
| `kegg_list()`   | Lista todas las bases de datos de KEGG.                                     |
| `kegg_info()`   | Obtiene información general sobre una base de datos de KEGG.                |
| `kegg_conv()`   | Convierte identificadores de KEGG a los de otras bases de datos.            |
| `kegg_find()`   | Busca entradas en KEGG que coincidan con un dato de consulta.               |
| `kegg_get()`    | Recupera información detallada de una entrada específica en KEGG.           |
| `kegg_link()`   | Encuentra entradas en KEGG usando referencias cruzadas de otras bases.      |

En términos sencillos, la forma general de usar estas funciones es siempre la misma: elegir la función, indicar lo que se va a buscar y guardar el resultado en una variable.

```python
myvar = REST.<función>(<consulta>, <arg1>, <arg2>, ...)
```

- `<función>`: el nombre de la función que quieres usar (por ejemplo, kegg_list, kegg_get).
- `<consulta>`: el dato que quieres buscar en KEGG (por ejemplo, el nombre de un organismo, un gen o una ruta).
- `<arg1>`, `<arg2>`, ...: algunos parámetros extra que ciertas funciones necesitan.

En las siguientes secciones veremos cómo usar cada una de estas funciones.

## 2. ```kegg_list```

De manera general, la función ```kegg_list``` devuelve una lista de identificadores de KEGG junto con su descripción asociada, ya sea de toda una base de datos o de un conjunto específico de elementos. Para consultar la descripción y parámetros de la función, podemos solicitar la yuda. 

In [None]:
# Importando la biblioteca REST
from Bio.KEGG import REST

# Solicitando la ayuda de kegg_list
help(REST.kegg_list)

### 2.1 ¿Qué bases de datos puedo consultar?

En particular, si a ```kegg_list``` se le proporciona el parámetro **"database"**, se obtiene la lista de todas las bases de datos disponibles en KEGG para su consulta. Como se muestra en el siguiente código.

In [None]:
# Importando la biblioteca de pandas para trabajar con tablas (dataframes) y
# y la biblioteca io, para trabajar con datos (archivos, cadenas, binarios) "como si fueran archivos"
import pandas as pd
import io

# Obtener lista de bases de datos de KEGG




### 2.2 Lista de todos los organismos registrados en Kegg

Para consultar la lista de organismos disponibles en KEGG, utilizamos el parámetro **"organism"**, en la función `kegg_list`. Por ejemplo:

In [None]:
# Consultando los organismos disponibles en Kegg


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None, sep="\t")
display(df)

Una vez que se obtiene la tabla, se puede filtrar la información para un organismo en particular. Por ejemplo, podemos buscar los datos relacionados con ***Drosophila melanogaster***.

In [None]:
# Filtrando la tabla para ver solo la información de drosophila melanogaster




### 2.3 Lista de todos los genes de un organismo

Si como parámetro de ```kegg_list``` se proporciona el **código de un organismo específico**, se obtiene la información de los **genes asociados a ese organismo**. Por ejemplo, busquemos los genes asociados a ***Drosophila melanogaster***.

In [None]:
# Consultando los genes asociados a Drosophila (dme)


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None, sep="\t")
display(df)

### 2.4 Listando los registros de las bases de datos

Con `kegg_list` se puede consultar las diferentes bases de datos de **KEGG**, como `compound`, `orthology`, `brite`, `pathway`, entre otras, para listar los elementos o registros que contiene cada una de ellas.  

En el caso de `pathway` (rutas metabólicas), es posible realizar búsquedas específicas para obtener aquellas rutas asociadas a un organismo en particular.

A continuación, veremos algunos ejemplos de cómo utilizar esta función con distintas bases de datos.  




In [None]:
# Consultando la base de datos de compuestos



# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None, sep="\t")
display(df)

In [None]:
# Consultando la base de ortologos


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None, sep="\t")
display(df)

In [None]:
# Consultando la base de datos de rutas metabolicas (pathways)


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df.sort_values(by=0))

Para **restringir los resultados** únicamente a aquellas rutas metabólicas (*pathways*) presentes en ***drosophila melanogaster***, podemos filtrar los resultados de la base de datos utilizando el código del organismo **dme** como segundo argumento.

In [None]:
# Rutas metabolicas (pathways), presentes en Drosophila


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

Finalmente, con `kegg_list` podemos realizar consultas más específicas, como obtener información de un gen o de una lista de genes en particular, incluso de diferentes organismos, o de un compuesto específico. Por ejemplo:

In [None]:
# Consultando la información de dos genes, un compuesto y una glicina


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

## 3. `KeggInfo`

La función `kegg_info()` devuelve información básica sobre una base de datos específica de **KEGG**, de manera similar a visitar la página principal de esa base de datos. Consultemos la ayuda de la función `kegg_ifo`, para conocer la descripción y parámetros.

In [None]:
# Solicitando la ayuda de kegg_info
help(REST.kegg_info)

### 3.1 Información general de Kegg

Para obtener información general de KEGG y sus bases de datos en su conjunto, se puede usar `kegg_info("kegg")`, como se muestra en el siguiente código:

In [None]:
# Consultando la información de kegg




La consulta nos devuelve información referente a la base de datos consultada, como la versión, la fecha de liberación, el número de registros, entre otros detalles.

### 3.2 Información de una bse de datos específica

La función `kegg_info()` es un poco más versátil, ya que también puede obtener información sobre bases de datos específicas.  

Por ejemplo, podemos consultar la información relacionada con la base de datos *glycan*, como se muestra a continuación:

In [None]:
# Información de la BD glycan




En este caso, además de información como el número de registros, la versión y la fecha de liberación, también obtenemos los nombres de las bases de datos relacionadas con nuestra consulta, así como la **clave de consulta** de la base (gl).

Veamos **otro ejemplo**, ahora consultando la información del **organismo Drosophila melanogaster(dme)**

In [None]:
# Información de la BD relacionada con la información de Drosophila (dme)




Como podemos observar, en esta consulta obtenemos información relacionada con el organismo **Drosophila melanogaster**, incluyendo su **clave de consulta** (`dme`), su **identificador de organismo** (**Tnumber: T00030**), entre otros datos relevantes.

## 4. `kegg_conv`

`kegg_conv` es una función que permite **convertir identificadores** entre **KEGG** y otras bases de datos externas, como **UniProt**, **NCBI-Gene**, **PubChem**, entre otras.  

Esta herramienta resulta muy útil cuando se desea **relacionar información entre diferentes fuentes biológicas**; por ejemplo, para encontrar los identificadores de KEGG correspondientes a una lista de genes de UniProt, o viceversa.  

A continuación, consultaremos la ayuda de la función `kegg_conv` para revisar su descripción y los parámetros que utiliza.  

In [None]:
# Solicitando la ayuda de kegg_conv
help(REST.kegg_conv)

### 4.1 Conversión de identificadores de keeg a NCBI

Podemos convertir los identificadores de genes de KEGG a sus equivalentes en NCBI-Gene, utilizando como argumento el nombre de la base de datos de a consultar ("ncbi-geneid") y el código del organismo de interés. 

En el siguiente ejemplo, realizamos la conversión para Drosophila melanogaster (dme):

In [None]:
# Convirtiendo los identificadores de Kegg a sus equivalentes en NCBI


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

El resultado es una tabla que muestra las correspondencias entre los **identificadores de KEGG** y sus **identificadores equivalentes en NCBI-Gene** para el organismo dme(Drosophila melanogaster).  

> **Nota:** Es importante mencionar que, en este caso en particular, sabemos, por la consulta que realizamos con `REST.kegg_info("dme")`, que el organismo `dme` está vinculado con la base de datos `ncbi-geneid`.  
> Sin embargo, si no existiera dicha vinculación, la consulta generaría un **error**.


Las consultas no necesariamente deben realizarse sobre **todos los genes de un organismo**; también es posible hacerlas sobre **un conjunto específico de genes**, como se muestra a continuación:

In [None]:
# Convirtiendo algunos identificadores de genes a su equivalente de uniprot



# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

## 5. `kegg_find`

`kegg_find` realiza una **búsqueda de un término dentro de una base de datos específica KEGG**. Esta función permite localizar genes, compuestos, rutas metabólicas, enfermedades u otros elementos que coincidan con el término de búsqueda.

Consultemos la ayuda de la función para verificar su **descripción** y los **parámetros disponibles**.

In [None]:
# Solicitando la ayuda de kegg_find
help(REST.kegg_find)

### 5.1 Búsqueda de un término en particular

Podemos buscar si un término específico, como `"cytochrome"`, se encuentra en la base de datos de un organismo en particular, por ejemplo *Drosophila melanogaster* (`dme`).
Además, podemos realizar una búsqueda más general en la base de datos de pathway o gene. El siguiente código muestra ambos casos:

In [None]:
# Buscando un termino particular (cytochrome) en un organismo (dme)




# Transformando los resultados a un dataframe
print("--- Busqueda en organismo dme ----")
df = pd.read_table(io.StringIO(result), header=None)
display(df)

# Buscando el mismo término (cytochrome) en la base de datos de pathway



# Transformando los resultados a un dataframe
print("--- Busqueda en la BD de pathway ----")
df = pd.read_table(io.StringIO(result), header=None)
display(df)

### 5.2 Búsqueda de múltiples términos

Con la consulta anterior, KEGG devuelve información para la entrada que hemos solicitado. Sin embargo, también podemos usar **múltiples términos de búsqueda** combinándolos con el símbolo +, lo que obliga a que todos los términos especificados estén presentes en los resultados. Por ejemplo, para buscar los términos `toxin` y `venom`, en la **BD** de `genes`,se podría usar la consulta:

In [None]:
# Buscando dos terminos (toxin, venom) en la base de datos de "genes"


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

### 5.3 Otros ejemplos

In [None]:
# Buscando el peso molecular de 300 en la base de datos de compuestos
print("======== Peso molecular de 300 ===========")



# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

# Buscando la masa en un rango de 174.05-180.07 en la base de datos de compuestos
print("======== Masa en rango de 174.05-180.07 ===========")


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

# Buscando la fórmula en C7H10O5 en la base de datos de compuestos
print("======= Fórmula en C7H10O5 ============")


# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

## 6. `kegg_get`

`kegg_get` permite **recuperar toda la información asociada a un identificador de KEGG** (por ejemplo, un gen, compuesto o ruta metabólica).
Solicitaremos la ayuda de la función para conocer su **descripción, parámetros** y los **valores que puede devolver.**

In [None]:
# Solicitando la ayuda de kegg_get
help(REST.kegg_get)

Por ejemplo, podemos obtener la información del gen `dme:Dmel_CG13865`:

In [None]:
# Obteniendo la información del gen dme:Dmel_CG13865




Como podemos observar, el resultado de la consulta es un **texto plano**, que no sigue el formato de una tabla con el mismo número de renglones y columnas, por lo tanto no lo convertiremos a dataframe.

Para acceder a cada elemento (por ejemplo, `ENTRY`, `SYMBOL`, `NAME`, etc.), debemos **parsear** el archivo y extraer la información que necesitamos, dependiendo también del tipo de salida que obtenemos.  

Por ejemplo, si solicitamos la información del compuesto `cpd:C00051`, obtendremos la siguiente información:

In [None]:
# Consultando la información del compuesto cpd:C00051




En este caso, además de las etiquetas `ENTRY` y `NAME`, obtenemos etiquetas como `FORMULA`, `EXACT_MASS`, `MOL_WEIGHT`, entre otras.  

El resultado se presenta también como un **texto plano**, que debe ser **parseado** para extraer la información deseada.


### 6.1 Recuperación de datos específicos (secuencias, estructuras, imágenes) con `kegg_get`

La función `kegg_get` permite, además de proporcionar un identificador de **KEGG**, incluir un **valor opcional** (`"aaseq"`, `"ntseq"`, `"mol"`, `"kcf"`, `"image"`, `"kgml"`) para consultar información específica, como la **secuencia de un gen**, la **imagen de una ruta metabólica** (*pathway*), entre otras.  

Por ejemplo, para consultar la **estructura molecular** del compuesto `cpd:C00051`, utilizamos la opción `"image"`. De esta manera, obtenemos únicamente la imagen correspondiente a la estructura del compuesto.


In [None]:
# Cargando el modulo Image de la biblioteca IPython.display, para desplegar imágenes
from IPython.display import Image

# Consultando la estructura molecular del compuesto cpd:C00051




Otro ejemplo, es **obtener** solo la **secuencia de aminoácidos** del gen **"dme:Dmel_CG13865"**, utilizando la opción "aaseq"

In [None]:
# Consultando la secuencia de aminoácidos del gen Dmel_CG13865



### 6.2 Recuperando imágenes de rutas metabólicas en KEGG

`KEGG` es ampliamente reconocido por sus diagramas de rutas metabólicas (*pathways*), los cuales representan de forma visual las interacciones y procesos biológicos.

Podemos **obtener estas imágenes directamente desde Python** utilizando la función `kegg_get()` con la opción `"image"`. Esta opción permite descargar la representación gráfica de una ruta metabólica específica.  

Para especificar un mapa de una ruta en particular, se combina el prefijo `map` con el número de la ruta metabólica que se desea consultar. Por ejemplo, el mapa correspondiente a **fatty-acid biosynthesis** sería `map00061`, el cual se puede solicitar como imagen, como se muestra a continuación:


In [None]:
# Consultando el mapa correspondiente a la ruta fatty-acid biosynthesis map00061



# Otro ejemplo es el mapa del metabolismo central "map01100"

Si queremos recuperar el mapa de una ruta metabólica **correspondiente a un organismo en particular**, podemos reemplazar el prefijo `map` por el **código de tres letras** asignado a ese organismo.  

Por ejemplo, en el caso de *Drosophila melanogaster*, el prefijo `map` se reemplaza por `dme`, como se muestra en los siguientes ejemplos:

In [None]:
# Consultando el mapa correspondiente a la ruta fatty-acid biosynthesis map00061 del organismo dme(Drosophila)



## 7. `kegg_link`

La función `kegg_link` se utiliza para **encontrar relaciones o enlases entre diferentes bases de datos de Kegg**. Solicitaremos la ayuda de esta función para conocer la **descripción, parámetros y sintaxis** de la función, antes de revisar algunos ejemplos prácticos

In [None]:
# Solicitando la ayuda de kegg_link
help(REST.kegg_link)

Podemos **relacionar la información de las rutas metabólicas y los genes de un organismo**, con el propósito de identificar en qué rutas participa cada gen. Por ejempo, consultemos la relación entre los genes de *Drosophila melanogaster* y las rutas metabólicas(*pathway*).

In [None]:
# Consultando la relación de Drosophila con las rutas metabólicas



# Transformando los resultados a un dataframe
df = pd.read_table(io.StringIO(result), header=None)
display(df)

## 8. Puntos clave

En esta clase aprendimos a **consultar información en la base de datos de KEGG** utilizando **Biopython**, en particular el módulo `Bio.KEGG.REST`.  

Las funciones que utilizamos:

- **`kegg_list`** → Muestra los elementos disponibles en una base de datos de KEGG, como organismos, compuestos o rutas metabólicas.  
- **`kegg_info`** → Proporciona información general o estadística sobre una base de datos o sobre KEGG en general.  
- **`kegg_conv`** → Convierte identificadores entre KEGG y otras bases de datos (por ejemplo, UniProt o NCBI).  
- **`kegg_find`** → Permite buscar términos o palabras clave dentro de una base de datos.  
- **`kegg_get`** → Recupera la información completa asociada a un identificador (como un gen, compuesto o ruta).  
- **`kegg_link`** → Muestra las relaciones entre diferentes bases de datos (por ejemplo, entre genes y rutas metabólicas).

En resumen, aprendimos a **explorar y relacionar la información biológica en KEGG** desde Python, entendiendo cómo están organizadas las bases de datos y cómo acceder a la información que necesitamos de manera práctica.


## 9. Ejercicios propuestos

1. **Crear una función para parsear los resultados de `kegg_get`.**  
   Desarrollar una función que permita *parsear* los resultados obtenidos con `kegg_get`, extrayendo todos los campos clave de la consulta (`ENTRY`, `NAME`, entre otros) y la información asociada a cada uno de ellos, **independientemente del tipo de identificador** consultado (gen, compuesto, ruta metabólica, etc.).

2. **Recuperar información específica de un campo clave.**  
   Implementar una función que permita recuperar la información de un campo clave en particular (por ejemplo, `BRITE`).  
   Considere que algunos campos pueden obtenerse directamente agregando un parámetro opcional a la función `kegg_get` —como `"aaseq"`, `"ntseq"`, `"mol"`, `"kcf"`, `"image"` o `"kgml"`.  
   Sin embargo, para los campos que **no** se encuentren entre estos parámetros opcionales, deberá utilizar la función del **Ejercicio 1** para parsear el resultado y obtener la información deseada.
