# Tutorial 01 - Cómo cargar un modelo a escala genómica, explorarlo y conocer sus parámetros predeterminados antes de resolverlo

Este tutorial tiene como objetivo que te familiarices con el manejo de un modelo a escala genómica (GEM) en el ambiente de Jupyter Notebooks con la sintaxis de Python, de COBRA y que conozcas cuál es y cómo se presenta la información contenida en el archivo de un modelo. 
  
Si deseas ver toda la documentación de COBRA, visita el sitio https://cobrapy.readthedocs.io/en/latest/

## Primero se cargan las librerías que usaremos

In [60]:
import pandas as pd # Esta librería es útil para trabajar con tablas, también conocidas como Data Frames
import numpy as np # Esta librería es útil para trabajar con números y operaciones básicas con ellos
import matplotlib.pyplot as plt # Esta es la librería básica para graficar en python
import cobra # Esta librería contiene las funciones para manejar modelos GEM

## Ahora cargamos el modelo

Al visitar el sitio http://bigg.ucsd.edu/ en la sección de modelos ( http://bigg.ucsd.edu/models ) podrás ver una lista con los modelos a escala genómica disponibles. Aquí trabajaremos con el modelo más actualizado de Escherichia coli, el iML1515. Este se encuentra en la carpeta "Modelos".  
  
Primero cargamos y guardamos el modelo en la variable llamada "model" (por simplicidad).  
  
Como nuestro modelo está en formato .json, usamos la funcion cobra.io.load_json_model('Nombre del modelo.json'). Sin embargo, si el modelo estuviera en formato .smbl o .mat,  
el código cambia ligeramente y debemos usar el código cobra.io.read_smbl_model('Nombre del modelo.xml') o cobra.io.load_matlab_model('Nombre del modelo.mat'), respectivamente.
  
En la función cobra.io.load_jason_model() debemos escribir, dentro de los paréntesis y entre comillas, el nombre del modelo. En caso de que el modelo esté en un directorio diferente a la de la notebook que  
estamos usando, debemos escribir primero la ruta para llegar al modelo desde la carpeta donde nos encontramos y al final el nombre, tal como se muestra abajo:

In [61]:
model = cobra.io.load_json_model('Modelos/iML1515.json') # El directorio (la carpeta) 'Modelos' está dentro del
                                                         # directorio donde nos encontramos

## Ahora exploraremos varias características del modelo antes de resolverlo
  
El modelo contiene 3 tipos de información importante: genes, reacciones y metabolitos. Cuando el modelo se resuelve, se genera un cuarto tipo de información: los flujos de cada reacción.

Primero vamos a explorar los genes.

## Genes
Primero, exploraremos los genes que hay en el modelo. Es importante que sepas que cada gen en el modelo es un diccionario con información variada relacionada con el gen. Es decir, cada objeto clasificado como "gen" tiene asociado un nombre, un identificador, reacciones metabólicas, etc.
  
Primero vamos a ver cuántos genes hay en el modelo

In [62]:
len(model.genes) # La función "len()" te dice el tamaño de un objeto, en número de miembros

1516

In [63]:
# Podemos modificar el código anterior para mejorar la presentación de la información que consultamos
print('El número de genes en el modelo iML1515 de Escherichia coli es', len(model.genes))

El número de genes en el modelo iML1515 de Escherichia coli es 1516



Ahora, si escribes y ejecutas model.genes como tal, obtendrás una lista de las direcciones de cada gen en la memoria de tu computadora (un dato muy poco práctico).  
Los genes vienen identificados por su "bnumber" en lugar de su nombre común.

In [64]:
model.genes

[<Gene b2551 at 0x7f46feb54518>,
 <Gene b0870 at 0x7f46feb54550>,
 <Gene b3368 at 0x7f46feb54588>,
 <Gene b2436 at 0x7f46feb545c0>,
 <Gene b0008 at 0x7f46feb54630>,
 <Gene b3500 at 0x7f46feb546a0>,
 <Gene b2465 at 0x7f46feb54710>,
 <Gene b0945 at 0x7f46feb54780>,
 <Gene b4467 at 0x7f46feb547b8>,
 <Gene b3126 at 0x7f46feb547f0>,
 <Gene b4468 at 0x7f46feb54828>,
 <Gene b2979 at 0x7f46feb54860>,
 <Gene b3916 at 0x7f46feb54898>,
 <Gene b1095 at 0x7f46feb548d0>,
 <Gene b1054 at 0x7f46feb54908>,
 <Gene b1855 at 0x7f46feb54940>,
 <Gene b1260 at 0x7f46feb54978>,
 <Gene b2378 at 0x7f46feb549b0>,
 <Gene b0109 at 0x7f46feb549e8>,
 <Gene b1094 at 0x7f46feb54a20>,
 <Gene b2836 at 0x7f46feb54a58>,
 <Gene b2472 at 0x7f46feb54a90>,
 <Gene b2935 at 0x7f46feb54ac8>,
 <Gene b1261 at 0x7f46feb54b00>,
 <Gene b3426 at 0x7f46feb54b38>,
 <Gene b2242 at 0x7f46feb54b70>,
 <Gene b2243 at 0x7f46feb54ba8>,
 <Gene b2241 at 0x7f46feb54be0>,
 <Gene b4054 at 0x7f46feb54c18>,
 <Gene b3770 at 0x7f46feb54c50>,
 <Gene b32

Para saber cómo extraer información útil de cada gen, primero exploraremos el contenido de uno de los miembros de la lista de genes, o sea, vamos a explorar el diccionario de un objeto en el modelo llamado "gen".  
  
Posteriormente verás cómo obtener información precisa de todos los genes en el modelo.

Digamos que queremos explorar el contenido del diccionario del primer gen de la lista. Para ello seleccionamos el primer elemento de la lista con la sintáxis típica de python:  
  
lista\[ Posición del elemento dentro de la lista \]  
  
RECUERDA que en python empiezas a contar en 0, así que el primer elemento es el 0

In [65]:
model.genes[0] # La posición del primer elemento es la cero y se coloca entre corchetes

0,1
Gene identifier,b2551
Name,glyA
Memory address,0x07f46feb54518
Functional,True
In 6 reaction(s),"THFAT, ALATA_D2, GHMT2r, THRA, ALATA_L2, THRA2"


Como puedes ver, el primer gen de la lista de genes del modelo es un objeto (diccionario) con información variada. Arriba se muestra solamente parte de esta información.  
  
Si quieres ver toda la información del objeto, debemos ejecutar el código anterior con un pequeño cambio al final:

In [66]:
model.genes[0].__dict__ # Si agregamos .__dict__ al final, podemos visualizar todo el diccionario contenido en el
                        # objeto "gene"

{'_id': 'b2551',
 'name': 'glyA',
 'notes': {'original_bigg_ids': ['b2551']},
 '_annotation': {'asap': ['ABE-0008389'],
  'ecogene': ['EG10408'],
  'ncbigene': ['947022'],
  'ncbigi': ['16130476'],
  'refseq_locus_tag': ['b2551'],
  'refseq_name': ['glyA'],
  'refseq_synonym': ['ECK2548', 'JW2535'],
  'sbo': 'SBO:0000243',
  'uniprot': ['P0A825']},
 '_model': <Model iML1515 at 0x7f46febcbf60>,
 '_reaction': {<Reaction ALATA_D2 at 0x7f46fea82320>,
  <Reaction ALATA_L2 at 0x7f46feab87b8>,
  <Reaction GHMT2r at 0x7f46fe875b38>,
  <Reaction THFAT at 0x7f46f74f0c18>,
  <Reaction THRA2 at 0x7f46f9da2198>,
  <Reaction THRA at 0x7f46f9653a90>},
 '_functional': True}

Aquí vemos tanto la información mostrada previamente como otras características asociadas al gen.  
  
Es importante que sepas que para accesar a una característica del gen, una manera sencilla y útil de hacerlo es agregando un punto y el nombre de la característica que te interesa.  
  
Vamos a visualizar el nombre, el identificador y las reacciones del gen número 800 en la lista de genes

In [67]:
print('El nombre del gen número 800 en la lista de genes es',
      model.genes[799].name) # recuerda que empiezas a contar en cero!

print('El id del gen número 800 en la lista de genes es',
      model.genes[799].id) # Nota que usamos "id" en lugar de "_id".

print('Las reacciones asociadas al gen número 800 en la lista de genes son',
      [reaction.id for reaction in model.genes[799].reactions])

El nombre del gen número 800 en la lista de genes es cbdB
El id del gen número 800 en la lista de genes es b0979
Las reacciones asociadas al gen número 800 en la lista de genes son ['CYTBD2pp', 'CYTBDpp']


Nota que como un solo gen puede estar asociado a más de una reacción, las reacciones se colocaron en una lista. Recuerda que una lista en python está delimitada por corchetes. Por ejemplo, esto es una lista de 5 números en python: [12, 45, 87, 90, 101]

# Cómo puedes encontrar un gen si no conoces su bnumber?

Una manera sencilla es ir a biocyc https://biocyc.org/ o, como estamos trabajando con el modelo de E. coli, a https://ecocyc.org/ y buscarlo.  
  
Alternativamente, Para buscar el gen por alguna característica que sí conozcamos, como su nombre (por ejemplo, aceA), podemos hacer lo siguiente:

In [68]:
for gene in model.genes:
    if 'aceA' in gene.name:
        print(gene.id)

b4015


Aquí lo que hicimos fue realizar una búsqueda en cada gen de la lista de genes. Si la condición de que la palabra 'aceA' se encuentre en el nombre del gen se cumple, entonces se imprime el nombre del gen.

Si ya conoces el bnumber de un gen, puedes buscarlo con la función "get_by_id()"

In [69]:
model.genes.get_by_id('b4015')

0,1
Gene identifier,b4015
Name,aceA
Memory address,0x07f46feae44a8
Functional,True
In 1 reaction(s),ICL


## Reacciones

Justo como con los genes, las reacciones y la manera en que accesamos la información contenida en ellas se hace de manera similar.  
  
Primero, vamos a ver cuántas reacciones contiene el modelo:

In [70]:
print('El número de reacciones en el modelo iML1515 de Escherichia coli es', len(model.reactions))

El número de reacciones en el modelo iML1515 de Escherichia coli es 2712


In [71]:
model.reactions # Vamos a ver la lista de reacciones. Estas aparecen con un id de reacción

[<Reaction CYTDK2 at 0x7f46feb136d8>,
 <Reaction XPPT at 0x7f46feb13a90>,
 <Reaction HXPRT at 0x7f46feb13da0>,
 <Reaction NDPK5 at 0x7f46feaa4128>,
 <Reaction SHK3Dr at 0x7f46feaa4518>,
 <Reaction NDPK6 at 0x7f46feaa4978>,
 <Reaction NDPK8 at 0x7f46feaa4cf8>,
 <Reaction DHORTS at 0x7f46feaad080>,
 <Reaction OMPDC at 0x7f46feaad390>,
 <Reaction PYNP2r at 0x7f46feaad6d8>,
 <Reaction G5SD at 0x7f46feaada20>,
 <Reaction CS at 0x7f46feaadef0>,
 <Reaction ICDHyr at 0x7f46feab83c8>,
 <Reaction ALATA_L2 at 0x7f46feab87b8>,
 <Reaction DURIPP at 0x7f46feab8b38>,
 <Reaction ACALD at 0x7f46feab8ef0>,
 <Reaction PTRCTA at 0x7f46feac1438>,
 <Reaction ACS at 0x7f46feac1780>,
 <Reaction CYSDS at 0x7f46feac1c50>,
 <Reaction MAN6PI at 0x7f46feace0b8>,
 <Reaction PPA at 0x7f46feace2e8>,
 <Reaction APRAUR at 0x7f46feace6a0>,
 <Reaction TRPAS2 at 0x7f46feaceb00>,
 <Reaction PPCK at 0x7f46feaceeb8>,
 <Reaction ME1 at 0x7f46fead82e8>,
 <Reaction DB4PS at 0x7f46fead86d8>,
 <Reaction ALAR at 0x7f46fead89e8>,
 

Ahora vamos a ver una reacción:

In [72]:
model.reactions[2000] # Así, ose observa solo parte de la información contenida en el objeto "reaction"

0,1
Reaction identifier,G3PAT161
Name,Glycerol-3-phosphate acyltransferase (C16:1)
Memory address,0x07f46f99587b8
Stoichiometry,glyc3p_c + hdeACP_c --> 1hdec9eg3p_c + ACP_c  Glycerol 3-phosphate + Cis-hexadec-9-enoyl-[acyl-carrier protein] (n-C16:1) --> 1-hexadec-9-enoyl-sn-glycerol 3-phosphate + Acyl carrier protein
GPR,b1094 and b4041
Lower bound,0.0
Upper bound,1000.0


In [73]:
model.reactions[2000].__dict__ # Justo como en el ejemplo del gen, así podemos observar toda la información del objeto "reaction"

{'_id': 'G3PAT161',
 'name': 'Glycerol-3-phosphate acyltransferase (C16:1)',
 'notes': {'original_bigg_ids': ['G3PAT161']},
 '_annotation': {'bigg.reaction': ['G3PAT161'],
  'ec-code': ['2.3.1.15'],
  'metanetx.reaction': ['MNXR99859'],
  'sbo': 'SBO:0000176'},
 '_gene_reaction_rule': 'b1094 and b4041',
 'subsystem': 'Glycerophospholipid Metabolism',
 '_genes': {<Gene b1094 at 0x7f46feb54a20>, <Gene b4041 at 0x7f46feb044e0>},
 '_metabolites': {<Metabolite 1hdec9eg3p_c at 0x7f46feb656a0>: 1.0,
  <Metabolite ACP_c at 0x7f46feb899e8>: 1.0,
  <Metabolite glyc3p_c at 0x7f46febd5be0>: -1.0,
  <Metabolite hdeACP_c at 0x7f46feb5ec88>: -1.0},
 '_model': <Model iML1515 at 0x7f46febcbf60>,
 '_lower_bound': 0.0,
 '_upper_bound': 1000.0}

Nuevamente, si no conocemos el id o el nombre de nuetra reacción de interes, podemos buscar parte de su nombre, los genes involucrados o los metabolitos.

En el siguiente ejemplo vamos a buscar en los nombre de los metabolitos de cada reacción si aparece el nombre 'glucose'. Esto nos da los ids de las reacciones con glucosa

In [74]:
for reaction in model.reactions: # Buscaremos si la reacción contenie el metabolito "D-Glucosa"
    for metabolite in reaction.metabolites:
        if 'D-Glucose' in metabolite.name:
            print(reaction.id)

GLGC
G1PP
G1PP
PGI
EX_glc__D_e
GLCP
UGLT
XYLI2
LACZ
TRE6PH
TRE6PH
G1PTT
PGMT
PGMT
MLTG3
GALS3
GALUi
EX_g6p_e
HEX1
HEX1
G6PDH2r
MLTG2
MLTG1
AMALT3
MLTP3
AB6PGH
AMALT1
MLTP2
TRE6PS
TREH
GLCDpp
GLCtex_copy1
GLCtex_copy1
TREHpp
LACZpp
FRULYSDG
G6Ptex
G6Ptex
GLCptspp
GLCptspp
GLCt2pp
GLCt2pp
MLTG4
G6PP
G6PP
GLCATr
AMALT2
MLTP1
G1Ptex
G1Ptex
GLCabcpp
GLCabcpp
UDPGPpp
G1PPpp
G1PPpp
AMALT4
G6Pt6_2pp
G6Pt6_2pp
MLTG5
EX_g1p_e
GLCtex_copy2
GLCtex_copy2
GLCP2
BGLA1
BGLA1
XYHDL


## Metabolitos y compartimentos celulares

Al igual que con los genes y con las reacciones, podemos buscar el número de metabolitos con un código similar a los ejemplos anteriores:

In [75]:
print('El número de metabolitos en el modelo iML1515 de Escherichia coli es', len(model.metabolites)) # El número de metabolitos en el modelo

El número de metabolitos en el modelo iML1515 de Escherichia coli es 1877


In [76]:
# La lista de metabolitos
model.metabolites

[<Metabolite octapb_c at 0x7f46febcf358>,
 <Metabolite cysi__L_e at 0x7f46febcf320>,
 <Metabolite dhap_c at 0x7f46febcf390>,
 <Metabolite prbatp_c at 0x7f46febcf3c8>,
 <Metabolite 10fthf_c at 0x7f46febcf400>,
 <Metabolite btal_c at 0x7f46febcf438>,
 <Metabolite 6pgg_c at 0x7f46febcf470>,
 <Metabolite co2_e at 0x7f46febcf4a8>,
 <Metabolite akg_e at 0x7f46febcf4e0>,
 <Metabolite gsn_e at 0x7f46febcf518>,
 <Metabolite pydx5p_c at 0x7f46febcf550>,
 <Metabolite 3dhgulnp_c at 0x7f46febcf588>,
 <Metabolite g3ps_c at 0x7f46febcf5c0>,
 <Metabolite adphep_LD_c at 0x7f46febcf5f8>,
 <Metabolite lyx__L_c at 0x7f46febcf630>,
 <Metabolite din_p at 0x7f46febcf668>,
 <Metabolite 2pg_c at 0x7f46febcf6a0>,
 <Metabolite ptrc_p at 0x7f46febcf6d8>,
 <Metabolite malt_p at 0x7f46febcf710>,
 <Metabolite pppn_p at 0x7f46febcf748>,
 <Metabolite arbtn_p at 0x7f46febcf780>,
 <Metabolite hphhlipa_c at 0x7f46febcf7b8>,
 <Metabolite phphhlipa_c at 0x7f46febcf7f0>,
 <Metabolite 13dpg_c at 0x7f46febcf828>,
 <Metabolite

In [77]:
# La información resumida de un metabolito
model.metabolites[0]

0,1
Metabolite identifier,octapb_c
Name,Octanoate (protein bound)
Memory address,0x07f46febcf358
Formula,C8H15O
Compartment,c
In 3 reaction(s),"LIPOS, OCTNLL, LIPOCT"


In [78]:
# Toda la información de un metabolito
model.metabolites[0].__dict__

{'_id': 'octapb_c',
 'name': 'Octanoate (protein bound)',
 'notes': {'original_bigg_ids': ['octapb_c']},
 '_annotation': {'bigg.metabolite': ['octapb'],
  'metanetx.chemical': ['MNXM147531'],
  'sbo': 'SBO:0000247'},
 '_model': <Model iML1515 at 0x7f46febcbf60>,
 '_reaction': {<Reaction LIPOCT at 0x7f46f74a2668>,
  <Reaction LIPOS at 0x7f46f7506b00>,
  <Reaction OCTNLL at 0x7f46f71da828>},
 'formula': 'C8H15O',
 'compartment': 'c',
 'charge': 1,
 '_bound': 0.0}

Algo muy importante, en particular para los metabolitos, es su localización en alguno de los compartimentos celulares contemplados en los modelos.  
  
En el caso del modelo iML1515 existen 3 compartimentos:

In [79]:
print('Los compartimentos en el modelo iML1515 son', [(key, value) for key, value in zip(model.compartments.keys(), model.compartments.values())])

Los compartimentos en el modelo iML1515 son [('c', 'cytosol'), ('e', 'extracellular space'), ('p', 'periplasm')]


La existencia de compartimentos en el modelo es útil al agregar reacciones de transporte de uno a otro. Por ejemplo, para la glucosa del medio de cultivo hipotético, habría una reacción de trtansporte del compartimento extracelular (e) al periplasma (p) y de este al citosol (c).  
  
La implicación directa de esto sobre los metabolitos es que para muchos, existirá una versión de ellos en cada compartimento. Por ejemplo, para glucosa:

In [80]:
for metabolite in model.metabolites:
    if 'D-Glucose' == metabolite.name:
        print('El nombre del metabolito es ' + metabolite.name + '.',
              'El id del metabolito es  ' + metabolite.id + '.',
              'El compartimento del metabolito es ' + metabolite.compartment + '.')

El nombre del metabolito es D-Glucose. El id del metabolito es  glc__D_c. El compartimento del metabolito es c.
El nombre del metabolito es D-Glucose. El id del metabolito es  glc__D_e. El compartimento del metabolito es e.
El nombre del metabolito es D-Glucose. El id del metabolito es  glc__D_p. El compartimento del metabolito es p.


Como se puede observar, hay 3 metabolitos con el mismo nombre (D-Glucose) pero con diferente id y diferente compartimento. Es más práctico manejar los metabolitos por su id.

In [81]:
model.metabolites.glc__D_c

0,1
Metabolite identifier,glc__D_c
Name,D-Glucose
Memory address,0x07f46feb62080
Formula,C6H12O6
Compartment,c
In 22 reaction(s),"AMALT1, G6PP, GLCATr, AMALT2, GLCabcpp, MLTG4, AMALT4, MLTG1, MLTG5, MLTG2, G1PP, LACZ, GALS3, GLCt2pp, XYLI2, TRE6PH, HEX1, TREH, XYHDL, AMALT3, MLTG3, BGLA1"
