# Biopython. Introducción al análisis de secuencias

Para poder trabajar con biopython primero hay que agregarlo a la lista de bibliotecas disponibles. Si están usando anaconda, la mejor forma es cargarlo utilizando conda desde el repositorio *conda-forge* donde está la versión más nueva para Windows, Linux y Mac OS X.

Para esto hay que abrir una ventana de comando Anaconda, que en la lista de programas de Windows aparece como "Anaconda Promp (anconda3)":

<pre>
conda install -c conda-forge biopython
</pre>

Si biopython ya está instalado, pero necesitamos actualizarlo, el comando es:

<pre>
conda update -c conda-forge biopython
</pre>

Una vez que biopython está instalado o actualizado podemos utilizarlo desde una notebook como ésta, solo necesitmaos importarlo:

In [1]:
import Bio
del Bio

Si los comandos anteriores corren sin devolver ningún mensaje de error, es que está todo en orden.

## Leer archivos de secuencias

Entr e muchas otras utilidades, biopython contiene herramientas para leer diferentes tipos de archivos de secuencias. Una de estas herramientas permite leer y "parsear" archivos GenBank. El archivo S288c_mitochondrion.gb (verificar que esté en la carpeta de trabajo actual) es el registro en formato GenBank del genoma mitocondrial de la cepa de referencia *Saccharomyces cerevisiae S288c*, que se encunetra en este URL: 

https://www.ncbi.nlm.nih.gov/nuccore/NC_001224.1

Vamos a cargar el archivo a nuestro ambiente de trabajo:

In [2]:
from Bio import SeqIO
seq_mitocondria = SeqIO.read("S288c_mitochondrion.gb", "genbank")
print(seq_mitocondria.id)

NC_001224.1


Con el comando que recién corrimos leimos el archivo y recuperamos su identificador, *id*. 

Antes de continuar prestemos atención a la forma en que recuperamos el número de acceso: *seq_mitocondria.id*. El método *SeqIO.read()* devuelve un objeto que contiene "atributos". Hasta ahora habíamos visto métodos asociados a objetos, pero los objetos además pueden incluir atributos. Esta es una de las ventajas de programar con orientación a objetos: se pueden encapsular datos (atributos) y métodos juntos.

¿Qué otros atributos contiene *seq_mitocondria*? Veamos algunos ejemplos interesantes:

In [3]:
seq_mitocondria.description

'Saccharomyces cerevisiae S288c mitochondrion, complete genome'

Si se fijan en el registro de esta secuencia en el NCBI verán que el texto del atributo *description* coincide con el texto que aparece como título de la secuencia.

A continuación vamos a recuperar las anotaciones globales de la secuencia, que son aquellas que se refieren a toda la secuencia y no a un locus individual en la mitocondría:

In [4]:
seq_mitocondria.annotations

{'molecule_type': 'DNA',
 'topology': 'circular',
 'data_file_division': 'PLN',
 'date': '09-MAR-2021',
 'accessions': ['NC_001224'],
 'sequence_version': 1,
 'keywords': ['RefSeq'],
 'source': 'mitochondrion Saccharomyces cerevisiae S288C',
 'organism': 'Saccharomyces cerevisiae S288C',
 'taxonomy': ['Eukaryota',
  'Fungi',
  'Dikarya',
  'Ascomycota',
  'Saccharomycotina',
  'Saccharomycetes',
  'Saccharomycetales',
  'Saccharomycetaceae',
  'Saccharomyces'],
 'references': [Reference(title='The complete sequence of the mitochondrial genome of Saccharomyces cerevisiae', ...),
  Reference(title='Direct Submission', ...),
  Reference(title='Direct Submission', ...),
  Reference(title='Direct Submission', ...)],
 'comment': 'PROVISIONAL REFSEQ: This record has not yet been subject to final\nNCBI review. The reference sequence is identical to KP263414.\nCOMPLETENESS: full length.'}

Observen las llaves {}, esto indica que las anotaciones están almacendas en un diccionario. Usando lo que ya conocemos sobre diccionarios, podemos recuperar items individuales de la anotación global:

In [5]:
seq_mitocondria.annotations['taxonomy']

['Eukaryota',
 'Fungi',
 'Dikarya',
 'Ascomycota',
 'Saccharomycotina',
 'Saccharomycetes',
 'Saccharomycetales',
 'Saccharomycetaceae',
 'Saccharomyces']

También podemos recuperar la secuencia completa del genoma mitocondríal. Esto es útil para trabajar con otras funciones. Si lo que queremos es sólo extraer la secuencia para crear un archivo fasta, existe una forma más práctica de hacerlo.

In [6]:
seq_mitocondria.seq

Seq('TTCATAATTAATTTTTTATATATATATTATATTATAATATTAATTTATATTATA...ATA')

In [7]:
type(seq_mitocondria.seq)

Bio.Seq.Seq

El largo de esta secuencia es:

In [8]:
len(seq_mitocondria.seq)

85779

¿Coincide esta longitud con la informada en el registro en la web del NCBI? 

Si precisáramos imprimir o mostrar en pantalla los primeros 100 nucleótidos podríamos hacer esto:

In [9]:
seq_mitocondria.seq

Seq('TTCATAATTAATTTTTTATATATATATTATATTATAATATTAATTTATATTATA...ATA')

In [10]:
print(seq_mitocondria.seq[0:100])

TTCATAATTAATTTTTTATATATATATTATATTATAATATTAATTTATATTATAAAAATAATATTTATTATTAAAATATTTATTCTCCTTTCGGGGTTCC


### Escribir un archivo fasta a partir de un registro GenBank

Con el método *SeqIO.write()* podemos crear un archivo fasta a partir de *seq_mitocondría*

In [11]:
SeqIO.write(seq_mitocondria, "S288c_mitochondrion.fasta", "fasta")

1

### Iterar el registro GenBank para recuperar los genes individuales

Hasta ahora trabajamos con los datos globales del registro GenBank, pero éste además incluye la información de cada uno de los loci genoma mitocondrial. Para acceder a los loci individuales necesitamos un iterador. Esto se puede hacer iterando sobre el atributo *features* de nuestro objeto *seq_mitocondria*. 

En el ejemplo que sigue recorremos los componentes de la lista *seq_mitocondria.features* para determinar el tipo de cada componente. Aquí lo hacemos solo para los doce primeros elementos para reducir el largo de la salida:

In [12]:
for feature in seq_mitocondria.features[0:11]:
    print(feature.type)

source
gene
tRNA
rep_origin
gene
rRNA
gene
tRNA
rep_origin
gene
CDS


El primer elemento es de tipo "source", esa es la información global del registro, por el momento no nos va a interesar. En cambio, veamos algún elemento diferente del elemento cero en detalle, por ejemplo el que sigue, que es un gen:

In [13]:
print(seq_mitocondria.features[1])

type: gene
location: [730:802](+)
qualifiers:
    Key: db_xref, Value: ['GeneID:854578', 'SGD:S000007328']
    Key: locus_tag, Value: ['tP(UGG)Q']



Vemos que además de *type* hay otros items de información interesantes. Pero antes de continuar, determinemos la clase del objeto con el que estamos interactuando:


In [14]:
type(seq_mitocondria.features[1])

Bio.SeqFeature.SeqFeature

La clase *SeqFeature* sirve para poder leer o escribir cada uno de los elementos individuales de la colección de *features*. Con la función *dir()* podemos determinar todos los atributos de una colección:

<pre>
dir(seq_mitocondria.features[1])
</pre>

Este comando nos va a devolver una larga lista de atributos, de estos nos interesan los últimos:

* extract
* id
* location
* location_operator
* qualifiers
* ref
* ref_db
* strand
* translate
* type

Dependiendo del tipo del componente podríamos ver más o menos atributos. El último, *type*, ya lo usamos, y está presente para todos los elementos. Para otros dependerá de lo que la anotación haya registrado para ese elemento.

Llegados a este punto es importante entender cómo se organiza la anotación en un registro GenBank. Es un archivo de texto, así que les recomiendo abrirlo en otra ventana.

Aquí tenemos la información de los elementos 1 y 2 de la lista que venimos analizando:

     gene            731..802
                     /locus_tag="tP(UGG)Q"
                     /db_xref="GeneID:854578"
                     /db_xref="SGD:S000007328"
     tRNA            731..802
                     /locus_tag="tP(UGG)Q"
                     /product="tRNA-Pro"
                     /experiment="EXISTENCE:curator inference:GO:0005739
                     mitochondrion [PMID:9023104]"
                     /experiment="EXISTENCE:curator inference:GO:0070125
                     mitochondrial translational elongation [PMID:9023104]"
                     /note="Mitochondrial proline tRNA (tRNA-Pro)"
                     /db_xref="GeneID:854578"
                     /db_xref="SGD:S000007328"

¿Qué sucede aquí?
Hay dos entradas consecutivas, una de tipo "gene" y otra de tipo "tRNA" que se refieren a la misma locación. La anotación "gene" es más general, ya que tanto la entrada para un tRNA como la de un gen que codifica para un péptido (CDS) van a estar precedidos por una entrada "gene". Es importante tener cuidado con esto, porque si uno no lo tiene en cuenta y "parsea" todas las entradas, va a terminar con información duplicada.

Veamos ahora la información que podemos encontrar en el atributo *.qualifiers*:

In [15]:
seq_mitocondria.features[2].qualifiers

OrderedDict([('locus_tag', ['tP(UGG)Q']),
             ('product', ['tRNA-Pro']),
             ('experiment',
              ['EXISTENCE:curator inference:GO:0005739 mitochondrion [PMID:9023104]',
               'EXISTENCE:curator inference:GO:0070125 mitochondrial translational elongation [PMID:9023104]']),
             ('note', ['Mitochondrial proline tRNA (tRNA-Pro)']),
             ('db_xref', ['GeneID:854578', 'SGD:S000007328'])])

El tipo de dato *.qualifiers* es un OrderedDict, una variante del tipo diccionario. Ya sabemos unas cuantas cosas sobre cómo trabajar con diccionarios:

In [16]:
seq_mitocondria.features[2].qualifiers.keys()

odict_keys(['locus_tag', 'product', 'experiment', 'note', 'db_xref'])

In [17]:
seq_mitocondria.features[2].qualifiers['db_xref']

['GeneID:854578', 'SGD:S000007328']

## Un ejemplo completo

Vamos a poner en uso lo que estuvimos aprendiendo, y en el camino aprender algunas cosas más. La propuesta es, a partir del archivo GenBank de la secuencia mitocondrial crear un archivo fasta conteniendo las secuencias de los transcriptos que codifican para los tRNA, en el sentido en que se transcriben.

Cosas a tener en cuenta:

* Para saber si un locus se debe procesar hay que determinar que el tipo sea "tRNA".
* El atributo *location* tiene la información completa de ubicación. Es necesario "parsearlo".
* El atributo *strand* nos indica si la secuencia que se muestra es la secuencia codificante (1) o la secuencia molde (-1).
* Precisamos las secuencias transcriptas, por lo que necesitamos reemplazar T por U.
* Para que el ejemplo quede completo, repetimos el paso de lectura del archivo.

Pasos:
1. Cargamos dos módulos, SeqIO y SeqRecord.
2. Leemos el archivo GenBank.
3. Creamos una lista vacía, donde luego vamos a ir cargando cada secuencia de los tRNAs.
4. Iteramos la lista de "features", si es un tRNA:
   * Extraemos las posiciones inicial y final del gen, extraemos la secuencia deseada de la secuencia del genoma completo.
   * Extreamos los números de acceso y el nombre de la secuencia.
   * Armamos la descripción de la secuencia.
   * Si la cadena codificante es la complementaria de la que tenemos, determinamos el reverso complemento.
   * Con *SeqRecord()* construimos el registro del tRNA para el archivo fasta.
   * Lo agregamos a la lista
5. Escribir el archivo fasta 


In [18]:
from Bio import SeqIO
from Bio.SeqRecord import SeqRecord

seq_mitocondria = SeqIO.read("S288c_mitochondrion.gb", "genbank")

tRNA_list = list()

for feature in seq_mitocondria.features:
    if feature.type == "tRNA":
        
        start_pos = feature.location.start.position
        end_pos = feature.location.end.position
        seq_trna  = seq_mitocondria.seq[start_pos:end_pos]
        # Determinar dónde empieza y termina el gen, extraer la secuencia
        
        id = feature.qualifiers['db_xref'][0]
        description = feature.qualifiers['db_xref'][1] + " " + feature.qualifiers['product'][0] 
        # Determinar el id y redactar la descripción
        
        if feature.strand == 1:
            seq_trna = seq_trna.transcribe()
        else:
            seq_trna = seq_trna.reverse_complement().transcribe()
        # Realizar la transcripción del gen. Se es necesario antes determinar el reverso complemento
        
        seq_temp = SeqRecord(seq_trna, id = id, description = description)
        tRNA_list.append(seq_temp)
        # Construir el nuevo registro y agregarlo a la lista

SeqIO.write(tRNA_list, "S288c_mitochondrion_tRNAs.fasta", "fasta")
# Escribir el archivo fasta

24

## ¿Fin de semana de lluvia? ¿de cuarentena?

A este script se le pueden hacer varias extensiones. La primera es muy sencilla y es una modificación menor: se pueden buscar los genes ribosomales y armar un archivo diferente con ellos.

Otra modificación es extraer los genes codificantes. Primero se pueden hacer un archivo fasta de las secuencias genómicas y después de las secuencias traducidas, porque ya están en el registro del NCBI. Por ejemplo:

In [19]:
print(seq_mitocondria.features[10].qualifiers["translation"])

['MVQRWLYSTNAKDIAVLYFMLAIFSGMAGTAMSLIIRLELAAPGSQYLHGNSQLFNVLVVGHAVLMIFFLVMPALIGGFGNYLLPLMIGATDTAFPRINNIAFWVLPMGLVCLVTSTLVESGAGTGWTVYPPLSSIQAHSGPSVDLAIFALHLTSISSLLGAINFIVTTLNMRTNGMTMHKLPLFVWSIFITAFLLLLSLPVLSAGITMLLLDRNFNTSFFEVSGGGDPILYEHLFWFFGHPEVYILIIPGFGIISHVVSTYSKKPVFGEISMVYAMASIGLLGFLVWSHHMYIVGLDADTRAYFTSATMIIAIPTGIKIFSWLATIHGGSIRLATPMLYAIAFLFLFTMGGLTGVALANASLDVAFHDTYYVVGHFHYVLSMGAIFSLFAGYYYWSPQILGLNYNEKLAQIQFWLIFIGANVIFFPMHFLGINGMPRRIPDYPDAFAGWNYVASIGSFIATLSLFLFIYILYDQLVNGLNNKVNNKSVIYNKAPDFVESNTIFNLNTVKSSSIEFLLTSPPAVHSFNTPAVQS']


Si quieren traducirlas ustedes, tengan en cuenta que la mitocondría de *S. cerevisiae* usa otro código genético (https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi#SG3), esta información se le puede pasar al método *translate()*. y además hay que considerar que las secuencias inmaduras contienen intrones, que se eliminan en la secuencia madura del mRNA. Es decir, no se puede usar la secuencia genómica sin procesar.


## ¿Cómo seguir?

Biopython puede leer y escribir secuencias en muchos formatos diferentes, además de GenBank y fasta. También se puede trabajar con niveles de detalle mucho más finos que los que hicimos aqui en cuanto a lectura y escritura de archivos, y existen formas alternativas de hacer algunas de las cosas que hicimos acá. Por ejemplo, en el tutorial oficial de Biopython (http://biopython.org/DIST/docs/tutorial/Tutorial.html) verán que la forma preferida de iterar es usando *SeqIO.parse()* en lugar de *SeqIO.read()*. La opción *parse()* permite generar código un poco más compacto, pero creo que para aprender *SeqIO.read()* genera código algo más claro.

También es importante aprender cómo optimizar el código cuando se trabajan con genomas relamente grandes, como pueden ser varios vegetales.
