# BioPython: nuestra media naranja

**[BioPython](http://biopython.org)** es un paquete de herramientas diseñadas para facilitar el trabajo computacional en Biología Molecular. BioPython proporciona métodos confiables y fáciles de ejecutar para procesar distintos tipos de archivo (FASTA, BLAST, GenBank, PDB...), acceder a servicios online (como el NCBI) o instalables (programas de alineamiento, de filogenia, de modelado molecular, etc.), y construir *pipelines* bioinformáticos que combinen múltiples herramientas bioinformáticas.

## Instalación

Las instrucciones para descargar e instalar BioPython están disponibles en su [página oficial](http://biopython.org/wiki/Download).

Si utilizan la distribución oficial de python pueden instalar BioPython utilizando la herramienta de manejo de paquetes **`pip`**. Ésta viene incorporada a Python 2 y 3 a partir de las versiones 2.7.9 y 3.4.

Se recomienda actualizar `pip` antes de utilizarlo para instalar otros paquetes. Para eso, en Linux o macOS, deben ejecutar en la línea de comando:

`pip install -U pip`

Si utilizan Windows, el comando es:

`python -m pip install -U pip`

Luego sí procedan a instalar biopython, siguiendo la sintaxis tradicional de instalación de paquetes a través de pip:

`pip install biopython`

En el caso de utilizar Anaconda, la forma recomendada de instalar BioPython es con el siguiente comando:

`conda install -c conda-forge biopython`

## Lectura de secuencias con BioPython

Aprenderemos algunas de las funciones más básicas que nos provee BioPython. Para aprender más les sugerimos visitar [BioPython Tutorial and Cookbook](http://biopython.org/DIST/docs/tutorial/Tutorial.html).

### Sistema de estudio

Trabajaremos con la secuencia del genoma del arquea *Methanocaldococcus jannaschii*. Su código de identificación en la base de datos GenBank es [NC_000909](https://www.ncbi.nlm.nih.gov/nuccore/NC_000909) y desde allí pueden descargar el genoma en formato GenBank y FASTA (aunque no es necesario: en la carpeta de trabajo encontrarán los archivos **NC_000909.1.gb** y **NC_000909.1.fasta**).

### Clases y Objetos en Python

En Python, al igual que en otros lenguajes de programación "orientados a objetos", existen los conceptos de **clase** y **objeto**. No hay ningún inconveniente en programar en Python sin utilizar clases ni objetos. Sin embargo, cuando la complejidad de nuestros programas aumente, el uso de clases nos dará mayor organización y control, al agrupar datos y funciones que van asociados y suelen presentarse repetidas veces en nuestro código.

Si la vida real fuera "orientada a objetos", existiría una clase *Humano* con **atributos** como *altura*, *peso*, *género*, *color de ojos*, etc. Esa clase también tendría **métodos** como *respirar*, *caminar*, *pensar*, etc. Cada una de las personas que habitan en el mundo sería un objeto de la clase Humano, con valores particulares para los atributos de su clase y capaz de ejecutar los métodos que la clase le permite.

### El objeto *SeqRecord* de BioPython

BioPython utiliza un objeto de la clase `SeqRecord` para almacenar las secuencias biológicas. Estos objetos contiene una secuencia e información acerca de la misma. Sus atributos principales con `id`, con un código que identifica a la secuencia, y `seq`, que guarda la secuencia en sí. Además posee atributos como `name`, `description`, `annotations`, etc.

Los objetos `SeqRecord` pueden crearse con el módulo `SeqIO`. Cuando tenemos una sola secuencia en nuestro archivo, podemos utilizar el módulo `SeqIO.read` para leer el contenido de un archivo y guardarlo en un objeto de tipo `SeqRecord`, que aquí llamamos `record`:

In [55]:
# Importamos el módulo SeqIO de BioPython
from Bio import SeqIO

# Leemos la secuencia en una variable objeto de tipo SeqRecord
record = SeqIO.read("data/NC_000909.1.gb","genbank")

Podemos conocer más acerca de la información contenida en este *record*:

In [20]:
# Imprimimos información básica sobre el contenido de este record
print(record)

ID: NC_000909.1
Name: NC_000909
Description: Methanocaldococcus jannaschii DSM 2661, complete genome
Database cross-references: BioProject:PRJNA224116, BioSample:SAMN02603984, Assembly:GCF_000091665.1
Number of features: 3610
/molecule_type=DNA
/topology=circular
/data_file_division=CON
/date=17-APR-2017
/accessions=['NC_000909', 'NZ_U67459-NZ_U67608']
/sequence_version=1
/keywords=['RefSeq']
/source=Methanocaldococcus jannaschii DSM 2661
/organism=Methanocaldococcus jannaschii DSM 2661
/taxonomy=['Archaea', 'Euryarchaeota', 'Methanococci', 'Methanococcales', 'Methanocaldococcaceae', 'Methanocaldococcus']
/references=[Reference(title='Complete genome sequence of the methanogenic archaeon, Methanococcus jannaschii', ...), Reference(title='Direct Submission', ...)]
/comment=REFSEQ INFORMATION: The reference sequence was derived from L77117.
Annotation was added by the NCBI Prokaryotic Genome Annotation
Pipeline (released 2013). Information about the Pipeline can be
found here: https://ww

El comando `dir` de Python nos permite conocer los métodos y atributos disponibles para el objeto `record` (los que empiezan con '__' son métodos especiales y no están disponibles):

In [None]:
# Imprimimos los métodos y atributos disponibles para nuestro objeto 'record', propios de su clase
dir(record)

Por ejemplo, si nos interesa una descripción breve de a qué pertenece esta secuencia, podemos imprimir el atributo `description`:

In [26]:
# Imprimimos la descripción de la secuencia. ¡COMPLETAR!
record.

Methanocaldococcus jannaschii DSM 2661, complete genome


Si queremos conocer su secuencia de nucleótidos o aminoácidos, podemos utilizar el atributo `seq`:

In [27]:
# Imprimimos la secuencia guardada en record. ¡COMPLETAR!
record.

Seq('TACATTAGTGTTTATTACATTGAGAAACTTTATAATTAAAAAAGATTCATGTAA...AGC', IUPACAmbiguousDNA())

¿Por qué obtenemos algo más que la secuencia? Esto es así porque, según podemos verificar a continuación, el atributo `seq` pertenece a la clase `Seq` incluida en BioPython:

In [23]:
# Imprimimos el tipo de objeto al que pertenece el atributo 'seq'. ¡COMPLETAR!
type()

Bio.Seq.Seq

Los objetos de clase `Seq` poseen, además de la secuencia, un atributo `Alphabet` que describe el tipo de caracteres que puede tener la secuencia. El uso de alfabetos es importante para controlar la conversión y compatibilidad de secuencias entre distintos tipos de moléculas biológicas, y resulta particularmente útil para identificar secuencias como *GATTACA* que podrían referir a cadenas nucleotídicas o aminoacídicas.

La librería `Alphabet` incluye variables para definir [alfabetos genéricos](http://biopython.org/DIST/docs/api/Bio.Alphabet-module.html). La mayoría de los alfabetos estandarizados están almacenados en el submódulo [`IUPAC`](http://biopython.org/DIST/docs/api/Bio.Alphabet.IUPAC-module.html) de la librería `Alphabet`. Si quisiéramos saber qué caracteres puede tener una secuencia cuyo alfabeto es de la clase *IUPACAmbiguousDNA()*, podemos importar este submódulo e imprimir su atributo `letters`:

In [32]:
# Importamos la clase que nos interesa
from Bio.Alphabet import IUPAC
# Imprimimos los caracteres admitidos
IUPAC.ambiguous_dna.letters

'GATCRYWSMKHBVDN'

Si sólo quisiéramos imprimir la secuencia del objeto como un *string* de Python, podemos recurrir a la función `print()`. ¡ATENCIÓN! Si la secuencia es muy larga, al imprimirla en pantalla corremos el riesgo de colgar el sistema. Veamos cuál es la longitud de esta secuencia:

In [56]:
# Imprimimos la longitud de la secuencia. ¡COMPLETAR!
(record.seq)

1664970

Imprimamos entonces sólo un segmento de esta secuencia (por ejemplo, las posiciones 1000 a 2000). Para ellos podemos hacer *slicing* de la secuencia completa:

In [34]:
# Imprimimos sólo la secuencia del record. ¡COMPLETAR!
print()

TACATTAGTGTTTATTACATTGAGAAACTTTATAATTAAAAAAGATTCATGTAAATTTCTTATTTGTTTATTTAGAGGTTTTAAATTTAATTTCTAAGGG


Al trabajar con secuencias de ADN guardadas como objetos de la clase `SeqRecord` tenemos disponibles, entre otros, los métodos `complement`, `reverse_complement`, `transcribe` y `translate`, cuyas funciones son evidentes. Estos métodos generan un nuevo objeto de la clase `SeqRecord` que guarda la secuencia transformada. Probemos estos métodos sobre las primeras cien posiciones de nuestra secuencia:

In [46]:
# Extraemos las primeras 100 posiciones. ¡COMPLETAR!
segmento = 
# imprimimos este segmento
print(segmento)
# Generamos e imprimimos la secuencia complementaria
print(segmento.complement())
# Generamos e imprimimos la secuencia inversa complementaria. ¡COMPLETAR!
print(segmento.)
# Generamos e imprimimos la secuencia transcripta a ARN. ¡COMPLETAR!
print(segmento.)
# Generamos e imprimimos la secuencia traducida a proteína. ¡COMPLETAR!
print(segmento.)
# Generamos e impirmimos la traducción de la secuencia complementaria. ¡COMPLETAR!
print(segmento..)


TACATTAGTGTTTATTACATTGAGAAACTTTATAATTAAAAAAGATTCATGTAAATTTCTTATTTGTTTATTTAGAGGTTTTAAATTTAATTTCTAAGG
ATGTAATCACAAATAATGTAACTCTTTGAAATATTAATTTTTTCTAAGTACATTTAAAGAATAAACAAATAAATCTCCAAAATTTAAATTAAAGATTCC
CCTTAGAAATTAAATTTAAAACCTCTAAATAAACAAATAAGAAATTTACATGAATCTTTTTTAATTATAAAGTTTCTCAATGTAATAAACACTAATGTA
UACAUUAGUGUUUAUUACAUUGAGAAACUUUAUAAUUAAAAAAGAUUCAUGUAAAUUUCUUAUUUGUUUAUUUAGAGGUUUUAAAUUUAAUUUCUAAGG
YISVYYIEKLYN*KRFM*ISYLFI*RF*I*FLR
M*SQIM*LFEILIFSKYI*RINK*ISKI*IKDS


Podemos utilizar BioPython para convertir nuestra secuencia tomada del archivo en formato GenBank al formato FASTA:

In [35]:
print(record.format("fasta"))

>NC_000909.1 Methanocaldococcus jannaschii DSM 2661, complete genome
TACATTAGTGTTTATTACATTGAGAAACTTTATAATTAAAAAAGATTCATGTAAATTTCT
TATTTGTTTATTTAGAGGTTTTAAATTTAATTTCTAAGGGTTTGCTGGTTTGATTGTTTA
GAATATTTAACTTAATCAAATTATTTGAATTTTTGAAAATTAGGATTAATTAGGTAAGTA
AATAAAATTTCTCTAACAAATAAGTTAAATTTTTAAATTTAAGGAGATAAAAATACTCTG
TTTTATTATGGAAAGAAAGATTTAAATACTAAAGGGTTTATATTATGAAGTAGTTACTTA
CCCTTAGAAAAATATGGTATAGAAAAGCTTAAATATTAAGAGTGATGAAGTATATTATGT
TGTGAATGATTGCCCTAATTAAAATCAGACCGTTTCGGAATGGAAATTTGCTCCTGCATT
AGATGGAGGAGCGTATGTAGCGTATTAATTAAAATCAGACCGTTTCGGAATGGAAATTTT
GCAGAGTTGTATTCTGGCAGTGCGGATATTATAAATTAAAATCAGACCGTTTCGGAATGG
AAAAATCTAATACAAACAGTGAAGATACTGAATACTGCGGAATTAAAATCAGACCGTTTC
GGAATGGAAAAACTGTCTCTTAACATATTCTGCAGTTTTACAACTTTCGAAATTAAAATC
AGACCGTTTCGGAATGGAAAGCATAATTGATGAGGCTAATAGAATAGCACCTAATAGAAT
TAAAATCAGACCGTTTCGGAATGGAAAGATTAATGTAATACTTTTTTATAAATTTATAAT
GCAAAATTAAAATCAGACCGTTTCGGAATGGAAAGTAATTTCTACGACTTGGATTACTTC
ACGATGGAAATCAAAATTAAAATCAGACCGTTTCGGAATGGAAAGATAGAAGAATTTGAT
GCTTTATTTGGATGTT

Por supuesto, también podríamos haber guardado nuestra secuencia así convertida a un archivo con el nombre que quisiéramos, por ejemplo, `NC_000909.1_convert.fasta`. Para eso, usamos el método `SeqIO.write` (que, además de guardar la secuencia en un archivo, nos devuelve el número de secuencias incluidas):

In [38]:
# Importamos la librería de lectura y escritura de secuencias SeqIO
from Bio import SeqIO
# Guardamos nuestro record en un archivo en formato fasta
SeqIO.write(record, "NC_000909.1_convert.fasta", "fasta")

1

Hasta aquí hemos trabajado con archivos que contenían una única secuencia, a los que leíamos con el método `SeqIO.read()`. BioPython también nos proporciona el módulo `SeqIO.parse()` para leer archivos y alineamientos que contienen dos o más secuencias. Vamos a utilizarlo para leer el contenido del alineamiento guardado en el archivo **NUP62.fasta** como un objeto `SeqRecord`:

In [49]:
# Importamos la librería de lectura y escritura de secuencias SeqIO
from Bio import SeqIO
# Leemos todas las secuencias en una variable objeto de tipo SeqRecord
records = SeqIO.parse("data/NUP62.fasta", "fasta")

Podemos utilizar un bucle `for` para recorrer las distintos elementos de nuestro nuevo objeto *records* y recuperar información de cada una de las secuencias. Por ejemplo, para extraer el código identificador de cada secuencia:

In [50]:
# Recorremos uno a uno todos los records
for record in records:
# Imprimimos el identificador de cada record
    print(record.id)

Phy00535AU_PYGAD
Phy004U0LB_BUCRH
Phy004STVX_187382
Phy004UIZ8_CALAN
Phy004VACL_55661
Phy004V34S_CORBR
Phy00508FR_NIPNI
Phy0054BO3_MELGA
Phy003I7ZJ_CHICK
Phy004OLZM_COLLI
Phy004TLNA_APAVI
Phy004PA1B_ANAPL
Phy004O1E0_APTFO
Phy004Y35P_HALLE
Phy004Z0OU_MELUD
Phy00527O5_PICPB
Phy004OQ34_STRCA
Phy004Z7RR_MERNU
Phy004XRVA_HALAL
Phy004SNJQ_CHAVO
Phy0050IUO_OPIHO
Phy004OLZN_COLLI
Phy004W8WI_FALPE
Phy004Y9VQ_LEPDC
Phy004W8WJ_FALPE


BioPython nos permite trabajar con muchos formatos de archivo diferentes, incluyendo los archivos con formato *PDB* que almacenan estructuras moleculares. El módulo `Bio.PDB` proporciona métodos para explorar el contenido del encabezado típico de los archivos PDB, pero sobre todo, nos provee de muchas herramientas para trabajar con los datos de los átomos en estas estructuras.

Empezamos por importar el módulo `Bio.PDB` y crear un objeto de la clase `PDBParser`: 

In [57]:
# Importamos el módulo para trabajar con archivos PDB
from Bio import PDB

# Creamos el objeto 'parser' de la clase PDBParser
parser = PDB.PDBParser()

Usamos el método `get_structure()` para leer la estructura de un archivo PDB y almacenarla en un objeto al que llamamos `estructura`. El primer argumento de `get_structure` es el nombre que queremos darle a la estructura, mientras que el segundo argumento es el nombre de archivo a leer (en este ejemplo, 

In [66]:
# Leemos la estructura de un archivo PDB dentro de este objeto
estructura = parser.get_structure("AroA","data/4GFP.pdb")

Podemos explorar el encabezado del archivo PDB llamando al método `header`:

In [None]:
# Imprimimos el encabezado
estructura.header

También podemos consultar alguno de los elementos del header, por ejemplo, la resolución (en Angstrom) a la que fue resuelta su estructura cristalográfica:

In [None]:
# Imprimimos sólo la resolución, disponible en el header. ¡COMPLETAR!
estructura.

Veamos la información acerca de los átomos que está incluida en esta estructura. Primero, investiguemos cuántos modelos fueron incluidos en esta PDB, y cuántas cadenas posee cada uno:

In [70]:
# Recorremos el objeto 'estructura' e imprimimos los modelos y cadenas incluidos en ésta
for modelo in estructura:
    for cadena in modelo:
        print(modelo, cadena)

<Model id=0> <Chain id=A>


De forma similar, podemos imprimir el nombre y número de cada uno de los residuos en esta estructura. Buscaremos generar una lista con cuatro campos: el identificador de modelo (`id`), el identificar de cadena (`id`), el nombre de residuo (`resname`) y el identificador del residuo (`id`).

In [78]:
# Recorremos el objeto 'estructura' e imprimimos sus residuos. ¡COMPLETAR!
for modelo in estructura:
    for cadena in modelo:
        for residuo in cadena:
            print(residuo.id)

(' ', 2, ' ')
(' ', 3, ' ')
(' ', 4, ' ')
(' ', 5, ' ')
(' ', 6, ' ')
(' ', 7, ' ')
(' ', 8, ' ')
(' ', 9, ' ')
(' ', 10, ' ')
(' ', 11, ' ')
(' ', 12, ' ')
(' ', 13, ' ')
(' ', 14, ' ')
(' ', 15, ' ')
(' ', 16, ' ')
(' ', 17, ' ')
(' ', 18, ' ')
(' ', 19, ' ')
(' ', 20, ' ')
(' ', 21, ' ')
(' ', 22, ' ')
(' ', 23, ' ')
(' ', 24, ' ')
(' ', 25, ' ')
(' ', 26, ' ')
(' ', 27, ' ')
(' ', 28, ' ')
(' ', 29, ' ')
(' ', 30, ' ')
(' ', 31, ' ')
(' ', 32, ' ')
(' ', 33, ' ')
(' ', 34, ' ')
(' ', 35, ' ')
(' ', 36, ' ')
(' ', 37, ' ')
(' ', 38, ' ')
(' ', 39, ' ')
(' ', 40, ' ')
(' ', 41, ' ')
(' ', 42, ' ')
(' ', 43, ' ')
(' ', 44, ' ')
(' ', 45, ' ')
(' ', 46, ' ')
(' ', 47, ' ')
(' ', 48, ' ')
(' ', 49, ' ')
(' ', 50, ' ')
(' ', 51, ' ')
(' ', 52, ' ')
(' ', 53, ' ')
(' ', 54, ' ')
(' ', 55, ' ')
(' ', 56, ' ')
(' ', 57, ' ')
(' ', 58, ' ')
(' ', 59, ' ')
(' ', 60, ' ')
(' ', 61, ' ')
(' ', 62, ' ')
(' ', 63, ' ')
(' ', 64, ' ')
(' ', 65, ' ')
(' ', 66, ' ')
(' ', 67, ' ')
(' ', 68, ' ')
(' 

El identificador de residuo (`residue.id`) es una tupla de tres elementos. El primero sólo contiene información cuando el átomo es un heteroátomo (presente en agua, ligando, etc). El segundo identifica la posición del residuo en la secuencia. El tercero es un código de inserción útil para mantener la numeración de la estructura *wild-type* cuando ésta tiene residuos agregados.

Vamos a generar una lista de los residuos que no son heteroátomos. Para eso extraemos primero la cadena 'A' del modelo '0':

In [82]:
# Extraemos la cadena A del modelo 0 en una nueva variable
cadena_a = estructura[0]['A']

Luego recorremos esta lista, residuo a residuo, y descartando aquellos que son heteroátomos:

In [86]:
# Generamos una lista de residuos que no son heteroátomos
residuos = [ residuo for residuo in cadena_a if residuo.id[0]==' ' ] # No son hetero-residuos (agua, ligandos, etc)

Esta lista nos permite obtener distinta información acerca de los residuos de esta cadena. Por ejemplo, podemos imprimir la cantidad de residuos que posee:

In [87]:
# Imprimimos la cantidad de residuos que no son heteroátomos en la cadena A del modelo 0.
len(residuos)

408

Luego, por ejemplo, podemos imprimir las coordenadas tridimensionales del carbono alfa del primer residuo:

In [92]:
# Imprimimos las coordenadas del primer residuo
residuos[0]['CA'].coord

array([-34.42699814,  43.70899963,   1.58500004], dtype=float32)

Para finalizar este ejercicio (aunque BioPython nos permite hacer muchas cosas más), vamos a calcular la distancia entre los carbonos alfa del primer y el segundo residuos. BioPython nos permite directamente restar las coordenadas de ambos átomos y obtener su distancia como resultado:

In [90]:
# Calculamos e imprimimos la distancia entre los CA del primer y segundo residuos
residuos[0]['CA'] - residuos[1]['CA']

3.8462157