## SeqRecord

La clase Seq es importante porque almacena el sujeto principal de estudio en la bioinformática: la secuencia. Algunas veces necesitamos más información que la pura secuencia, como nombre, id, descripción, referencia a otras bases de datos externas y anotaciones. Para toda la información relacionada con la secuencia, está la clase **SeqRecord**. En otras palabras **SeqRecord** es un objeto Seq con metadatos asociados. 

In [1]:
from Bio.Seq import Seq

In [4]:
seq = Seq('CCGGGTTTA')
seq

Seq('CCGGGTTTA')

In [5]:
from Bio.SeqRecord import SeqRecord

In [7]:
SeqRecord(seq, id='001', name='MHC gene')

SeqRecord(seq=Seq('CCGGGTTTA'), id='001', name='MHC gene', description='<unknown description>', dbxrefs=[])

SeqRecord tiene dos atributos principales:

* **id**    Una cadena con un identificador. Este atributo es opcional pero altamente recomendado
* **seq**   Un objeto Seq. Este atributo es requerido. 

Hay algunos atributos adicionales:

* **name**     Una cadena con el nombre de la secuencia
* **description**     Una cadena con más información
* **dbxrefs**     Una lista de cadenas; cada cadena es un id de referencia cruzada con una base de datos
* **features**     Una lista de objetos SeqFeature. Esto representa aquellas características de secuencias encontradas en los registros de Genbank. Este atributo se llena cuando se obtiene una secuencia de un archivo GenBank. Contiene la ubicación de la secuencia, tipo, strand y otras variables. 

Ahora vamos a crear un objeto SeqRecord desde cero

In [11]:
rec = SeqRecord(Seq('mdstnvrsgmksrkkkpkttvidddddcmtcsacqs'
                    'klvkisditkvsldyintmrgntlacaacgsslkll'), 
                id='P20994', name='P20994', description='Protein A19', 
                dbxrefs=['Pfam:PF05077', 'Interpro:IPR007769', 'DIP:2186N'])
rec

SeqRecord(seq=Seq('mdstnvrsgmksrkkkpkttvidddddcmtcsacqsklvkisditkvsldyint...kll'), id='P20994', name='P20994', description='Protein A19', dbxrefs=['Pfam:PF05077', 'Interpro:IPR007769', 'DIP:2186N'])

In [12]:
rec.annotations['note'] = 'Una nota cualquiera'

In [14]:
print(rec)

ID: P20994
Name: P20994
Description: Protein A19
Database cross-references: Pfam:PF05077, Interpro:IPR007769, DIP:2186N
Number of features: 0
/note=Una nota cualquiera
Seq('mdstnvrsgmksrkkkpkttvidddddcmtcsacqsklvkisditkvsldyint...kll')
