# Letras del alfabeto IUPAC

En [BioPython](http://biopython.org/wiki/Main_Page) las secuencias pueden representarse objetos de la clase [Seq](http://biopython.org/wiki/Seq). Los objetos de la clase *Seq* contienen un string que representa la cadena, con un objeto de clase [Alphabet](http://biopython.org/DIST/docs/api/Bio.Alphabet.Alphabet-class.html) que lo identifica. Los objetos *Alphabet* tienen el atributo letters que muestra las letras permitidas:

In [1]:
from Bio.Alphabet import IUPAC

In [2]:
IUPAC.protein.letters

'ACDEFGHIKLMNPQRSTVWY'

# Tabla de Codones

El módulo *CodonTable* contiene todas las tablas de codones disponibles en *NCBI*. Es posible acceder a tablas especiales por *ID* de *NCBI* (código numérico) usando alguno de sus atributos (son diccionarios de Python) que terminan en *_by_id*.

In [3]:
from Bio.Data import CodonTable
ct = CodonTable.unambiguous_dna_by_id[2]
print( ct )

Table 2 Vertebrate Mitochondrial, SGC1

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA W   | A
T | TTG L   | TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L   | CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA M(s)| ACA T   | AAA K   | AGA Stop| A
A | ATG M(s)| ACG T   | AAG K   | AGG Stop| G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GCG A   | GAG E   | GGG G   

El diccionario almacena en sus valores las tablas de codones, esta por ejemplo es de la clase [NCBICodonTableDNA](http://biopython.org/DIST/docs/api/Bio.Data.CodonTable.NCBICodonTableDNA-class.html) que hereda de la clase [CodonTable](http://biopython.org/DIST/docs/api/Bio.Data.CodonTable.CodonTable-class.html) los atributos *start_codons* y *start_codons* que poseen una lista de codones de *start* y *stop* respectivamente.

In [4]:
type( ct )

Bio.Data.CodonTable.NCBICodonTableDNA

In [5]:
ct.start_codons

['ATT', 'ATC', 'ATA', 'ATG', 'GTG']

In [6]:
ct.stop_codons

['TAA', 'TAG', 'AGA', 'AGG']

# GeneBank

In [7]:
# Estas líneas permiten mostrar una página web dentro de IPython
from IPython.display import HTML
HTML('<iframe src=http://www.ncbi.nlm.nih.gov/genome/?term=methanococcus+jannaschii width=700 height=350></iframe>')

Es posible usar el módulo *SeqIO* de *BioPython* para leer archivos [FASTA](http://es.wikipedia.org/wiki/Formato_FASTA) como el que podemos descargar de *GenBank*. Es común en genomas como este, que el archivo *FASTA* tenga una sola secuencia o **record** (en esta caso tiene el genoma completo del arquea). En estos casos podríamos usar *read* en lugar de *parse* (ver [Input - Single Records](http://biopython.org/DIST/docs/api/Bio.SeqIO-module.html)).
Aca usamos *parse*, que permite ir iterando las secuencias/*records* del archivo. Al haber uno sólo, *seqrec* contendrá el último (y en este caso único) *record* al salir del *loop*.


In [8]:
from Bio import SeqIO

arquea = SeqIO.parse("sequence.fasta","fasta")

for seqrec in arquea:
    print( seqrec.id )

gi|15668172|ref|NC_000909.1|


El objeto retornado es de la clase [SeqRecord](http://biopython.org/DIST/docs/api/Bio.SeqRecord.SeqRecord-class.html), cada objeto de este tipo contiene un atributo *seq* que contiene la secuencias, como un objeto de clase *Seq*, al que podemos acceder:

In [9]:
type( seqrec )

Bio.SeqRecord.SeqRecord

In [10]:
seqrec.seq

Seq('TACATTAGTGTTTATTACATTGAGAAACTTTATAATTAAAAAAGATTCATGTAA...AGC', SingleLetterAlphabet())