## Align

El módulo **Align** contiene código para manipular alineamientos. El objeto central de este módulo es la clase **MultipleSeqAlignment**. Este objeto almacena los alineamientos de secuencias. No es para hacer alineamientos, sino para almacenar las secuencias que ya han sido alineadas. 

Por ejemplo supongamos que tenemos un alineamiento sencillo de dos péptidos pequeños:

![seqalign](figures/alignment.png)


Este alineamiento lo podemos guardar en Biopython de la siguiente manera:

In [2]:
from Bio.Align import MultipleSeqAlignment
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

In [5]:
seq1 = 'MHQAIFIYQIGYPLKSGYIQSIRSPEYDNW'
seq2 = 'MH--IFIYQIGYALKSGYIQSIRSPEY-NW'

In [7]:
seq_rec_1 = SeqRecord(Seq(seq1), id='asp')

In [8]:
seq_rec_2 = SeqRecord(Seq(seq2), id='unk')
print(seq_rec_2)

ID: unk
Name: <unknown name>
Description: <unknown description>
Number of features: 0
Seq('MH--IFIYQIGYALKSGYIQSIRSPEY-NW')


In [9]:
align = MultipleSeqAlignment([seq_rec_1, seq_rec_2])
print(align)

Alignment with 2 rows and 30 columns
MHQAIFIYQIGYPLKSGYIQSIRSPEYDNW asp
MH--IFIYQIGYALKSGYIQSIRSPEY-NW unk


La clase **MultipleSeqAlignment** es instanciada en la variable align. align es el nombre del objeto MultipleSeqAlignment. Ambas secuencias son añadidas en la inicialización del objeto MultipleSeqAlignment como objetos SeqRecord. 

**MultipleSeqAlignment** puede ser tratado como una lista de secuencias (u objetos SeqRecord), comparte algunos de sus métodos. Para añadir una nueva secuencia al alineamiento usa **append** y para añadir secuencias múltiples soporta **extend**.

In [11]:
seq3 = 'M---IFIYQIGYAAKSGYIQSIRSPEY--W'
seq_rec_3 = SeqRecord(Seq(seq3), id='cas')
print(seq_rec_3)

ID: cas
Name: <unknown name>
Description: <unknown description>
Number of features: 0
Seq('M---IFIYQIGYAAKSGYIQSIRSPEY--W')


In [12]:
align.append(seq_rec_3)
print(align)

Alignment with 3 rows and 30 columns
MHQAIFIYQIGYPLKSGYIQSIRSPEYDNW asp
MH--IFIYQIGYALKSGYIQSIRSPEY-NW unk
M---IFIYQIGYAAKSGYIQSIRSPEY--W cas


Los nuevos objetos **SeqRecord** deben tener la misma longitud que el alineamiento original, y tener alfabetos compatibles con el alfabeto del alineamiento. 
Otra propiedad en común con las listas es que puedes obtener un elemento (una fila, o un objeto SeqRecord) usando índices enteros.

In [13]:
align[0]

SeqRecord(seq=Seq('MHQAIFIYQIGYPLKSGYIQSIRSPEYDNW'), id='asp', name='<unknown name>', description='<unknown description>', dbxrefs=[])

También pueden obtener sub-alineamientos:

In [14]:
print(align[:2,5:11])

Alignment with 2 rows and 6 columns
FIYQIG asp
FIYQIG unk


In [15]:
len(align)

3

También soporta iteración sobre todos sus elementos, y regresa un objeto SeqRecord para cada secuencia. 
El siguiente código calcula el punto isoeléctrico de cada secuencia en el alineamiento:

In [16]:
from Bio.SeqUtils.ProtParam import ProteinAnalysis

In [17]:
for seq in align:
    print(ProteinAnalysis(str(seq.seq)).isoelectric_point())

6.504165458679199
8.160295295715333
8.13856945037842


In [18]:
dir(align)

['__add__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_append',
 '_get_per_column_annotations',
 '_per_col_annotations',
 '_records',
 '_set_per_column_annotations',
 '_str_line',
 'add_sequence',
 'annotations',
 'append',
 'column_annotations',
 'extend',
 'format',
 'get_alignment_length',
 'sort',
 'substitutions']