# Pairwise Sequence Alignments in Biopython

**İkili Sekans Hizalama (Pairwise Sequence Alignments)**, iki biyolojik sekans (protein veya nükleik asit) arasındaki işlevsel, yapısal ve/veya evrimsel ilişkileri gösterebilen benzerlik bölgelerini belirlemek için kullanılır.

Benzer bölgeyi belirlemek, türler arasında hangi özelliklerin korunduğu, farklı türlerin genetik olarak ne kadar yakın olduğu, türlerin nasıl evrimleştiği vb. gibi birçok bilgiyi çıkarmamızı sağlar.

## İkili Sekans Hizalama Türleri:

İkili sekans hizalama, benzerliklerine veya mesafelerine (ne kadar farklı olduklarına) göre puanlama yaparak daha sonra bu puanın önemini değerlendirerek, iki sekans arasındaki optimum hizalamayı sağlamak için dinamik bir programlama kullanır.

**1- Global Alignment:** İki sekansın tüm uzunlukları boyunca en iyi hizalamayı bulur. X ve Y dizisi arasındaki maksimum benzerliği sorgular.

**2- Local Alignment:** İki sekans arasında en benzer alt dizileri bulur. X'in bir alt dizisi ile Y'nin bir alt dizisi arasındaki maksimum benzerliği sorgular.

Hizalama yaparken **eşleşme (match)** skorunu ve **boşluk cezalarını (gap penalties)** belirleyebilirsiniz.

1- Eşleşme puanı, sekanslardaki iki karakterin hizalanması arasındaki uyumu gösterir. Çok uyumlu karakterlere **pozitif** puan, uyumsuz olanlara ise **negatif** veya **0** puan verilmelidir.

2- Boşluk cezaları **negatif** olmalıdır.

## Bio.pairwise2

Biopython iki yerleşik ikili hizalayıcı içerir: **Bio.pairwise2** modülü ve **Bio.Align** modülü içindeki **PairwiseAligner** sınıfı (Biopython sürüm 1.72'den beri). Her ikisi de global ve local alignment gerçekleştirebilir.

**Eşleşme (match)** parametreleri şunlardır:

x - Parametre yok. Aynı karakterlerin puanı 1, aksi takdirde 0'dır.  
m - Bir eşleşme puanı, aynı karakterlerin puanıdır, aksi takdirde uyumsuzluk puanıdır. --> match, mismatch  
d - Bir sözlük, herhangi bir karakter çiftinin puanını verir. --> match_dict  
c - Bir geri arama işlevi puanları döndürür. --> match_fn  

**Boşluk cezası (gap penalties)** parametreleri şunlardır:

x - Boşluk cezası yok  
s - Her iki dizi için de aynı open (açma) ve extend (uzatma) aralığı cezaları. --> open, extend  
d - Dizilerin farklı open (açma) ve extend (uzatma) aralığı cezaları vardır. --> openA, extensionA, openB, extensionB  
c - Bir geri arama işlevi, boşluk cezalarını döndürür. --> gap_A_fn, gap_B_fn  

Tüm farklı hizalama işlevleri **align** nesnesinde bulunur. 
 
Örneğin:

In [67]:
from Bio import pairwise2
alignments = pairwise2.align.globalxx("ACCGT", "ACG")

iki sekans arasındaki hizalamaların bir listesini döndürür. Daha iyi görünen bir çıktı için **format_alignment** modülü yöntemini kullanabilirsiniz:

In [68]:
from Bio.pairwise2 import format_alignment
print(format_alignment(*alignments[0]))

ACCGT
| || 
A-CG-
  Score=3



Tüm hizalama işlevleri aşağıdaki bağımsız değişkenlere sahiptir:

- İki sekans: String ler, Biopython dizi nesneleri veya listeler. Listeler, birden fazla harfle kodlanan artıkları içeren dizileri sağlamak için kullanışlıdır.  

- **penalize_extend_when_opening:** boolean (varsayılan: False). Bir boşluk açılırken bir uzatma (extend) cezasının sayılıp sayılmayacağı. Yanlış ise, 1'lik bir boşluk yalnızca "açma (open)" cezası ile cezalandırılır, aksi takdirde "open+extend" ile cezalandırılır.  

- **penalize_end_gaps:** boolean. Hizalamanın sonundaki boşlukların sayılıp sayılmayacağı. Varsayılan olarak, global alignment için sayılırlar ancak local alignment için sayılmazlar. (boolean, boolean) olarak ayarlamak **penalize_end_gaps**, hizalamanın sonundaki boşlukların sayılması gerekip gerekmediğini iki dizi için ayrı ayrı belirtmenize olanak tanır.  

- **gap_char:** string (varsayılan: '-'). Hizalamada boşluk karakteri olarak hangi karakterin kullanılacağı döndürüldü. Giriş dizileriniz liste ise, bunu olarak değiştirmelisiniz ['-'].  

- **force_generic:** boolean (varsayılan: False). Hata ayıklama için daima genel, önbelleğe alınmamış, dinamik programlama işlevini kullanın.  

- **score_only:** boolean (varsayılan: False). Yalnızca en iyi puanı alın, herhangi bir hizalamayı kurtarmayın. Fonksiyonun dönüş değeri puandır. Daha hızlı ve daha az bellek kullanır.  

- **one_alignment_only:** boolean (varsayılan: False). Yalnızca bir hizalamayı kurtarın.  

Hizalama işlevinin diğer parametreleri, çağrılan işleve bağlıdır. Bazı örnekler:  

- İki sekans arasındaki en iyi global alignment bulun. Aynı karakterlere 1 puan verilir. Uyumsuzluklar veya boşluklar için puan düşülmez.

In [69]:
for a in pairwise2.align.globalxx("ACCGT", "ACG"):
    print(format_alignment(*a))

ACCGT
| || 
A-CG-
  Score=3

ACCGT
|| | 
AC-G-
  Score=3



- Öncekiyle aynı, ancak local alignment ile **format_alignment**'ın sekansların yalnızca hizalanmış kısımlarını başlangıç konumlarıyla birlikte göstereceğine dikkat edin.

In [70]:
for a in pairwise2.align.localxx("ACCGT", "ACG"):
    print(format_alignment(*a))

1 ACCG
  | ||
1 A-CG
  Score=3

1 ACCG
  || |
1 AC-G
  Score=3



- **format_alignment**'in önceki davranışını geri yüklemek, yani her iki sekansın hizalanmamış kısımlarını da göstermek için, **"full_sequences"** parametresi kullanılır.  

In [71]:
for a in pairwise2.align.localxx("ACCGT", "ACG"):
    print(format_alignment(*a, full_sequences=True))

ACCGT
| || 
A-CG-
  Score=3

ACCGT
|| | 
AC-G-
  Score=3



- Global alignment ile aynı karakterlere 2 puan verilir, aynı olmayan her karakter için 1 puan düşülür. Boşluklar cezalandırılmaz.

In [72]:
for a in pairwise2.align.globalmx("ACCGT", "ACG", 2, -1):
    print(format_alignment(*a))

ACCGT
| || 
A-CG-
  Score=6

ACCGT
|| | 
AC-G-
  Score=6



- Yukarıdakiyle aynı, ancak şimdi bir boşluk açılırken 0,5 puan düşülür ve boşluk genişletilirken 0,1 puan düşülür.

In [73]:
for a in pairwise2.align.globalms("ACCGT", "ACG", 2, -1, -.5, -.1):
    print(format_alignment(*a))

ACCGT
| || 
A-CG-
  Score=5

ACCGT
|| | 
AC-G-
  Score=5



- Cezalara bağlı olarak, bir dizideki boşluğu diğer dizideki boşluk takip edebilir. Bu davranış beğenilmezse boşluk açma cezası artırılabilir.

In [74]:
for a in pairwise2.align.globalms("A", "T", 5, -4, -1, -.1):
    print(format_alignment(*a))

A-
  
-T
  Score=-2



In [75]:
for a in pairwise2.align.globalms("A", "T", 5, -4, -3, -.1):
    print(format_alignment(*a))

A
.
T
  Score=-4



- Hizalama işlevi, **Biopython**'da zaten bulunan ve bilinen matrisleri de kullanabilir (**Bio.SubsMat**'tan **MatrixInfo**):

In [76]:
from Bio.SubsMat import MatrixInfo as matlist
matrix = matlist.blosum62
for a in pairwise2.align.globaldx("KEVLA", "EVL", matrix):
    print(format_alignment(*a))

KEVLA
 ||| 
-EVL-
  Score=13



- **"c"** parametresi ile kendi eşleştirme ve boşluk fonksiyonlarınızı tanımlayabilirsiniz. Örneğin; bir afin logaritmik boşluk fonksiyonu tanımlamak ve onu kullanmak için:

In [77]:
from math import log
def gap_function(x, y):  # x is gap position in seq, y is gap length
     if y == 0:  # No gap
        return 0
     elif y == 1:  # Gap open penalty
        return -2
     return - (2 + y/4.0 + log(y)/2.0)

alignments = pairwise2.align.globalmc("ACCCCCGT", "ACG", match=5, mismatch=-4,
                                     gap_A_fn=gap_function, gap_B_fn=gap_function)
for alignment in alignments:
    print(pairwise2.format_alignment(*alignment))

ACCCCCGT
|    || 
A----CG-
  Score=9.30685

ACCCCCGT
||    | 
AC----G-
  Score=9.30685



Her sıra için farklı boşluk fonksiyonları tanımlanabilir. Kendinden tanımlı eşleştirme işlevleri, karşılaştırılacak iki kalıntıyı almalı ve bir puan döndürmelidir.