<h1>Задание 1</h1>
<h2>Парное выравнивание последовательности</h2>

Попарное выравнивание последовательностей сравнивает только две последовательности одновременно и обеспечивает наилучшие возможные выравнивания последовательностей. Различают глобальное и локальное выравнивание. Глобальное выравнивание предполагает, что последовательности гомологичны по всей длине. В глобальное выравнивание включаются обе входные последовательности целиком. Локальное выравнивание применяется, если последовательности содержат как родственные (гомологичные), так и неродственные участки. Результатом локального выравнивания является выбор участка в каждой из последовательностей и выравнивание между этими участками.

Biopython предоставляет специальный модуль Bio.pairwise2 для попарного выравнивания последлвательностей с использованием метода динамического программирования.

In [1]:
from Bio import pairwise2
from Bio.Seq import Seq 
from Bio.Align import substitution_matrices




In [2]:
seq1 = Seq("ACCGGT") 
seq2 = Seq("ACGT")
alignments = pairwise2.align.globalxx(seq1, seq2)

Здесь метод globalxx находит все наилучшие возможные выравнивания в заданных последовательностях.

In [3]:
alignments

[Alignment(seqA='ACCGGT', seqB='A-C-GT', score=4.0, start=0, end=6),
 Alignment(seqA='ACCGGT', seqB='AC--GT', score=4.0, start=0, end=6),
 Alignment(seqA='ACCGGT', seqB='A-CG-T', score=4.0, start=0, end=6),
 Alignment(seqA='ACCGGT', seqB='AC-G-T', score=4.0, start=0, end=6)]

Здесь тип выравнивания последовательности относится к типу выравнивания, который может быть глобальным или локальным. 
- Глобальный тип находит выравнивание последовательности, принимая во внимание всю последовательность. 
- Локальный тип находит выравнивание последовательностей, просматривая также подмножество заданных последовательностей.

Х относится к совпадению баллов. Возможные значения: 
- x (точное совпадение), 
- m (оценка, основанная на одинаковых символах), 
- d (пользовательский словарь с символом и счетом совпадения) 
- c (определенная пользователем функция для предоставления собственного алгоритма оценки).

Y относится к штрафу за разрыв. Возможные значения: 
- x (без штрафных санкций), 
- s (одинаковые штрафы для обеих последовательностей), 
- d (разные штрафы для каждой последовательности) 
- c (пользовательская функция для предоставления пользовательских штрафов за пропуск)

Таким образом, localds также является допустимым методом, который находит выравнивание последовательности, используя технику локального выравнивания, пользовательский словарь для совпадений и пользовательский штраф за пробел для обеих последовательностей.

In [4]:
blosum62 = substitution_matrices.load("BLOSUM62")
test_alignments = pairwise2.align.localds(seq1, seq2, blosum62, -10, -1)

Здесь blosum62 относится к словарю, доступному в модуле pairwise2, для обеспечения соответствия. -10 относится к штрафу за открытие пропуска, а -1 относится к штрафу за расширение пропуска. 

In [5]:
test_alignments

[Alignment(seqA='ACCGGT', seqB='-ACGT-', score=15.0, start=2, end=4)]

In [6]:
for alignment in alignments: 
    print(alignment) 

Alignment(seqA='ACCGGT', seqB='A-C-GT', score=4.0, start=0, end=6)
Alignment(seqA='ACCGGT', seqB='AC--GT', score=4.0, start=0, end=6)
Alignment(seqA='ACCGGT', seqB='A-CG-T', score=4.0, start=0, end=6)
Alignment(seqA='ACCGGT', seqB='AC-G-T', score=4.0, start=0, end=6)


Модуль Bio.pairwise2 предоставляет метод форматирования format_alignment для лучшей визуализации результата

In [7]:
from Bio.pairwise2 import format_alignment 

In [8]:
alignments = pairwise2.align.globalxx(seq1, seq2) 

for alignment in alignments: 
    print(format_alignment(*alignment)) 

ACCGGT
| | ||
A-C-GT
  Score=4

ACCGGT
||  ||
AC--GT
  Score=4

ACCGGT
| || |
A-CG-T
  Score=4

ACCGGT
|| | |
AC-G-T
  Score=4



Biopython также предоставляет другой модуль для выравнивания последовательностей, Align. Этот модуль предоставляет другой набор API для простой установки параметров, таких как алгоритм, режим, оценка совпадения, штрафы за пропуски

In [9]:
from Bio import Align

In [10]:
aligner = Align.PairwiseAligner()

print(aligner)

Pairwise sequence aligner with parameters
  wildcard: None
  match_score: 1.000000
  mismatch_score: 0.000000
  target_internal_open_gap_score: 0.000000
  target_internal_extend_gap_score: 0.000000
  target_left_open_gap_score: 0.000000
  target_left_extend_gap_score: 0.000000
  target_right_open_gap_score: 0.000000
  target_right_extend_gap_score: 0.000000
  query_internal_open_gap_score: 0.000000
  query_internal_extend_gap_score: 0.000000
  query_left_open_gap_score: 0.000000
  query_left_extend_gap_score: 0.000000
  query_right_open_gap_score: 0.000000
  query_right_extend_gap_score: 0.000000
  mode: global



<h1>Задание 2</h1>
<h2>Поддержка инструментов выравнивания последовательностей</h2>

In [11]:
from Bio.Align.Applications import ClustalwCommandline


Due to the on going maintenance burden of keeping command line application
wrappers up to date, we have decided to deprecate and eventually remove these
modules.

We instead now recommend building your command line and invoking it directly
with the subprocess module.


In [12]:
cmd = ClustalwCommandline("clustalw2",
infile="samples/opuntia.fasta")
print(cmd)

clustalw2 -infile=samples/opuntia.fasta


In [13]:
stdout, stderr = cmd()

In [14]:
with open('samples/opuntia.aln', 'r') as f:
    print(f.read())

CLUSTAL 2.1 multiple sequence alignment


gi|6273285|gb|AF191659.1|AF191      TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAGAAAGAA
gi|6273284|gb|AF191658.1|AF191      TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAGAAAGAA
gi|6273287|gb|AF191661.1|AF191      TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAGAAAGAA
gi|6273286|gb|AF191660.1|AF191      TATACATAAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAGAAAGAA
gi|6273290|gb|AF191664.1|AF191      TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAGAAAGAA
gi|6273289|gb|AF191663.1|AF191      TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAGAAAGAA
gi|6273291|gb|AF191665.1|AF191      TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAGAAAGAA
                                    ******* **** *************************************

gi|6273285|gb|AF191659.1|AF191      AAAAATGAATCTAAATGATATACGATTCCACTATGTAAGGTCTTTGAATC
gi|6273284|gb|AF191658.1|AF191      AAAAATGAATCTAAATGATATACGATTCCACTATGTAAGGTCTTTGAATC
gi|6273287|gb|AF191661.1|AF191      AAAAATGAATCTAAATGATATACGATTCCACTATGTAAGGTCTTTGAATC


<h1>Задание 3</h1>
<h2>Поддержка инструментов выравнивания последовательностей</h2>

In [15]:
from Bio.Align.Applications import MuscleCommandline
from Bio import AlignIO

muscle_exe = "muscle3.8.31_i86win32"

# Входной файл с последовательностями (в формате FASTA)
input_file = "samples/opuntia.fasta"

# Выходной файл с выравниванием
output_file = "samples/aligned_sequences.fasta"

# Создаем команду MUSCLE
muscle_cline = MuscleCommandline(muscle_exe, input=input_file, out=output_file)

stdout, stderr = muscle_cline()

alignment = AlignIO.read(output_file, "fasta")
print(alignment)


Alignment with 7 rows and 906 columns
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA gi|6273289|gb|AF191663.1|AF191663
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA gi|6273291|gb|AF191665.1|AF191665
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA gi|6273290|gb|AF191664.1|AF191664
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA gi|6273287|gb|AF191661.1|AF191661
TATACATAAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA gi|6273286|gb|AF191660.1|AF191660
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA gi|6273285|gb|AF191659.1|AF191659
TATACATTAAAGAAGGGGGATGCGGATAAATGGAAAGGCGAAAG...AGA gi|6273284|gb|AF191658.1|AF191658


In [16]:
def needleman_wunsch(seq_f, seq_s, match=1, mismatch=-1, gap=-2):
    
    seq1 = str(seq_f)
    seq2 = str(seq_s)
    # Создаем матрицу
    n = len(seq1) + 1
    m = len(seq2) + 1
    score_matrix = [[0] * m for _ in range(n)]
    
    # Инициализация первой строки и столбца
    for i in range(n):
        score_matrix[i][0] = i * gap
    for j in range(m):
        score_matrix[0][j] = j * gap
    
    # Заполнение матрицы
    for i in range(1, n):
        for j in range(1, m):
            match_score = score_matrix[i-1][j-1] + (match if seq1[i-1] == seq2[j-1] else mismatch)
            delete = score_matrix[i-1][j] + gap
            insert = score_matrix[i][j-1] + gap
            score_matrix[i][j] = max(match_score, delete, insert)
    
    # Трассировка пути
    align1, align2 = "", ""
    i, j = len(seq1), len(seq2)
    while i > 0 or j > 0:
        current_score = score_matrix[i][j]
        if i > 0 and j > 0 and current_score == score_matrix[i-1][j-1] + (match if seq1[i-1] == seq2[j-1] else mismatch):
            align1 = seq1[i-1] + align1
            align2 = seq2[j-1] + align2
            i -= 1
            j -= 1
        elif i > 0 and current_score == score_matrix[i-1][j] + gap:
            align1 = seq1[i-1] + align1
            align2 = "-" + align2
            i -= 1
        else:
            align1 = "-" + align1
            align2 = seq2[j-1] + align2
            j -= 1
    
    return align1, align2, score_matrix[-1][-1]


In [17]:
seq1 = Seq("ACCGGT") 
seq2 = Seq("ACGT")

alignment1, alignment2, score = needleman_wunsch(seq1, seq2)

print("Выравнивание:")
print(alignment1)
print(alignment2)
print("Суммарный балл выравнивания:", score)

Выравнивание:
ACCGGT
A-C-GT
Суммарный балл выравнивания: 0
