# **BIOPYTHON.4**

## **ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ**

В данной практической работе мы будем выравнивать последовательности.

[ТЕОРИЯ](https://sites.google.com/view/bioinfbsu/%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B8/5-biopython-%D0%B2%D1%8B%D1%80%D0%B0%D0%B2%D0%BD%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5?authuser=0)

**ОЦЕНИВАНИЕ:**

Задание 1. 6 БАЛЛОВ

Задание 2. 9 БАЛЛОВ

Задание 3. 10 БАЛЛОВ

## **ЗАДАНИЕ 1. Парное выравнивание последовательности**

**Попарное выравнивание последовательностей** сравнивает только две последовательности одновременно и обеспечивает наилучшие возможные выравнивания последовательностей. Различают *глобальное* и *локальное выравнивание*. Глобальное выравнивание предполагает, что последовательности гомологичны(схожие последовательности, имеющие общее происхождение) по всей длине. В глобальное выравнивание включаются обе входные последовательности целиком. Локальное выравнивание применяется, если последовательности содержат как родственные (гомологичные), так и неродственные участки. Результатом локального выравнивания является выбор участка в каждой из последовательностей и выравнивание между этими участками.

Biopython предоставляет специальный модуль **Bio.pairwise2** для попарного выравнивания последлвательностей с использованием метода динамического программирования.

Напишем пример, чтобы найти парное выравнивание двух простых последовательностей ДНК с использованием pairwise2 модуля. Это поможет нам понять концепцию выравнивания последовательностей и как ее запрограммировать с помощью Biopython.

Импортируйте модуль **pairwise2** с помощью команды, приведенной ниже –

In [None]:
!pip install Bio

In [2]:
from Bio import pairwise2



In [3]:
from Bio.Align import PairwiseAligner

Создайте две последовательности, seq1 и seq2 –

In [4]:
from Bio.Seq import Seq
seq1 = Seq("ACCGGT")
seq2 = Seq("ACGT")

Вызовите метод pairwise2.align.globalxx вместе с seq1 и seq2, чтобы найти выравнивания, используя строку кода ниже –

In [6]:
aligner = PairwiseAligner()
aligner.mode = 'global'  # Глобальное выравнивание (аналог globalxx)
alignments = aligner.align(seq1, seq2)

In [20]:
alignments = pairwise2.align.globalxx(seq1, seq2)

Здесь метод **globalxx** находит все наилучшие возможные выравнивания в заданных последовательностях. На самом деле, Bio.pairwise2 предоставляет целый набор методов, которые следуют приведенному ниже соглашению, чтобы найти выравнивания в различных сценариях.

In [21]:
alignments

[Alignment(seqA='ACCGGT', seqB='A-C-GT', score=4.0, start=0, end=6),
 Alignment(seqA='ACCGGT', seqB='AC--GT', score=4.0, start=0, end=6),
 Alignment(seqA='ACCGGT', seqB='A-CG-T', score=4.0, start=0, end=6),
 Alignment(seqA='ACCGGT', seqB='AC-G-T', score=4.0, start=0, end=6)]

`<sequence alignment type>XY`

Здесь тип выравнивания последовательности относится к типу выравнивания, который может быть *глобальным* или *локальным*. *Глобальный* тип находит выравнивание последовательности, принимая во внимание всю последовательность. *Локальный* тип находит выравнивание последовательностей, просматривая также подмножество заданных последовательностей. Это будет утомительно, но дает лучшее представление о сходстве данных последовательностей.

- Х относится к совпадению баллов. Возможные значения: x (точное совпадение), m (оценка, основанная на одинаковых символах), d (пользовательский словарь с символом и счетом совпадения) и, наконец, c (определенная пользователем функция для предоставления собственного алгоритма оценки).

- Y относится к штрафу за разрыв. Возможные значения: x (без штрафных санкций), s (одинаковые штрафы для обеих последовательностей), d (разные штрафы для каждой последовательности) и, наконец, c (пользовательская функция для предоставления пользовательских штрафов за пропуск)

Таким образом, localds также является допустимым методом, который находит выравнивание последовательности, используя технику локального выравнивания, пользовательский словарь для совпадений и пользовательский штраф за пробел для обеих последовательностей.

In [22]:
from Bio.Align import substitution_matrices # матрица замен, используемая для оценки схожести
BLOSUM62 = substitution_matrices.load("BLOSUM62") # статистическую вероятность замены одной аминокислоты на другую
test_alignments = pairwise2.align.localds(seq1, seq2, BLOSUM62, -10, -1)

Здесь BLOSUM62 относится к словарю, доступному в модуле pairwise2, для обеспечения соответствия. -10 относится к штрафу за открытие пропуска, а -1 относится к штрафу за расширение пропуска.

Зациклите итеративный объект выравнивания и получите каждый отдельный объект выравнивания и распечатайте его.

In [23]:
for alignment in alignments:
    print(alignment)

Alignment(seqA='ACCGGT', seqB='A-C-GT', score=4.0, start=0, end=6)
Alignment(seqA='ACCGGT', seqB='AC--GT', score=4.0, start=0, end=6)
Alignment(seqA='ACCGGT', seqB='A-CG-T', score=4.0, start=0, end=6)
Alignment(seqA='ACCGGT', seqB='AC-G-T', score=4.0, start=0, end=6)


Модуль Bio.pairwise2 предоставляет метод форматирования format_alignment для лучшей визуализации результата –

In [24]:
from Bio.pairwise2 import format_alignment
alignments = pairwise2.align.globalxx(seq1, seq2)
for alignment in alignments:
    print(format_alignment(*alignment))

ACCGGT
| | ||
A-C-GT
  Score=4

ACCGGT
||  ||
AC--GT
  Score=4

ACCGGT
| || |
A-CG-T
  Score=4

ACCGGT
|| | |
AC-G-T
  Score=4



Biopython также предоставляет другой модуль для выравнивания последовательностей, Align. Этот модуль предоставляет другой набор API для простой установки параметров, таких как алгоритм, режим, оценка совпадения, штрафы за пропуски и т. Д. Простой взгляд на объект Align выглядит следующим образом:

In [25]:
from Bio import Align
aligner = Align.PairwiseAligner()
print(aligner)

Pairwise sequence aligner with parameters
  wildcard: None
  match_score: 1.000000
  mismatch_score: 0.000000
  target_internal_open_gap_score: 0.000000
  target_internal_extend_gap_score: 0.000000
  target_left_open_gap_score: 0.000000
  target_left_extend_gap_score: 0.000000
  target_right_open_gap_score: 0.000000
  target_right_extend_gap_score: 0.000000
  query_internal_open_gap_score: 0.000000
  query_internal_extend_gap_score: 0.000000
  query_left_open_gap_score: 0.000000
  query_left_extend_gap_score: 0.000000
  query_right_open_gap_score: 0.000000
  query_right_extend_gap_score: 0.000000
  mode: global



## **ЗАДАНИЕ 2. Поддержка инструментов выравнивания последовательностей**

Biopython предоставляет интерфейс для многих инструментов выравнивания последовательностей через модуль Bio.Align.Applications. Некоторые из инструментов перечислены ниже –

- ClustalW

- MUSCLE

- EMBOSS Needle и вода

Давайте напишем простой пример в Biopython для создания выравнивания последовательностей с помощью самого популярного инструмента выравнивания ClustalW.

Загрузите программу Clustalw с http://www.clustal.org/download/current/ и установите ее. Также обновите системный PATH, указав путь установки «clustal».

Импортируйте ClustalwCommanLine из модуля Bio.Align.Applications.

In [12]:
# Эти команды загружают и устанавливают ClustalW 2.1 в Google Colab
# !wget http://www.clustal.org/download/current/clustalw-2.1-linux-x86_64-libcppstatic.tar.gz
# !tar -xzf clustalw-2.1-linux-x86_64-libcppstatic.tar.gz
# !cp clustalw-2.1-linux-x86_64-libcppstatic/clustalw2 /usr/local/bin/

In [None]:
!apt-get update
!apt-get install -y clustalw

In [14]:
!clustalw --help




 CLUSTAL 2.1 Multiple Sequence Alignments


Error: unknown option --help


In [15]:
from Bio.Align.Applications import ClustalwCommandline


Due to the on going maintenance burden of keeping command line application
wrappers up to date, we have decided to deprecate and eventually remove these
modules.

We instead now recommend building your command line and invoking it directly
with the subprocess module.


Вызов cmd () запустит команду clustalw и выдаст выходной файл результирующего выравнивания opuntia.aln.

In [16]:
path = "opuntia.fasta"

In [17]:
cmd = ClustalwCommandline("clustalw", infile=path)
print(cmd)

clustalw -infile=opuntia.fasta


Установите cmd, вызвав ClustalwCommanLine с входным файлом, opuntia.fasta, доступным в пакете Biopython.

In [18]:
stdout, stderr = cmd()

Прочитайте и распечатайте файл выравнивания.

In [19]:
print(stdout)




 CLUSTAL 2.1 Multiple Sequence Alignments


Sequence format is Pearson
Sequence 1: gi|6273291|gb|AF191665.1|AF191665   902 bp
Sequence 2: gi|6273290|gb|AF191664.1|AF191664   899 bp
Sequence 3: gi|6273289|gb|AF191663.1|AF191663   899 bp
Sequence 4: gi|6273287|gb|AF191661.1|AF191661   895 bp
Sequence 5: gi|6273286|gb|AF191660.1|AF191660   893 bp
Sequence 6: gi|6273285|gb|AF191659.1|AF191659   894 bp
Sequence 7: gi|6273284|gb|AF191658.1|AF191658   896 bp
Start of Pairwise alignments
Aligning...

Sequences (1:2) Aligned. Score:  99
Sequences (1:3) Aligned. Score:  99
Sequences (1:4) Aligned. Score:  98
Sequences (1:5) Aligned. Score:  98
Sequences (1:6) Aligned. Score:  98
Sequences (1:7) Aligned. Score:  98
Sequences (2:3) Aligned. Score:  99
Sequences (2:4) Aligned. Score:  98
Sequences (2:5) Aligned. Score:  98
Sequences (2:6) Aligned. Score:  98
Sequences (2:7) Aligned. Score:  98
Sequences (3:4) Aligned. Score:  98
Sequences (3:5) Aligned. Score:  98
Sequences (3:6) Aligned. Score:

## **ЗАДАНИЕ 3. Поддержка инструментов выравнивания последовательностей**

Сделаем выравнивае с помощью MUSCLE

In [None]:
!apt-get install muscle

In [29]:
from Bio.Align.Applications import MuscleCommandline
from Bio import AlignIO

input_file = path
output_file = "output.fasta"

# Создаём команду для вызова MUSCLE
muscle_cline = MuscleCommandline(input=input_file, out=output_file)
stdout, stderr = muscle_cline()

# Считываем выровненные последовательности
alignment = AlignIO.read(output_file, "fasta")

# Печатаем выровненные последовательности
print("Выравненные последовательности:")
for record in alignment:
    print(record.id)
    print(record.seq)

Выравненные последовательности:
gi|6273289|gb|AF191663.1|AF191663
TATACATTAAAGGAGGGGGATGCGGATAAATGGAAAGGCGAAAGAAAGAAAAAAATGAATCTAAATGATATAGGATTCCACTATGTAAGGTCTTTGAATCATATCATAAAAGACAATGTAATAAAGCATGAATACAGATTCACACATAATTATCTGATATGAATCTATTCATAGAAAAAAGAAAAAAGTAAGAGCCTCCGGCCAATAAAGACTAAGAGGGTTGGCTCAAGAACAAAGTTCATTAAGAGCTCCATTGTAGAATTCAGACCTAATCATTAATCAAGAAGCGATGGGAACGATGTAATCCATGAATACAGAAGATTCAATTGAAAAAGATCCTAATGATTCATTGGGAAGGATGGCGGAACGAACCAGAGACCAATTCATCTATTCTGAAAAGTGATAAACTAATCCTATAAAACTAAAATAGATATTGAAAGAGTAAATATTCGCCCGCGAAAATTCC-TTTTTTATTAAATTGCTCATATTTTCTTTTAGCAATGCAATCTAATAAAATATATCTATACAAAAAAACATAGACAAAC------TATATATATATATAATATATTTCAAATTCCCTTATATATCCAAATATAAAAATATCTAATAAATTAGATGAATATCAAAGAATCTATTGATTTAGTATATTATTAAATGTATATATTAATTCAATATTATTATTCTATTCATTTTTATTCATTTTCAAATTTATAATATATTAATCTATATATTAATTTAGAATTCTATTCTAATTCGAATTCAATTTTTAAATATTCATATTCAATTAAAATTGAAATTTTTTCATTCGCGAGGAGCCGGATGAGAAGAAACTCTCATGTCCGGTTCTGTAGTAGAGATGGAATTAAGAAAAAACCATCAACTATAACCCCAAAAGAACCAGA
gi|6273291|gb|AF191665.1|AF