# **BLAST**

**1. Глобальное выравнивание (Global Alignment)**

**Глобальное выравнивание** — это метод выравнивания, который пытается выровнять все символы двух последовательностей с начала до конца, предполагая, что последовательности имеют одинаковую длину (или их длины можно привести к одинаковой с помощью вставок). Этот метод ищет наилучшее соответствие между двумя последовательностями по всей их длине, игнорируя возможность пропуска части последовательности.

**2. Локальное выравнивание (Local Alignment)**

**Локальное выравнивание** — это метод, который ищет и выравнивает наилучшую часть двух последовательностей. Он не пытается выровнять всю последовательность, а фокусируется на нахождении наиболее схожих фрагментов в пределах этих последовательностей. Локальное выравнивание используется, когда необходимо найти области схожести между двумя последовательностями, которые могут значительно отличаться по длине.

BLAST расшифровывается как **Basic Local Alignment Search Tool** . Он находит области сходства между биологическими последовательностями. Biopython предоставляет модуль Bio.Blast для работы с NCBI BLAST. Вы можете запустить BLAST в локальном или интернет-соединении. BLAST был разработан (*David Lipman, Stephen Altschul, Warren Gish, ...*) на базе *National Center for Biotechnology Information (NCBI)*.

Biopython предоставляет модуль Bio.Blast.NCBIWWW для вызова онлайн-версии BLAST. Для этого нам нужно импортировать следующий модуль :

In [None]:
!pip install Bio

In [2]:
from Bio.Blast import NCBIWWW

Модуль NCBIWW предоставляет функцию qblast для запроса онлайн-версии BLAST. qblast поддерживает все параметры, поддерживаемые онлайн-версией.

Чтобы получить какую-либо справку об этом модуле, используйте приведенную ниже команду и посмотрите описание функции :

In [3]:
help(NCBIWWW.qblast)

Help on function qblast in module Bio.Blast.NCBIWWW:

qblast(program, database, sequence, url_base='https://blast.ncbi.nlm.nih.gov/Blast.cgi', auto_format=None, composition_based_statistics=None, db_genetic_code=None, endpoints=None, entrez_query='(none)', expect=10.0, filter=None, gapcosts=None, genetic_code=None, hitlist_size=50, i_thresh=None, layout=None, lcase_mask=None, matrix_name=None, nucl_penalty=None, nucl_reward=None, other_advanced=None, perc_ident=None, phi_pattern=None, query_file=None, query_believe_defline=None, query_from=None, query_to=None, searchsp_eff=None, service=None, threshold=None, ungapped_alignment=None, word_size=None, short_query=None, alignments=500, alignment_view=None, descriptions=500, entrez_links_new_window=None, expect_low=None, expect_high=None, format_entrez_query=None, format_object=None, format_type='XML', ncbi_gi=None, results_file=None, show_overview=None, megablast=None, template_type=None, template_length=None, username='blast', password=No

Приведите другой(ие) способы посмотреть описание функции.

In [4]:
NCBIWWW.qblast?

In [10]:
dir(NCBIWWW)

 'HTTPBasicAuthHandler',
 'HTTPPasswordMgrWithDefaultRealm',
 'NCBI_BLAST_URL',
 'Request',
 'StringIO',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_parse_qblast_ref_page',
 'build_opener',
 'email',
 'function_with_previous',
 'install_opener',
 'qblast',
 'time',
 'tool',
 'urlencode',
 'urlopen',

In [8]:
dir(NCBIWWW.qblast)

['__annotations__',
 '__builtins__',
 '__call__',
 '__class__',
 '__closure__',
 '__code__',
 '__defaults__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__get__',
 '__getattribute__',
 '__globals__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__kwdefaults__',
 '__le__',
 '__lt__',
 '__module__',
 '__name__',
 '__ne__',
 '__new__',
 '__qualname__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'previous']

Обычно аргументы функции qblast в основном аналогичны различным параметрам, которые вы можете установить на веб-странице BLAST. Это облегчает понимание функции qblast.

## **ЗАДАНИЕ**

**ЗАДАЧА** : Выполнить поиск последовательностей на онлайн-сервере BLAST через Biopython.

**ОЦЕНИВАНИЕ** : 9 баллов

## **ШАГ 1**

Создайте файл с именем **blast_example.fasta** в каталоге Biopython и передайте приведенную ниже информацию о последовательности в качестве входных данных.

Example of a single sequence in FASTA/Pearson format:

\>sequence A

ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattcatat

tctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc

## **ШАГ 2**

Импортируйте модуль NCBIWWW

In [11]:
from Bio.Blast import NCBIWWW

## **ШАГ 3**

Откройте файл последовательности **blast_example.fasta** с помощью модуля ввода-вывода Python.

In [12]:
path = "blast_example.fasta"

In [13]:
sequence_data = open(path).read()
sequence_data

'>sequence A \nggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattcatat\ntctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc\n'

## **ШАГ 4**

Теперь вызовите функцию qblast, передавая данные последовательности в качестве основного параметра. Другой параметр представляет базу данных (nt) и внутреннюю программу (blastn).

In [14]:
result_handle = NCBIWWW.qblast("blastn", "nt", sequence_data)
result_handle

<_io.StringIO at 0x78712a5e3d00>

**blast_results** содержит результат нашего поиска. Он может быть сохранен в файл для последующего использования, а также проанализирован для получения подробной информации.

## **ШАГ 5**

Те же функциональные возможности могут быть выполнены с использованием объекта Seq, а не с использованием всего файла fasta, как показано ниже.

In [18]:
from Bio import SeqIO
seq_record = next(SeqIO.parse(open('blast_example.fasta'),'fasta'))
print(f"id: {seq_record.id}, \n\
seq: {seq_record.seq}")

id: sequence, 
seq: ggtaagtcctctagtacaaacacccccaatattgtgatataattaaaattatattcatattctgttgccagaaaaaacacttttaggctatattagagccatcttctttgaagcgttgtc


Теперь вызовите функцию qblast, передав объект Seq, record.seq в качестве основного параметра.

In [19]:
result_handle = NCBIWWW.qblast("blastn", "nt", seq_record.seq)
print(result_handle)

<_io.StringIO object at 0x78712a37a200>


BLAST автоматически назначит идентификатор вашей последовательности.

## **ШАГ 6**

Объект result_handle будет иметь весь результат и может быть сохранен в файл для дальнейшего использования.

In [20]:
with open('results.xml', 'w') as save_file:
    blast_results = result_handle.read()
    save_file.write(blast_results)

Чтение results.xml с помощью парсера ElementTree

In [21]:
import xml.etree.ElementTree as ET

tree = ET.parse('results.xml')
root = tree.getroot()

# Печать корневого элемента и его атрибутов
print(f"Корневой элемент: {root.tag}")

# Итерация по дочерним элементам
for child in root:
    print(f"Тег: {child.tag}, Атрибуты: {child.attrib}, Значение: {child.text}")

# Например, если в XML есть данные с тегом <name>
for name in root.findall('.//name'):
    print(f"Name: {name.text}")

Корневой элемент: BlastOutput
Тег: BlastOutput_program, Атрибуты: {}, Значение: blastn
Тег: BlastOutput_version, Атрибуты: {}, Значение: BLASTN 2.16.1+
Тег: BlastOutput_reference, Атрибуты: {}, Значение: Stephen F. Altschul, Thomas L. Madden, Alejandro A. Sch&auml;ffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402.
Тег: BlastOutput_db, Атрибуты: {}, Значение: core_nt
Тег: BlastOutput_query-ID, Атрибуты: {}, Значение: Query_2196371
Тег: BlastOutput_query-def, Атрибуты: {}, Значение: No definition line
Тег: BlastOutput_query-len, Атрибуты: {}, Значение: 120
Тег: BlastOutput_param, Атрибуты: {}, Значение: 
    
Тег: BlastOutput_iterations, Атрибуты: {}, Значение: 

