## **BIOPYTHON.3 SEQRECORD**

Biopython предоставляет модуль Bio.SeqIO для чтения и записи последовательностей из и в файл (любой поток) соответственно. Он поддерживает практически все форматы файлов, доступные в биоинформатике. Большая часть программного обеспечения обеспечивает разный подход для разных форматов файлов. Но Biopython сознательно следует единому подходу, чтобы представить данные проанализированной последовательности пользователю через его объект SeqRecord.

## **SeqRecord**

Модуль Bio.SeqRecord предоставляет SeqRecord для хранения мета-информации о последовательности, а также о самих данных последовательности, как показано ниже:

- *seq* – это фактическая последовательность

- *id* – это первичный идентификатор данной последовательности. Тип по умолчанию – строка.

- *name* – это имя последовательности. Тип по умолчанию – строка.

- *description* – отображает удобочитаемую информацию о последовательности.

- *аннотации* – это словарь дополнительной информации о последовательности.

*seq* – это фактическая последовательность


SeqRecord может быть импортирован как указано ниже :

SeqRecord может быть импортирован как указано ниже :

In [None]:
!pip install Bio

In [3]:
from Bio.SeqRecord import SeqRecord

**FASTA** – это самый основной формат файла для хранения данных последовательности. Изначально FASTA – это программный пакет для выравнивания последовательностей ДНК и белка, разработанный в начале ранней эволюции биоинформатики и использовавшийся в основном для поиска сходства последовательностей.

## **ШАГ 1**

Biopython предоставляет пример файла FASTA, доступ к которому можно получить по адресу

https://github.com/biopython/biopython/blob/master/Doc/examples/ls_orchid.fasta .

Загрузите и сохраните этот файл в каталоге образцов Biopython под именем ‘orchid.fasta’ .

Модуль Bio.SeqIO предоставляет метод parse () для обработки файлов последовательности и может быть импортирован следующим образом:

In [4]:
from Bio.SeqIO import parse

Метод parse () содержит два аргумента, первый – дескриптор файла, а второй – формат файла.

In [6]:
path = "orchid.fasta"
file = open(path)
for i, record in enumerate(parse(file, "fasta")):
    if i < 10:
        print(record.id)

gi|2765658|emb|Z78533.1|CIZ78533
gi|2765657|emb|Z78532.1|CCZ78532
gi|2765656|emb|Z78531.1|CFZ78531
gi|2765655|emb|Z78530.1|CMZ78530
gi|2765654|emb|Z78529.1|CLZ78529
gi|2765652|emb|Z78527.1|CYZ78527
gi|2765651|emb|Z78526.1|CGZ78526
gi|2765650|emb|Z78525.1|CAZ78525
gi|2765649|emb|Z78524.1|CFZ78524
gi|2765648|emb|Z78523.1|CHZ78523


Здесь метод parse () возвращает итеративный объект, который возвращает SeqRecord на каждой итерации. Будучи повторяемым, он предоставляет множество сложных и простых методов и позволяет нам увидеть некоторые из особенностей.

In [7]:
type(parse(file, "fasta"))

## **ШАГ 2**

Метод *next()* возвращает следующий элемент, доступный в итерируемом объекте, который мы можем использовать для получения первой последовательности, как показано ниже:

In [14]:
first_seq_record = next(parse(open(path),'fasta'))
print(f"id: {first_seq_record.id}, \n\
name: {first_seq_record.name}, \n\
seq: {first_seq_record.seq}, \n\
description: {first_seq_record.description}, \n\
annotations: {first_seq_record.annotations}")

id: gi|2765658|emb|Z78533.1|CIZ78533, 
name: gi|2765658|emb|Z78533.1|CIZ78533, 
seq: CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTGAATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGGCCGCCTCGGGAGCGTCCATGGCGGGTTTGAACCTCTAGCCCGGCGCAGTTTGGGCGCCAAGCCATATGAAAGCATCACCGGCGAATGGCATTGTCTTCCCCAAAACCCGGAGCGGCGGCGTGCTGTCGCGTGCCCAATGAATTTTGATGACTCTCGCAAACGGGAATCTTGGCTCTTTGCATCGGATGGAAGGACGCAGCGAAATGCGATAAGTGGTGTGAATTGCAAGATCCCGTGAACCATCGAGTCTTTTGAACGCAAGTTGCGCCCGAGGCCATCAGGCTAAGGGCACGCCTGCTTGGGCGTCGCGCTTCGTCTCTCTCCTGCCAATGCTTGCCCGGCATACAGCCAGGCCGGCGTGGTGCGGATGTGAAAGATTGGCCCCTTGTGCCTAGGTGCGGCGGGTCCAAGAGCTGGTGTTTTGATGGCCCGGAACCCGGCAAGAGGTGGACGGATGCTGGCAGCAGCTGCCGTGCGAATCCCCCATGTTGTCGTGCTTGTCGGACAGGCAGGAGAACCCTTCCGAACCCCAATGGAGGGCGGTTGACCGCCATTCGGATGTGACCCCAGGTCAGGCGGGGGCACCCGCTGAGTTTACGC, 
description: gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA, 
annotations: {}


Здесь seq_record.annotations пуст, поскольку формат FASTA не поддерживает аннотации последовательности.

## **ШАГ 3**

**Преобразовать итерируемый объект** в список, используя list comprehension, как указано ниже :

In [16]:
seq_iter = parse(open(path),'fasta')
all_seq = [seq_record for seq_record in seq_iter]
len(all_seq)

94

Получить длину самой длинной последовательности следующим образом:

In [15]:
seq_iter = parse(open(path),'fasta')
max_seq = max(len(seq_record.seq) for seq_record in seq_iter)
max_seq

789

Отфильтровать последовательности по длине, используя приведенный ниже код.

*Прим.* Не нужно делать print. Просто выведите на экран 5 первых элементов списка, если они есть.

In [17]:
seq_iter = parse(open(path),'fasta')
seq_under_600 = [seq_record for seq_record in seq_iter if len(seq_record.seq) < 600]
for seq in seq_under_600:
   print(seq.id)

gi|2765606|emb|Z78481.1|PIZ78481
gi|2765605|emb|Z78480.1|PGZ78480
gi|2765601|emb|Z78476.1|PGZ78476
gi|2765595|emb|Z78470.1|PPZ78470
gi|2765594|emb|Z78469.1|PHZ78469
gi|2765564|emb|Z78439.1|PBZ78439


Записать коллекцию объектов SqlRecord (проанализированные данные) в файл как показано ниже:

In [18]:
from Bio.SeqIO import write

In [19]:
file = open("converted.fasta", "w")
write(all_seq, file, "fasta")

94

In [21]:
file = open('seq_under_600.fasta', 'w')
write(seq_under_600, file, "fasta")
file.close()