<a href="https://colab.research.google.com/github/MaximTislenko/MollekBiolog/blob/main/Biopython_CH_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Глава ‍4 Объекты аннотации последовательности

В главе ‍ 3 были представлены классы последовательности. Непосредственно «над» Seqклассом находится запись последовательности или SeqRecordкласс, определенный в Bio.SeqRecordмодуле. Этот класс позволяет ассоциировать с последовательностью свойства более высокого уровня, такие как идентификаторы и свойства (как SeqFeatureобъекты), и используется во всем интерфейсе ввода/вывода последовательности, Bio.SeqIOполностью описанном в главе ‍ 5 .

Если вы собираетесь работать только с простыми данными, такими как файлы FASTA, вы, вероятно, можете пока пропустить эту главу. С другой стороны, если вы собираетесь использовать богато аннотированные данные последовательности, скажем, из файлов GenBank или EMBL, эта информация очень важна.

Хотя эта глава должна охватывать большинство вещей, связанных с объектами SeqRecordи SeqFeatureв этой главе, вы также можете прочитать SeqRecordвики-страницу ( http://biopython.org/wiki/SeqRecord ) и встроенную документацию (также в Интернете — SeqRecord). и SeqFeature ):

In [75]:
!pip install biopython

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [76]:
from Bio.SeqRecord import SeqRecord
help(SeqRecord)

Help on class SeqRecord in module Bio.SeqRecord:

class SeqRecord(builtins.object)
 |  SeqRecord(seq, id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=None, features=None, annotations=None, letter_annotations=None)
 |  
 |  A SeqRecord object holds a sequence and information about it.
 |  
 |  Main attributes:
 |   - id          - Identifier such as a locus tag (string)
 |   - seq         - The sequence itself (Seq object or similar)
 |  
 |  Additional attributes:
 |   - name        - Sequence name, e.g. gene name (string)
 |   - description - Additional text (string)
 |   - dbxrefs     - List of database cross references (list of strings)
 |   - features    - Any (sub)features defined (list of SeqFeature objects)
 |   - annotations - Further information about the whole sequence (dictionary).
 |     Most entries are strings, or lists of strings.
 |   - letter_annotations - Per letter/symbol annotation (restricted
 |     dictionary). This holds Pyt

##4.1 Объект SeqRecord

Класс SeqRecord(Sequence Record) определен в Bio.SeqRecord модуле. Этот класс позволяет связывать с последовательностью функции более высокого уровня, такие как идентификаторы и функции (см. главу 3 ), и является базовым типом данных для Bio.SeqIO интерфейса ввода/вывода последовательности (см. главу 5 ).

Сам SeqRecord класс довольно прост и предлагает следующую информацию в качестве атрибутов:
* .seq
– Сама последовательность, обычно Seqобъект.
* .id
– Основной идентификатор, используемый для идентификации последовательности – строка. В большинстве случаев это что-то вроде инвентарного номера.
* .name
– «Общее» имя/идентификатор последовательности – строка. В некоторых случаях это будет то же самое, что и инвентарный номер, но это также может быть имя клона. Я думаю об этом как об аналоге идентификатора LOCUS в записи GenBank.
* .description
– Удобочитаемое описание или выразительное имя последовательности – строка.
* .letter_annotations
– Содержит побуквенные аннотации с использованием (ограниченного) словаря дополнительной информации о буквах в последовательности. Ключи — это имя информации, а информация содержится в значении в виде последовательности Python (т. е. списка, кортежа или строки) той же длины, что и сама последовательность. Это часто используется для оценки качества (например, раздел ‍ 20.1.6 ) или информации о вторичной структуре (например, из файлов выравнивания Stockholm/PFAM).
* .annotations
– Словарь дополнительной информации о последовательности. Ключи — это имя информации, а информация содержится в значении. Это позволяет добавлять в последовательность больше «неструктурированной» информации.
* .features
– Список SeqFeatureобъектов с более структурированной информацией об особенностях последовательности (например, положение генов в геноме или доменов в белковой последовательности). Структура признаков последовательности описана ниже в разделе ‍ 4.3 .
* .dbxrefs – Список перекрестных ссылок базы данных в виде строк.

##4.2 Создание SeqRecord
Использование SeqRecord объекта не очень сложно, так как вся информация представлена ​​в виде атрибутов класса. Обычно вы не будете создавать SeqRecord «вручную», а вместо этого будете использовать Bio.SeqIO для чтения файл последовательности (см. главу ‍ 5 и примеры ниже). Однако создание SeqRecord может быть довольно простым.

###4.2.1 Объекты SeqRecord с нуля
Чтобы создать как SeqRecord минимум, вам просто нужен Seqобъект:

In [77]:
from Bio.Seq import Seq
simple_seq = Seq("GATC")
from Bio.SeqRecord import SeqRecord
simple_seq_r = SeqRecord(simple_seq)

Кроме того, вы также можете передать идентификатор, имя и описание функции инициализации, но в противном случае они будут установлены как строки, указывающие на то, что они неизвестны, и могут быть впоследствии изменены:

In [78]:
simple_seq_r.id

'<unknown id>'

In [79]:
simple_seq_r.id = "AC12345"
simple_seq_r.description = "Выдуманная последовательность, о которой я хотел бы написать статью"
print(simple_seq_r.description)

Выдуманная последовательность, о которой я хотел бы написать статью


In [80]:
simple_seq_r.seq

Seq('GATC')

Включение идентификатора очень важно, если вы хотите вывести SeqRecord его в файл. Обычно вы включаете это при создании объекта:

In [81]:
from Bio.Seq import Seq
simple_seq = Seq("GATC")
from Bio.SeqRecord import SeqRecord
simple_seq_r = SeqRecord(simple_seq, id="AC12345")

Как упоминалось выше, SeqRecord имеет атрибут словаря annotations. Это используется для любых разных аннотаций, которые не подходят ни под один из других более конкретных атрибутов. Добавление аннотаций очень просто и требует непосредственного обращения к словарю аннотаций:

In [82]:
simple_seq_r.annotations["evidence"] = "Никто. Я только что выдумал."
print(simple_seq_r.annotations)

{'evidence': 'Никто. Я только что выдумал.'}


In [83]:
print(simple_seq_r.annotations["evidence"])

Никто. Я только что выдумал.


Работа с побуквенными аннотациями аналогична, letter_annotations это атрибут, похожий на словарь, который позволит вам назначить любую последовательность Python (то есть строку, список или кортеж), которая имеет ту же длину, что и последовательность:

In [84]:
simple_seq_r.letter_annotations["phred_quality"] = [40, 40, 38, 30]
print(simple_seq_r.letter_annotations)

{'phred_quality': [40, 40, 38, 30]}


In [85]:
print(simple_seq_r.letter_annotations["phred_quality"])

[40, 40, 38, 30]


Атрибуты dbxrefs и features— это просто списки Python, и их следует использовать для хранения строк и SeqFeature объектов (обсуждаемых далее в этой главе) соответственно.

###4.2.2 Объекты SeqRecord из файлов FASTA
В этом примере используется довольно большой файл FASTA, содержащий всю последовательность Yersinia pestis биовара Microtus str. 91001 плазмида pPCP1, первоначально загруженная из NCBI. Этот файл включен в модульные тесты Biopython в папке GenBank или онлайн NC_005816.fna с нашего веб-сайта.

Файл начинается так - и вы можете проверить, что присутствует только одна запись (т.е. только одна строка, начинающаяся с символа больше):

In [86]:
!wget https://raw.githubusercontent.com/biopython/biopython/master/Tests/GenBank/NC_005816.fna

--2023-02-01 19:06:24--  https://raw.githubusercontent.com/biopython/biopython/master/Tests/GenBank/NC_005816.fna
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 9853 (9.6K) [text/plain]
Saving to: ‘NC_005816.fna.1’


2023-02-01 19:06:24 (94.7 MB/s) - ‘NC_005816.fna.1’ saved [9853/9853]



In [87]:
# >gi|45478711|ref|NC_005816.1| Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence
# TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGGGGGTAATCTGCTCTCC......

Еще в главе 2 вы видели функцию, Bio.SeqIO.parse(...) используемую для циклического просмотра всех записей в файле как SeqRecord объектов. У Bio.SeqIO модуля есть родственная функция для использования с файлами, которые содержат только одну запись, которую мы будем использовать здесь (подробности см . в главе ‍ 5):

In [88]:
from Bio import SeqIO
record = SeqIO.read("/content/NC_005816.fna", "fasta")
record

SeqRecord(seq=Seq('TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGG...CTG'), id='gi|45478711|ref|NC_005816.1|', name='gi|45478711|ref|NC_005816.1|', description='gi|45478711|ref|NC_005816.1| Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence', dbxrefs=[])

Теперь давайте взглянем на ключевые атрибуты этого по SeqRecord отдельности, начиная с seq атрибута, который дает вам Seq объект:

In [89]:
record.seq

Seq('TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGG...CTG')

Далее идентификаторы и описание:

In [90]:
record.id

'gi|45478711|ref|NC_005816.1|'

In [91]:
record.name

'gi|45478711|ref|NC_005816.1|'

In [92]:
record.description

'gi|45478711|ref|NC_005816.1| Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence'

Как вы можете видеть выше, первое слово строки заголовка записи FASTA (после удаления символа «больше») используется как для атрибутов, так id и для name атрибутов. Вся строка заголовка (после удаления символа «больше») используется для описания записи. Это сделано преднамеренно, отчасти из соображений обратной совместимости, но также имеет смысл, если у вас есть такой файл FASTA:

In [93]:
# Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1
# TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGGGGGTAATCTGCTCTCC
# ...


Обратите внимание, что ни один из других атрибутов аннотации не заполняется при чтении файла FASTA:

In [94]:
record.dbxrefs

[]

In [95]:
record.annotations

{}

In [96]:
record.letter_annotations

{}

In [97]:
record.features

[]

В этом случае наш пример файла FASTA был из NCBI, и у них есть довольно четко определенный набор соглашений для форматирования их строк FASTA. Это означает, что можно будет проанализировать эту информацию и, например, извлечь номер GI и принадлежность. Однако файлы FASTA из других источников различаются, поэтому в общем случае это невозможно.

###4.2.3 Объекты SeqRecord из файлов GenBank
Как и в предыдущем примере, мы рассмотрим всю последовательность для биовара Yersinia pestis Microtus str. 91001 плазмида pPCP1, первоначально загруженная из NCBI, но на этот раз в виде файла GenBank. Опять же, этот файл включен в модульные тесты Biopython в папке GenBank или онлайн NC_005816.gb с нашего веб-сайта.

In [98]:
!wget https://raw.githubusercontent.com/biopython/biopython/master/Tests/GenBank/NC_005816.gb

--2023-02-01 19:06:24--  https://raw.githubusercontent.com/biopython/biopython/master/Tests/GenBank/NC_005816.gb
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 31838 (31K) [text/plain]
Saving to: ‘NC_005816.gb.1’


2023-02-01 19:06:24 (100 MB/s) - ‘NC_005816.gb.1’ saved [31838/31838]



Этот файл содержит одну запись (т.е. только одну строку LOCUS) и начинается:

LOCUS       NC_005816               9609 bp    
DNA     circular BCT 21-JUL-2008

DEFINITION  Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete
            sequence.

ACCESSION   NC_005816

VERSION     NC_005816.1  GI:45478711

PROJECT     GenomeProject:10638
...

Опять же, мы будем использовать Bio.SeqIO для чтения этого файла, и код почти идентичен коду, использованному выше для файла FASTA (подробности см. в главе ‍ 5 ):

In [99]:
from Bio import SeqIO
record = SeqIO.read("/content/NC_005816.gb", "genbank")
record

SeqRecord(seq=Seq('TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGG...CTG'), id='NC_005816.1', name='NC_005816', description='Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence', dbxrefs=['Project:58037'])

In [100]:
record.seq

Seq('TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGG...CTG')

name Приходит из линейки LOCUS, а включает id суффикс версии. description взято из строки DEFINITION:

In [101]:
record.id

'NC_005816.1'

In [102]:
record.name

'NC_005816'

In [103]:
record.description

'Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence'

В файлах GenBank нет побуквенных аннотаций:

In [104]:
record.letter_annotations

{}

Большая часть информации аннотаций записывается в annotations словарь, например:

In [105]:
len(record.annotations)

13

In [106]:
record.annotations["source"]

'Yersinia pestis biovar Microtus str. 91001'

Список dbxrefs заполняется из любых строк PROJECT или DBLINK:

In [107]:
record.dbxrefs

['Project:58037']

Наконец, и, возможно, самое интересное, все записи в таблице признаков (например, гены или признаки CDS) записываются как SeqFeature объекты в features списке.

In [108]:
len(record.features)

41

In [109]:
record.features

[SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(9609), strand=1), type='source', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(1954), strand=1), type='repeat_region'),
 SeqFeature(SimpleLocation(ExactPosition(86), ExactPosition(1109), strand=1), type='gene', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(86), ExactPosition(1109), strand=1), type='CDS', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(86), ExactPosition(959), strand=1), type='misc_feature', qualifiers=...),
 SeqFeature(SimpleLocation(BeforePosition(110), ExactPosition(209), strand=1), type='misc_feature', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(437), ExactPosition(812), strand=1), type='misc_feature', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(1105), ExactPosition(1888), strand=1), type='gene', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(1105), ExactPosition(1888), strand=1), type='CDS', qualifiers=...),
 SeqFeatu

In [110]:
record.features[-1]

SeqFeature(SimpleLocation(ExactPosition(8529), ExactPosition(8529), strand=1), type='variation', qualifiers=...)

Мы поговорим об SeqFeature объектах далее, в разделе ‍ 4.3 .

##4.3 Особенности, расположение и позиционирование объектов

###4.3.1 Объекты SeqFeature
Признаки последовательности являются неотъемлемой частью описания последовательности. Как только вы выйдете за пределы самой последовательности, вам понадобится какой-то способ организовать и легко получить более «абстрактную» информацию, известную о последовательности. Хотя, вероятно, невозможно разработать общий класс объектов последовательности, который будет охватывать все, SeqFeature класс Biopython пытается инкапсулировать как можно больше информации о последовательности. Дизайн в значительной степени основан на таблицах функций GenBank/EMBL, поэтому, если вы понимаете, как они выглядят, вам, вероятно, будет легче понять структуру классов Biopython.

Основная идея каждого SeqFeature объекта состоит в описании области родительской последовательности, обычно SeqRecord объекта. Эта область описывается объектом местоположения, обычно диапазоном между двумя позициями (см. раздел ‍ 4.3.2 ниже).

Класс SeqFeature имеет ряд атрибутов, поэтому сначала мы перечислим их и их общие свойства, а затем в этой главе рассмотрим примеры, чтобы показать, как это применимо к реальному примеру. Атрибуты SeqFeature:
* .type – Это текстовое описание типа признака (например, это будет что-то вроде «CDS» или «ген»).
* .location
– Расположение в SeqFeatureпоследовательности, с которой вы имеете дело, см. в разделе ‍ 4.3.2 ниже. Делегирует SeqFeatureбольшую часть своей функциональности объекту местоположения и включает ряд атрибутов быстрого доступа для свойств местоположения:
  * .ref– сокращение для .location.ref – любая (другая) ссылочная последовательность, к которой относится местоположение. Обычно просто None.
  * .ref_db
– сокращение для – указывает базу данных, на которую ссылается .location.ref_db любой идентификатор . .ref Обычно просто None.
  * .strand
– сокращение для .location.strand – цепочка в последовательности, на которой расположен признак. Для двухцепочечной нуклеотидной последовательности это может быть либо 1 для верхней цепи, -1 для нижней цепи, 0, если цепь важна, но неизвестна, либо None , если это не имеет значения (для белков или одноцепочечных последовательностей).
* .qualifiers– Это словарь Python с дополнительной информацией об этой функции. Ключ представляет собой какое-то краткое описание из одного слова того, о чем информация, содержащаяся в значении, а значение является фактической информацией. Например, общим ключом для квалификатора может быть «доказательство(evidence)», а значением может быть «вычислительный (неэкспериментальный) - computational (non-experimental)». Это просто способ сообщить человеку, который смотрит на функцию, что она не была подтверждена экспериментально (т.е. в мокрой лаборатории). Обратите внимание, что другое значение будет списком строк (даже если есть только одна строка). Это отражение таблиц функций в файлах GenBank/EMBL.
* .sub_features
– Раньше это использовалось для представления функций со сложным расположением, таких как «соединения» в файлах GenBank/EMBL. Это устарело с введением CompoundLocationобъекта, и теперь его следует игнорировать.

###4.3.2 Позиции и местоположения
Основная идея каждого SeqFeature объекта состоит в том, чтобы описать область в родительской последовательности, для которой мы используем объект местоположения, обычно описывающий диапазон между двумя позициями. Две попытки уточнить терминологию, которую мы используем:
* position
– Это относится к одной позиции в последовательности, которая может быть нечеткой или нет. Например, 5, 20 <100и >200 все позиции.
* location– Местоположение – это область последовательности, ограниченная некоторыми позициями. Например, 5..20 (т. е. от 5 до 20) — это местоположение.

Я упоминаю об этом только потому, что иногда путаюсь между ними.

####4.3.2.1 Объект SimpleLocation
Если вы не работаете с эукариотическими генами, большинство SeqFeature локаций чрезвычайно просты — вам просто нужны координаты начала и конца и нить. По сути, это все, что SimpleLocation делает базовый объект.

На практике, конечно, все может быть сложнее. Прежде всего, нам нужно обработать составные локации, состоящие из нескольких регионов. Во-вторых, сами позиции могут быть нечеткими (неточными).

####4.3.2.2 Объект CompoundLocation
Biopython 1.62 представил CompoundLocation как часть реструктуризации представления сложных локаций, состоящих из нескольких регионов. В основном используется для обработки местоположений «соединения» в файлах EMBL/GenBank.

####4.3.2.3 Нечеткие позиции(Fuzzy Positions)
До сих пор мы использовали только простые позиции. Одна из сложностей при работе с локациями признаков связана с самими позициями. В биологии часто бывает, что вещи не совсем точны (как бы мы, биологи из мокрых лабораторий, не пытались их утвердить!). Например, вы можете провести эксперимент с праймированием динуклеотидов и обнаружить, что начало транскрипта мРНК начинается в одном из двух сайтов. Это очень полезная информация, но сложность заключается в том, как представить ее в виде позиции. Чтобы помочь нам справиться с этим, у нас есть концепция нечетких позиций. В основном существует несколько типов нечетких позиций, поэтому у нас есть пять классов, которые имеют дело с ними:
* ExactPosition– Как следует из названия, этот класс представляет положение, указанное как точное в последовательности. Это представлено просто числом, и вы можете получить позицию, взглянув на position атрибут объекта.
* BeforePosition– Этот класс представляет собой нечеткое положение, которое происходит перед некоторым указанным сайтом. В нотации GenBank/EMBL это представляется чем-то вроде `<13', означающим, что реальная позиция находится где-то меньше 13. Чтобы получить указанную верхнюю границу, посмотрите на position атрибут объекта.
* AfterPosition– В отличие от BeforePosition, этот класс представляет позицию, расположенную после некоторого указанного сайта. Это представлено в GenBank как `>13', и, как и BeforePosition, вы получаете номер границы, просматривая position атрибут объекта.
* WithinPosition– Этот класс, иногда используемый для местоположений GenBank/EMBL, моделирует положение, которое находится где-то между двумя указанными нуклеотидами. В нотации GenBank/EMBL это будет представлено как «(1.5)», что означает, что позиция находится где-то в диапазоне от 1 до 5.
* OneOfPosition
– Иногда используемый для местоположений GenBank/EMBL, этот класс имеет дело с позицией, в которой существует несколько возможных значений, например, вы можете использовать это, если стартовый кодон неясен и есть два кандидата на начало гена. В качестве альтернативы, это можно было бы рассматривать явно как два связанных признака гена.
* UnknownPosition– Этот класс имеет дело с позицией неизвестного местоположения. Это не используется в GenBank/EMBL, но соответствует '?' координата объекта, используемая в UniProt.

Вот пример, где мы создаем местоположение с нечеткими конечными точками:

In [111]:
from Bio import SeqFeature
start_pos = SeqFeature.AfterPosition(5)
end_pos = SeqFeature.BetweenPosition(9, left=8, right=9)
my_location = SeqFeature.SimpleLocation(start_pos, end_pos)

Обратите внимание, что детали некоторых нечетких местоположений изменились в Biopython 1.59, в частности, для BetweenPosition и WithinPosition, теперь вы должны явно указать, какая целочисленная позиция должна использоваться для нарезки и т. д. Для начальной позиции это обычно нижняя (левая) позиция. значение, в то время как для конечного положения это обычно будет более высокое (правое) значение.

Если вы распечатаете SimpleLocation объект, вы можете получить хорошее представление информации:

In [112]:
print(my_location)

[>5:(8^9)]


Мы можем получить доступ к нечетким начальным и конечным позициям, используя начальные и конечные атрибуты местоположения:

In [113]:
my_location.start

AfterPosition(5)

In [114]:
print(my_location.start)

>5


In [115]:
my_location.end

BetweenPosition(9, left=8, right=9)

In [116]:
print(my_location.end)

(8^9)


Если вы не хотите иметь дело с нечеткими позициями и просто хотите числа, они на самом деле являются подклассами целых чисел, поэтому должны работать как целые числа:

In [117]:
int(my_location.start)

5

In [118]:
int(my_location.end)

9

Точно так же, чтобы упростить создание позиции, не беспокоясь о нечетких позициях, вы можете просто передать числа FeaturePosition конструкторам, и вы получите обратно ExactPosition объекты:

In [119]:
exact_location = SeqFeature.SimpleLocation(5, 9)
print(exact_location)

[5:9]


In [120]:
exact_location.start

ExactPosition(5)

In [121]:
int(exact_location.start)

5

Это большая часть мельчайших деталей работы с нечеткими позициями в Biopython. Он был разработан таким образом, что работать с нечеткостью не намного сложнее, чем с точными позициями, и, надеюсь, вы поймете, что это правда!

####4.3.2.4 Тестирование местоположения
Вы можете использовать ключевое слово Python inс SeqFeatureобъектом или местоположением, чтобы увидеть, находится ли основание/остаток для родительской координаты в пределах объекта/местоположения или нет.

Например, предположим, что у вас есть интересующий SNP, и вы хотите знать, в каких функциях находится этот SNP, и давайте предположим, что этот SNP имеет индекс 4350 (подсчет Python!). Вот простое решение грубой силы, в котором мы просто проверяем все функции одну за другой в цикле:

In [122]:
from Bio import SeqIO
my_snp = 4350
record = SeqIO.read("NC_005816.gb", "genbank")
for feature in record.features:
  if my_snp in feature:
    print("%s %s" % (feature.type, feature.qualifiers.get("db_xref")))

source ['taxon:229193']
gene ['GeneID:2767712']
CDS ['GI:45478716', 'GeneID:2767712']


Обратите внимание, что функции генов и CDS из файлов GenBank или EMBL, определенные с помощью соединений, представляют собой объединение экзонов — они не охватывают интроны.

###4.3.3 Последовательность, описываемая элементом или местоположением
Объект SeqFeatureor location не содержит напрямую последовательность, вместо этого местоположение (см. Раздел ‍ 4.3.2 ) описывает, как получить это из родительской последовательности. Например, рассмотрим (короткую) последовательность гена с расположением 5:18 на обратной цепи, которая в нотации GenBank/EMBL с использованием подсчета на основе 1 будет комплементом(6..18) , например:

In [123]:
from Bio.Seq import Seq
from Bio.SeqFeature import SeqFeature, SimpleLocation
seq = Seq("ACCGAGACGGCAAAGGCTAGCATAGGTATGAGACTTCCTTCCTGCCAGTGCTGAGGAACTGGGAGCCTAC")
feature = SeqFeature(SimpleLocation(5, 18, strand=-1), type="gene")

Вы можете взять исходную последовательность, нарезать ее, чтобы извлечь 5:18, а затем взять обратное дополнение. Начало и конец местоположения функции являются целочисленными, поэтому это работает:

In [124]:
feature_seq = seq[feature.location.start : feature.location.end].reverse_complement()
print(feature_seq)

AGCCTTTGCCGTC


Это простой пример, так что это не так уж плохо — однако, когда вам приходится иметь дело с составными функциями (объединениями), это довольно запутанно. Вместо этого у SeqFeatureобъекта есть extract метод, который позаботится обо всем этом (а поскольку Biopython 1.78 может обрабатывать транс-сплайсинг, предоставляя словарь ссылочных последовательностей):

In [125]:
feature_seq = feature.extract(seq)
print(feature_seq)

AGCCTTTGCCGTC


Длина SeqFeature местоположения или совпадает с длиной области последовательности, которую оно описывает.

In [126]:
print(len(feature_seq))

13


In [127]:
print(len(feature))

13


In [128]:
print(len(feature.location))

13


Для SimpleLocation объектов длина — это просто разница между начальной и конечной позициями. Однако для a CompoundLocation длина представляет собой сумму составляющих областей.

##4.4 Сравнение
Объекты SeqRecord могут быть очень сложными, но вот простой пример:

In [129]:
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
record1 = SeqRecord(Seq("ACGT"), id="test_01")
record2 = SeqRecord(Seq("ACGT"), id="test_02")

Что происходит, когда вы пытаетесь сравнить эти «одинаковые» записи?

In [130]:
# record1 == record2
# Сравнение SeqRecord намеренно не реализовано. Явно сравните интересующие атрибуты.

Вместо этого вы должны проверить интересующие вас атрибуты, например идентификатор и последовательность:

In [131]:
record1.id == record2.id

False

In [132]:
record1.seq == record2.seq

True

Помните, что сравнение сложных объектов быстро усложняется (см. также Раздел ‍ 3.10 ).

##4.5 Ссылки
Еще одна распространенная аннотация, относящаяся к последовательности, — это ссылка на журнал или другую опубликованную работу, посвященную этой последовательности. У нас есть довольно простой способ представления ссылки в Biopython — у нас есть Bio.SeqFeature.Reference класс, который хранит соответствующую информацию о ссылке в виде атрибутов объекта.

Атрибуты включают в себя то, что вы ожидаете увидеть в справочнике, например journal, titleи authors. Кроме того, он также может содержать medline_idи pubmed_idи commentо ссылке. Все они доступны просто как атрибуты объекта.

Ссылка также имеет location  объект, так что он может указать конкретное место в последовательности, на которую ссылается ссылка. Например, у вас может быть журнал, который имеет дело с определенным геном, расположенным на BAC, и вы хотите указать, что он относится только к этой позиции точно. Это location потенциально нечеткое местоположение, как описано в разделе ‍ 4.3.2 .

Любые ссылочные объекты хранятся в виде списка в словаре SeqRecord объектов annotations под ключом «references». Вот и все. Ссылки предназначены для того, чтобы с ними было легко иметь дело, и, надеюсь, они достаточно общие, чтобы охватить множество случаев использования.

##4.6 Метод формата (The format method)
Метод format() класса SeqRecord возвращает строку, содержащую вашу запись, отформатированную с использованием одного из поддерживаемых форматов выходного файла Bio.SeqIO, например FASTA:

In [133]:
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord
record = SeqRecord(
    Seq(
        "MMYQQGCFAGGTVLRLAKDLAENNRGARVLVVCSEITAVTFRGPSETHLDSMVGQALFGD"
        "GAGAVIVGSDPDLSVERPLYELVWTGATLLPDSEGAIDGHLREVGLTFHLLKDVPGLISK"
        "NIEKSLKEAFTPLGISDWNSTFWIAHPGGPAILDQVEAKLGLKEEKMRATREVLSEYGNM"
        "SSAC"
        ),
        id="gi|14150838|gb|AAK54648.1|AF376133_1",
        description="chalcone synthase [Cucumis sativus]",
      )
print(record.format("fasta"))

>gi|14150838|gb|AAK54648.1|AF376133_1 chalcone synthase [Cucumis sativus]
MMYQQGCFAGGTVLRLAKDLAENNRGARVLVVCSEITAVTFRGPSETHLDSMVGQALFGD
GAGAVIVGSDPDLSVERPLYELVWTGATLLPDSEGAIDGHLREVGLTFHLLKDVPGLISK
NIEKSLKEAFTPLGISDWNSTFWIAHPGGPAILDQVEAKLGLKEEKMRATREVLSEYGNM
SSAC



Этот format метод принимает один обязательный аргумент, строку в нижнем регистре, которая поддерживается Bio.SeqIO в качестве выходного формата (см. главу ‍ 5 ). Однако для некоторых форматов файлов Bio.SeqIO может потребоваться более одной записи (как правило, в случае нескольких форматов выравнивания последовательностей), и поэтому этот format()метод не работает. См. также раздел ‍ 5.5.4 .

##4.7 Нарезка SeqRecord
Вы можете нарезать SeqRecord, чтобы получить новое SeqRecord покрытие только части последовательности. Здесь важно то, что любые побуквенные аннотации также нарезаются, а любые функции, которые полностью попадают в новую последовательность, сохраняются (с корректировкой их местоположения).

Например, возьмем тот же файл GenBank, который использовался ранее:

In [135]:
from Bio import SeqIO
record = SeqIO.read("/content/NC_005816.gb", "genbank")
record

SeqRecord(seq=Seq('TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGG...CTG'), id='NC_005816.1', name='NC_005816', description='Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence', dbxrefs=['Project:58037'])

In [136]:
len(record)

9609

In [137]:
len(record.features)

41

В этом примере мы сосредоточимся на pimгене YP_pPCP05. Если вы посмотрите непосредственно на файл GenBank, вы обнаружите, что этот ген/CDS имеет строку местоположения 4343..4780 или в Python подсчет 4342:4780 . Глядя на файл, вы можете понять, что это двенадцатая и тринадцатая записи в файле, поэтому в Python с отсчетом от нуля это записи 11 и 12 в списке функций :

In [138]:
print(record.features[20])

type: gene
location: [4342:4780](+)
qualifiers:
    Key: db_xref, Value: ['GeneID:2767712']
    Key: gene, Value: ['pim']
    Key: locus_tag, Value: ['YP_pPCP05']



In [139]:
print(record.features[21])

type: CDS
location: [4342:4780](+)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['GI:45478716', 'GeneID:2767712']
    Key: gene, Value: ['pim']
    Key: locus_tag, Value: ['YP_pPCP05']
    Key: note, Value: ['similar to many previously sequenced pesticin immunity protein entries of Yersinia pestis plasmid pPCP, e.g. gi| 16082683|,ref|NP_395230.1| (NC_003132) , gi|1200166|emb|CAA90861.1| (Z54145 ) , gi|1488655| emb|CAA63439.1| (X92856) , gi|2996219|gb|AAC62543.1| (AF053945) , and gi|5763814|emb|CAB531 67.1| (AL109969)']
    Key: product, Value: ['pesticin immunity protein']
    Key: protein_id, Value: ['NP_995571.1']
    Key: transl_table, Value: ['11']
    Key: translation, Value: ['MGGGMISKLFCLALIFLSSSGLAEKNTYTAKDILQNLELNTFGNSLSHGIYGKQTTFKQTEFTNIKSNTKKHIALINKDNSWMISLKILGIKRDEYTVCFEDFSLIRPPTYVAIHPLLIKKVKSGNFIVVKEIKKSIPGCTVYYH']



Давайте разрежем эту родительскую запись с 4300 до 4800 (достаточно, чтобы включить pim ген/CDS) и посмотрим, сколько признаков мы получим:

In [140]:
sub_record = record[4300:4800]
sub_record

SeqRecord(seq=Seq('ATAAATAGATTATTCCAAATAATTTATTTATGTAAGAACAGGATGGGAGGGGGA...TTA'), id='NC_005816.1', name='NC_005816', description='Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence', dbxrefs=[])

In [141]:
len(sub_record)

500

In [142]:
len(sub_record.features)

2

В нашей подзаписи есть только две функции: ген и записи CDS для YP_pPCP05:

In [143]:
print(sub_record.features[0])

type: gene
location: [42:480](+)
qualifiers:
    Key: db_xref, Value: ['GeneID:2767712']
    Key: gene, Value: ['pim']
    Key: locus_tag, Value: ['YP_pPCP05']



In [144]:
print(sub_record.features[1])

type: CDS
location: [42:480](+)
qualifiers:
    Key: codon_start, Value: ['1']
    Key: db_xref, Value: ['GI:45478716', 'GeneID:2767712']
    Key: gene, Value: ['pim']
    Key: locus_tag, Value: ['YP_pPCP05']
    Key: note, Value: ['similar to many previously sequenced pesticin immunity protein entries of Yersinia pestis plasmid pPCP, e.g. gi| 16082683|,ref|NP_395230.1| (NC_003132) , gi|1200166|emb|CAA90861.1| (Z54145 ) , gi|1488655| emb|CAA63439.1| (X92856) , gi|2996219|gb|AAC62543.1| (AF053945) , and gi|5763814|emb|CAB531 67.1| (AL109969)']
    Key: product, Value: ['pesticin immunity protein']
    Key: protein_id, Value: ['NP_995571.1']
    Key: transl_table, Value: ['11']
    Key: translation, Value: ['MGGGMISKLFCLALIFLSSSGLAEKNTYTAKDILQNLELNTFGNSLSHGIYGKQTTFKQTEFTNIKSNTKKHIALINKDNSWMISLKILGIKRDEYTVCFEDFSLIRPPTYVAIHPLLIKKVKSGNFIVVKEIKKSIPGCTVYYH']



Обратите внимание, что их расположение было скорректировано, чтобы отразить новую родительскую последовательность!

В то время как Biopython сделал что-то разумное и, надеюсь, интуитивно понятное с функциями (и любой побуквенной аннотацией), для другой аннотации невозможно узнать, применимо ли это все еще к подпоследовательности или нет. Во избежание предположений, за исключением типа молекулы, .annotations и .dbxrefs опущены из подзаписи, и вы должны передать любую соответствующую информацию по мере необходимости.

In [145]:
sub_record.annotations

{'molecule_type': 'DNA'}

In [None]:
sub_record.dbxrefs

Возможно, вы захотите сохранить другие записи, такие как организм? Остерегайтесь копировать весь словарь аннотаций, так как в этом случае ваша частичная последовательность больше не является кольцевой ДНК — теперь она линейна:

In [146]:
sub_record.annotations["topology"] = "linear"

То же самое можно сказать и об идентификаторе записи, имени и описании, но для удобства они сохранены:

In [147]:
sub_record.id

'NC_005816.1'

In [148]:
sub_record.name

'NC_005816'

In [149]:
sub_record.description

'Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence'

Это хорошо иллюстрирует проблему, наша новая подзапись не является полной последовательностью плазмиды, поэтому описание неверно! Давайте исправим это, а затем просмотрим подзапись как уменьшенный файл GenBank, используя метод форматирования , описанный выше в Разделе ‍ 4.6:

In [150]:
sub_record.description = "Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, partial"
print(sub_record.format("genbank")[:200] + "...")

LOCUS       NC_005816                500 bp    DNA     linear   UNK 01-JAN-1980
DEFINITION  Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, partial.
ACCESSION   NC_005816
VERSION     NC_0058...


См. Разделы ‍ 20.1.7 и ‍ 20.1.8 для некоторых примеров FASTQ, в которых также нарезаются побуквенные аннотации (показатели качества чтения).

##4.8 Добавление объектов SeqRecord
Вы можете добавлять SeqRecord объекты вместе, давая новый SeqRecord. Здесь важно то, что любые общие аннотации для каждой буквы также добавляются, все функции сохраняются (с корректировкой их местоположения), а также сохраняются любые другие общие аннотации (например, идентификатор, имя и описание).

Для примера с побуквенной аннотацией мы будем использовать первую запись в файле FASTQ. В главе ‍ 5 объясняются SeqIOфункции:


In [152]:
# >>> from Bio import SeqIO
# >>> record = next(SeqIO.parse("example.fastq", "fastq"))
# >>> len(record)
# 25
# >>> print(record.seq)
# CCCTTCTTGTCTTCAGCGTTTCTCC
# >>> print(record.letter_annotations["phred_quality"])
# [26, 26, 18, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 22, 26, 26, 26, 26, 26, 26, 26, 23, 23]

Давайте предположим, что это были данные Roche 454, и, исходя из другой информации, вы думаете, что TTT должен быть только TT . Мы можем создать новую отредактированную запись, сначала разрезав SeqRecordдо и после «лишнего» третьего T :

In [None]:
# >>> left = record[:20]
# >>> print(left.seq)
# CCCTTCTTGTCTTCAGCGTT
# >>> print(left.letter_annotations["phred_quality"])
# [26, 26, 18, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 22, 26, 26, 26, 26]
# >>> right = record[21:]
# >>> print(right.seq)
# CTCC
# >>> print(right.letter_annotations["phred_quality"])
# [26, 26, 23, 23]

Теперь сложите две части вместе:

In [None]:
# >>> edited = left + right
# >>> len(edited)
# 24
# >>> print(edited.seq)
# CCCTTCTTGTCTTCAGCGTTCTCC
# >>> print(edited.letter_annotations["phred_quality"])
# [26, 26, 18, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 26, 22, 26, 26, 26, 26, 26, 26, 23, 23]

Легко и интуитивно понятно? Мы надеемся на это! Вы можете сделать это короче, просто:

In [None]:
edited = record[:20] + record[21:]

Теперь для примера с функциями мы будем использовать файл GenBank. Предположим, у вас кольцевой геном:

In [154]:
from Bio import SeqIO
record = SeqIO.read("/content/NC_005816.gb", "genbank")
record

SeqRecord(seq=Seq('TGTAACGAACGGTGCAATAGTGATCCACACCCAACGCCTGAAATCAGATCCAGG...CTG'), id='NC_005816.1', name='NC_005816', description='Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence', dbxrefs=['Project:58037'])

In [155]:
len(record)

9609

In [156]:
len(record.features)

41

In [157]:
record.dbxrefs

['Project:58037']

In [158]:
record.annotations.keys()

dict_keys(['molecule_type', 'topology', 'data_file_division', 'date', 'accessions', 'sequence_version', 'gi', 'keywords', 'source', 'organism', 'taxonomy', 'references', 'comment'])

Вы можете изменить происхождение следующим образом:

In [159]:
shifted = record[2000:] + record[:2000]
shifted

SeqRecord(seq=Seq('GATACGCAGTCATATTTTTTACACAATTCTCTAATCCCGACAAGGTCGTAGGTC...GGA'), id='NC_005816.1', name='NC_005816', description='Yersinia pestis biovar Microtus str. 91001 plasmid pPCP1, complete sequence', dbxrefs=[])

In [160]:
len(shifted)

9609

Обратите внимание, что это не идеально, поскольку некоторые аннотации, такие как перекрестные ссылки базы данных, все аннотации, кроме типа молекулы, и одна из функций (исходная функция) были потеряны:

In [161]:
len(shifted.features)

40

In [162]:
shifted.dbxrefs

[]

In [163]:
shifted.annotations.keys()

dict_keys(['molecule_type'])

Это связано с тем, что на SeqRecord этапе нарезки следует соблюдать осторожность при сохранении аннотации (ошибочное распространение аннотации может вызвать серьезные проблемы). Если вы хотите сохранить перекрестные ссылки базы данных или словарь аннотаций, это необходимо сделать явно:

In [164]:
shifted.dbxrefs = record.dbxrefs[:]
shifted.annotations = record.annotations.copy()
shifted.dbxrefs

['Project:58037']

In [165]:
shifted.annotations.keys()

dict_keys(['molecule_type', 'topology', 'data_file_division', 'date', 'accessions', 'sequence_version', 'gi', 'keywords', 'source', 'organism', 'taxonomy', 'references', 'comment'])

Также обратите внимание, что в подобном примере вам, вероятно, следует изменить идентификаторы записей, поскольку ссылки NCBI относятся к исходной неизмененной последовательности.

##4.9 Объекты SeqRecord с обратным дополнением
Одной из новых функций в Biopython 1.57 стал метод SeqRecord объекта reverse_complement. Это попытка сбалансировать простоту использования с заботой о том, что делать с аннотацией в записи с обратным дополнением.

Для последовательности используется метод обратного дополнения объекта Seq. Любые функции переносятся с пересчетом местоположения и пряди. Точно так же любая побуквенная аннотация также копируется, но переворачивается (что имеет смысл для типичных примеров, таких как показатели качества). Однако перенос большинства аннотаций проблематичен.

Например, если идентификатор записи был присоединением, то это присоединение не должно действительно применяться к последовательности с обратным дополнением, а передача идентификатора по умолчанию может легко вызвать незначительное повреждение данных при последующем анализе. Поэтому по умолчанию SeqRecordидентификатор, имя, описание, аннотации и перекрестные ссылки базы данных не передаются по умолчанию.

Метод SeqRecordобъекта reverse_complement принимает ряд необязательных аргументов, соответствующих свойствам записи. Установка этих аргументов в True означает копирование старых значений, а False означает удаление старых значений и использование значения по умолчанию. Вместо этого вы можете указать новое желаемое значение.

Рассмотрим этот пример записи:

In [166]:
from Bio import SeqIO
record = SeqIO.read("/content/NC_005816.gb", "genbank")
print("%s %i %i %i %i" % (record.id, len(record), len(record.features), len(record.dbxrefs), len(record.annotations)))

NC_005816.1 9609 41 1 13


Здесь мы берем обратное дополнение и указываем новый идентификатор, но обратите внимание, что большая часть аннотации отброшена (но не функции):

In [167]:
rc = record.reverse_complement(id="TESTING")
print("%s %i %i %i %i" % (rc.id, len(rc), len(rc.features), len(rc.dbxrefs), len(rc.annotations)))

TESTING 9609 41 0 0
