# Биологические базы данных

Биоинформатики не существует без больших биологических баз данных

## Формат FASTA

Это наиболее часто используемый формат хранения последовательностей нуклеотидов/аминокислот

__Спецификация:__

Файл FASTA состоит из набора записей 

Каждая запись начинается с хедера (обозначается как >).
```fasta
> <Identifier> <Description>
```
После хедера идет сама последовательность

Пример:
```fasta
>MH011443.1 Homo sapiens TP53 (TP53) gene, exon 5 and partial cds
TGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCGTGGCCATCTACAAGCAGTCACAGCACA
TGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGAT
```

## Первичные базы данных

Cодержат необработанные последовательности нуклеотидов или аминокислот с лишь базовым аннотированием

### Базы данных нуклеотидных последовательностей

[GenBank at NCBI](https://www.ncbi.nlm.nih.gov/genbank/) - самая известная база данных такого рода, пендосская. Это всеобъемлющая и хорошо проаннотированная коллекция данных о последовательностях нуклеиновых кислот практически для всех видов организмов. Каждая запись содержит информацию о последовательности одного типа молекул. Есть удобный поиск (называется у них Entrez)

[DNA Database of Japan at NIG](https://www.ddbj.nig.ac.jp/index-e.html) - японская версия. Формат аннотирования абсолютно такой же как у GenBank

[European Nucleotide Archive at EBI](https://www.ebi.ac.uk/ena/browser/home) - европейская версия. Формат аннотирования отличается

Все три базы синхронизируют свои данные между друг другом каждый 24 часа и формируют International Nucleotide Sequence Database Collaboration

Последовательности в этих базах хранятся в формате FASTA

Формат аннотаций у GenBank/DDBJ:

<img src="../media/GenBank_annotation_format.png" width="500"/>


### Базы данных аминокислотных последовательностей

[UniProt Knowledgebase](https://www.uniprot.org) - основная база данных аминокислотных последовательностей, компилирует данные из Swissprot, TrEMBL, и Protein Information Resource. Запись в базе данных содержит обширную информацию, включая название белка, название гена, организм, функцию, таксономию, экспрессию, взаимодействие, структуру, семейства, перекрестные ссылки на другие базы данных и публикации. Помимо Knowledgebase у UniProt есть еще ряд других баз данных, но они уже более специализированные

[Protein database at NCBI](https://www.ncbi.nlm.nih.gov/protein) - аналог от NCBI (это которые GenBank), компилирует данные из Swissprot, PIR, etc., и добавляет к ним ДНК-трансляции из GenBank (вот это уже больше похоже на вторичную базу, но да ладно). Искать можно так же, через систему Entrez

## Вторичные базы данных

Содержат обработанную разными способами информацию из первичных баз

[Prosite](https://prosite.expasy.org) - содержит информацию о **белковых семействах, доменах, функциональных группах и характерных признаках (мотивах)** белков. Для описания мотивов белковых последовательностей в Prosite используются регулярные выражения. Веб-сервер позволяет искать ключевые слова, исследовать последовательности на наличие мотивов, а также искать белковые последовательности с заданными пользователем шаблонами в других базах данных, таких как Swissprot, TrEMBL и PDB, используя алгоритм ScanProsite. Он предоставляет документацию с биологической информацией о семействе белков, домене или функциональном участке.

[PRINTS](https://ngdc.cncb.ac.cn/databasecommons/database/id/762) - это вторичная база данных, которая классифицирует последовательности с помощью **fingerprints**. Fingerprint'ы состоят из нескольких мотивов последовательностей, представленных короткими локальными выравниваниями без привязки. Использование fingerprint'ов повышает чувствительность анализа семейства белков. PRINTS предлагает перекрестные ссылки на соответствующие базы данных и информацию о биологической функции каждого мотива в отпечатке. База данных может быть запрошена с помощью поиска по ключевым словам или путем поиска fingerprint'ов в белковых последовательностях.

[Pfam](https://www.ebi.ac.uk/interpro/entry/pfam/#table) - это вторичная база данных **белковых семейств и доменов**. Эти семейства и домены представлены множественными выравниваниями последовательностей, профильными скрытыми марковскими моделями (HMM) и аннотациями. Pfam доступен в режиме онлайн и используется для таких приложений, как аннотирование генома, классификация белков и предсказание их структуры. Домены Pfam также включены в базу данных eggNOG.

[Interpro](https://www.ebi.ac.uk/interpro/) - это интегрированный ресурс семейств, доменов и сайтов белков. Это **всеобъемлющая база данных сигнатур, которая объединяет важные вторичные базы данных**, такие как Swissprot, TrEMBL, Prosite, Pfam, PRINTS, ProDom, Smart и TIGRFAMs. Interpro позволяет выполнять запросы к этим объединенным базам данных и представляет страницу результатов, объединяющую их, что способствует быстрому сравнению. Interpro используется для поиска семейств и мотивов белков.

## Базы данных соответствия генотипа и фенотипа

[Online Mendelian Inheritance in Man (OMIM)](https://omim.org) - это самая известная база данных генотипов-фенотипов, расположенная в NCBI. Это общедоступная база данных **генов и генетических заболеваний человека**. OMIM содержит подробные и реферируемые обзоры известных менделевских генетических расстройств и генов. Она содержит перекрестные ссылки на такие базы данных, как GenBank.

[Online Mendelian Inheritance in Animals (OMIA)](https://www.omia.org/home/) - база данных генотипов-фенотипов в NCBI, содержащая взаимосвязи для **различных животных, за исключением мышей и человека**.

[База данных генома мыши (MGD)](https://ngdc.cncb.ac.cn/databasecommons/database/id/100) - это соответствующая база данных для **мышиных** отношений генотип-фенотип.

[dbGaP](https://www.ncbi.nlm.nih.gov/gap/) - это база данных генотипов-фенотипов созданная в NCBI. Данные в dbGaP включают **анализ статистической значимости** зарегистрированных связей между генотипом и фенотипом.


[PhenomicDB](https://ngdc.cncb.ac.cn/databasecommons/database/id/1509) - содержит данные о человеке и других важных организмах, таких как мышь, рыба-зебра, плодовая мушка, нематода и пекарские дрожжи. PhenomicDB **интегрирует данные из различных первичных баз данных генотипов-фенотипов**, включая вышеупомянутые. Он предлагает простой поисковый интерфейс, позволяющий ограничивать поиск по организмам и полям базы данных. Благодаря семантической интеграции первичных данных, его можно рассматривать как **метапоисковую систему для фенотипической информации**. PhenomicDB объединяет фенотипы, полученные с помощью различных методов, таких как нокаут, нокин и нокдаун.

[База данных вариаций генома человека (HGVDB)](https://ngdc.cncb.ac.cn/databasecommons/database/id/826) хранит **отношения генотип-фенотип человека**.


## Базы данных молекулярных структур

[Protein Data Bank (PDB)](https://www.rcsb.org/) – база данных экспериментально определённых кристаллических структур биологических макромолекул. Координируется консорциумом в США, Европе и Японии. PDB предлагает несколько вариантов поиска, включая текстовый поиск (ID PDB, ключевое слово) и подробные запросы по ключевым словам/BLAST. Записи содержат сводную информацию о структуре, методе определения (например, рентгенодифракция, ЯМР-спектроскопия), биологической функции и связанных лигандах. Молекулярные структуры можно визуализировать с помощью разных апплетов или прямо в браузере. Записи PDB часто представляют комплексы, а не отдельные белки. PDB используется для анализа структур.

[SCOP](https://scop.mrc-lmb.cam.ac.uk/) – иерархическая классификация белков с известной структурой на основе структурных критериев. Основные уровни: семейства, надсемейства и складки. Семейства объединяют белки с явной эволюционной связью (обычно ≥30% идентичности последовательностей). Надсемейства включают белки с очень низкой идентичностью, но предполагаемой связью на основе структурных и функциональных свойств. Складки группируют белки с одинаковым расположением и топологией вторичных структурных элементов. В новой версии SCOP2 отношения отображаются в виде сети.

[CATH](https://www.cathdb.info/) – иерархическая классификация структур белков по четырём категориям: Class (C), Architecture (A), Topology (T) и Homologous Superfamily (H). Классификация основана на соотношении и расположении вторичных структурных элементов и их взаимосвязях. Пятая категория, Sequence Families, объединяет домены с высокой идентичностью последовательностей (≥35% по ≥60% длины).

[PubChem](https://pubchem.ncbi.nlm.nih.gov/) – база данных NCBI, посвящённая химическим структурам. **PubChem Substance** позволяет искать различные вещества, включая синтетические, неизвестные и природные. **PubChem BioAssay** содержит сведения о биологических тестах и молекулах, протестированных в этих испытаниях. Эти ресурсы содержат информацию, важную для химических исследований.

[AlphaFold Protein Structure Database](https://alphafold.ebi.ac.uk/) – совместный проект Google DeepMind и EMBL-EBI, запущенный 22 июля 2021 г., предоставляющий предсказанные 3D-структуры белков на основе их аминокислотных последовательностей. По состоянию на январь 2024 г. база содержит более 214 млн предсказанных структур, каждая снабжена метрикой доверия pLDDT, встроенной визуализацией и возможностью скачивания координат в формате PDB


## Специализированные базы данных

Специализированные базы данных - это базы данных, созданные для удовлетворения конкретных исследовательских интересов. Эти базы данных создаются с особым упором на конкретный организм или тип данных. 

[FlyBase](https://flybase.org) регистрирует отношения генотип-фенотип для модельного организма *D. melanogaster* (плодовая мушка). Она также содержит гораздо больше информации, чем данные о генотипе-фенотипе. FlyBase входит в список специализированных геномных баз данных.

[WormBase](https://wormbase.org/#012-34-5) регистрирует отношения генотип-фенотип для модельного организма *C. elegans* (нематода). Как и FlyBase, содержит значительную дополнительную информацию. WormBase входит в список специализированных геномных баз данных.

[dbEST](https://www.ncbi.nlm.nih.gov/dbEST/) – dbEST — общедоступная база данных NCBI, собирающая теги экспрессии последовательностей (EST). Это крупный репозиторий EST-последовательностей множества организмов. Одним из её недостатков считается избыточность, особенно для высоко экспрессируемых генов. Используется для анализа биологических последовательностей

[UniGene](https://www.ncbi.nlm.nih.gov/unigene) – UniGene была создана в NCBI для устранения избыточности dbEST. Она объединяет кДНК и EST, происходящие от одного гена, в нереплицируемые группы или кластеры. Это сокращает число записей, позволяя отражать реальное число белков, продуцируемых организмом. UniGene служит основой для других баз данных, перекрёстно ссылаясь на GenBank

[ProtEST](https://www.ncbi.nlm.nih.gov/Web/Newsltr/Spring02/protest.html) – ProtEST — часть базы UniGene, предоставляющая информацию о том, насколько при трансляции cДНК и EST внутри кластера UniGene они сходны с известными белковыми последовательностями

[HomoloGene](https://www.ncbi.nlm.nih.gov/HomoloGene/) – HomoloGene — автономная база данных NCBI, отображающая, есть ли у человеческих кластеров UniGene гомологи в других видах

[dbGSS](https://www.ncbi.nlm.nih.gov/dbGSS/) – dbGSS хранит геномные обзороные последовательности (GSS) в NCBI. GSS — частичные нуклеотидные последовательности из геномных библиотек, которые могут содержать участки ДНК вне кодирующих регионов. Содержит миллионы последовательностей от множества организмов

[ASAP/ASAP2](http://www.bioinformatics.ucla.edu/ASAP/) – ASAP/ASAP2 — базы данных в рамках проекта по аннотации альтернативного сплайсинга (Alternative Splicing Annotation Project). Хранят информацию об альтернативно сплайсированных генах, выявленных на основе EST-последовательностей

[Gene Expression Omnibus (GEO)](https://www.ncbi.nlm.nih.gov/geo/) – Gene Expression Omnibus (GEO) — база данных NCBI для управления и анализа данных профилирования экспрессии генов, полученных методами микрочипов и SAGE. Хранит результаты, сырые данные, протоколы и условия эксперимента. Для данных SAGE содержит информацию о каждом теге: последовательность, частоту и исходный транскрипт

[ArrayExpress](https://www.ebi.ac.uk/arrayexpress/) – ArrayExpress — база данных EBI для хранения и анализа данных профилирования экспрессии, например микрочипных экспериментов. Содержит результаты, сырые данные, протоколы и условия опыта

[Kyoto Encyclopedia of Genes and Genomes (KEGG)](https://www.kegg.jp/) – Kyoto Encyclopedia of Genes and Genomes (KEGG) — энциклопедия для анализа метаболических путей от GenomeNet (Япония). Включает связанные базы: PATHWAY (графики путей), LIGAND (химия веществ, ферментов, реакций), GENE (гены и белки), BRITE (онтология), EXPRESSION (экспериментальные данные) и SSDB (ортологи). Карты PATHWAY упрощают сравнение путей между организмами, LIGAND поддерживает поиск по тексту и структуре. Содержит геномную, химическую и системную функциональную информацию о клеточных процессах

[eggNOG](http://eggnog5.embl.de/) – eggNOG — база ортологичных групп белков. Содержит кластеры на разных таксономических уровнях с функциональными аннотациями (GO, KEGG, домены). Клasterизация основана на устаревшей базе COG. Предоставляет текстовый и последовательностный поиск; результаты могут включать филогенетические деревья, выравнивания и профили

[COG](https://www.ncbi.nlm.nih.gov/research/cog/) – COG — прекращённая вручную курируемая база, служившая основой для кластеризации eggNOG. Содержала ортологичные группы для эукариот, бактерий и архей

[Microbial Genome Database (MBGD)](http://mbgd.genome.ad.jp/) – MBGD — база данных микробных геномов. Позволяет строить таблицы кластеров для выбранных организмов и выполнять поиск по ключевым словам. Применяется в сравнительной геномике для изучения сходства организмов

[STRING](https://string-db.org/) – STRING — база данных функциональных ассоциаций белков, собирающая известные и предсказанные взаимодействия между белками

[IntAct Molecular Interaction Database](https://www.ebi.ac.uk/intact/) – IntAct — открытая база и набор инструментов для хранения и анализа данных о молекулярных взаимодействиях, в том числе белок–белковых

[Sequence Read Archive (SRA)](https://www.ncbi.nlm.nih.gov/sra/) – Sequence Read Archive (SRA) — крупнейшее публичное хранилище данных высокопроизводительного секвенирования (NGS). Содержит сырые данные и информацию о выравнивании

[BioCyc](https://biocyc.org/) – BioCyc — коллекция путей и геномов (Pathway/Genome Databases), включает более 20 000 баз для разных организмов и инструменты для их анализа. Содержит данные, полученные из 153 000 статей, и поддерживается международным сотрудничеством

[Gene Ontology (GO)](http://geneontology.org/) – Gene Ontology (GO) — крупнейшая онтологическая база данных, описывающая функции генов и их продуктов в трёх областях (молекулярная функция, биологический процесс, клеточный компонент). Широко используется для функциональной аннотации в других базах

[1000 Genomes Project](https://www.internationalgenome.org/) – Проект 1000 геномов — международная инициатива (2008–2015) по созданию подробного каталога человеческой генетической вариации. Охватил ≥1 092 генома разных популяций и позже стал основой для International Genome Sample Resource

[Exome Aggregation Consortium (ExAC)](https://exac.broadinstitute.org/) – ExAC — база, агрегирующая целевые экзомные данные (\~60 000 образцов) для исследования человеческой генетической вариативности и поддержки клинической генетики

[Genome Aggregation Database (gnomAD)](https://gnomad.broadinstitute.org/) – gnomAD — преемник ExAC, объединяющий экзомные и геномные данные сотен тысяч образцов для изучения редких и распространённых генетических вариантов

[ChEMBL](https://www.ebi.ac.uk/chembl/) – ChEMBL — вручную курируемая база биоактивных соединений с лекарственным потенциалом. Объединяет химические, биологические и геномные данные для ускорения разработки лекарств

[SwissSidechain](https://www.swisssidechain.ch/) – SwissSidechain — структурно-механическая база сотен нетипичных аминокислотных боковых цепей. Предоставляет файлы PDB/MOL2/SMILES, плагины для PyMOL и Chimera, а также параметры для молекулярной механики

## Источники

https://notebooklm.google.com/notebook/34a7abd0-444d-4333-aa58-eab1ce1d0bfe?_gl=1*htarr8*_up*MQ..*_ga*MTgyODAwNzQ2NC4xNzQ2MTE5NTY5*_ga_W0LDH41ZCB*MTc0NjExOTU2OC4xLjAuMTc0NjExOTU2OC4wLjAuMA..&original_referer=https:%2F%2Fnotebooklm.google%23&pli=1