# Лабораторна робота №1

## Програмний доступ до баз даних NCBI

*Тема*: програмний доступ до баз даних NCBI, користування інтерфейсом баз даних Entrez

*Mета*: навчитись користуватись інтерфейсом Entrez, ознайомитись з доступом до бази даних 

#### Теоретичні відомості

Entrez - це основна система пошуку та отримання бази даних NCBI, яка інтегрує базу даних біомедичної літератури PubMed з 38 іншими літературами та молекулярними базами даних, включаючи послідовності ДНК та білків, структуру білків, відомості про гени, геноми, генетичну варіацію та експресію генів. Інтерфейс пошуку Entrez має потужні варіанти для побудови точного пошуку та управління результатами. Опції включають популярні налаштовані заздалегідь встановлені фасетні фільтри, що допомогають зосередитись на конкретних видах результатів та інтерфейс розширеного пошуку, який полегшує побудову більш складних запитів. Спеціалізовані поля пошуку доступні для кожної бази даних, і їх можна переглядати та вибирати в розділі "Конструктор пошуку" інтерфейсу розширеного пошуку. Інші корисні функції Entrez включають історію пошуку з доступом до останніх результатів та буфер обміну, де результати пошуку можна тимчасово зберігати. Найголовніше, що Entrez інтегрує дані з посиланнями всередині і між базами даних. Це не лише покращує навігацію та дозволяє швидко зосередити або розширити результати пошуку; але, що ще важливіше, ці відносини часто виявляють несподівані зв’язки, які можуть призвести до наукових відкриттів. Більше про систему Entrez можна прочитати тут: https://www.ncbi.nlm.nih.gov/books/NBK3837/

Для проведення цієї лабораторної роботи використовується Jupyter Notebook. Jupyter Notebook (раніше IPython) - це веб-інтерактивне обчислювальне середовище для створення інтерактивних програмних документів. Термін "ноутбук" може розмовно посилатися на багато різних об'єктів, в основному веб-додаток Юпітер, веб-сервер Jupyter Python або формат документа Jupyter залежно від контексту. Документ Jupyter Notebook - це документ JSON, виконаний за схемою, що впорядковується, і містить упорядкований перелік вхідних / вихідних комірок, який може містити код, текст (за допомогою Markdown), математичні обчислення, графіки та мультимедіа, зазвичай має розширення ".ipynb". Більше про Jupyter Notebooks ви можете прочитати за адресою: https://jupyter.org/

Ви можете завантажити готовий до виконання лаборатороної роботи ноутбук за адресою: 

Про Entrez модуль Biopython: https://biopython.org/DIST/docs/api/Bio.Entrez-module.html

Рекомендуємо використати Anaconda для встановлення та використання Jupyter Notebook.

На цій лабораторній роботі ми навчимося під'єднуватись програмно до баз даних NCBI за допомогою системи Entrez та навчимось інтерпретувати результати таких запитів.

#### Практичне завдання

1. Встановити необхідні залежності та імпортувати до середовища необхідні модулі.

Рекомендується виконувати цю роботу у Jupyter Notebook. Запустіть ноутбук lr1.ipynb та віднайдіть відповідну ділянку коду. Надалі весь програмний код у цій лабораторній роботі буде виділятись табуляцією. Для того, щоб виконати певну команду в Jupyter notebook, виділіть відповідну комірку з кодом та натисніть Ctrl+Enter або Shift+Enter:

In [None]:
conda install -c anaconda biopython

In [None]:
import os
import math
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from Bio import Entrez
# if using a Jupyter notebook, inlcude:
%matplotlib inline

2. Перше завдання — це навчитись добувати дані з баз даних NCBI програмними запитами. Для початку спробуємо добути інформацію з бази даних Gene. Ця база даних містить інформацію щодо індивідуальних генів. Спробуємо отримати інформацію щодо гену, що кодує лейкоцитарний антиген людини.

Зареєструйте акаунт на сайті NCBI (https://www.ncbi.nlm.nih.gov/account/) та введіть в наступні комірки свої email та api-key, отримані при реєстрації акаунту.


In [None]:
Entrez.email = 'XXX'
Entrez.api_key = 'XXX'

Після цього за допомогою команди Entrez.esearch запустіть пошук по базі даних Entrez за обраним геном та отримайте результат. Зберіжіть результат у змінній record.
Виведіть результат пошуку на екран. Ви побачите, що отримали велику кількість ID різних генів, що мають відношення до Human Leukocyte Antigen.


In [None]:
handle = Entrez.esearch(db = 'gene', retmax = 100000, term = 'Human Leukocyte Antigen')
record = Entrez.read(handle)
handle.close()

In [None]:
print(record)

Запустіть біль детальний пошук по першому ID зі списку за допомогою команди Entrez.efetch. Збережіть та виведіть отриманий результат на екран. 

In [None]:
fetch_id = record['IdList'][0]
print(fetch_id)

In [None]:
handle = Entrez.efetch(db = 'gene', id = fetch_id, retmode = 'text', rettype = 'gene_table')
print(handle.readline().strip())

In [None]:
print(handle.readlines())

Ви зможете побачити більш детальну інформацію щодо обраного гену. Повторюючі такі дії щодо великої кількості генів можна швидко отримати велику кількість релевантної інформації для подальшого аналізу.

3. Тепер давайте спробуємо добути інформацію щодо якоїсь нуклеотидної послідовності, скористаючись базою даних nucleotide.

Запустіть пошук щодо обраного генетичного терміну (у прикладі — циклоспорин) по базі даних nucleotide, аналогічно до п.2. Збережіть результати.Використовуючи отримані результати, для кожного отриманого ID запустіть пошук та отримайте більш детальну інформацію щодо нуклеотидної послідовності. Збережіть дані нуклеотидних послідовностей у список nucleotide_list та виведіть їх на екран. Слід зазначити, що наступний код може виконуватись 30-40 секунд.


In [None]:
nucleotide_term = 'Cyclosporin'
handle = Entrez.esearch(db = 'nucleotide', retmax = 10, term = nucleotide_term)
record = Entrez.read(handle)
handle.close()

nucleotide_list = []

for nucleotide_id in record["IdList"]:
    handle = Entrez.efetch(db="nucleotide", id= nucleotide_id, rettype="gb", retmode="text")
    nucleotide_list.append(handle.readline().strip())

for item in nucleotide_list:
    print(item)

Результат такого коду значно повторює ручний пошук по БД nucleotide, однак, як і будь-який програмний засіб такого роду, дозволяє оптимізувати великі, масштабні запити та полегшує подальшу обробку. Приклад такої обробки даних представлений в наступному пункті.
		

4. Наше фінальне на сьогодні завдання — побудувати графік зміни кількості статей для вибраної теми. Для будь-якого науковця важливо розуміти, наскільки активно йдуть розробки в обраній ним темі. Entrez дозволяє визначити таку інформацію, отримавши дані з БД Pubmed та PMC, що зберігають дані про наукові статті.

Спочатку оберіть термін, який хочете шукати та час виходу наукових статей.


In [None]:
term = "Microbiome"
starting_year = 2010
final_year = 2018

Наступний код дозволяє записати у список count_list інформацію, скільки виходило за вашою обраною темою наукових статей, отримаючи інформацію з БД PMC командою Entrez.esearch. Запустіть цей код

In [None]:
date_list = list(range(starting_year, final_year+1))

count_list = []

for date in date_list:
    searchquery = '{} AND {}[Publication Date]'.format(term, date)
    handle = Entrez.esearch(db = 'pmc', retmax = 100000, term = searchquery)
    record = Entrez.read(handle)
    handle.close()
    count_list.append(int(record['Count']))

In [None]:
count_list

Побудуйте графік популярності вашої теми у наукових працях, використовуючи бібліотеку мови Python matplotlib. Оскільки побудова графіків виходить за межі теми та мети цієї лабораторної роботи, пояснення принципу роботи нижченаведеного коду не надається. Для детальної інформації щодо matplotllib перейдіть за адресою: https://matplotlib.org/


In [None]:
fig_size = plt.rcParams["figure.figsize"]
fig_size[0] = 15
fig_size[1] = 10
plt.rcParams["figure.figsize"] = fig_size

font = {'family' : 'normal',
        'weight' : 'normal',
        'size'   : 14}

mpl.rc('font', **font)

fig,ax = plt.subplots()

ax.plot(date_list, count_list, color='#ee7777', linewidth=4, label = term)

ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))
ax.set_xlabel('Year')
ax.set_ylabel('Scholarly Articles')
ax.set_title('Scholarly publications about {}, {}-{}'.format(term, starting_year,final_year))

### Висновки

НАПИШІТЬ ВАШІ ВИСНОВКИ

### Контрольні запитаня


1. Що таке NCBI Entrez?
2. Що таке Jupyter Notebook?
3. Наведіть приклади використання програмних засобів для отримання інформації з наукових баз даних?
4. Наведіть 5 баз даних, що входять до мережі баз даних NCBI
5. Які, на вашу думку, переваги та недоліки застосування програмних засобів для отримання інформації з наукових баз даних?