## Передача данных по сети

До начала занятия желательно установить, используя pip, следующие библиотеки:
- requests
- bs4

![HTTP-Request-Response-scheme.png](attachment:HTTP-Request-Response-scheme.png)

![Ensembl_data_access.png](attachment:Ensembl_data_access.png)

### Загрузка файлов с использованием FTP/SFTP
FTP (File Transfer Protocol) - является одним из старейших протоколов передачи файлов по сети. Данный протокол до сих пор пользуется популярностью благодаря своей простоте. Особенно в тех случаях, когда безопасность передачи данных не является главной задачей. Также данный протокол, в отличие от HTTP/HTTPS, позволяет не только передавать файлы, но и различные команды-операции над файловой системе, а также проводить аутентификацию пользователей<br/>
Для подключения к FTP-серверу необходимо воспользоваться встроенным модулем ftplib:

In [1]:
import ftplib

ftp = ftplib.FTP('ftp.cse.buffalo.edu')
print(ftp.login())
data = ftp.retrlines('LIST')

print(data)

230 Login successful.
drwxr-xr-x    2 202019   5564         4096 Sep 09 16:29 CSE421
drwxr-xr-x    2 202019   5564         4096 Sep 10  2020 CSE468
drwxr-xr-x    2 0        0            4096 Jul 22  2008 bin
drwxr-xr-x    2 0        0            4096 Mar 15  2007 etc
drwx------    2 0        0           16384 Sep 17  2020 lost+found
drwxr-xr-x    6 89987    329651       4096 Sep 05  2015 mirror
drwxrwxr-x    4 6980     546          4096 Sep 23  2020 pub
drwxr-xr-x   14 0        120          4096 Sep 23  2020 users
226 Directory send OK.


In [2]:
ftp.cwd('mirror')
 
data = ftp.retrlines('LIST')
print(data)


drwxr-xr-x    3 89987    329651       4096 Sep 05  2015 BSD
drwxr-xr-x    5 89987    329651       4096 Sep 05  2015 Linux
drwxr-xr-x    3 89987    329651       4096 Sep 23  2020 Network
drwxr-xr-x    3 89987    329651       4096 May 04  2018 X11
226 Directory send OK.


Протокол FTP был изначально создан для передачи больших файлов

In [None]:
x = ftp.retrbinary('RETR observations/metar/decoded/KORD.TXT', open('KORD.TXT', 'wb').write)

SFTP, или «SSH File Transfer Protocol» - протокол передачи файлов по SSH. Стоит отметить, что SFTP не является, FTP с поддержкой SSH, а представляет собой отдельный протокол, специально разработанный для SSH.<br/>
В стандартной библиотеке Python нет клиентского модуля для SFTP/SCP, однако можно использовать библиотеку paramiko.

In [None]:
import paramiko
t = paramiko.Transport((hostname, port))
t.connect(username, password)
sftp = paramiko.SFTPClient.from_transport(t)

### Передача файлов по HTTP/HTTPS
HTTP (HyperText Transfer Protocol) - наиболее популярный из протоколов передачи данных. 
Для передачи данных по протоколу HTTP/HTTPS в Python следует использовать библиотеку requests:

In [6]:
import requests

response = requests.get("http://www.metoffice.gov.uk/pub/data/weather/uk/climate/stationdata/heathrowdata.txt")
print(response.text)

Heathrow (London Airport)
Location 507800E 176700N, Lat 51.479 Lon -0.449, 25m amsl
Estimated data is marked with a * after the value.
Missing data (more than 2 days missing in month) is marked by  ---.
Sunshine data taken from an automatic Kipp & Zonen sensor marked with a #, otherwise sunshine data taken from a Campbell Stokes recorder.
   yyyy  mm   tmax    tmin      af    rain     sun
              degC    degC    days      mm   hours
   1948   1    8.9     3.3    ---     85.0    ---
   1948   2    7.9     2.2    ---     26.0    ---
   1948   3   14.2     3.8    ---     14.0    ---
   1948   4   15.4     5.1    ---     35.0    ---
   1948   5   18.1     6.9    ---     57.0    ---
   1948   6   19.1    10.3    ---     67.0    ---
   1948   7   21.7    12.0    ---     21.0    ---
   1948   8   20.8    11.7    ---     67.0    ---
   1948   9   19.6    10.2    ---     35.0    ---
   1948  10   14.9     6.0    ---     50.0    ---
   1948  11   10.8     4.6    ---     44

Ответ содержит разнообразную информацию, включая заголовок, возвращенный веб-сервером; Для получения данных необходимо обратиться к свойству text ответа, содержащему тело ответа в формате строки, или к свойству content, содержащему тело ответа в формате bytes:

In [None]:
print(response.text)

### Исользование API для получения данных

API (application programming interface) - программный интерфейс приложения. По своей сути, API является набором правил, по которым одна программа (клиент) общается с другой (сервер). Одним из таких архитектурных стилей является REST API.

#### REST (Representational State Transfer)
- Модель клиент-сервер
- Отсутствие состояния
- Кэширование
- Единообразие интерфейса
- Слои
- Код по требованию (необязательное ограничение)

Обратите внимание на то, что элементы строки запроса разделены амперсандами (&).

In [None]:
https://pubmed.ncbi.nlm.nih.gov/?term=Transcription+regulation&filter=pubt.review&filter=years.2012-2022

### Структурированные форматы данных. JSON
JSON (JavaScript Object Notation) - один из текстовых форматов представления данных. В настоящий момент является одним из основных форматов и поддерживается всеми актуальными языками программирования. В формате JSON можно выбедить две структуры: пары ключ-значение, напоминающие словари, и упорядоченные списки значений (массивов), напоминающие списки. При этом в качетсве значений могут быть: числа, булевские значения, строки, списки и т.д.

In [None]:
{
   "firstName": "Иван",
   "lastName": "Иванов",
   "address": {
       "streetAddress": "Московское ш., 101, кв.101",
       "city": "Ленинград",
       "postalCode": 101101
   },
   "phoneNumbers": [
       "812 123-1234",
       "916 123-4567"
   ]
}

Для работы с JSON можно исопльзовать встроенный модуль json:

In [7]:
import json
import requests

response = requests.get("https://www.encodeproject.org/experiments/ENCSR691IZA/?format=json")
encode_json = json.loads(response.text) # переводит байтовую строку в обхект Python. т. е. возвращает словарь
print(encode_json)



In [21]:
encode_json = response.json() # эквивалентно json.loads(response.text)
print(encode_json)



Однако представление словаря в таком виде трудно читаемо. Для того, чтобы сделать представление разных структур данных более понятными, можно воспользоваться модулем pprint (prettyprint):

In [8]:
from pprint import pprint as pp
pp(encode_json)

{'@context': '/terms/',
 '@id': '/experiments/ENCSR691IZA/',
 '@type': ['Experiment', 'Dataset', 'Item'],
 'accession': 'ENCSR691IZA',
 'aliases': ['roadmap-epigenomics:ChIP-Seq analysis of H3K36me3 in human '
             'hippocampus middle cells_Sep-29-2011_74199'],
 'alternate_accessions': [],
 'analyses': [{'@id': '/analyses/ENCAN747GOS/',
               '@type': ['Analysis', 'Item'],
               'accession': 'ENCAN747GOS',
               'aliases': ['encode:ENCSR691IZA_GRCh38_lab-processed'],
               'assembly': 'hg19',
               'datasets': ['/experiments/ENCSR691IZA/'],
               'date_created': '2020-10-22T07:04:09.664855+00:00',
               'documents': [],
               'files': ['/files/ENCFF808FKN/'],
               'pipeline_award_rfas': [],
               'pipeline_labs': [],
               'pipelines': [],
               'schema_version': '1',
               'status': 'archived',
               'submitted_by': '/users/6667a92a-d202-493a-8c7d-7a56

            'aliases': ['roadmap-epigenomics:BI.Brain_Hippocampus_Middle.H3K36me3.150.filt.tagAlign.gz'],
            'alternate_accessions': [],
            'analyses': [{'@id': '/analyses/ENCAN747GOS/',
                          '@type': ['Analysis', 'Item'],
                          'pipeline_award_rfas': [],
                          'status': 'archived',
                          'title': 'Lab custom hg19',
                          'uuid': '25bddfbe-0329-4d74-96cf-f15f4a276d42'}],
            'assay_term_name': 'ChIP-seq',
            'assay_title': 'Histone ChIP-seq',
            'assembly': 'hg19',
            'award': '/awards/ROADMAP/',
            'azure_uri': 'https://datasetencode.blob.core.windows.net/dataset/2016/03/30/28f97cad-884f-45ea-b5dd-ac6d5492dfc7/ENCFF808FKN.tagAlign.gz?sv=2019-10-10&si=prod&sr=c&sig=9qSQZo4ggrCNpybBExU8SypuUZV33igI11xw0P7rB3c%3D',
            'biological_replicates': [1],
            'biosample_ontology': '/biosample-types/tissue_UBERON_000230

                                                                           '/targets/H3K4me1-human/',
                                                                           '/targets/H3K4me2-human/',
                                                                           '/targets/H3K4me3-human/',
                                                                           '/targets/H3K79me2-human/',
                                                                           '/targets/H3K9ac-human/',
                                                                           '/targets/H3K9me1-human/',
                                                                           '/targets/H3K9me3-human/'],
                                                               'title': 'HIST2H3A '
                                                                        '(Homo '
                                                                        'sapiens)',
                                    

                                         'dbxrefs': ['GEO:GSM916041'],
                                         'default_analysis': '/analyses/ENCAN391JJJ/',
                                         'description': '',
                                         'documents': [],
                                         'doi': '10.17989/ENCSR691IZA',
                                         'files': ['/files/ENCFF808FKN/',
                                                   '/files/SRR1270567/',
                                                   '/files/SRR1270589/',
                                                   '/files/ENCFF283KUT/',
                                                   '/files/ENCFF267RDF/',
                                                   '/files/ENCFF631THY/',
                                                   '/files/ENCFF837LRL/',
                                                   '/files/ENCFF337VKV/',
                                                   '/files/ENC

                                 'lab': '/labs/encode-processing-pipeline/',
                                 'mapped': 29793636,
                                 'mapped_pct': '95.36%',
                                 'mapped_qc_failed': 0,
                                 'processing_stage': 'unfiltered',
                                 'quality_metric_of': ['/files/ENCFF631THY/',
                                                       '/files/ENCFF837LRL/'],
                                 'schema_version': '8',
                                 'status': 'released',
                                 'step_run': '/analysis-step-runs/f2c4903e-b9f2-4a0f-b782-2d078035fb9c/',
                                 'submitted_by': '/users/6800d05f-7213-48b1-9ad8-254c73c5b83f/',
                                 'total': 31242538,
                                 'total_qc_failed': 0,
                                 'uuid': 'eaba7c9f-f841-4502-b418-93172953ffd7'}],
            'read_length_unit

                                                                                      'pipeline '
                                                                                      'takes '
                                                                                      'as '
                                                                                      'inputs '
                                                                                      'both '
                                                                                      'ChIP-seq '
                                                                                      'reads '
                                                                                      '(from '
                                                                                      'paired-end '
                                                                                      'or '
                                             

                                                                                      'analysis '
                                                                                      'pipeline '
                                                                                      'for '
                                                                                      'unreplicated '
                                                                                      'histone '
                                                                                      'ChIP-seq. '
                                                                                      'The '
                                                                                      'pipeline '
                                                                                      'takes '
                                                                                      'as '
                                   

                                                                             'reads'],
                                                        'major_version': 1,
                                                        'name': 'bwa-alignment-step-v-1',
                                                        'output_file_types': ['alignments',
                                                                              'unfiltered '
                                                                              'alignments'],
                                                        'parents': ['/analysis-steps/bwa-indexing-step-v-1/'],
                                                        'pipelines': [{'@id': '/pipelines/ENCPL220NBH/',
                                                                       '@type': ['Pipeline',
                                                                                 'Item'],
                                                                       

            'analysis_step_version': {'@id': '/analysis-step-versions/histone-unreplicated-peak-calling-step-v-1-0/',
                                      '@type': ['AnalysisStepVersion', 'Item'],
                                      'aliases': [],
                                      'analysis_step': {'@id': '/analysis-steps/histone-unreplicated-peak-calling-step-v-1/',
                                                        '@type': ['AnalysisStep',
                                                                  'Item'],
                                                        'aliases': ['encode:histone-unreplicated-peak-calling-step-v-1'],
                                                        'analysis_step_types': ['peak '
                                                                                'calling',
                                                                                'signal '
                                                                           

                                                                       'submitted_by': '/users/6800d05f-7213-48b1-9ad8-254c73c5b83f/',
                                                                       'title': 'Histone '
                                                                                'ChIP-seq '
                                                                                '(unreplicated)',
                                                                       'uuid': 'a3a4d844-823e-4662-ad74-52ed3d057b0d'}],
                                                        'schema_version': '15',
                                                        'status': 'released',
                                                        'step_label': 'histone-unreplicated-partition-concordance-peaks-to-bigbed-step',
                                                        'submitted_by': '/users/6800d05f-7213-48b1-9ad8-254c73c5b83f/',
                                                

                                         'alternate_accessions': [],
                                         'analyses': ['/analyses/ENCAN747GOS/',
                                                      '/analyses/ENCAN097MGN/',
                                                      '/analyses/ENCAN391JJJ/',
                                                      '/analyses/ENCAN416FEC/'],
                                         'assay_slims': ['DNA binding'],
                                         'assay_term_id': 'OBI:0000716',
                                         'assay_term_name': 'ChIP-seq',
                                         'assay_title': 'Histone ChIP-seq',
                                         'assembly': ['GRCh38', 'hg19'],
                                         'award': '/awards/U01ES017155/',
                                         'biosample_ontology': '/biosample-types/tissue_UBERON_0002305/',
                                         'biosample_summary': '

                                 'gc_bias_plot': {'download': 'SRR1270567.merged.crop_36-2bp.srt.nodup.p.gc_plot.png',
                                                  'height': 480,
                                                  'href': '@@download/gc_bias_plot/SRR1270567.merged.crop_36-2bp.srt.nodup.p.gc_plot.png',
                                                  'md5sum': 'd7a349a9206164f180357ce68db80111',
                                                  'type': 'image/png',
                                                  'width': 640},
                                 'jsd': 0.16510347618129378,
                                 'jsd_plot': {'download': 'SRR1270567.merged.crop_36-2bp.srt.nodup.p.jsd_plot.png',
                                              'height': 480,
                                              'href': '@@download/jsd_plot/SRR1270567.merged.crop_36-2bp.srt.nodup.p.jsd_plot.png',
                                              'md5sum': '3f5996072fef14f46b

                    'country': 'USA',
                    'fax': '',
                    'institute_label': '',
                    'institute_name': '',
                    'name': 'encode-processing-pipeline',
                    'phone1': '',
                    'phone2': '',
                    'pi': '/users/8b1f8780-b5d6-4fb7-a5a2-ddcec9054288/',
                    'postal_code': '',
                    'schema_version': '5',
                    'state': '',
                    'status': 'current',
                    'title': 'ENCODE Processing Pipeline',
                    'uuid': 'a558111b-4c50-4b2e-9de8-73fd8fd3a67d'},
            'md5sum': '86a6e549fd6401b5763c5dacfcbe27b2',
            'no_file_available': False,
            'output_category': 'annotation',
            'output_type': 'pseudoreplicated peaks',
            'preferred_default': True,
            'quality_metrics': [],
            's3_uri': 's3://encode-public/2021/01/30/0a7d91bf-a9a0-4b79-9a37-e1af17537872/EN

                                               'detail': 'Fully characterized.',
                                               'organisms': ['/organisms/human/'],
                                               'status': 'characterized to '
                                                         'standards',
                                               'targets': ['/targets/H3K36me3-human/']}],
                              'product_id': 'ab9050',
                              'purifications': ['affinity'],
                              'schema_version': '9',
                              'source': '/sources/abcam/',
                              'status': 'released',
                              'submitted_by': '/users/aa57ecb5-3d0e-4b1f-9608-665785270ad7/',
                              'targets': ['/targets/H3K36me3-human/'],
                              'title': 'ENCAB000ADU',
                              'url': 'http://www.abcam.com/index.html?datasheet=9050',
              

json воспринимается как словарь, поэтому также возможны подобные виды записи:

In [9]:
print(encode_json['analyses'][0]['date_created'])

2020-10-22T07:04:09.664855+00:00


In [None]:
outfile = open("encode_json.json", "w")
json.dump(encode_json, outfile) # запись json при помощи метода dump()
outfile.close()

with open("encode_json.json") as infile:
    encode_json_2 = json.load(infile) # чтение JSON'а при помощи load()

### Автоматический сбор данных (web-scrapping)

Очень часто задачу по сбору данных для анализа необходимо производить самостоятельно. Зачастую это происходит от отсутствия возможности получить данные где-либо ещё. Автоматческий сбор данных с веб-страниц в основном осуществляется засчёт "разбора" (парсинга) самих веб-страниц.

#### HyperText Markup Language (HTML) и Cascading Style Sheets (CSS)

In [None]:
<!DOCTYPE html>
<html>
<head>
</head>
<body>

    <h1>The First Heading</h1>
    <p>The first paragraph.</p>
    <p>The second paragraph with a <a href="https://ya.ru">link to ya.ru</a></p>
    <span class="some_class">The highest priority string</span>

</body>
</html>

In [14]:
import bs4
html = open("../files_and_images/dom_example.html").read()
bs = bs4.BeautifulSoup(html, "html.parser")
print(type(bs))

<class 'bs4.BeautifulSoup'>


In [15]:
list_of_p = bs("p")
print('p:', list_of_p)
list_of_a = bs("a")
print('a:', list_of_a)

p: [<p>The first paragraph.</p>, <p>The second paragraph with a <a href="https://ya.ru">link to ya.ru</a></p>]
a: [<a href="https://ya.ru">link to ya.ru</a>]


In [20]:
a_item = list_of_a[0]
print(a_item.text)
print(a_item.text.replace(' ', '_'))
print(a_item.text)
print(a_item["href"])

bs.find_all(class_='some_class') # получить список тегов с контентом по классу
bs.find_all('span', class_='some_class') # получить список определённых тегов (1ый аргумент) с контентом по классу


link to ya.ru
link_to_ya.ru
link to ya.ru
https://ya.ru


[<span class="some_class">The highest priority string</span>]