# Автоматизация поисковых запросов на R

Язык для статистического моделирования [R (S-plus)](http://r-project.org) широко распространен при решении научных и прикладных задач анализа данных.

За время своего более 20-ти летнего существования, среда статистичекого моделирования R обзавелась огромной [экосистемой](https://cran.r-project.org/mirrors.html) различных проблемно-ориентированных пакетов, позволяющих автоматизировать процесс решения самых разнообразных научных и приклданых задач, связанных с обработкой данных.

Выполняемый код в приводимом документе содержится в блоках, имеющих вид In[xxx]; его можно выполнить с использованием интерпретатора R, либо интерактивном режиме, либо предварительно сохранив в файл R-скрипта -- текстовой файл с расширением .r.

Данный документ создан при помощи [Jupyter](http://jupyter.org) и [IRkernel](https://irkernel.github.io/).

## Подготовка вычислительной среды

Автоматизация поисковых запросов в среде R предполагает:
* Формирование HTTP-запроса к серверу, согласно [HTTP-API](http://botsad.ru/herbarium/docs/ru/http_api.html);
* Преобразование полученного JSON-ответа в удобный в среде R вид (например, DataFrame-объект);

Для решения этих двух задач в экосистеме R имеется большое число пакетов. 
Приводимый далее код предполагает, что в вычислительной среде установлен пакет [jsonlite](https://cran.r-project.org/web/packages/jsonlite/index.html) (для преобразования json-форматированных данных) и [curl](https://cran.r-project.org/web/packages/curl/index.html) (для возможности загрузки данных по HTTP протоколу).

In [1]:
install.packages(c('jsonlite', 'curl')) #устанавливаем пакеты, если они не установлены

Installing packages into ‘/home/dmitry/R/x86_64-suse-linux-gnu-library/3.3’
(as ‘lib’ is unspecified)


In [2]:
library(jsonlite)

In [3]:
data<-fromJSON('http://botsad.ru/hitem/json/?collectedby=Пименова') # на загрузку данных может потребоваться время

In [4]:
data$data

species_authorship,updated,family,acronym,species_status,significance,gpsbased,species_epithet,country,identification_finished,⋯,collection_finished,branch,short_note,latitude,region,genus,fieldid,infraspecific_epithet,type_status,details
(Spenn.) Fée,2017-06-13,DRYOPTERIDACEAE,VBGI,From plantlist,,FALSE,braunii,Russia,,⋯,,,,43.06703,Приморский край,Polystichum,,,,"г. Ливадийская (Фалаза), кедрово-широколиственный лес"
Hara,2017-06-13,CRASSULACEAE,VBGI,From plantlist,,TRUE,iwarenge,Russia,,⋯,,,,42.89162,Приморский край,Orostachys,,,,"Залив Восток, база ""Восток"", мыс Пашинникова, скалы на берегу моря"
Chaix,2017-06-13,JUNCACEAE,VBGI,From plantlist,,FALSE,alpinoarticulatus,Russia,2015-04-01,⋯,,,,45.82908,Приморский край,Juncus,,,,"с. Амгу, близ устья р. Амгу"
Willd. ex Schult. & Schult.f.,2017-06-13,AMARYLLIDACEAE,VBGI,From plantlist,,TRUE,splendens,Russia,2015-04-01,⋯,,,,45.89254,Приморский край,Allium,,,,"г. Туман, щебнистая осыпь в подгольцовом поясе"
(Regel) Sojak,2017-06-13,POLYGONACEAE,VBGI,From plantlist,,TRUE,maackianum,Russia,,⋯,,,,42.45782,Приморский край,Truellum,,,,"оз. Лотос, на сплавине"
(Regel) Sojak,2017-06-13,POLYGONACEAE,VBGI,From plantlist,,TRUE,maackianum,Russia,,⋯,,,,42.45782,Приморский край,Truellum,,,,"оз. Лотос, на сплавине"
(Regel) Sojak,2017-06-13,POLYGONACEAE,VBGI,From plantlist,,TRUE,maackianum,Russia,,⋯,,,,42.45782,Приморский край,Truellum,,,,"оз. Лотос, на сплавине"
(Maxim.) Maxim. ex Franch. & Sav.,2017-07-13,CUCURBITACEAE,VBGI,From plantlist,,TRUE,lobatum,Russia,,⋯,,,,42.45782,Приморский край,Actinostemma,,,,"оз. Лотос, на сплавине"
(Buch.-Ham. ex Roxb.) Maxim.,2017-06-13,LAMIACEAE,VBGI,From plantlist,,TRUE,dianthera,Russia,,⋯,,,,42.45782,Приморский край,Mosla,,,,"оз. Лотос, на сплавине"
(Buch.-Ham. ex Roxb.) Maxim.,2017-06-13,LAMIACEAE,VBGI,From plantlist,,TRUE,dianthera,Russia,,⋯,,,,42.45782,Приморский край,Mosla,,,,"оз. Лотос, на сплавине"


Более сложные поисковые запросы можно структурировать используя списки:

In [5]:
http_api_base_url <- 'http://botsad.ru/hitem/json/?'
search_parameters <- c('collectedby', 'Пименова', 'identifiedby', 'Крестов')

В данном случае, параметры, наряду с их значениями, определены в виде списка `search_parameters`; далее, используется функция `paste`, чтобы построить из параметров и их значений поисковый URI (`c(TRUE,FALSE)` и `c(False, True)` используется, чтобы получить все четные и нечетные позиции массива `search_parameters` и правильно расставить символы `&` и `=`):

In [6]:
search_url <- paste(http_api_base_url, paste(search_parameters[c(TRUE, FALSE)], search_parameters[c(FALSE, TRUE)], sep='=', collapse='&'), sep='')

In [7]:
new_data <- fromJSON(search_url)

In [8]:
dim(new_data$data)

In [9]:
new_data$data

species_authorship,updated,family,acronym,species_status,significance,gpsbased,species_epithet,country,identification_finished,⋯,collection_finished,branch,short_note,latitude,region,genus,fieldid,infraspecific_epithet,type_status,details
Tzvelev,2017-06-13,DRYOPTERIDACEAE,VBGI,From plantlist,,False,subtripteron,,,⋯,2014-05-20,,,43.53312,Приморский край,Polystichum,,,,"Борисовское плато. верх. течение р. Нежинка, р. Раздольненский, долинный смешанный лес на надпойменной террасе."
Tzvelev,2017-06-13,DRYOPTERIDACEAE,VBGI,From plantlist,,False,subtripteron,,,⋯,,,,43.44694,Приморский край,Polystichum,,,,"Борисовское плато, верх. течение р. Нежинка, выше устья руч. Раздольненский, долинный смешанный лес на надпойменной террасе."


Вложенные структуры данных, представленные полями `dethistory` и `additionals`, также корректно преобразуются в data.frame посредством функции `fromJSON`:

In [10]:
new_data$data$dethistory

species_authorship,family,species_status,species_epithet,infraspecific_authorship,infraspecific_rank,genus_authorship,species_fullname,species_id,valid_from,identifiers,family_authorship,valid_to,significance,genus,infraspecific_epithet
Tzvelev,DRYOPTERIDACEAE,From plantlist,subtripteron,,,,Polystichum subtripteron Tzvelev,216942,2016-09-17,Храпко О.В.,,,,Polystichum,


Поскольку информация о гербарных сборах хранится в аттрибует `data` при загрузке данных с сервера, можно ввести вспомогательную переменную, чтобы не писать многократно `new_data$data` при обращении к данным:

In [11]:
my_data <- data$data

In [12]:
data.frame(table(my_data$family))

Var1,Freq
ACORACEAE,1
ACTINIDIACEAE,4
ADOXACEAE,14
ALISMATACEAE,1
ALLISONIACEAE,2
AMARANTHACEAE,2
AMARYLLIDACEAE,10
APIACEAE,23
APOCYNACEAE,3
AQUIFOLIACEAE,1


Для статистеской среды R создано огромное количество пакетов для решения задач статистической обработки данных практически на все случаи жизни. Например, если необходимо вычислить индекс биоразнообразия Шеннона, можно воспользоваться пакетом [vegan](http://cc.oulu.fi/~jarioksa/softhelp/vegan/), который также включает множество других дополнительных возможностей для решения задач обработки ботанических данных.

In [13]:
library(vegan)

Loading required package: permute
Loading required package: lattice
This is vegan 2.4-4


Индекс биоразнообразия Шэннона по аттрибуту "Семейство" (Family):

In [14]:
diversity(table(my_data$family))

# Экспорт данных в csv-файл

Загруженные в статистическую среду данные можно экспортировать, например, в csv-формат, который удобен, 
если дальнейшая работа с ними предполагает использование программы MS Excel.

Рассмотрим пример экспорта всех гербарных образцов семейства ARALIACEAE; При этом будем сохранять данные только выделенных колонок, а именно: уникальный идентификатор записи (ID), полное название вида (species_fullname), коллекторы (collectors), широта (latitude), долгота (longitude), высота (elevation). Названия колонок, приведенные в скобках, соответствуют параметрам json-ответа сервера и даны в [официальной документации](http://botsad.ru/herbarium/docs/ru/http_api.html) в разделе `Параметры ответа сервера`.

In [15]:
araliaceae_records <- fromJSON('http://botsad.ru/hitem/json/?family=Araliaceae')

In [16]:
araliaceae_records

species_authorship,updated,family,acronym,species_status,significance,gpsbased,species_epithet,country,identification_finished,⋯,collection_finished,branch,short_note,latitude,region,genus,fieldid,infraspecific_epithet,type_status,details
(Rupr. & Maxim.) Maxim.,2017-06-13,ARALIACEAE,VBGI,From plantlist,,False,senticosus,Russia,,⋯,,,,50.27938,Хабаровский край,Eleutherococcus,,,,"Долина реки Ярап, долинный тополевый лес"
(Rupr. & Maxim.) Maxim.,2017-06-13,ARALIACEAE,VBGI,From plantlist,,False,senticosus,Russia,,⋯,,,,50.28341,Хабаровский край,Eleutherococcus,,,,"Долина реки Ярап, старица, долинный чозениево-тополевый лес"
(Rupr. & Maxim.) Maxim.,2017-06-13,ARALIACEAE,ABGI,From plantlist,,False,senticosus,Russia,,⋯,,,,49.84374,Амурская область,Eleutherococcus,,,,"Муравьевский природный парк, в посадках."
(Rupr. & Maxim.) Maxim.,2017-06-13,ARALIACEAE,ABGI,From plantlist,,False,senticosus,Russia,,⋯,,,,49.84374,Амурская область,Eleutherococcus,,,,"Муравьевский природный парк, в посадках."
(Rupr. & Maxim.) Maxim.,2017-06-13,ARALIACEAE,ABGI,From plantlist,,False,senticosus,Russia,2016-08-12,⋯,2016-08-12,,,48.4349,Хабаровский край,Eleutherococcus,,,,"Долинный остров, лес в пойме р.Ярап."
(Rupr. & Maxim.) Maxim.,2017-06-13,ARALIACEAE,ABGI,From plantlist,,False,senticosus,Russia,2016-08-12,⋯,2016-08-12,,,48.4349,Хабаровский край,Eleutherococcus,,,,р.Ярап
(Rupr. & Maxim.) S.Y.Hu,2017-06-13,ARALIACEAE,ABGI,From plantlist,,False,sessiliflorus,Russia,1989-06-19,⋯,1989-06-19,,,47.87721,Еврейская Автономная Область,Eleutherococcus,,,,"Екатерино- Никольское, медвежий утес."
(Rupr. & Maxim.) S.Y.Hu,2017-06-13,ARALIACEAE,ABGI,From plantlist,,False,sessiliflorus,Russia,1989-06-19,⋯,1989-06-19,,,47.79517,Еврейская Автономная Область,Eleutherococcus,,,,"Екатерино- Никольское, медвежий утес."
(Rupr. & Maxim.) Maxim.,2017-06-13,ARALIACEAE,ABGI,From plantlist,,False,senticosus,Russia,1990-08-11,⋯,1990-08-11,,,49.62539,Амурская область,Eleutherococcus,,,,"Остров Виноградный, пойменный лес."
(Rupr. & Maxim.) Maxim.,2017-06-13,ARALIACEAE,ABGI,From plantlist,,False,senticosus,Russia,1990-08-11,⋯,1990-08-11,,,49.62272,Амурская область,Eleutherococcus,,,,Остров Виноградный.


Далее, выбираем нужные для экспорта колонки данных.

In [17]:
export_data <- araliaceae_records$data[,c('id','species_fullname','collectors','latitude','longitude','altitude')]

In [18]:
export_data

id,species_fullname,collectors,latitude,longitude,altitude
52,Eleutherococcus senticosus (Rupr. & Maxim.) Maxim.,Андышева Е.А.,50.27938,134.7095,
91,Eleutherococcus senticosus (Rupr. & Maxim.) Maxim.,Корзников К.А.,50.28341,134.7152,
612,Eleutherococcus senticosus (Rupr. & Maxim.) Maxim.,Морозова Г.Ю.,49.84374,127.7298,122.0
613,Eleutherococcus senticosus (Rupr. & Maxim.) Maxim.,Морозова Г.Ю.,49.84374,127.7298,122.0
614,Eleutherococcus senticosus (Rupr. & Maxim.) Maxim.,Ступникова Т.В.,48.4349,134.1659,76.0
615,Eleutherococcus senticosus (Rupr. & Maxim.) Maxim.,Ступникова Т.В.,48.4349,134.1659,76.0
616,Eleutherococcus sessiliflorus (Rupr. & Maxim.) S.Y.Hu,Старченко В.М.,47.87721,131.0518,73.0
617,Eleutherococcus sessiliflorus (Rupr. & Maxim.) S.Y.Hu,Старченко В.М.,47.79517,130.9927,73.0
618,Eleutherococcus senticosus (Rupr. & Maxim.) Maxim.,"Старченко В.М., Елизаров А.",49.62539,127.9516,7.0
619,Eleutherococcus senticosus (Rupr. & Maxim.) Maxim.,"Старченко В.М., Дарман Г.Ф.",49.62272,127.9468,7.0


In [19]:
write.csv(export_data, file='araliacea_dataset.csv')

Отметим, что в этом случае в текущей рабочей директории будет создан файл `araliaceae_dataset.csv`; указать конкретное местоположение сохранения файла можно, либо предварительно изменив рабочую директорию при помощи функции `setwd`, или указав путь к файлу в параметре `file` (т.е. `file="/path/to/your/home/folder/your_filename.csv"`) функции `write.csv`.

## Эмуляция OR-запросов

Поскольку HTTP-API при задании нескольких GET-параметров выполняет поиск тех записей, у которых одновременно выполняются все поисковые условия (т.е. AND-поисковый запрос), для имитации условий типа ИЛИ (OR) необходимо выполнить несколько последовательных запросов к поисковому сервису с последующей склейкой полученных результатов по уникальному коду записей ID.

Приведем пример выполнения OR-запроса; определим два набора параметров запроса в переменных `search_parameters1` и `search_parameters2`:

In [20]:
search_parameters1 <- c('identifiedby', 'Пименова', 'collectedby', 'Пименова')
search_parameters2 <- c('identifiedby', 'Крестов', 'collectedby', 'Крестов')
search_url1 <- paste(http_api_base_url, paste(search_parameters1[c(TRUE, FALSE)], search_parameters1[c(FALSE, TRUE)], sep='=', collapse='&'), sep='')
search_url2 <- paste(http_api_base_url, paste(search_parameters2[c(TRUE, FALSE)], search_parameters2[c(FALSE, TRUE)], sep='=', collapse='&'), sep='')

In [21]:
search_url1

In [22]:
search_url2

In [23]:
dataset1 <- fromJSON(search_url1)
dataset2 <- fromJSON(search_url2)

In [24]:
df1<-data.frame(dataset1$data)
df2<-data.frame(dataset2$data)

In [25]:
merged_data <- rbind(df1, df2)

In [26]:
dim(df2)
dim(df1)
dim(merged_data)

Сейчас переменная `merged_data` может содержать дублирующиеся строки; эти строки можно удалить, используя тот факт, что параметр `id` является для них уникальным.

In [27]:
data_without_dups<-merged_data[!duplicated(merged_data$id),]

In [28]:
dim(data_without_dups)

Таким образом, контейнер данных (`data.frame`) `data_without_dups` представляет собой результат поискового запроса c параметрами `search_parameters1` или `search_parameters2` (т.е. найдены все записи, у которых в сборах и определении участвовал "Крестов", либо в сборах и определении участвовала "Пименова").

## Поиск объектов в заданной области

Предположим, что область поиска задана и представляет собой ESRI-shapefile. Поскольку оброботчик поисковых запросов поддреживает задание только прямоугольных областей поиска, поиск по сложной области будет проходить в несколько этапов: 1) определим минимальную по площади прямоугольную область, в которую включается заданная; 2) выполним поиск данных в найденной прямоугольной области; 3) отфильтруем записи, не принадлежащие заданной области.

Для чтения shape-файлов в R нам потребуется установить библиотеку `rgdal`. Данный пакет используется отрытую библиотеку для обработки географически распределенных данных GDAL, которая нередко используется при создании различного рода геоинформационных систем (ГИС).

Таким образом, установка `rgdal` требует установленной библиотеки [GDAL](http://www.gdal.org/) (наличие GDAL в меньшей степени касается пользователей Windows, поскольку пакет `rgdal` в своем Windows-дистрибутиве уже включает GDAL).

In [29]:
library('rgdal')
shape_rgdal <- readOGR(dsn=path.expand("/home/dmitry/workspace/herbs/herbs/docs/tutorial/R/ru/sakhalin"), layer="sakhalin")

Loading required package: sp
rgdal: version: 1.2-16, (SVN revision 701)
 Geospatial Data Abstraction Library extensions to R successfully loaded
 Loaded GDAL runtime: GDAL 2.1.3, released 2017/20/01
 Path to GDAL shared files: /usr/share/gdal
 GDAL binary built with GEOS: TRUE 
 Loaded PROJ.4 runtime: Rel. 4.9.2, 08 September 2015, [PJ_VERSION: 492]
 Path to PROJ.4 shared files: (autodetected)
 Linking to sp version: 1.2-5 


OGR data source with driver: ESRI Shapefile 
Source: "/home/dmitry/workspace/herbs/herbs/docs/tutorial/R/ru/sakhalin", layer: "sakhalin"
with 1 features
It has 8 fields


In [30]:
shape_rgdal

An object of class "SpatialPolygonsDataFrame"
Slot "data":
  iso_code level_4_na level4_cod level4_2 level3_cod level2_cod level1_cod
0       RU   Sakhalin     SAK-OO       OO        SAK         31          3
  mrgid
0 48418

Slot "polygons":
[[1]]
An object of class "Polygons"
Slot "Polygons":
[[1]]
An object of class "Polygon"
Slot "labpt":
[1] 142.71208  50.33426

Slot "area":
[1] 9.533439

Slot "hole":
[1] FALSE

Slot "ringDir":
[1] 1

Slot "coords":
           [,1]     [,2]
  [1,] 141.8425 53.14527
  [2,] 141.8364 53.14888
  [3,] 141.8319 53.15277
  [4,] 141.8272 53.16666
  [5,] 141.8094 53.25639
  [6,] 141.8105 53.29527
  [7,] 141.7708 53.35833
  [8,] 141.7647 53.36500
  [9,] 141.7669 53.37138
 [10,] 141.7780 53.37638
 [11,] 141.9814 53.45499
 [12,] 142.0922 53.49138
 [13,] 142.2136 53.51860
 [14,] 142.2269 53.51833
 [15,] 142.2519 53.48555
 [16,] 142.2539 53.47887
 [17,] 142.2514 53.47249
 [18,] 142.2397 53.45305
 [19,] 142.2364 53.42055
 [20,] 142.2358 53.40749
 [21,] 142.2447 

In [31]:
bbox<-shape_rgdal@bbox

In [32]:
as.numeric(bbox)

Поскольку в текущей версии HTTP API поддерживаются только поисковые запросы с прямоугольными областями поиска, определим прямоугольную область, включающую необходимый контур shape-файла. Такая прмоугольная область хранится в слоте `bbox`, поэтому достаточно извлечь крайние значения широт и долгот из этого слота.

In [33]:
lonl<-as.numeric(bbox)[1]
lonu<-as.numeric(bbox)[3]
latl<-as.numeric(bbox)[2]
latu<-as.numeric(bbox)[4]

Далее, сформируем поисковый `url` и выполним поисковый запрос.

In [34]:
search_parameters_sakhalin <- c('lonl', lonl, 'lonu', lonu, 'latl', latl, 'latu', latu)

In [35]:
search_url_sakhalin <- paste(http_api_base_url, paste(search_parameters_sakhalin[c(TRUE, FALSE)], search_parameters_sakhalin[c(FALSE, TRUE)], sep='=', collapse='&'), sep='')

In [36]:
search_url_sakhalin

In [37]:
sakhalin_data <- fromJSON(search_url_sakhalin)

Посмотрим, сколько данных принадлежит прямоугольной поисковой области, которая включает контур острова Сахалин.

In [38]:
dim(sakhalin_data$data)

In [39]:
number_in_rectangle <- dim(sakhalin_data$data)[1]

In [40]:
sprintf("Таким образом, количество точек, принадлежащих прямоугольной области включающей о.Сахалин: %d", number_in_rectangle)

Проведем дополнительную фильтрацию, чтобы исключить точки, которые принадлежат прямоугольно области, но не попадают в контур острова, определенный в shape-файле.
Для этого будем использовать пакет `sp`.

In [41]:
library(sp)

In [42]:
sakhalin_nonfiltered <- sakhalin_data$data

Преобразуем массив данных `sakhalin_nonfiltered` в массив пространственно-распределенных данных (S4 - объект среды R), для которого можно применить операцию  

In [43]:
coordinates(sakhalin_nonfiltered) <- cbind(sakhalin_nonfiltered$longitude , sakhalin_nonfiltered$latitude)

In [44]:
sakhalin_nonfiltered@proj4string <- CRS(proj4string(shape_rgdal))

In [45]:
sakhalin_filtered<-sakhalin_nonfiltered[shape_rgdal,]

In [46]:
dim(sakhalin_filtered)

In [47]:
number_in_sakhalin <- dim(sakhalin_filtered)[1]

In [48]:
sprintf('Число записей, принадлежащих прямоугольной области, но не принадлежащих контуру о. Сахалин: %d', number_in_rectangle -number_in_sakhalin)

Изложенная схема позволяет автоматизировать поисковые запросы к гербарной базе, выполнять поиск записей по сложным географическим областям и, в конечном счете, использовать возможности среды статистической обработки данных на базе R для выполнения научно-исследовательской работы.

In [49]:
sprintf('Дата выполнения кода документа: %s', Sys.Date())

*Автор документа:* Дмитрий Кислов

**e-mail:** kislov@easydan.com