# Автоматизация поисковых запросов на R

Язык для статистического моделирования [R (S-plus)](http://r-project.org) широко распространен при решении научных и прикладных задач анализа данных.

За время своего более 20-ти летнего существования, среда статистичекого моделирования R обзавелась огромной [экосистемой](https://cran.r-project.org/mirrors.html) различных проблемно-ориентированных пакетов, позволяющих автоматизировать процесс решения самых разнообразных научных и приклданых задач, связанных с обработкой данных.

Выполняемый код в приводимом документе содержится в блоках, имеющих вид In[xxx]; его можно выполнить с использованием интерпретатора R, либо интерактивном режиме, либо предварительно сохранив в файл R-скрипта -- текстовой файл с расширением .r.

Данный документ создан при помощи [Jupyter](http://jupyter.org) и [IRkernel](https://irkernel.github.io/).

## Подготовка вычислительной среды

Автоматизация поисковых запросов в среде R предполагает:
* Формирование HTTP-запроса к серверу, согласно [HTTP-API](https://github.com/VBGI/herbs/blob/master/herbs/docs/httpapi/ru/http_api.rst);
* Преобразование полученного JSON-ответа в удобный в среде R вид (например, DataFrame-объект);

Для решения этих двух задач в экосистеме R имеется большое число пакетов. 
Приводимый далее код предполагает, что в вычислительной среде установлен пакет [jsonlite](https://cran.r-project.org/web/packages/jsonlite/index.html)

In [1]:
library(jsonlite)

In [2]:
data<-fromJSON('http://botsad.ru/hitem/json/?collectedby=Пименова')

In [3]:
data$data

species_authorship,updated,collectors,acronym,species_status,gpsbased,species_epithet,identification_finished,identification_started,dethistory,⋯,itemcode,additionals,collection_finished,branch,country,latitude,genus,fieldid,region,details
(Spenn.) Fée,2017-06-13,Пименова Е.А.,VBGI,From plantlist,FALSE,braunii,,2013-11-16,,⋯,141722,,,,Russia,43.06703,Polystichum,,Приморский край,"г. Ливадийская (Фалаза), кедрово-широколиственный лес"
Hara,2017-06-13,"Пименова Е.А., Калинкина В.А.",VBGI,From plantlist,TRUE,iwarenge,,2015-09-02,,⋯,141647,,,,Russia,42.89162,Orostachys,,Приморский край,"Залив Восток, база ""Восток"", мыс Пашинникова, скалы на берегу моря"
Chaix,2017-06-13,Пименова Е.А.,VBGI,From plantlist,FALSE,alpinoarticulatus,2015-04-01,2015-01-01,,⋯,141725,,,,Russia,45.82908,Juncus,,Приморский край,"с. Амгу, близ устья р. Амгу"
Willd. ex Schult. & Schult.f.,2017-06-13,"Пименова Е.А., Бондарчук С.Н., Губина Я.С.",VBGI,From plantlist,TRUE,splendens,2015-04-01,2015-01-01,,⋯,141566,,,,Russia,45.89254,Allium,,Приморский край,"г. Туман, щебнистая осыпь в подгольцовом поясе"
(Regel) Sojak,2017-06-13,Пименова Е.А.,VBGI,From plantlist,TRUE,maackianum,,2016-08-25,,⋯,140233,,,,Russia,42.45782,Truellum,,Приморский край,"оз. Лотос, на сплавине"
(Regel) Sojak,2017-06-13,Пименова Е.А.,VBGI,From plantlist,TRUE,maackianum,,2016-08-25,,⋯,140234,,,,Russia,42.45782,Truellum,,Приморский край,"оз. Лотос, на сплавине"
(Regel) Sojak,2017-06-13,Пименова Е.А.,VBGI,From plantlist,TRUE,maackianum,,2016-08-25,,⋯,140275,,,,Russia,42.45782,Truellum,,Приморский край,"оз. Лотос, на сплавине"
(Maxim.) Maxim. ex Franch. & Sav.,2017-07-13,Пименова Е.А.,VBGI,From plantlist,TRUE,lobatum,,2015-08-25,,⋯,140276,,,,Russia,42.45782,Actinostemma,,Приморский край,"оз. Лотос, на сплавине"
(Buch.-Ham. ex Roxb.) Maxim.,2017-06-13,Пименова Е.А.,VBGI,From plantlist,TRUE,dianthera,,2016-08-25,,⋯,140277,,,,Russia,42.45782,Mosla,,Приморский край,"оз. Лотос, на сплавине"
(Buch.-Ham. ex Roxb.) Maxim.,2017-06-13,Пименова Е.А.,VBGI,From plantlist,TRUE,dianthera,,2016-08-25,,⋯,140278,,,,Russia,42.45782,Mosla,,Приморский край,"оз. Лотос, на сплавине"


Более сложные поисковые запросы можно структурировать используя списки:

In [4]:
http_api_base_url <- 'http://botsad.ru/hitem/json/?'
search_parameters <- c('collectedby', 'Пименова', 'identifiedby', 'Крестов')

В данном случае, параметры, наряду с их значениями, определены в виде списка `search_parameters`; далее, используется функция `paste`, чтобы построить из параметров и их значений поисковый URI (`c(TRUE,FALSE)` и `c(False, True)` используется, чтобы получить все четные и нечетные позиции массива `search_parameters` и правильно расставить символы `&` и `=`):

In [5]:
search_url <- paste(http_api_base_url, paste(search_parameters[c(TRUE, FALSE)], search_parameters[c(FALSE, TRUE)], sep='=', collapse='&'), sep='')

In [6]:
new_data <- fromJSON(search_url)

In [7]:
dim(new_data$data)

In [8]:
new_data$data

species_authorship,updated,collectors,acronym,species_status,gpsbased,species_epithet,identification_finished,identification_started,dethistory,⋯,itemcode,additionals,collection_finished,branch,country,latitude,genus,fieldid,region,details
Tzvelev,2017-06-13,"Баркалов В.Ю., Крестов П.В., Колдаева М.Н.., Пименова Е.А., Петруненко Е.А.",VBGI,From plantlist,False,subtripteron,,2014-05-20,,⋯,113762,,2014-05-20,,,43.53312,Polystichum,,Приморский край,"Борисовское плато. верх. течение р. Нежинка, р. Раздольненский, долинный смешанный лес на надпойменной террасе."
Tzvelev,2017-06-13,"Баркалов В.Ю., Крестов П.В., Колдаева М.Н.., Пименова Е.А., Петруненко Е.А.",VBGI,From plantlist,False,subtripteron,,2014-05-20,"Tzvelev , 216942 , 2016-09-17 , DRYOPTERIDACEAE , From plantlist , Храпко О.В. , , , subtripteron , Polystichum , , Polystichum subtripteron Tzvelev",⋯,113761,,,,,43.44694,Polystichum,,Приморский край,"Борисовское плато, верх. течение р. Нежинка, выше устья руч. Раздольненский, долинный смешанный лес на надпойменной террасе."


Вложенные структуры данных, представленные полями `dethistory` и `additionals`, также корректно преобразуются в data.frame посредством функции `fromJSON`:

In [9]:
new_data$data$dethistory

species_authorship,species_id,valid_from,family,species_status,identifiers,family_authorship,valid_to,species_epithet,genus,genus_authorship,species_fullname
Tzvelev,216942,2016-09-17,DRYOPTERIDACEAE,From plantlist,Храпко О.В.,,,subtripteron,Polystichum,,Polystichum subtripteron Tzvelev


Поскольку информация о гербарных сборах хранится в аттрибует `data` при загрузке данных с сервера, можно ввести вспомогательную переменную, чтобы не писать многократно `new_data$data` при обращении к данным:

In [10]:
my_data <- data$data

In [11]:
data.frame(table(my_data$family))

Var1,Freq
ACORACEAE,1
ACTINIDIACEAE,4
ADOXACEAE,14
ALISMATACEAE,1
ALLISONIACEAE,2
AMARANTHACEAE,1
AMARYLLIDACEAE,10
APIACEAE,23
APOCYNACEAE,3
AQUIFOLIACEAE,1


Для статистеской среды R создано огромное количество пакетов для решения задач статистической обработки данных практически на все случаи жизни. Например, если необходимо вычислить индекс биоразнообразия Шеннона, можно воспользоваться пакетом [vegan](http://cc.oulu.fi/~jarioksa/softhelp/vegan/), который также включает множество других дополнительных возможностей для решения задач обработки ботанических данных.

In [12]:
library(vegan)

Loading required package: permute
Loading required package: lattice
This is vegan 2.4-3


Индекс биоразнообразия Шэннона по аттрибуту "Семейство" (Family):

In [13]:
diversity(table(my_data$family))

## Эмуляция OR-запросов

Поскольку HTTP-API при задании нескольких GET-параметров выполняет поиск тех записей, у которых одновременно выполняются все поисковые условия (т.е. AND-поисковый запрос), для имитации условий типа ИЛИ (OR) необходимо выполнить несколько последовательных запросов к поисковому сервису с последующей склейкой полученных результатов по уникальному коду записей ID.

Приведем пример выполнения OR-запроса; определим два набора параметров запроса в переменных `search_parameters1` и `search_parameters2`:

In [14]:
search_parameters1 <- c('identifiedby', 'Пименова', 'collectedby', 'Пименова')
search_parameters2 <- c('identifiedby', 'Крестов', 'collectedby', 'Крестов')
search_url1 <- paste(http_api_base_url, paste(search_parameters1[c(TRUE, FALSE)], search_parameters1[c(FALSE, TRUE)], sep='=', collapse='&'), sep='')
search_url2 <- paste(http_api_base_url, paste(search_parameters2[c(TRUE, FALSE)], search_parameters2[c(FALSE, TRUE)], sep='=', collapse='&'), sep='')

In [15]:
search_url1

In [16]:
search_url2

In [31]:
dataset1 <- fromJSON(search_url1)
dataset2 <- fromJSON(search_url2)

In [32]:
df1<-data.frame(dataset1$data)
df2<-data.frame(dataset2$data)

In [33]:
merged_data <- rbind(df1, df2)

In [34]:
dim(df2)
dim(df1)
dim(merged_data)

Сейчас переменная `merged_data` может содержать дублирующиеся строки; эти строки можно удалить, используя тот факт, что параметр `id` является для них уникальным.

In [41]:
data_without_dups<-merged_data[!duplicated(merged_data$id),]

In [42]:
dim(data_without_dups)

Таким образом, контейнер данных (`data.frame`) `data_without_dups` представляет собой результат поискового запроса c параметрами `search_parameters1` или `search_parameters2` (т.е. найдены все записи, у которых в сборах и определении участвовал "Крестов", либо в сборах и определении участвовала "Пименова").

## Поиск объектов в заданной области

Предположим, что область поиска задана и представляет собой ESRI-shapefile. Поскольку оброботчик поисковых запросов поддреживает задание только прямоугольных областей поиска, поиск по сложной области будет проходить в несколько этапов: 1) определим минимальную по площади прямоугольную область, в которую включается заданная; 2) выполним поиск данных в найденной прямоугольной области; 3) отфильтруем записи, не принадлежащие заданной области.

Для чтения shape-файлов в R нам потребуется установить библиотеку `rgdal`. Данный пакет используется отрытую библиотеку для обработки географически распределенных данных GDAL, которая нередко используется при создании различного рода геоинформационных систем (ГИС).

Таким образом, установка `rgdal` требует установленной библиотеки [GDAL](http://www.gdal.org/) (наличие GDAL в меньшей степени касается пользователей Windows, поскольку пакет `rgdal` в своем Windows-дистрибутиве уже включает GDAL).

In [7]:
library('rgdal')
shape_rgdal <- readOGR(".", "sakhalin")

ERROR: Error in ogrInfo(dsn = dsn, layer = layer, encoding = encoding, use_iconv = use_iconv, : Cannot open layer
