# Лекция 5. Документо-ориентированное хранилище на примере MongoDB

1. Общая концепция документо-ориентированного хранилища
2. Установка и настройка MongoDB
3. Основные команды MongoDB
4. Библиотека Python по работе с MongoDB

## Общая концепция документо-ориентированного хранилища

В настоящее время количество СУБД различных типов быстро растет. На основе Redis мы рассмотрели хранилища на основе концепции ключ-значение. Перейдем к рассмотрению документо-ориентированных хранилищ. 

Типичным представителем документо-ориентированного хранилища является **MongoDB**. В отличие от класса систем ключ-значение, MongoDB позволяет сохранять намного более сложные древовидные структуры данных по типу xml. В MongoDB нет таблиц, схем, запросов SQL, внешних ключей и многих других вещей, которые присущи объектно-реляционным базам данных.


Если реляционные базы данных хранят строки, то MongoDB хранит документы. Документ можно также представить как хранилище ключей и значений. Ключ представляет простую метку, с которым ассоциировано определенный кусок данных. Однако этот кусок и имеет сложную структуру.

Одним из популярных стандартов обмена данными и их хранения является JSON (JavaScript Object Notation) https://ru.wikipedia.org/wiki/JSON. JSON эффективно описывает сложные по структуре данные. 

Вот пример:

Способ хранения данных в MongoDB в этом плане похож на JSON, хотя формально JSON не используется. Для хранения в MongoDB применяется формат, который называется BSON (БиСон) или сокращение от binary JSON.
BSON позволяет работать с данными быстрее: быстрее выполняется поиск и обработка. Хотя надо отметить, что BSON в отличие от хранения данных в формате JSON имеет небольшой недостаток: в целом данные в JSON-формате занимают меньше места, чем в формате BSON, с другой стороны, данный недостаток с лихвой окупается скоростью.

Немногие СУБД позиционируют себя как документные. Другой известной документной базой данных, помимо MongoDB, является **CouchDB** от Apache (https://ru.wikipedia.org/wiki/CouchDB). 

Модель документа в CouchDB похожа, но данные хранятся в виде обычного текста в формате JSON, тогда как в MongoDB применяется
двоичный формат BSON. Как и MongoDB, CouchDB поддерживает вторичные индексы; различие в том, что для определения индекса в CouchDB необходимо написать функции распределения-редукции (map-reduce), а это сложнее, чем декларативный синтаксис, используемый в MongoDB.

MongoDB написана на C++, поэтому ее легко портировать на самые разные платформы. MongoDB может быть развернута на платформах Windows, Linux, MacOS, Solaris. 

История MongoDB такова. В середине 2007 года только что образованная компания 10gen приступила к разработке проекта «программная платформа как услуга». Идея была в том, чтобы создать сервер приложений и базу данных, которые могли бы служить хостингом для веб-приложений, обеспечивая масштабирование по мере необходимости.

Как и система AppEngine , созданная Google, платформа компании 10gen проектировалась с расчетом на автоматическое масштабиро-
вание и управление программной и аппаратной инфраструктурой. В итоге 10gen обнаружила, что большинство разработчиков не гото-
вы отдать в чужие руки управление своим технологическим хозяйством, но зато новая технология баз данных оказалась востребованной. Поэтому компания решила сосредоточить усилия исключительно на этой СУБД, которая получила название MongoDB.

В реляционных СУБД встречается такое понятие как первичный ключ. Это понятие описывает некий столбец, который имеет уникальные значения. В MongoDB для каждого документа также имеется уникальный идентификатор, который называется **_id**. 

И если явным образом не указать его значение, то MongoDB автоматически сгенерирует для него значение. Каждому ключу сопоставляется определенное значение. Но здесь также надо учитывать одну особенность: если в реляционных базах есть четко очерченная структура, где есть поля, и если какое-то поле не имеет значение, ему (в зависимости от настроек конкретной бд) можно присвоить значение NULL. 

В MongoDB все иначе. Если какому-то ключу не сопоставлено значение, то этот ключ просто опускается в документе и не употребляется.

**Коллекции**

Если в традиционном мире SQL есть таблицы, то в мире MongoDB есть **коллекции**. И если в реляционных БД таблицы хранят однотипные жестко структурированные объекты, то в коллекции могут содержать самые разные объекты, имеющие различную структуру и различный набор свойств. Таким образом, в любую коллекцию можно записать совершенно произвольную структуру.

Система хранения данных в MongoDB представляет набор реплик. В этом наборе есть основной узел, а также может быть набор вторичных узлов. 

Все вторичные узлы сохраняют целостность и автоматически обновляются вместе с обновлением главного узла. И если основной узел по каким-то причинам выходит из строя, то один из вторичных узлов становится главным. Таким образом, MongoDB относится к классу CP систем.


## Установка и настройка MongoDB

Начало использования MongoDB включает следующие шаги:


1. Установка (Gnu/Linux//Ubuntu(Debian))

> sudo apt-get install mongodb

2. Начальная настройка: 

Для настройки наиболее часто используются следующие параметры:

--dbpath – путь к каталогу, в котором находятся файлы данных. По умолчанию /data/db .

--logpath – полный путь к файлу, в который записывается журнал. По умолчанию журнал выводится на стандартный вывод ( stdout ).

--port – номер порта, прослушиваемого MongoDB. Если не указан, то по умолчанию подразумевается 27017.

--fork – отсоединяет процесс от терминала, оставляя его работать в режиме демона. Флаг fork работает только в версиях для Unix/Linux. В Windows для получения аналогичной функциональности ознакомьтесь с инструкциями по запуску MongoDB

Пример настройки:

Создаем в домашней директории папки для работы MongoDB

> cd ~/mongodb

> cd ~/mongodb/data

Запускаем сервер:

> mongod --dbpath ~/mongodb/data --logpath ~/mongodb/log --port 27018 --fork



Все эти параметры можно задать также в конфигурационном файле. Для этого достаточно создать текстовый файл (назовем его mnd.
conf) и включить в него вышеперечисленные параметры по одному в каждой строке:

dbpath=~/mongodb/data

logpath=~/mongodb/log

port=27018

fork=true

Затем запустиnm mongod , указав конфигурационный файл с помощью флага -f :

> mongod -f mnd.conf

Запускаем клиента:

> mongo --port 27018

Чтобы остановить сервер, можно использовать:

> mongod --shutdown

Ниже представлен перечень основных утилит mongodb:

- bsondump: считывает содержимое BSON-файлов и преобразует их в читабельный формат, например, в JSON.

- mongo: представляет консольный интерфейс для взаимодействия с базами данных, своего рода консольный клиент.

- mongod: сервер баз данных MongoDB. Он обрабатывает запросы, управляет форматом данных и выполняет различные операции в фоновом режиме по управлению базами данных.

- mongodump: утилита создания бэкапа баз данных.

- mongoexport: утилита для экспорта данных в форматы JSON, TSV или CSV.

- mongofiles: утилита, позволяющая управлять файлами в системе GridFS.

- mongoimport: утилита, импорирующая данных в форматах JSON, TSV или CSV в базу данных MongoDB.

- mongorestore: позволяет записывать данные из дампа, созданного mongodump, в новую или существующую базу данных.

- mongos: служба маршрутизации MongoDB, которая помогает обрабатывать запросы и определять местоположение данных в кластере MongoDB.

- mongorestat: представляет счетчики операций с БД.

- mongotop: предоставляет способ подсчета времени, затраченного на операции чтения-записи в БД.



## Основные команды MongoDB

После запуска сервиса mongo мы попадаем в командную строку, где может непосредственно работать с сервером mongoDB.

Чтобы посмотреть перечень имеющихся коллекций достаточно использовать:
    
> show databases

Чтобы создать новую коллекцию можно просто объявить, что Вы ее хотите испльзовать и что-то в нее записать:
    
> use test

Даже если такой бд нет, то она создается автоматически. И далее db будет представлять текущую базу данных - то есть базу данных test.

База данных состоит из коллекций, которые создаются точно так же - при их первом использовании. Например, вот так создается коллекция "rebus"

> db.rebus.save({key:"Привет мир"})

Если запись пройдет успешно, то мы увидим сообщение:

WriteResult({ "nInserted" : 1 })

Чтобы посмотреть все записи из коллекции rebus, достаточно выполнить команду:

> db.rebus.find()

В результаты последней команды мы увидим:

{ "_id" : ObjectId("626b5e077012e258986394a8"), "key" : "Привет мир" }

Откуда видно, что кроме описанной структуры {key:"Привет мир"}, еще добавилось поле "_id", которое MongoDB добавил автоматически в качестве уникального идентификатора. Каждая структура должна иметь такой уникальный идентификатор. 

В тоже время "_id" можно задавать самостоятельно:

> db.rebus.save({"_id":35654,name:"Юрий"})

В результате можно получить:

WriteResult({ "nMatched" : 0, "nUpserted" : 1, "nModified" : 0, "_id" : 35654 })

> db.rebus.find()

{ "_id" : ObjectId("626b5e077012e258986394a8"), "key" : "Привет мир" }

{ "_id" : 35654, "name" : "Юрий" }

Если мы попробуем записать в коллекцию другой документ с тем же идентификатором, то получим модификацию уже имеющегося значения:

> db.rebus.save({"_id":35654,lastname:"Артамонов"})

WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1, "_id" : 35654 })

> db.rebus.find()
{ "_id" : ObjectId("626b5e077012e258986394a8"), "key" : "Привет мир" }
{ "_id" : 35654, "lastname" : "Артамонов" }

С такой же легкостью в коллекцию можно добавить и более сложную структуру:

> db.rebus.save({"_id":1,human:{name:"Ivan", lastname:"Ivanov",personal:{sex:"man",birthday:"22.08.1997"}}})



Всю модель устройства базы данных в MongoDB можно представить следующим образом:

Если в реляционных бд содержимое составляют таблицы, то в mongodb база данных состоит из коллекций.

Каждая коллекция имеет свое уникальное имя - произвольный идентификатор, состоящий из не более чем 128 различных алфавитно-цифровых символов и знака подчеркивания.

В отличие от реляционных баз данных MongoDB не использует табличное устройство с четко заданным количеством столбцов и типов данных. MongoDB является документо-ориентированной системой, в которой центральным понятием является документ.

Документ можно представить как объект, хранящий некоторую информацию. В некотором смысле он подобен строкам в реляционных субд, где строки хранят информацию об отдельном элементе. Например, типичный документ:



Документ представляет набор пар ключ-значение. Например, в выражении "name": "Bill" name представляет ключ, а Bill - значение.

Ключи представляют строки. Значения же могут различаться по типу данных. В данном случае у нас почти все значения также представляют строковый тип, и лишь один ключ (company) ссылается на отдельный объект. 

Всего имеется следующие типы значений:

- String: строковый тип данных, как в приведенном выше примере (для строк используется кодировка UTF-8)

- Array (массив): тип данных для хранения массивов элементов

- Binary data (двоичные данные): тип для хранения данных в бинарном формате

- Boolean: булевый тип данных, хранящий логические значения TRUE или FALSE, например, {"married": FALSE}

- Date: хранит дату в формате времени Unix

- Double: числовой тип данных для хранения чисел с плавающей точкой

- Integer: используется для хранения целочисленных значений, например, {"age": 29}

- JavaScript: тип данных для хранения кода javascript

- Min key/Max key: используются для сравнения значений с наименьшим/наибольшим элементов BSON

- Null: тип данных для хранения значения Null

- Object: строковый тип данных, как в приведенном выше примере

- ObjectID: тип данных для хранения id документа

- Regular expression: применяется для хранения регулярных выражений

- Symbol: тип данных, идентичный строковому. Используется преимущественно для тех языков, в которых есть специальные символы.

- Timestamp: применяется для хранения времени.

В отличие от строк документы могут содержать разнородную информацию. Так, рядом с документом, описанным выше, в одной коллекции может находиться другой объект, например:

Казалось бы разные объекты за исключением отдельных свойств, но все они могут находиться в одной коллекции.

Еще пара важных замечаний: в MongoDB запросы обладают регистрозависимостью и строгой типизацией. То есть следующие два документа не будут идентичны:


{"age" : "28"}

{"age" : 28}

Если в первом случае для ключа age определена в качестве значения строка, то во втором случае значением является число.

Чтобы узнать, какая база используется по умолчанию, можно использовать команду:
    
> db

Чтобы посмотреть коллекции в базе:
    
> show collections

Используя команду db.stats(), можно получить статистику по текущей базе данных. 

> db.stats()

{
        "db" : "test",
        "collections" : 1,
        "views" : 0,
        "objects" : 4,
        "avgObjSize" : 64,
        "dataSize" : 256,
        "storageSize" : 36864,
        "numExtents" : 0,
        "indexes" : 1,
        "indexSize" : 36864,
        "fsUsedSize" : 479911305216,
        "fsTotalSize" : 982899539968,
        "ok" : 1
}

Также можно узнать статистику по конкретной коллекции:
    
>db.rebus.stats()

**Добавление данных**

Для добавления в коллекцию могут использоваться три ее метода:

- insertOne(): добавляет один документ

- insertMany(): добавляет несколько документов

- insert(): может добавлять как один, так и несколько документов

Добавим один документ:

> db.rebus.insertOne({"name": "Tom", "age": 28, languages: ["english", "spanish"]})

Некоторые ограничения при использовании имен ключей:

- Символ $ не может быть первым символом в имени ключа

- Имя ключа не может содержать символ точки .

Чтобы вывести документы коллекции в читабельном виде, можно использовать:

> db.rebus.find().pretty()

Если надо добавить ряд документов, то мы можем воспользоваться методом insertMany():

> db.rebus.insertMany([{"name": "Bob", "age": 26, languages: ["english", "frensh"]}, {"name": "Alice", "age": 31, languages:["german", "english"]}])

После добавления консоль выводит идентификаторы добавленных документов.


И третий метод - insert() демонстрирует более универсальный способ добавления документов. При его вызове в него также передается добавляемый документ:

> db.rebus.insert({"name": "Tom", "age": 28, languages: ["english", "spanish"]})

Документы можно закреплять за переменными и только потом добавлять:

> d=({people:999})

>db.rebus.insert(d)

Документы также можно подгружать из текстовых файлов, добавляя туда необходимые команды.

Например, если сохранить файл my_data.js с содержимым:

То его можно подгрузить командой:

**Выборка из БД**

Наиболее простой способом получения содержимого БД представляет использование функции find. Действие этой функции во многом аналогично обычному запросу SELECT * FROM Table, который извлекает все строки. 

Однако эта же команда позволяет находить документы по условию:

> db.rebus.find({name:"Tom"})

Такой запрос выведет все документы, в которых name=Tom.

Для дальнейшего уточнения:

> db.rebus.find({name:"Tom",age:32})

Найдет все документы, у которых name:"Tom",age:32.



> db.rebus.find( { $or: [ {name: "Tom" }, {age: 29 } ] } )

Найдет все документы, у которых name:"Tom" или age:29.



> db.rebus.find( { $or: [ {name: "Tom" }, {age: { $gt: 29 } } ] } )

Найдет все документы, у которых name:"Tom" или age>29.


Условные операторы задают условие, которому должно соответствовать значение поля документа:

- $eq (равно)

- $ne (не равно)

- $gt (больше чем)

- $lt (меньше чем)

- $gte (больше или равно)

- $lte (меньше или равно)

- $in определяет массив значений, одно из которых должно иметь поле документа

- $nin определяет массив значений, которые не должны иметь поле документа