# Лекция 5. Документо-ориентированное хранилище на примере MongoDB

1. Общая концепция документо-ориентированного хранилища
2. Установка и настройка MongoDB
3. Основные команды MongoDB
4. Библиотека Python по работе с MongoDB

## Общая концепция документо-ориентированного хранилища

В настоящее время количество СУБД различных типов быстро растет. На основе Redis мы рассмотрели хранилища на основе концепции ключ-значение. Перейдем к рассмотрению документо-ориентированных хранилищ. 

Типичным представителем документо-ориентированного хранилища является **MongoDB**. В отличие от класса систем ключ-значение, MongoDB позволяет сохранять намного более сложные древовидные структуры данных по типу xml. В MongoDB нет таблиц, схем, запросов SQL, внешних ключей и многих других вещей, которые присущи объектно-реляционным базам данных.


Если реляционные базы данных хранят строки, то MongoDB хранит документы. Документ можно также представить как хранилище ключей и значений. Ключ представляет простую метку, с которым ассоциировано определенный кусок данных. Однако этот кусок и имеет сложную структуру.

Одним из популярных стандартов обмена данными и их хранения является JSON (JavaScript Object Notation) https://ru.wikipedia.org/wiki/JSON. JSON эффективно описывает сложные по структуре данные. 

Вот пример:

Способ хранения данных в MongoDB в этом плане похож на JSON, хотя формально JSON не используется. Для хранения в MongoDB применяется формат, который называется BSON (БиСон) или сокращение от binary JSON.
BSON позволяет работать с данными быстрее: быстрее выполняется поиск и обработка. Хотя надо отметить, что BSON в отличие от хранения данных в формате JSON имеет небольшой недостаток: в целом данные в JSON-формате занимают меньше места, чем в формате BSON, с другой стороны, данный недостаток с лихвой окупается скоростью.

Немногие СУБД позиционируют себя как документные. Другой известной документной базой данных, помимо MongoDB, является **CouchDB** от Apache (https://ru.wikipedia.org/wiki/CouchDB). 

Модель документа в CouchDB похожа, но данные хранятся в виде обычного текста в формате JSON, тогда как в MongoDB применяется
двоичный формат BSON. Как и MongoDB, CouchDB поддерживает вторичные индексы; различие в том, что для определения индекса в CouchDB необходимо написать функции распределения-редукции (map-reduce), а это сложнее, чем декларативный синтаксис, используемый в MongoDB.

MongoDB написана на C++, поэтому ее легко портировать на самые разные платформы. MongoDB может быть развернута на платформах Windows, Linux, MacOS, Solaris. 

История MongoDB такова. В середине 2007 года только что образованная компания 10gen приступила к разработке проекта «программная платформа как услуга». Идея была в том, чтобы создать сервер приложений и базу данных, которые могли бы служить хостингом для веб-приложений, обеспечивая масштабирование по мере необходимости.

Как и система AppEngine , созданная Google, платформа компании 10gen проектировалась с расчетом на автоматическое масштабирование и управление программной и аппаратной инфраструктурой. В итоге 10gen обнаружила, что большинство разработчиков не готовы отдать в чужие руки управление своим технологическим хозяйством, но зато новая технология баз данных оказалась востребованной. Поэтому компания решила сосредоточить усилия исключительно на этой СУБД, которая получила название MongoDB.

В реляционных СУБД встречается такое понятие как первичный ключ. Это понятие описывает некий столбец, который имеет уникальные значения. В MongoDB для каждого документа также имеется уникальный идентификатор, который называется **_id**. 

И если явным образом не указать его значение, то MongoDB автоматически сгенерирует для него значение. Каждому ключу сопоставляется определенное значение. Но здесь также надо учитывать одну особенность: если в реляционных базах есть четко очерченная структура, где есть поля, и если какое-то поле не имеет значения, ему (в зависимости от настроек конкретной бд) можно присвоить значение NULL. 

В MongoDB все иначе. Если какому-то ключу не сопоставлено значение, то этот ключ просто опускается в документе и не употребляется.

**Коллекции**

Если в традиционном мире SQL есть таблицы, то в мире MongoDB есть **коллекции**. И если в реляционных БД таблицы хранят однотипные жестко структурированные объекты, то в коллекции могут содержать самые разные объекты, имеющие различную структуру и различный набор свойств. Таким образом, в любую коллекцию можно записать совершенно произвольную структуру.

Система хранения данных в MongoDB представляет набор реплик. В этом наборе есть основной узел, а также может быть набор вторичных узлов. 

Все вторичные узлы сохраняют целостность и автоматически обновляются вместе с обновлением главного узла. И если основной узел по каким-то причинам выходит из строя, то один из вторичных узлов становится главным. Таким образом, MongoDB относится к классу CP систем.


## Установка и настройка MongoDB

Начало использования MongoDB включает следующие шаги:


1. Установка (Gnu/Linux//Ubuntu(Debian))

> sudo apt-get install mongodb

2. Начальная настройка: 

Для настройки наиболее часто используются следующие параметры:

--dbpath – путь к каталогу, в котором находятся файлы данных. По умолчанию /data/db .

--logpath – полный путь к файлу, в который записывается журнал. По умолчанию журнал выводится на стандартный вывод ( stdout ).

--port – номер порта, прослушиваемого MongoDB. Если не указан, то по умолчанию подразумевается 27017.

--fork – отсоединяет процесс от терминала, оставляя его работать в режиме демона. Флаг fork работает только в версиях для Unix/Linux. В Windows для получения аналогичной функциональности ознакомьтесь с инструкциями по запуску MongoDB

Пример настройки:

Создаем в домашней директории папки для работы MongoDB

> cd ~/mongodb

> cd ~/mongodb/data

Запускаем сервер:

> mongod --dbpath ~/mongodb/data --logpath ~/mongodb/log --port 27018 --fork



Все эти параметры можно задать также в конфигурационном файле. Для этого достаточно создать текстовый файл (назовем его mnd.
conf) и включить в него вышеперечисленные параметры по одному в каждой строке:

dbpath=~/mongodb/data

logpath=~/mongodb/log

port=27018

fork=true

Затем запустиnm mongod , указав конфигурационный файл с помощью флага -f :

> mongod -f mnd.conf

Запускаем клиента:

> mongo --port 27018

Чтобы остановить сервер, можно использовать:

> mongod --shutdown

Ниже представлен перечень основных утилит mongodb:

- bsondump: считывает содержимое BSON-файлов и преобразует их в читабельный формат, например, в JSON.

- mongo: представляет консольный интерфейс для взаимодействия с базами данных, своего рода консольный клиент.

- mongod: сервер баз данных MongoDB. Он обрабатывает запросы, управляет форматом данных и выполняет различные операции в фоновом режиме по управлению базами данных.

- mongodump: утилита создания бэкапа баз данных.

- mongoexport: утилита для экспорта данных в форматы JSON, TSV или CSV.

- mongofiles: утилита, позволяющая управлять файлами в системе GridFS.

- mongoimport: утилита, импорирующая данных в форматах JSON, TSV или CSV в базу данных MongoDB.

- mongorestore: позволяет записывать данные из дампа, созданного mongodump, в новую или существующую базу данных.

- mongos: служба маршрутизации MongoDB, которая помогает обрабатывать запросы и определять местоположение данных в кластере MongoDB.

- mongorestat: представляет счетчики операций с БД.

- mongotop: предоставляет способ подсчета времени, затраченного на операции чтения-записи в БД.



## Основные команды MongoDB

После запуска сервиса mongo мы попадаем в командную строку, где может непосредственно работать с сервером mongoDB.

Чтобы посмотреть перечень имеющихся коллекций достаточно использовать:
    
> show databases

Чтобы создать новую коллекцию можно просто объявить, что Вы ее хотите испльзовать и что-то в нее записать:
    
> use test

Даже если такой бд нет, то она создается автоматически. И далее db будет представлять текущую базу данных - то есть базу данных test.

База данных состоит из коллекций, которые создаются точно так же - при их первом использовании. Например, вот так создается коллекция "rebus"

> db.rebus.save({key:"Привет мир"})

Если запись пройдет успешно, то мы увидим сообщение:

WriteResult({ "nInserted" : 1 })

Чтобы посмотреть все записи из коллекции rebus, достаточно выполнить команду:

> db.rebus.find()

В результаты последней команды мы увидим:

{ "_id" : ObjectId("626b5e077012e258986394a8"), "key" : "Привет мир" }

Откуда видно, что кроме описанной структуры {key:"Привет мир"}, еще добавилось поле "_id", которое MongoDB добавил автоматически в качестве уникального идентификатора. Каждая структура должна иметь такой уникальный идентификатор. 

В тоже время "_id" можно задавать самостоятельно:

> db.rebus.save({"_id":35654,name:"Юрий"})

В результате можно получить:

WriteResult({ "nMatched" : 0, "nUpserted" : 1, "nModified" : 0, "_id" : 35654 })

> db.rebus.find()

{ "_id" : ObjectId("626b5e077012e258986394a8"), "key" : "Привет мир" }

{ "_id" : 35654, "name" : "Юрий" }

Если мы попробуем записать в коллекцию другой документ с тем же идентификатором, то получим модификацию уже имеющегося значения:

> db.rebus.save({"_id":35654,lastname:"Артамонов"})

WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1, "_id" : 35654 })

> db.rebus.find()
{ "_id" : ObjectId("626b5e077012e258986394a8"), "key" : "Привет мир" }
{ "_id" : 35654, "lastname" : "Артамонов" }

С такой же легкостью в коллекцию можно добавить и более сложную структуру:

> db.rebus.save({"_id":1,human:{name:"Ivan", lastname:"Ivanov",personal:{sex:"man",birthday:"22.08.1997"}}})



Всю модель устройства базы данных в MongoDB можно представить следующим образом:

Если в реляционных бд содержимое составляют таблицы, то в mongodb база данных состоит из коллекций.

Каждая коллекция имеет свое уникальное имя - произвольный идентификатор, состоящий из не более чем 128 различных алфавитно-цифровых символов и знака подчеркивания.

В отличие от реляционных баз данных MongoDB не использует табличное устройство с четко заданным количеством столбцов и типов данных. MongoDB является документо-ориентированной системой, в которой центральным понятием является документ.

Документ можно представить как объект, хранящий некоторую информацию. В некотором смысле он подобен строкам в реляционных субд, где строки хранят информацию об отдельном элементе. Например, типичный документ:



Документ представляет набор пар ключ-значение. Например, в выражении "name": "Bill" name представляет ключ, а Bill - значение.

Ключи представляют строки. Значения же могут различаться по типу данных. В данном случае у нас почти все значения также представляют строковый тип, и лишь один ключ (company) ссылается на отдельный объект. 

Всего имеется следующие типы значений:

- String: строковый тип данных, как в приведенном выше примере (для строк используется кодировка UTF-8)

- Array (массив): тип данных для хранения массивов элементов

- Binary data (двоичные данные): тип для хранения данных в бинарном формате

- Boolean: булевый тип данных, хранящий логические значения TRUE или FALSE, например, {"married": FALSE}

- Date: хранит дату в формате времени Unix

- Double: числовой тип данных для хранения чисел с плавающей точкой

- Integer: используется для хранения целочисленных значений, например, {"age": 29}

- JavaScript: тип данных для хранения кода javascript

- Min key/Max key: используются для сравнения значений с наименьшим/наибольшим элементов BSON

- Null: тип данных для хранения значения Null

- Object: строковый тип данных, как в приведенном выше примере

- ObjectID: тип данных для хранения id документа

- Regular expression: применяется для хранения регулярных выражений

- Symbol: тип данных, идентичный строковому. Используется преимущественно для тех языков, в которых есть специальные символы.

- Timestamp: применяется для хранения времени.

В отличие от строк документы могут содержать разнородную информацию. Так, рядом с документом, описанным выше, в одной коллекции может находиться другой объект, например:

Казалось бы разные объекты за исключением отдельных свойств, но все они могут находиться в одной коллекции.

Еще пара важных замечаний: в MongoDB запросы обладают регистрозависимостью и строгой типизацией. То есть следующие два документа не будут идентичны:


{"age" : "28"}

{"age" : 28}

Если в первом случае для ключа age определена в качестве значения строка, то во втором случае значением является число.

Чтобы узнать, какая база используется по умолчанию, можно использовать команду:
    
> db

Чтобы посмотреть коллекции в базе:
    
> show collections

Используя команду db.stats(), можно получить статистику по текущей базе данных. 

> db.stats()

{
        "db" : "test",
        "collections" : 1,
        "views" : 0,
        "objects" : 4,
        "avgObjSize" : 64,
        "dataSize" : 256,
        "storageSize" : 36864,
        "numExtents" : 0,
        "indexes" : 1,
        "indexSize" : 36864,
        "fsUsedSize" : 479911305216,
        "fsTotalSize" : 982899539968,
        "ok" : 1
}

Также можно узнать статистику по конкретной коллекции:
    
>db.rebus.stats()

**Добавление данных**

Для добавления в коллекцию могут использоваться три ее метода:

- insertOne(): добавляет один документ

- insertMany(): добавляет несколько документов

- insert(): может добавлять как один, так и несколько документов

Добавим один документ:

> db.rebus.insertOne({"name": "Tom", "age": 28, languages: ["english", "spanish"]})

Некоторые ограничения при использовании имен ключей:

- Символ $ не может быть первым символом в имени ключа

- Имя ключа не может содержать символ точки .

Чтобы вывести документы коллекции в читабельном виде, можно использовать:

> db.rebus.find().pretty()

Если надо добавить ряд документов, то мы можем воспользоваться методом insertMany():

> db.rebus.insertMany([{"name": "Bob", "age": 26, languages: ["english", "frensh"]}, {"name": "Alice", "age": 31, languages:["german", "english"]}])

После добавления консоль выводит идентификаторы добавленных документов.


И третий метод - insert() демонстрирует более универсальный способ добавления документов. При его вызове в него также передается добавляемый документ:

> db.rebus.insert({"name": "Tom", "age": 28, languages: ["english", "spanish"]})

Документы можно закреплять за переменными и только потом добавлять:

> d=({people:999})

>db.rebus.insert(d)

Документы также можно подгружать из текстовых файлов, добавляя туда необходимые команды.

Например, если сохранить файл my_data.js с содержимым:

То его можно подгрузить командой:

**Выборка из БД**

Наиболее простой способом получения содержимого БД представляет использование функции find. Действие этой функции во многом аналогично обычному запросу SELECT * FROM Table, который извлекает все строки. 

Однако эта же команда позволяет находить документы по условию:

> db.rebus.find({name:"Tom"})

Такой запрос выведет все документы, в которых name=Tom.

Для дальнейшего уточнения:

> db.rebus.find({name:"Tom",age:28})

Найдет все документы, у которых name:"Tom",age:28.




Условные операторы задают условие, которому должно соответствовать значение поля документа:

- \$eq (равно)

- \$ne (не равно)

- \$gt (больше чем)

- \$lt (меньше чем)

- \$gte (больше или равно)

- \$lte (меньше или равно)

- \$in определяет массив значений, одно из которых должно иметь поле документа

- \$nin определяет массив значений, которые не должны иметь поле документа

Кроме логического или, можно использовать:

- \$and: соединяет два условия, и документ должен соответствовать обоим условиям
- \$not: документ должен НЕ соответствовать условию
- \$nor: соединяет два условия, и документ должен НЕ соответстовать обоим условиям


Можно искать документы и в массивах:

> db.rebus.find({languages:"english"})

Можно попытаться усложнить  запрос и попробовать получить те документы, у которых в массиве languages одновременно два языка: "english" и "german":

> db.rebus.find({languages:["english","german"]})

Однако порядок следования элементов в массиве тоже учитывается.

Теперь выведем все документы, в которых "english" в массиве languages находится на первом месте:

> db.rebus.find({"languages.0": "english"})


**Проекция**

По аналогии с реляционными БД, в MongoDB возможна проекция, т.е. выбор отдельных полей:

> db.rebus.find({name: "Tom"}, {age: 1})

Использование единицы в качестве параметра {age: 1} указывает, что запрос должен вернуть только содержание свойства age.

Обратная ситуация: мы хотим найти все поля документа кроме свойства age. В этом случае в качестве параметра указываем 0:

> db.rebus.find({name: "Tom"}, {age: 0})

Поле "_id" включается в выборку по умолчанию, для его исключения нужно явно указать "_id":0:

> db.rebus.find({name: "Tom"}, {age: 1, _id: 0})

Вместо 1, 0 можно также использовать true, false:

> db.rebus.find({name: "Tom"}, {age: true, _id: false, name:true})

Если мы не хотим при этом конкретизировать выборку, а хотим вывести все документы, то можно оставить первые фигурные скобки пустыми:

> db.rebus.find({}, {age: 1, _id: 0})


**Запрос к вложенным объектам**

Предыдущие запросы применялись к простым объектам. Но документы могут быть очень сложными по структуре. Например, добавим в коллекцию persons следующий документ:

> db.rebus.insert({"name": "Alex", "age": 28, company: {"name":"microsoft", "country":"USA"}})

Здесь определяется вложенный объект с ключом company. И чтобы найти все документы, у которых в ключе company вложенное свойство name=microsoft, нам надо использовать оператор точку:

> db.rebus.find({"company.name": "microsoft"})

> db.rebus.find({"company.name": "microsoft"},{"company.name":1,name:true,age:true, "_id":false})


**Использование JavaScript**

MongoDB предоставляет замечательную возможность, создавать запросы, используя язык JavaScript. Например, создадим запрос, возвращающий те документы, в которых name=Tom. Для этого сначала объявляется функция:

> fn = function() { return this.name=="Tom"|this.age>30; }

> db.rebus.find(fn)


Этот запрос эквивалентен следующему:


Собственно только запросами область применения JavaScript в консоли mongo не ограничена. Например, мы можем создать какую-нибудь функцию и применять ее:

> function sqr(n) { return n*n; }

> sqr(5)

25


**Использование регулярных выражений**

Еще одной замечательной возможностью при построении запросов является использование регулярных выражений. Например, найдем все документы, в которых значение ключа name начинается с буквы T:

> db.rebus.find({name:/T\w+/i})

https://www.mongodb.com/docs/manual/reference/operator/query/regex/

**Настройка запросов и сортировка**

MongoDB представляет ряд функций, которые помогают управлять выборкой из бд. Одна из них - функция limit. Она задает максимально допустимое количество получаемых документов. Количество передается в виде числового параметра. Например, ограничим выборку тремя документами:

> db.rebus.find().limit(3)

В данном случае мы получим первые три документа (если в коллекции 3 и больше документов). Если мы хотим произвести выборку не сначала, а пропустить какое-то количество документов, то поможет функция skip. Например, пропустим первые три записи:

> db.rebus.find().skip(3)

MongoDB предоствляет возможности отсортировать полученный из бд набор данных с помощью функции sort. Передавая в эту функцию значения 1 или -1, мы можем указать в каком порядке сортировать: по возрастанию (1) или по убыванию (-1). Во многом эта функция по действию аналогична выражению ORDER BY в SQL. Например, сортировка по возрастанию по полю name:

> db.rebus.find().sort({name: 1})

Ну и в конце надо отметить, что мы можем совмещать все эти функции в одной цепочке:

> db.rebus.find().sort({name: 1}).skip(3).limit(3)

Если все документы извлекаются функцией find, то одиночный документ извлекается функцией findOne. Ее действие аналогично тому, как если бы мы использовали функцию limit(1), которая также извлекает первый документ коллекции. А комбинация функций skip и limit извлечет документ по нужному местоположению.


Параметр \$natural

Если вдруг нам надо отсортировать ограниченную коллекцию, то мы можем воспользоваться параметром \$natural. Этот параметр позволяет задать сортировку: документы передаются в том порядке, в каком они были добавлены в коллекцию, либо в обратном порядке.
Например, отберем последние пять документов:

> db.rebus.find().sort({ \$natural: -1 }).limit(5)

**Оператор \$slice**


Данный оператор является объединением limit и skip, но позволяет работать и с массивами. Оператор \$slice принимает два параметра. Первый параметр указывает на общее количество возвращаемых документов. Второй параметр необязательный, но если он используется, тогда первый параметр указывает на смещение относительно начала (как функция skip), а второй - на ограничение количества извлекаемых документов.


Например, в каждом документе определен массив languages для хранения языков, на которых говорит человек. Их может быть и 1, и 2, и 3 и более. И допустим, ранее мы добавили следующий объект:

> db.rebus.insert({"name": "Tom", "age": "32", languages: ["english", "german"]})

И мы хотим при выводе документов сделать так, чтобы в выборку попадал только один язык из массива languages, а не весь массив:

> db.rebus.find ({name: "Tom"}, {languages: {\$slice : 1}})

Данный запрос при извлечении документа оставит в результате только первый язык из массива languages, то есть в данном случае english.

Обратная ситуация: нам надо оставить в массиве также один элемент, но не с начала, а с конца. В этом случае необходимо передать в параметр отрицательное значение:

> db.rebus.find ({name: "Tom"}, {languages: {\$slice : -1}});

Теперь в массиве окажется german, так как он первый с конца в добавленном элементе.
Используем сразу два параметра:

> db.rebus.find ({name: "Tom"}, {languages: {\$slice : [-1, 1]}});

Первый параметр говорит начать выборку элементов с конца (так как отрицательное значение), а второй параметр указывает на количество возвращаемых элементов массива. В итоге в массиве language окажется "german"


**Курсоры**

Результат выборки, получаемой с помощью функции find, называется курсором:

> var cursor = db.rebus.find(); null;

Чтобы получить курсор и сразу же не выводить все содержащиеся в нем данные, после метода find() добавляет через точку с запятой выражение null;

Курсоры инкапсулируют в себе наборы получаемых из бд объектов. Используя синтаксис языка javascript и методы курсоров, мы можем вывести полученные документы на экран и как-то их обработать. Например:

> var cursor = db.rebus.find();null;

> while(cursor.hasNext()){obj = cursor.next();print(obj["name"]);}

Курсор обладает методом hasNext, который показывает при переборе, имеется ли еще в наборе документ. А метод next извлекает текущий документ и перемещает курсор к следующему документу в наборе. В итоге в переменной obj оказывается документ, к полям которого мы можем получить доступ.

Также для перебора документов в курсоре в качестве альтернативы мы можем использовать конструкцию итератора javascript - forEach:

> var cursor = db.rebus.find()

> cursor.forEach(function(obj){print(obj.name);})


Чтобы ограничить размер выборки, используется метод limit, принимающий количество документов:

> var cursor = db.users.find();null;

> cursor.limit(5);null;

> cursor.forEach(function(obj){print(obj.name);})

Используя метод sort(), можно отсортировать документы в курсоре:

> var cursor = db.users.find();null;


> cursor.sort({name:1});null;


> cursor.forEach(function(obj){print(obj.name);})

Выражение cursor.sort({name:1}) сортирует документы в курсоре по полю name по возрастанию. Если мы хотим отсортировать по убыванию, то вместо 1 используем -1: cursor.sort({name:-1})

И еще один метод skip() позволяет пропустить при выборке определенное количество документов:

> var cursor = db.users.find();null;

> cursor.skip(2);null;

> cursor.forEach(function(obj){print(obj.name);})

В данном случае пропускаем два документа.И кроме того, можно объединять все эти методы в цепочки:

> var cursor = db.users.find();null;

> cursor.sort({name:1}).limit(3).skip(2);null;

> cursor.forEach(function(obj){
... print(obj.name);
... })



Отдельно стоит рассмотреть команды группировки: count, distinct.

Число элементов в коллекции

С помощью функции count() можно получить число элементов в коллекции:

> db.rebus.count()

Можно группировать параметры поиска и функцию count, чтобы подсчитать, сколько определенных документов, например, у которых name=Tom:

> db.rebus.find({name: "Tom"}).count()

Более того мы можем создавать цепочки функций, чтобы конкретизировать условия подсчета:

> db.rebus.find({name: "Tom"}).skip(2).count(true)

Здесь надо отметить, что по умолчанию функция count не используется с функциями limit и skip. Чтобы их использовать, как в примере выше, в функцию count надо передать булевое значение true

Функция distinct

В коллекции могут быть документы, которые содержат одинаковые значения для одного или нескольких полей. Например, в нескольких документах определено name: "Tom". И нам надо найти только уникальные различающиеся значения для одного из полей документа. Для этого мы можем воспользоваться функцией distinct:

> db.rebus.distinct("name")


Здесь запрашиваются только уникальные значения для поля name. И на следующей строке консоль выводит в виде массива найденные уникальные значения.



**Поиск по массивам**

Ряд операторов предназначены для работы с массивами:
- \$all: определяет набор значений, которые должны иметься в массиве
- $size: определяет количество элементов, которые должны быть в массиве
- \$elemMatch: определяет условие, которым должны соответствовать элемены в массиве

\$all

Оператор \$all определяет массив возможных выражений и требует, чтобы документы имели весь определяемый набор выражений. Соответственно он применяется для поиска по массиву. Например, в документах есть массив languages, хранящий иностранные языки, на которых говорит пользователь. И чтобы найти всех людей, говорящих одновременно и по-английски, и по-французски, мы можем использовать следующее выражение:
1
> db.rebus.find({languages: {\$all : ["english", "frensh"]}})

Оператор \$elemMatch

Оператор \$elemMatch позволяет выбрать документы, в которых массивы содержат элементы, попадающие под определенные условия. Например, пусть в базе данных будет коллекция, которая содержит оценки пользователей по определенным курсам. Добавим несколько документов:

> db.grades.insertMany([{student: "Tom", courses:[{name: "Java", grade: 5}, {name: "MongoDB", grade: 4}]}, {student: "Alice", courses:[{name: "C++", grade: 3}, {name: "MongoDB", grade: 5}]}])

Каждый документ имеет массив courses, который в свою очередь состоит из вложенных документов.

Теперь найдем студентов, которые для курса MongoDB имеют оценку выше 3:

Оператор \$size

Данный оператор используется для нахождения документов, в которых массивы имеют число элементов, равным значению \$size. Например, извлечем все документы, в которых в массиве laguages два элемента:

> db.rebus.find ({languages: {$size:2}})

Такой запрос будет соответствовать, например, следующему документу:

{"name": "Tom", "age": 32, languages: ["english", "german"]}

Оператор \$exists

Оператор \$exists позволяет извлечь только те документы, в которых определенный ключ присутствует или отсутствует. Например, вернем все документы, в который есть ключ company:

> db.rebus.find ({company: {$exists:true}})

Если мы укажем у оператора $exists в качестве параметра false, то запрос вернет нам только те документы, в которых не определен ключ company.

Оператор \$type

Оператор \$type извлекает только те документы, в которых определенный ключ имеет значение определенного типа, например, строку или число:

> db.rebus.find ({age: {\$type:"string"}})

> db.rebus.find ({age: {\$type:"number"}})

Оператор $regex

Оператор $regex задает регулярное выражение, которому должно соответствовать значение поля. Например, пусть поле name обязательно имеет букву "b":

> db.rebus.find ({name: {\$regex:"b"}})

Важно понимать, что данный оператор принимает не просто строки, а именно регулярные выражения, например: 

означает, что значение name должно оканчиваться на "om".

**Обновление данных**

Для обновления данных можно использовать  уже рассморенный метод *save*.

В этот документ в качестве поля можно передать параметр _id. Если метод находит документ с таким значением _id, то документ обновляется. Если же с подобным _id нет документов, то документ вставляется.
Если параметр _id не указан, то документ вставляется, а параметр _id генерируется автоматически как при обычном добавлении через функцию insert:

> db.rebus.save({name: "Eugene", age : 29, languages: ["english", "german", "spanish"]})

> db.rebus.save({"_id":1,name:"Alex", age:29})

WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1 })

Более детальную настройку при обновлении предлагает функция *update*. Она принимает три параметра:
- query: принимает запрос на выборку документа, который надо обновить,
- objNew: представляет документ с новой информацией, который заместит старый при обновлении,
- options: определяет дополнительные параметры при обновлении документов. Может принимать два аргумента: upsert и multi.
      
Если параметр upsert имеет значение true, что mongodb будет обновлять документ, если он найден, и создавать новый, если такого документа нет. Если же он имеет значение false, то mongodb не будет создавать новый документ, если запрос на выборку не найдет ни одного документа.

Параметр multi указывает, должен ли обновляться первый элемент в выборке (используется по умолчанию, если данный параметр не указан) или же должны обновляться все документы в выборке.

Например:

> db.rebus.update({name : "Tom"}, {name: "Tom", age : 25}, {upsert: true})

Теперь документ, найденный запросом {name : "Tom"}, будет перезаписан документом {"name": "Tom", "age" :"25"}.

Функция update() также возвращает объект WriteResult. Например:

> WriteResult({"nMatched" : 1, "nUpserted": 0, "nModified": 1})

В данном случае результат говорит нам о том, что найден один документ, удовлетворяющий условию, и один документ был обновлен.

Часто не требуется обновлять весь документ, а только значение одного из его ключей. Для этого применяется оператор $set. Если документ не содержит обновляемое поле, то оно создается.

> db.rebus.update({name : "Tom", age: 29}, {$set: {age : 30}})

Если обновляемого поля в документе нет, до оно добавляется:

> db.rebus.update({name : "Tom", age: 29}, {$set: {salary : 300}})

В данном случае обновлялся только один документ, первый в выборке. Указав значение multi:true, мы можем обновить все документы выборки:

> db.rebus.update({name : "Tom"}, {$set: {name: "Tom", age : 25}}, {multi:true})

Для простого увеличения значения числового поля на определенное количество единиц применяется оператор $inc. Если документ не содержит обновляемое поле, то оно создается. Данный оператор применим только к числовым значениям.

> db.rebus.update({name : "Tom"}, {$inc: {age:2}})


Для удаления отдельного ключа используется оператор $unset:

> db.rebus.update({name : "Tom"}, {$unset: {salary: 1}})

Если вдруг подобного ключа в документе не существует, то оператор не оказывает никакого влияния. Также можно удалять сразу несколько полей:

> db.rebus.update({name : "Tom"}, {$unset: {salary: 1, age: 1}})


Метод updateOne похож на метод update за тем исключением, что он обновляет только один документ.

> db.rebus.updateOne({name : "Tom", age: 29}, {$set: {salary : 360}})

Если необходимо обновить все документы, соответствующие некоторому критерию, то применяется метод updateMany():

> db.rebus.updateMany({name : "Tom"}, {$set: {salary : 560}})


**Обновление массивов**

*Оператор \$push*

Оператор $push позволяет добавить еще одно значение к уже существующему. Например, если ключ в качестве значения хранит массив:

> db.rebus.updateOne({name : "Tom"}, {\$push: {languages: "russian"}})

Если ключ, для которого мы хотим добавить значение, не представляет массив, то мы получим ошибку.

Используя оператор \$each, можно добавить сразу несколько значений:

Еще пара операторов позволяет настроить вставку. 

Оператор \$position задает позицию в массиве для вставки элементов, а оператор 

\$slice указывает, сколько элементов оставить в массиве после вставки.

В данном случае элементы ["german", "spanish", "italian"] будут вставляться в массив languages с 1-го индекса, и после вставки, в массиве останутся только 5 первых элементов.

Оператор \$addToSet

Данный оператор  также добавляет объекты в массив. Отличие состоит в том, что \$addToSet добавляет данные, если их еще нет в массиве:

> db.rebus.update({name : "Tom"}, {\$addToSet: {languages: "russian"}})

Удаление элемента из массива

Оператор \$pop позволяет удалять элемент из массива:

> db.rebus.update({name : "Tom"}, {$pop: {languages: 1}})

Указывая для ключа languages значение 1, мы удаляем первый элемент с конца. Чтобы удалить первый элемент сначала массива, надо передать отрицательное значение:

> db.users.update({name : "Tom"}, {$pop: {languages: -1}})

Несколько иное действие предполагает оператор \$pull. 

Он удаляет каждое вхождение элемента в массив. Например,  мы можем добавить одно и то же значение в массив несколько раз. И теперь с помощью $pull удалим его:

> db.rebus.update({name : "Tom"}, {$pull: {languages: "english"}})

А если мы хотим удалить не одно значение, а сразу несколько, тогда мы можем применить оператор $pullAll:

> db.rebus.update({name : "Tom"}, {$pullAll: {languages: ["english", "german", "french"]}})


**Удаление данных**

Для удаления документов в MongoDB предусмотрен метод remove:

> db.rebus.remove({name : "Tom"})

Метод remove() возвращает объект WriteResult. При успешном удалении одного документа результат будет следующим:

WriteResult({"nRemoved" : 1})

В итоге все найденные документы с name=Tom будут удалены. Причем, как и в случае с find, мы можем задавать условия выборки для удаления различными способами (в виде регулярных выражений, в виде условных конструкций и т.д.):

> db.rebus.remove({name : /T\w+/i})

> db.rebus.remove({age: {$lt : 30}})

Метод remove также может принимать второй необязательный параметр булевого типа, который указывает, надо удалять один элемент или все элементы, соответствующие условию. Если этот параметр равен true, то удаляется только один элемент. По умолчанию он равен false:

> db.rebus.remove({name : "Tom"}, true)

Чтобы удалить разом все документы из коллекции, надо оставить пустым параметр запроса:

> db.rebus.remove({})

**Удаление коллекций и баз данных**

Мы можем удалять не только документы, но и коллекции и базы данных. Для удаления коллекций используется функция drop:

> db.rebus.drop()

И если удаление коллекции пройдет успешно, то консоль выведет: true

Чтобы удалить всю текущую базу данных, надо воспользоваться функцией dropDatabase():

> db.dropDatabase()


## Библиотека Python по работе с MongoDB

Официальным драйвером MongoDB для Python является PyMongo https://pymongo.readthedocs.io/en/stable/

Для его установки можно использовать:

> pip3 install pymongo

Далее можно работать с MongoDB:

In [25]:
import pymongo as pm

# Подключение к серверу
client = pm.MongoClient('localhost', 27018)

# Подключение к базе данных
db = client['test']

# Получение доступа к коллекции
collection = db['cube']

In [26]:
client

MongoClient(host=['localhost:27018'], document_class=dict, tz_aware=False, connect=True)

In [27]:
db

Database(MongoClient(host=['localhost:27018'], document_class=dict, tz_aware=False, connect=True), 'test')

In [28]:
collection

Collection(Database(MongoClient(host=['localhost:27018'], document_class=dict, tz_aware=False, connect=True), 'test'), 'cube')

In [29]:
dir(collection)

['_BaseObject__codec_options',
 '_BaseObject__read_concern',
 '_BaseObject__read_preference',
 '_BaseObject__write_concern',
 '_Collection__create',
 '_Collection__create_indexes',
 '_Collection__database',
 '_Collection__find_and_modify',
 '_Collection__full_name',
 '_Collection__name',
 '_Collection__write_response_codec_options',
 '__bool__',
 '__call__',
 '__class__',
 '__class_getitem__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__next__',
 '__orig_bases__',
 '__parameters__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__slots__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_aggregate',
 '_aggregate_one_result',
 '_command',
 '_count_cmd',
 '_delete',
 '_delete_retryable',
 '_insert_one',
 '_is_protocol',
 

In [30]:
help(collection.find_one_and_delete)

Help on method find_one_and_delete in module pymongo.collection:

find_one_and_delete(filter: Mapping[str, Any], projection: Union[Mapping[str, Any], Iterable[str], NoneType] = None, sort: Union[Sequence[Tuple[str, Union[int, str, Mapping[str, Any]]]], NoneType] = None, hint: Union[str, Sequence[Tuple[str, Union[int, str, Mapping[str, Any]]]], NoneType] = None, session: Union[ForwardRef('ClientSession'), NoneType] = None, let: Union[Mapping[str, Any], NoneType] = None, comment: Union[Any, NoneType] = None, **kwargs: Any) -> ~_DocumentType method of pymongo.collection.Collection instance
    Finds a single document and deletes it, returning the document.
    
      >>> db.test.count_documents({'x': 1})
      2
      >>> db.test.find_one_and_delete({'x': 1})
      {'x': 1, '_id': ObjectId('54f4e12bfba5220aa4d6dee8')}
      >>> db.test.count_documents({'x': 1})
      1
    
    If multiple documents match *filter*, a *sort* can be applied.
    
      >>> for doc in db.test.find({'x': 1}):

**Примеры поиска данных**

In [31]:
collection.find()

<pymongo.cursor.Cursor at 0x7fa4a7f00730>

In [32]:
for i in collection.find():
    print(i)

{'_id': ObjectId('627e0578bca9d80f8eb22046'), 'name': 'Tom', 'age': 34.0}


In [15]:
[i for i in collection.find({'_id':1})] 

[{'_id': 1.0, 'name': 'Alex', 'age': 29.0}]

In [34]:
[i for i in collection.find()]

[{'_id': ObjectId('627e0578bca9d80f8eb22046'), 'name': 'Tom', 'age': 34.0},
 {'_id': ObjectId('627e07c8cbc4f41db9cdb5d5'), 'name': 'Alex', 'age': 23.0}]

In [35]:
[i for i in collection.find({'name':'Tom'})] 

[{'_id': ObjectId('627e0578bca9d80f8eb22046'), 'name': 'Tom', 'age': 34.0}]

In [36]:
[i for i in collection.find({'name':'Tom','age':32})] 

[]

In [18]:
[i for i in collection.find({'name':'Tom'},{'age': True, '_id': False, 'name':True})]

[{'name': 'Tom', 'age': 27.0},
 {'name': 'Tom', 'age': 66.0},
 {'name': 'Tom', 'age': 32.0},
 {'name': 'Tom', 'age': '77'}]

In [37]:
[i for i in collection.find({},{'age': True, '_id': False, 'name':True})]

[{'name': 'Tom', 'age': 34.0}, {'name': 'Alex', 'age': 23.0}]

In [19]:
[i for i in collection.find({'languages': {'$all' : ["english", "frensh"]}})]

[{'_id': ObjectId('626b71af5707ed33aee74498'),
  'name': 'Bob',
  'age': 28.0,
  'languages': ['english', 'frensh'],
  'trast': 2.0}]

In [21]:
[i for i in collection.find({'$and':[{'name':"Tom"},{'age':{'$gt': 30}}]})]


[{'_id': ObjectId('6274cb670cc23f4485514a03'), 'name': 'Tom', 'age': 66.0},
 {'_id': ObjectId('6274cc810cc23f4485514a04'),
  'name': 'Tom',
  'age': 32.0,
  'languages': ['english', 'german', 'russian']}]

**Примеры обновления данных**

In [38]:
collection.update_one({'name' : "Tom"}, {'$set': {'salary' : 360}})

<pymongo.results.UpdateResult at 0x7fa4a7be2f40>

In [24]:
[i for i in collection.find({'$and':[{'name':"Tom"},{'age':66}]})]

[{'_id': ObjectId('6274cb670cc23f4485514a03'),
  'name': 'Tom',
  'age': 66.0,
  'salary': 360}]