# Введение в MongoDB

In [2]:
from IPython.display import Image
Image(url='images/logo2.png')

MongoDB реализует новый подход к построению баз данных, где нет таблиц, схем, запросов SQL, внешних ключей и многих других вещей, которые присущи объектно-реляционным базам данных.

Вся система MongoDB может представлять не только одну базу данных, находящуюся на одном физическом сервере. Функциональность MongoDB позволяет расположить несколько баз данных на нескольких физических серверах, и эти базы данных смогут легко обмениваться данными и сохранять целостность.

### Документы вместо строк

Если реляционные базы данных хранят строки, то MongoDB хранит документы. В отличие от строк документы могут хранить сложную по структуре информацию. Документ можно представить как хранилище ключей и значений.

Ключ представляет простую метку, с которой ассоциирован определенный кусок данных.

Однако при всех различиях есть одна особенность, которая сближает MongoDB и реляционные базы данных. В реляционных БД встречается такое понятие как первичный ключ. Это понятие описывает некий столбец, который имеет уникальные значения. В MongoDB для каждого документа имеется уникальный идентификатор, который называется _id. И если явным образом не указать его значение, то MongoDB автоматически сгенерирует для него значение.

Каждому ключу сопоставляется определенное значение. Но здесь также надо учитывать одну особенность: если в реляционных базах есть четко очерченная структура, где есть поля, и если какое-то поле не имеет значение, ему (в зависимости от настроек конкретной бд) можно присвоить значение NULL. В MongoDB все иначе. Если какому-то ключу не сопоставлено значение, то этот ключ просто опускается в документе и не употребляется.

Типы значений:
<b>String</b>: строковый тип данных, как в приведенном выше примере (для строк используется кодировка UTF-8)<br>
<b>Array (массив)</b>: тип данных для хранения массивов элементов<br>
<b>Binary data (двоичные данные)</b>: тип для хранения данных в бинарном формате<br>
<b>Boolean</b>: булевый тип данных, хранящий логические значения TRUE или FALSE, например, {"married": FALSE}<br>
<b>Date</b>: хранит дату в формате времени Unix<br>
<b>Double</b>: числовой тип данных для хранения чисел с плавающей точкой<br>
<b>Integer</b>: используется для хранения целочисленных значений, например, {"age": 29}<br>
<b>JavaScript</b>: тип данных для хранения кода javascript<br>
<b>Min key/Max key</b>: используются для сравнения значений с наименьшим/наибольшим элементов BSON<br>
<b>Null</b>: тип данных для хранения значения Null<br>
<b>Object</b>: строковый тип данных, как в приведенном выше примере<br>
<b>ObjectID</b>: тип данных для хранения id документа<br>
<b>Regular expression</b>: применяется для хранения регулярных выражений<br>
<b>Symbol</b>: тип данных, идентичный строковому. Используется преимущественно для тех языков, в которых есть специальные символы.<br>
<b>Timestamp</b>: применяется для хранения времени   

### Коллекции

Если в традиционном мире SQL есть таблицы, то в мире MongoDB есть коллекции. И если в реляционных БД таблицы хранят однотипные жестко структурированные объекты, то в коллекции могут содержать самые разные объекты, имеющие различную структуру и различный набор свойств.

## Установка и начало работы с MongoDB

Установить MongoDB можно скачав установщик по ссылке https://www.mongodb.com/download-center/community?jmp=docs

Официальный сайт предоставляет пакеты дистрибутивов для различных платформ: Windows, Linux, MacOS, Solaris. И каждой платформы доступно несколько дистрибутивов. Причем есть два вида серверов - Community и Enterprise. В данном случае надо установить версию Community. Хотя Enterprise-версия обладает несколько большими возможностями, но она доступна только в триальном режиме или по подписке.



После установки надо создать на жестком диске каталог, в котором будут находиться базы данных MongoDB.
В ОС Windows по умолчанию MongoDB хранит базы данных по пути C:\data\db, поэтому, если вы используете Windows, вам надо создать соответствующий каталог. В ОС Linux и MacOS каталогом по умолчанию будет /data/db.

После создания каталога для хранения БД можно запустить сервер MongoDB. Сервер представляет приложение <b>mongod</b>, которое находится в папке bin. Для этого запустим командную строку (в Windows) или консоль в Linux и там введем соответствующие команды. 

In [None]:
>cd C:\mongodb\bin
>mongod

Командная строка отобразит нам ряд служебной информации, например, что сервер запускается на localhost на порту 27017.

In [3]:
Image(url='images/cmd.png')

И после удачного запуска сервера мы сможем производить операции с бд через оболочку mongo. Эта оболочка представляет файл mongo.exe, который располагается в выше рассмотренной папке установки. Запустим этот файл.

In [4]:
Image(url='images/mongo.png')

Это консольная оболочка для взаимодействия с сервером, через которую можно управлять данными. 

Теперь поизведем какие-либо простейшие действия. Введем в mongo последовательно следующие команды и после каждой команды нажмем на Enter:

In [None]:
use test
db.users.save( { name: "Tom" } )
db.users.find()

Первая команда <b>use test</b> устанавливает в качестве используемой базу данных <i>test</i>. Даже если такой бд нет, то она создается автоматически. И далее <i>db</i> будет представлять текущую базу данных - то есть базу данных test. После <i>db</i> идет <i>users</i> - это коллекция, в которую затем мы добавляем новый объект. Если в SQL нам надо создавать таблицы заранее, то коллекции MongoDB создает самостоятельно при их отсутствии.

С помощью метода <b>db.users.save()</b> в коллекцию <i>users</i> базы данных <i>test</i> добавляется объект { name: "Tom" }.

А третья команда <b>db.users.find()</b> выводит на экран все объекты из коллекции <i>users</i>.

Для добавления в коллекцию могут использоваться три ее метода:<br>

<b>insertOne()</b>: добавляет один документ<br>

<b>insertMany()</b>: добавляет несколько документов<br>

<b>insert()</b>: может добавлять как один, так и несколько документов

### Формат данных в MongoDB

Одним из популярных стандартов обмена данными и их хранения является JSON. JSON эффективно описывает сложные по структуре данные. Способ хранения данных в MongoDB в этом плане похож на JSON, хотя формально JSON не используется. Для хранения в MongoDB применяется формат, который называется <b>BSON</b>, что является сокращением от binary JSON.

BSON позволяет работать с данными быстрее: быстрее выполняется поиск и обработка. Хотя надо отметить, что BSON в отличие от хранения данных в формате JSON имеет небольшой недостаток: в целом данные в JSON-формате занимают меньше места, чем в формате BSON, с другой стороны, данный недостаток с лихвой окупается скоростью.

### GridFS

В отличие от реляционных СУБД MongoDB позволяет сохранять различные документы с различным набором данных, однако при этом размер документа ограничивается 16 мб. Но MongoDB предлагает решение - специальную технологию GridFS, которая позволяет хранить данные по размеру больше, чем 16 мб.

Система GridFS состоит из двух коллекций. В первой коллекции, которая называется <b>files</b>, хранятся имена файлов, а также их метаданные, например, размер. А в другой коллекции, которая называется <b>chunks</b>, в виде небольших сегментов хранятся данные файлов, обычно сегментами по 256 кб.

Для тестирования GridFS можно использовать специальную утилиту <b>mongofiles</b>, которая идет в пакете mongodb.

### Графический клиент Compass

Для работы с MongoDB можно использовать официальный графический клиент Compass.
Ссылка для скачивания: https://www.mongodb.com/download-center/compass

После загрузки программы установки запустим ее. Отобразится следующее окно, которое инфомирует о том, что произодится установка:

In [5]:
Image(url='images/loading.jpg')

In [6]:
Image(url='images/compass.png')

Подключимся к локальному серверу. Для этого вначале запустим сам сервер MongoDB. В Compass оставим все настройки подключения по умолчанию (они как раз нацелены на локальный сервер, который запускается по адресу localhost:27017) и для подключения нажмем на кнопку Connect.

После этого нам откроется список баз данных, которые есть на сервере:

In [7]:
Image(url='images/compass5.png')

Мы можем выбрать определенную базу данных и получить по нему информацию, в частности, увидеть набор коллекций в бд, сколько они занимают данных.

In [8]:
Image(url='images/compass6.png')