# NoSQL

## Что такое NoSQL?

**NoSQL (от англ. not only SQL — не только SQL)** — ряд подходов, направленных на реализацию систем управления базами данных, имеющих существенные отличия от моделей, используемых в реляционных СУБД с доступом к данным средствами языка SQL.

Применяется к базам данных, в которых делается попытка решить проблемы *масштабируемости* и *доступности* за счёт *атомарности (англ. atomicity)* и *согласованности данных (англ. consistency)*.


**Характерными чертами NoSQL-решений** являются:
- Применение различных типов хранилищ.
- Возможность разработки базы данных без задания схемы.
- Линейная масштабируемость (добавление процессоров увеличивает производительность).
- Инновационность: «не только SQL» открывает много возможностей для хранения и обработки данных.

<center><img src="https://raw.githubusercontent.com/ryndovaira-org/data_science_notes/main/images/linear_nonlinear_scal.png"/></center>

**Масштабируемость (англ. scalability)** — в электронике и информатике означает способность системы, сети или процесса справляться с увеличением рабочей нагрузки (увеличивать свою производительность) при добавлении ресурсов (обычно аппаратных). Масштабируемость можно оценить через отношение прироста производительности системы к приросту используемых ресурсов. Чем ближе это отношение к единице, тем лучше.

**Доступность информации** — состояние информации (ресурсов автоматизированной информационной системы), при котором субъекты, имеющие права доступа, могут реализовывать их беспрепятственно. К правам доступа относятся: право на чтение, изменение, хранение, копирование, уничтожение информации, а также права на изменение, использование, уничтожение ресурсов.

## *BASE

Термин **BASE** был предложен Эриком Брюером, автором теоремы CAP (согласованность данных (англ. consistency), доступность (англ. availability), устойчивость к разделению (англ. partition tolerance)), согласно которой в распределённых вычислениях можно обеспечить только два из трех свойств: согласованность данных, доступность или устойчивость к разделению.

- Базовая доступность (англ. **b**asic **a**vailability) — каждый запрос гарантированно завершается (успешно или безуспешно).

- Гибкое состояние (англ. **s**oft state) — состояние системы может изменяться со временем, даже без ввода новых данных, для достижения согласования данных.

- Согласованность в конечном счёте (англ. **e**ventual consistency) — данные могут быть некоторое время рассогласованы, но приходят к согласованию через некоторое время.

Системы на основе **BASE** НЕ могут использоваться в любых приложениях: для функционирования биржевых и банковских систем использование транзакций является необходимостью.

В то же время, свойства **ACID**, какими бы желанными они ни были, практически невозможно обеспечить в системах с многомиллионной веб-аудиторией, вроде amazon.com.

## Типы NoSQL систем

**Распределенная БД (англ. distributed database, DDB)** — база данных, составные части которой размещаются в различных узлах компьютерной сети в соответствии с каким-либо критерием.

**Репликация (англ. replication)** — механизм синхронизации содержимого нескольких копий объекта (например, содержимого базы данных). Репликация — это процесс, под которым понимается копирование данных из одного источника на другой (или на множество других) и наоборот.

В зависимости от модели данных и подходов к распределенности и репликации в NoSQL-движении выделяются четыре основных типа систем:
- ключ — значение (англ. key-value store)
- документоориентированные (document store)
- семейство столбцов (column-family store)
- графовые

<center><img src="https://raw.githubusercontent.com/ryndovaira-org/data_science_notes/main/images/sql_vs_nosql.png"/></center>

### Ключ — значение (англ. key-value store)

- Является простейшим вариантом, использующим ключ для доступа к значению.

- Такие системы используются для хранения изображений, создания специализированных файловых систем, в качестве кэшей для объектов, а также в системах, спроектированных с прицелом на масштабируемость.

- Примеры таких хранилищ
    - Berkeley DB
    - MemcacheDB
    - **Redis**
    - Riak
    - Amazon DynamoDB
    - **Tarantul**


*Кэш (англ. cache) — промежуточный буфер с быстрым доступом к нему, содержащий информацию, которая может быть запрошена с наибольшей вероятностью. 

### Документоориентированные (document store)

- Служат для хранения иерархических структур данных.

- Находят своё применение в системах управления содержимым, издательском деле, документальном поиске.

- Примеры СУБД данного типа
    - CouchDB
    - Couchbase
    - **MongoDB**
    - eXist
    - Berkeley DB XM

### Семейство столбцов (column-family store)

- Прародитель этого типа — система Google BigTable.

- В таких системах данные хранятся в виде разреженной матрицы, строки и столбцы которой используются как ключи.

- Типичным применением этого типа СУБД является веб-индексирование, а также задачи, связанные с большими данными, с пониженными требованиями к согласованности.

- Примерами СУБД данного типа являются:
    - Apache HBase
    - **Apache Cassandra**
    - ScyllaDB
    - Apache Accumulo
    - Hypertable

### Графовые

- Применяются для задач, в которых данные имеют большое количество связей, например, социальные сети, выявление мошенничества.

- Примеры:
    - **Neo4j**
    - OrientDB
    - AllegroGraph
    - Blazegraph
    - InfiniteGraph
    - FlockDB
    - Titan

# References

[NoSQL](https://ru.wikipedia.org/wiki/NoSQL)

[NoSQL базы данных: понимаем суть](https://habr.com/ru/post/152477/)

[За и против: Когда стоит и не стоит использовать MongoDB](https://habr.com/ru/company/latera/blog/280196/)