## Задание

Взять произвольный текст. Распарсить его на токены(слова). Произвести запись и считывание в и из базы данных. Использовать различные базы данных и различные библиотеки для доступа к ним.

`MySQL/MariaDB`, `PostgreSQL`, `Oracle`, `MongoDB `являются в большей степени транзакционными(OLTP) базами данных и не предназначены для хранения большого объема данных. Обычно они используются как hot хранилища, в котороых содержится небольшое количество "свежих" данных. Для остальных данных используются так называемые "cold" хранилища, которые неплохо справляются с большими данными. Но есть и еще один уровень - так называемые "warehouses"(склады) - это то место, которое используется в том случае, когда никакая база данных не может справиться с такими объемами. Обычно время чтения в таких базах данных очень высокая(я имею в виду, что оно может измеряться часами). Яркий пример - https://aws.amazon.com/glacier/ - это натуральные магнитные ленты, которые лежат в шкафах. И когда пользователь запрашивает соотвествующую информацию(например, историю своих заказов 15 лет назад), выезжает специальный робот, берет эту ленту и производит чтение с ленты и запись на жесткий диск.

Понятное дело, что я не буду подымать кластер  `Amazon Glacier`, так как нам для наших целей это не очень подходит. Поэтому в данном задании будет развернуто одно `OLTP` решение и одно `OLAP` решение. Свой выбор объясняю тем, что в небольших компаниях аналитика может проводиться на основной базе - а она как раз обычно `OLTP`. Когда проект/компания подрастает, то они начинают масштабироваться и уже испольовать `OLAP `для анализа.

Примеры OLAP решений - `Cassandra`, `Druid`, `Clickhouse`, `Hadoop + Apache Spark`.

OLTP BD - `PostgreSQL`. Стандарт `OLTP `решений во многих компаниях. `PostgreSQL `импонирует мне тем, что данная база имеет довольно богатый query language + включает в себя поддержку фильтрации по JSON документам. В прошлые годы `Postgres` обходил `MongoDB` по скорости работы с JSON документами
OLAP BD - `ClickHouse`. Довольно амбициозный проект от компании Yandex. Представляет собой колоночную аналитическую базу данных

#### Скачивание и настройка PostgreSQL
Для простоты был использован `Docker` образ

```
docker run --name ds-postgres -d -e POSTGRES_PASSWORD="asd123" -e POSTGRES_USER="admin" -e POSTGRES_DB="text" -p 5432:5432 postgres:12-alpine
```

Считывание и парсинг книги "Гарри Поттер и методы рационального мышления":

In [22]:
FILENAME='./pom.txt'

with open(FILENAME) as f:
    data = f.read()

In [23]:
import re

tokens = re.split(r'[\n\r\s\.,\'\"\(\):\!\?\+\d]+', data)

tokens = list(filter(lambda x: len(x) > 4, tokens))

Для работы с PostgreSQL в Python скриптах использовался psycopg2 как самый популярный драйвер на данный момент. Список доступных драйверов:
* `Psycopg2`
* `pg8000`
* `py-postgresql`
* `PyGreSQL`
* `ocpgdb`
* `bpgsql`
* `SQLAlchemy`

```
pip install psycopg2
```

In [3]:
import psycopg2

config_object = {
    'dbname': 'text',
    'user': 'admin', 
    'password': 'asd123',
    'host': '0.0.0.0'
}

In [None]:
import time

start = time.time()

connection = psycopg2.connect(**config_object)
cursor = connection.cursor()

cursor.execute('CREATE TABLE IF NOT EXISTS tokens (id serial PRIMARY KEY, token varchar)')
cursor.execute('DELETE FROM tokens')
cursor.execute('INSERT INTO tokens (token) VALUES ' + ('(%s), '*len(tokens))[: -2], tokens)

connection.commit()

cursor.close()
connection.close()

end = time.time()

print("Psycopg2 write time: {}s. Rows amount = {}".format(end - start, len(tokens)),)

In [None]:
start = time.time()

connection = psycopg2.connect(**config_object)
cursor = connection.cursor()

cursor.execute('SELECT token FROM tokens')

data = cursor.fetchall()

cursor.close()
connection.close()

end = time.time()

print("Psycopg2 read time: {}s. Rows amount = {}".format(end - start, len(tokens)))

Теперь проведем те же манипуляции с другим драйвером - `sqlalchemy`

In [27]:
import sqlalchemy as db
config_object = {
    'database': 'text',
    'password': 'asd123',
    'host': '0.0.0.0'
}
engine = db.create_engine('postgresql://admin:asd123@0.0.0.0:5432/text')

connection = engine.connect()

import time

start = time.time()

connection.execute('CREATE TABLE IF NOT EXISTS tokens (id serial PRIMARY KEY, token varchar)')
connection.execute('DELETE FROM tokens')
connection.execute('INSERT INTO tokens (token) VALUES ' + ("('{}'), "*len(tokens))[: -2].format(*tokens))

connection.close()

end = time.time()

print("sqlalchemy write time: {}s. Rows amount = {}".format(end - start, len(tokens)),)

sqlalchemy write time: 1.6546473503112793s. Rows amount = 317063


In [28]:

connection = engine.connect()

import time

start = time.time()

fetchQuery = connection.execute('SELECT * FROM tokens')

fetchQuery.fetchall()

connection.close()

end = time.time()

print("sqlalchemy read time: {}s. Rows amount = {}".format(end - start, len(tokens)),)

sqlalchemy read time: 0.34694480895996094s. Rows amount = 317063


#### Скачивание и настройка Clickhouse. 

Как обычно, скачиваем и запускаем соответствующий `docker` образ

```
docker run -d --name ds-clickhouse-server --ulimit nofile=262144:262144 -d -p 8123:8123 -p 9000:9000 yandex/clickhouse-server
```

Для запуска есть соответствующий контейнер

```
docker run -it --rm --link ds-clickhouse-server:clickhouse-server yandex/clickhouse-client --host clickhouse-server
```

Для доступа к базе данных установим `clickhouse-driver` из `pip` репозитория:
```
pip install clickhouse-driver
```

In [140]:
start = time.time()
from clickhouse_driver import Client

client = Client(host='0.0.0.0')

client.execute('CREATE DATABASE IF NOT EXISTS text;')
client.execute('DROP TABLE IF EXISTS text.tokens;');
client.execute('CREATE TABLE IF NOT EXISTS text.tokens (token String) Engine = Log;')
client.execute('INSERT INTO text.tokens (token) VALUES', list(map(lambda x: [x], tokens)))

end = time.time()

print("Clickhouse driver write time: {}s. Rows amount = {}".format(end - start, len(tokens)),)

Clickhouse driver write time: 0.7034258842468262s. Rows amount = 317063


In [143]:
start = time.time()

values = client.execute('SELECT * FROM text.tokens');

end = time.time()

print("Clickhouse driver read time: {}s. Rows amount = {}".format(end - start, len(tokens)))

Clickhouse driver read time: 0.4524197578430176s. Rows amount = 317063


Результат работы с примерно 300 000 строками

| Operation     | Clickhouse      | PostgreSQL(psycopg2)  | PostgreSQL(SQLAlchemy)  |
| ------------- |:---------------:| ---------------------:| -----------------------:|
| read          | 0.45s           | 0.18s                 | 0.3s                    |
| write         | 1.65s           | 0.65s                 | 1.8s                    |

Мы записали в базу сразу довольно много значений. Как и ожидалось OLTP решение довольно долго это делало, в то время как
ClickHouse изначально заточенный под такие операции справился почти в 3 раза быстрее. Но, в то же время, PostgreSQL выиграл
в скорости чтения. Тоже довольно логично. Итог - для каждой задачи свой инструмент.