Skip to content


Rename directory monitor concept into async INSERT
Browse files Browse the repository at this point in the history
Rename the following query settings (with preserving backward
compatiblity, by keeping old name as an alias):
- distributed_directory_monitor_sleep_time_ms -> distributed_async_insert_sleep_time_ms
- distributed_directory_monitor_max_sleep_time_ms -> distributed_async_insert_max_sleep_time_ms
- distributed_directory_monitor_batch -> distributed_async_insert_batch_inserts
- distributed_directory_monitor_split_batch_on_failure -> distributed_async_insert_split_batch_on_failure

Rename the following table settings (with preserving backward
compatiblity, by keeping old name as an alias):
- monitor_batch_inserts -> async_insert_batch
- monitor_split_batch_on_failure -> async_insert_split_batch_on_failure
- directory_monitor_sleep_time_ms -> async_insert_sleep_time_ms
- directory_monitor_max_sleep_time_ms -> async_insert_max_sleep_time_ms

And also update all the references:

    $ gg -e directory_monitor_ -e monitor_ tests docs | cut -d: -f1 | sort -u | xargs sed -e 's/distributed_directory_monitor_sleep_time_ms/distributed_async_insert_sleep_time_ms/g' -e 's/distributed_directory_monitor_max_sleep_time_ms/distributed_async_insert_max_sleep_time_ms/g' -e 's/distributed_directory_monitor_batch_inserts/distributed_async_insert_batch/g' -e 's/distributed_directory_monitor_split_batch_on_failure/distributed_async_insert_split_batch_on_failure/g' -e 's/monitor_batch_inserts/async_insert_batch/g' -e 's/monitor_split_batch_on_failure/async_insert_split_batch_on_failure/g' -e 's/monitor_sleep_time_ms/async_insert_sleep_time_ms/g' -e 's/monitor_max_sleep_time_ms/async_insert_max_sleep_time_ms/g' -i

Signed-off-by: Azat Khuzhin <>
  • Loading branch information
azat committed Oct 25, 2023
1 parent 4c18dc0 commit ef7d8c8
Show file tree
Hide file tree
Showing 31 changed files with 146 additions and 111 deletions.
1 change: 1 addition & 0 deletions docker/test/upgrade/
Expand Up @@ -189,6 +189,7 @@ rg -Fav -e "Code: 236. DB::Exception: Cancelled merging parts" \
-e "ZooKeeperClient" \
-e "DirectoryMonitor" \
-e "DistributedInsertQueue" \
-e "Code: 1000, e.code() = 111, Connection refused" \
Expand Down
18 changes: 9 additions & 9 deletions docs/en/engines/table-engines/special/
Expand Up @@ -77,21 +77,21 @@ CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster] AS [db2.]name2

`max_delay_to_insert` - max delay of inserting data into Distributed table in seconds, if there are a lot of pending bytes for async send. Default 60.

#### monitor_batch_inserts
#### async_insert_batch

`monitor_batch_inserts` - same as [distributed_directory_monitor_batch_inserts](../../../operations/settings/
`async_insert_batch` - same as [distributed_async_insert_batch](../../../operations/settings/

#### monitor_split_batch_on_failure
#### async_insert_split_batch_on_failure

`monitor_split_batch_on_failure` - same as [distributed_directory_monitor_split_batch_on_failure](../../../operations/settings/
`async_insert_split_batch_on_failure` - same as [distributed_async_insert_split_batch_on_failure](../../../operations/settings/

#### monitor_sleep_time_ms
#### async_insert_sleep_time_ms

`monitor_sleep_time_ms` - same as [distributed_directory_monitor_sleep_time_ms](../../../operations/settings/
`async_insert_sleep_time_ms` - same as [distributed_async_insert_sleep_time_ms](../../../operations/settings/

#### monitor_max_sleep_time_ms
#### async_insert_max_sleep_time_ms

`monitor_max_sleep_time_ms` - same as [distributed_directory_monitor_max_sleep_time_ms](../../../operations/settings/
`async_insert_max_sleep_time_ms` - same as [distributed_async_insert_max_sleep_time_ms](../../../operations/settings/

**Durability settings** (`fsync_...`):
Expand Down Expand Up @@ -232,7 +232,7 @@ You should be concerned about the sharding scheme in the following cases:
- Queries are used that require joining data (`IN` or `JOIN`) by a specific key. If data is sharded by this key, you can use local `IN` or `JOIN` instead of `GLOBAL IN` or `GLOBAL JOIN`, which is much more efficient.
- A large number of servers is used (hundreds or more) with a large number of small queries, for example, queries for data of individual clients (e.g. websites, advertisers, or partners). In order for the small queries to not affect the entire cluster, it makes sense to locate data for a single client on a single shard. Alternatively, you can set up bi-level sharding: divide the entire cluster into “layers”, where a layer may consist of multiple shards. Data for a single client is located on a single layer, but shards can be added to a layer as necessary, and data is randomly distributed within them. `Distributed` tables are created for each layer, and a single shared distributed table is created for global queries.

Data is written asynchronously. When inserted in the table, the data block is just written to the local file system. The data is sent to the remote servers in the background as soon as possible. The periodicity for sending data is managed by the [distributed_directory_monitor_sleep_time_ms](../../../operations/settings/ and [distributed_directory_monitor_max_sleep_time_ms](../../../operations/settings/ settings. The `Distributed` engine sends each file with inserted data separately, but you can enable batch sending of files with the [distributed_directory_monitor_batch_inserts](../../../operations/settings/ setting. This setting improves cluster performance by better utilizing local server and network resources. You should check whether data is sent successfully by checking the list of files (data waiting to be sent) in the table directory: `/var/lib/clickhouse/data/database/table/`. The number of threads performing background tasks can be set by [background_distributed_schedule_pool_size](../../../operations/settings/ setting.
Data is written asynchronously. When inserted in the table, the data block is just written to the local file system. The data is sent to the remote servers in the background as soon as possible. The periodicity for sending data is managed by the [distributed_async_insert_sleep_time_ms](../../../operations/settings/ and [distributed_async_insert_max_sleep_time_ms](../../../operations/settings/ settings. The `Distributed` engine sends each file with inserted data separately, but you can enable batch sending of files with the [distributed_async_insert_batch](../../../operations/settings/ setting. This setting improves cluster performance by better utilizing local server and network resources. You should check whether data is sent successfully by checking the list of files (data waiting to be sent) in the table directory: `/var/lib/clickhouse/data/database/table/`. The number of threads performing background tasks can be set by [background_distributed_schedule_pool_size](../../../operations/settings/ setting.

If the server ceased to exist or had a rough restart (for example, due to a hardware failure) after an `INSERT` to a `Distributed` table, the inserted data might be lost. If a damaged data part is detected in the table directory, it is transferred to the `broken` subdirectory and no longer used.

Expand Down
12 changes: 6 additions & 6 deletions docs/en/operations/settings/
Expand Up @@ -2462,7 +2462,7 @@ See also:
- [distributed_replica_error_cap](#distributed_replica_error_cap)
- [distributed_replica_error_half_life](#settings-distributed_replica_error_half_life)

## distributed_directory_monitor_sleep_time_ms {#distributed_directory_monitor_sleep_time_ms}
## distributed_async_insert_sleep_time_ms {#distributed_async_insert_sleep_time_ms}

Base interval for the [Distributed](../../engines/table-engines/special/ table engine to send data. The actual interval grows exponentially in the event of errors.

Expand All @@ -2472,17 +2472,17 @@ Possible values:

Default value: 100 milliseconds.

## distributed_directory_monitor_max_sleep_time_ms {#distributed_directory_monitor_max_sleep_time_ms}
## distributed_async_insert_max_sleep_time_ms {#distributed_async_insert_max_sleep_time_ms}

Maximum interval for the [Distributed](../../engines/table-engines/special/ table engine to send data. Limits exponential growth of the interval set in the [distributed_directory_monitor_sleep_time_ms](#distributed_directory_monitor_sleep_time_ms) setting.
Maximum interval for the [Distributed](../../engines/table-engines/special/ table engine to send data. Limits exponential growth of the interval set in the [distributed_async_insert_sleep_time_ms](#distributed_async_insert_sleep_time_ms) setting.

Possible values:

- A positive integer number of milliseconds.

Default value: 30000 milliseconds (30 seconds).

## distributed_directory_monitor_batch_inserts {#distributed_directory_monitor_batch_inserts}
## distributed_async_insert_batch {#distributed_async_insert_batch}

Enables/disables inserted data sending in batches.

Expand All @@ -2495,13 +2495,13 @@ Possible values:

Default value: 0.

## distributed_directory_monitor_split_batch_on_failure {#distributed_directory_monitor_split_batch_on_failure}
## distributed_async_insert_split_batch_on_failure {#distributed_async_insert_split_batch_on_failure}

Enables/disables splitting batches on failures.

Sometimes sending particular batch to the remote shard may fail, because of some complex pipeline after (i.e. `MATERIALIZED VIEW` with `GROUP BY`) due to `Memory limit exceeded` or similar errors. In this case, retrying will not help (and this will stuck distributed sends for the table) but sending files from that batch one by one may succeed INSERT.

So installing this setting to `1` will disable batching for such batches (i.e. temporary disables `distributed_directory_monitor_batch_inserts` for failed batches).
So installing this setting to `1` will disable batching for such batches (i.e. temporary disables `distributed_async_insert_batch` for failed batches).

Possible values:

Expand Down
2 changes: 1 addition & 1 deletion docs/ru/engines/table-engines/special/
Expand Up @@ -131,7 +131,7 @@ logs - имя кластера в конфигурационном файле с
- используются запросы, требующие соединение данных (IN, JOIN) по определённому ключу - тогда если данные шардированы по этому ключу, то можно использовать локальные IN, JOIN вместо GLOBAL IN, GLOBAL JOIN, что кардинально более эффективно.
- используется большое количество серверов (сотни и больше) и большое количество маленьких запросов (запросы отдельных клиентов - сайтов, рекламодателей, партнёров) - тогда, для того, чтобы маленькие запросы не затрагивали весь кластер, имеет смысл располагать данные одного клиента на одном шарде, или сделать двухуровневое шардирование: разбить весь кластер на «слои», где слой может состоять из нескольких шардов; данные для одного клиента располагаются на одном слое, но в один слой можно по мере необходимости добавлять шарды, в рамках которых данные распределены произвольным образом; создаются распределённые таблицы на каждый слой и одна общая распределённая таблица для глобальных запросов.

Запись данных осуществляется полностью асинхронно. При вставке в таблицу, блок данных сначала записывается в файловую систему. Затем, в фоновом режиме отправляются на удалённые серверы при первой возможности. Период отправки регулируется настройками [distributed_directory_monitor_sleep_time_ms](../../../operations/settings/ и [distributed_directory_monitor_max_sleep_time_ms](../../../operations/settings/ Движок таблиц `Distributed` отправляет каждый файл со вставленными данными отдельно, но можно включить пакетную отправку данных настройкой [distributed_directory_monitor_batch_inserts](../../../operations/settings/ Эта настройка улучшает производительность кластера за счет более оптимального использования ресурсов сервера-отправителя и сети. Необходимо проверять, что данные отправлены успешно, для этого проверьте список файлов (данных, ожидающих отправки) в каталоге таблицы `/var/lib/clickhouse/data/database/table/`. Количество потоков для выполнения фоновых задач можно задать с помощью настройки [background_distributed_schedule_pool_size](../../../operations/settings/
Запись данных осуществляется полностью асинхронно. При вставке в таблицу, блок данных сначала записывается в файловую систему. Затем, в фоновом режиме отправляются на удалённые серверы при первой возможности. Период отправки регулируется настройками [distributed_async_insert_sleep_time_ms](../../../operations/settings/ и [distributed_async_insert_max_sleep_time_ms](../../../operations/settings/ Движок таблиц `Distributed` отправляет каждый файл со вставленными данными отдельно, но можно включить пакетную отправку данных настройкой [distributed_async_insert_batch](../../../operations/settings/ Эта настройка улучшает производительность кластера за счет более оптимального использования ресурсов сервера-отправителя и сети. Необходимо проверять, что данные отправлены успешно, для этого проверьте список файлов (данных, ожидающих отправки) в каталоге таблицы `/var/lib/clickhouse/data/database/table/`. Количество потоков для выполнения фоновых задач можно задать с помощью настройки [background_distributed_schedule_pool_size](../../../operations/settings/

Если после INSERT-а в Distributed таблицу, сервер перестал существовать или был грубо перезапущен (например, в следствие аппаратного сбоя), то записанные данные могут быть потеряны. Если в директории таблицы обнаружен повреждённый кусок данных, то он переносится в поддиректорию broken и больше не используется.

Expand Down
8 changes: 4 additions & 4 deletions docs/ru/operations/settings/
Expand Up @@ -2136,7 +2136,7 @@ SELECT * FROM test_table
- [distributed_replica_error_cap](#settings-distributed_replica_error_cap)
- [distributed_replica_error_half_life](#settings-distributed_replica_error_half_life)

## distributed_directory_monitor_sleep_time_ms {#distributed_directory_monitor_sleep_time_ms}
## distributed_async_insert_sleep_time_ms {#distributed_async_insert_sleep_time_ms}

Основной интервал отправки данных движком таблиц [Distributed](../../engines/table-engines/special/ Фактический интервал растёт экспоненциально при возникновении ошибок.

Expand All @@ -2146,17 +2146,17 @@ SELECT * FROM test_table

Значение по умолчанию: 100 миллисекунд.

## distributed_directory_monitor_max_sleep_time_ms {#distributed_directory_monitor_max_sleep_time_ms}
## distributed_async_insert_max_sleep_time_ms {#distributed_async_insert_max_sleep_time_ms}

Максимальный интервал отправки данных движком таблиц [Distributed](../../engines/table-engines/special/ Ограничивает экпоненциальный рост интервала, установленого настройкой [distributed_directory_monitor_sleep_time_ms](#distributed_directory_monitor_sleep_time_ms).
Максимальный интервал отправки данных движком таблиц [Distributed](../../engines/table-engines/special/ Ограничивает экпоненциальный рост интервала, установленого настройкой [distributed_async_insert_sleep_time_ms](#distributed_async_insert_sleep_time_ms).

Возможные значения:

- Положительное целое количество миллисекунд.

Значение по умолчанию: 30000 миллисекунд (30 секунд).

## distributed_directory_monitor_batch_inserts {#distributed_directory_monitor_batch_inserts}
## distributed_async_insert_batch {#distributed_async_insert_batch}

Включает/выключает пакетную отправку вставленных данных.

Expand Down

0 comments on commit ef7d8c8

Please sign in to comment.