# 3. ХРАНЕНИЕ ВРЕМЕННЫХ РЯДОВ

Ценность временных рядов растет со временем, и их хранение требует внимания. Хорошее хранилище данных должно быть надежным, доступным и не требовать больших инвестиций. Важно различать сценарии:

1. **Хранение данных о производительности оборудования с автоматическим урезанием старых данных.**

2. **Работа с удаленным хранилищем временных рядов с локальной копией.**

3. **Сохранение собственных временных рядов с возможностью анализа и постоянным обновлением.**

Разные сценарии требуют разных решений.

## Масштабирование и производительность:

- В первом сценарии нет необходимости в масштабировании, так как хранятся небольшие наборы данных.

- В других сценариях ожидается большой объем данных.

## Случайный и последовательный доступ:

- Во втором сценарии доступ к данным одинаковый, в остальных сценариях последние данные более востребованы.

## Сценарии автоматизации:

- Первый сценарий требует автоматизации.
- Второй сценарий не требует автоматизации.
- Третий сценарий предполагает низкий уровень автоматизации и обработку всех данных.

## Выбор формата хранения данных:

Рассмотрим реляционные и нереляционные базы данных, а также обычные файлы. Выбор формата зависит от сценария хранения данных, и важно учесть особенности при выборе.

Сначала мы обсудим требования к хранилищам данных, на которые нужно обращать самое пристальное внимание, а затем перейдем к сравнению реляционных и нереляционных баз данных и рассмотрению наиболее популярных решений по хранению временных рядов. В конце раздела мы займемся настройкой политик, отвечающих за умышленное устаревание и удаление более старых данных временных рядов.

При выборе технологии хранения временных рядов важно ответить на ряд вопросов:

1. **Как много данных временного ряда нужно хранить и с какой скоростью объем данных растет?** Решение о выборе технологии зависит от скорости роста данных. Например, финансовые транзакции могут значительно увеличиваться в размере со временем.

2. **Являются ли данные непрерывным потоком (непрерывный сбор данных) или дискретным набором (конечные временные ряды)?** Это важно, так как анализируемые данные могут варьироваться в зависимости от их возраста.

3. **Как часто собираются данные: через регулярные или нерегулярные временные интервалы?** Нерегулярные интервалы могут создавать непредсказуемый порядок доступа к данным.

4. **Существует ли строго оговоренная дата окончания сбора данных или проект имеет бесконечный период сбора данных?** Это важно для определения общего объема хранимых данных.

5. **Каково назначение временных рядов и какие задачи требуются для данных?** Необходима ли визуализация в реальном времени, обработка нейронной сетью или доступ для мобильных пользователей? Это влияет на формат и способ доступа к данным.

6. **Как управляется частотой выборки и устареванием данных?** Как предотвращается бесконечный рост данных? Необходимо определить жизненный цикл данных и механизм автоматического удаления устаревших данных.

Ответы на эти вопросы помогут принять решение о хранении данных временных рядов и выборе соответствующего формата и технологии.
Просто скопируйте этот текст в ячейку

## Оперативные и хранимые данные

При выборе способа хранения временных рядов учитывайте их жизненный цикл и сценарий использования:

- **Краткосрочные ряды:** Например, данные о производительности, предназначенные для ознакомления, обычно не требуют долгосрочного хранения.

- **Управление данными:** Оцените, какие данные действительно нужны, чтобы минимизировать объем и выбрать оптимальный способ хранения.

- **Пример:** При сборе данных о времени загрузки веб-страницы, усредните их, чтобы получить более полезную информацию, особенно если интересует высокая производительность сервера.

Ответив на эти вопросы, вы сможете более эффективно управлять данными временных рядов.

При хранении временных рядов, учтите следующие аспекты:

- **Медленно изменяющиеся переменные:** Необходимо записывать только точки данных, где переменные изменяются, чтобы экономить место.

- **Зашумленные, высокочастотные данные:** Рассмотрите возможность объединения точек данных перед записью, особенно если данные сильно зашумлены.

- **Устаревшие данные:** Определите, когда данные перестают быть актуальными, и автоматизируйте операцию удаления устаревших данных.

- **Правовые аспекты:** Если вы работаете с большими данными и передачей данных сторонним организациям, учтите юридические аспекты в выборе средств хранения данных.



## Хранение временных рядов в базах данных

Базы данных представляют собой интуитивно понятный инструмент для хранения временных рядов. Они отлично подходят для задач, требующих:

- **Масштабирования данных на нескольких серверах.**
- **Выполнения операций чтения/записи с низкой задержкой.**
- **Поддержки вычисления часто определяемых статистических показателей.**
- **Сопровождения и устранения неполадок.**

Базы данных предоставляют гибкое хранилище для временных рядов, а также помогают управлять структурой файлов. Рассмотрим преимущества реляционных баз данных перед NoSQL и популярные решения для хранения временных рядов.

**Реляционные и нереляционные базы данных:** В работе с временными рядами можно использовать как реляционные, так и нереляционные базы данных. Однако оба случая имеют свои сложности. Для их правильного применения необходимо понимать, чем временные ряды отличаются от других типов данных и как они несоответствуют историческим концепциям SQL-решений, разработанных для обработки транзакционных данных.


## Характеристики временных рядов

Когда данные временных рядов описывают историю процесса, они не требуют постоянного обновления, в отличие от транзакционных данных, которые указывают только конечное состояние системы. Операции записи данных с произвольным доступом маловероятны в случае временных рядов. Поэтому требования к производительности систем хранения временных рядов сильно отличаются от требований, предъявляемых к реляционным базам данных.

Ниже приведены ключевые характеристики, которые учитываются при работе с временными рядами:

- **Операции записи преобладают над операциями чтения.**
- **Данные записываются, считываются и обновляются в хронологическом порядке.**
- **Чтение данных выполняется намного чаще, чем операции транзакций.**
- **Допускается использование нескольких первичных ключей, включая время.**
- **Часто выполняется массовое удаление данных.**

Большинство из этих функций хорошо поддерживаются NoSQL-решениями, так как нереляционные базы данных обычно предоставляют то, что необходимо для хранения временных рядов. NoSQL-решения лучше подходят для операций записи, что особенно важно для временных рядов. Рисунок 4.1 демонстрирует сравнение производительности операций добавления новых точек


## Трудности выбора

Выбор между реляционными и нереляционными базами данных при хранении временных рядов может вызвать затруднения. Оба подхода имеют свои преимущества, и правильный выбор зависит от конкретных потребностей и характеристик данных. Однако, независимо от выбора, важно учесть следующий основной аспект: одновременно запрашиваемые данные должны храниться в одном месте. Это ключевой фактор, независимо от выбранной технологии.

Главное преимущество базы данных временных рядов заключается в ее способности обеспечивать постоянную скорость добавления новых точек данных, даже при увеличении ее общего размера. Это преимущество важно при работе с временными рядами. На конференциях и в блогах часто утверждается, что NoSQL-решения идеально подходят для таких задач, обеспечивая высокую скорость записи, низкую частоту обновления и последовательную организацию данных. В то же время реляционные базы данных также остаются востребованными для хранения временных рядов.

Преимущества хранения временных рядов в реляционных базах данных:

- Легкость связывания временных рядов с соответствующими данными внутри той же базы данных.
- Иерархическая структура временных рядов может быть легко встроена в реляционные таблицы, что облегчает группировку иерархически связанных временных рядов.
- При создании временных рядов на основе транзакционных данных, которые уже хранятся в реляционной базе данных, их логично сохранять в той же базе данных для удобства проверки и анализа.

Преимущества хранения временных рядов в нереляционных базах данных:

- Высокая скорость записи.
- Подходят для разработки высокопроизводительных решений, когда мало информации о будущих данных.
- Более привлекательны для начинающих специалистов в анализе данных, так как кажутся более готовыми к использованию и менее склонными к созданию некорректных схем данных.

## Популярные базы данных временных рядов и файловые решения

При выборе базы данных для хранения временных рядов и инструментов мониторинга, важно рассмотреть различные альтернативы и учесть их плюсы и минусы. Обратите внимание, что технологии в этой области постоянно развиваются, и популярные решения могут меняться с течением времени. Поэтому ваш выбор должен зависеть от конкретных требований и потребностей вашего проекта. Важно также понимать, что следующая информация не является строгими техническими рекомендациями, а скорее предоставляет обзор некоторых популярных решений.

### Базы данных для хранения временных рядов и инструменты мониторинга

#### InfluxDB

InfluxDB - это база данных временных рядов с открытым исходным кодом, и она изначально спроектирована для хранения временных рядов. Она часто используется для сбора статистических данных, записи событий и проведения аналитических исследований. Данные в InfluxDB представлены в виде временных рядов и включают следующие компоненты:

- Временная метка.
- Подпись, описывающая измеряемую величину.
- Одно или несколько полей "ключ/значение" (например, `temperature=25.3`).
- Пары "ключ/значение" для тегов метаданных.

InfluxDB автоматически назначает временные метки для всех точек данных и поддерживает SQL-подобные запросы, что облегчает выполнение операций чтения и анализа. Особенности InfluxDB включают в себя:

- Поддержку инструментов хранения данных, позволяющих автоматизировать операции назначения и удаления устаревших данных.
- Высокую скорость записи и хорошую степень сжатия данных.
- Возможность добавления меток к временным рядам для быстрой индексации.
- Полноправное подключение к платформе TICK (Telegraf, InfluxDB, Chronograf, Kapacitor), которая предоставляет средства сбора, хранения, мониторинга и визуализации временных рядов.

#### Prometheus

Prometheus - это система мониторинга и база данных временных рядов, которая работает по протоколу HTTP. Главное предназначение Prometheus - мониторинг, и она предоставляет средства для сбора данных о производительности системы. Основное отличие Prometheus заключается в том, что она работает на pull-технологии, что означает, что данные извлекаются из системы, а затем хранятся.

Основные характеристики Prometheus:

- Pull-модель для сбора данных.
- Использование языка PromQL для запросов.
- Поддержка агрегации данных по времени.
- Подходит для оперативного мониторинга производительности системы.

Prometheus может использоваться для хранения временных рядов, особенно в потоковых приложениях и ситуациях, где доступность данных более важна, чем 100% точность. Однако, изучение PromQL и архитектуры Prometheus может потребовать времени и усилий.

Выбор между InfluxDB и Prometheus будет зависеть от специфики вашего проекта и требований к хранению и мониторингу временных рядов. Рассмотрите оба варианта и выберите тот, который наилучшим образом соответствует вашим потребностям.


## Нереляционные базы данных для временных рядов

В некоторых случаях использование нереляционных баз данных (NoSQL) может быть целесообразным для хранения временных рядов и обработки данных. Нереляционные базы данных отличаются от реляционных тем, что они основаны на документах, а не на таблицах, и могут предоставлять более гибкую структуру данных.

### Преимущества нереляционных баз данных для временных рядов

1. Гибкость: Нереляционные базы данных позволяют хранить данные с различными структурами в одной базе данных. Это особенно полезно, когда структура данных временных рядов может изменяться со временем или включать в себя разнородные типы данных.

2. Избегание значений NaN: В реляционных базах данных, при отсутствии данных, часто используются значения NaN, что может привести к загромождению базы данных. В нереляционных базах данных можно просто отключить соответствующие каналы, чтобы избежать этой проблемы.

3. Гибкая схема: Нереляционные базы данных позволяют изменять схему данных со временем без необходимости проведения сложных миграций баз данных. Это полезно в ситуациях, когда данные временных рядов быстро эволюционируют.

### Пример: MongoDB

MongoDB - популярная нереляционная база данных, которая часто используется для хранения временных рядов. Она предоставляет функции агрегации и инструменты для управления временными рядами. В MongoDB можно использовать индексы и функции агрегации, чтобы агрегировать информацию по времени и группировать данные по различным временным признакам. MongoDB также поддерживает множество функций для работы с временными данными, такие как:

- `$dayOfWeek`
- `$dayOfMonth`
- `$hour`

MongoDB обеспечивает гибкость в изменении структуры данных со временем, что позволяет избежать сложностей при работе с быстро изменяющимися данными временных рядов. 

### Заключение

Использование нереляционных баз данных для временных рядов может быть целесообразным, особенно в ситуациях, когда данные имеют гибкую структуру и могут меняться со временем. Нереляционные базы данных, такие как MongoDB, предоставляют гибкость и позволяют избегать некоторых проблем, связанных с использованием реляционных баз данных. Выбор между реляционными и нереляционными базами данных зависит от конкретных требований вашего проекта.

# Файловые решения

В общем понимании база данных — это программное обеспечение, в котором удачно объединяются сценарии автоматизации и хранилище данных. А по своей сути это обычный файл, обернутый в специальное программное обеспечение, которое делает его максимально безопасным и простым в использовании.

Иногда имеет смысл отказаться от внешней оболочки и взять ответственность за хранение данных на себя. Хотя это не очень распространено в бизнес-приложениях, так часто поступают в научных программах и некоторых типах промышленного программного обеспечения (например, в приложениях высокочастотной биржевой торговли), в которых производительность имеет первостепенное значение.

В таких ситуациях разработка гораздо более сложного конвейера данных, обеспечивающего распределение памяти для хранения данных, открытие, чтение и закрытие файлов, их защита и так далее выполняются специалистами по анализу данных вручную. Разумеется, это намного более сложная задача, чем написание запросов к базе данных.

Решение на основе плоских файлов будет неплохим вариантом при выполнении любого из следующих требований.

- Формат данных выбран правильно, позволяя собирать всю необходимую информацию за достаточно долгий период времени.
- Скорость обработки данных зависит от скорости их ввода-вывода, поэтому нет смысла тратить время и усилия на ее повышение.
- Свободный доступ к данным не требуется; достаточно считывать данные последовательно.

Далее мы кратко остановимся на некоторых популярных решениях, основанных на плоских файлах. Не забывайте, что вы всегда можете создать собственный формат хранения файлов, хотя это довольно сложно. Так поступать стоит только в случае владения языком программирования, отличающимся высокой производительностью, например C++ или Java.

Если ваша система достаточно зрелая и производительная для работы с плоской файловой системой, то такая реализация будет обладать рядом неоспоримых преимуществ, даже несмотря на высокую трудоемкость процесса переноса данных из базы данных в отдельные файлы.

- Формат плоского файла не зависит от системы. Для обмена данными просто сделайте файлы общедоступными. При этом не нужно просить коллегу открывать удаленный доступ к базе данных или создавать зеркальную базу данных.
- Временные затраты на ввод (вывод) данных в обычном файле несравнимо меньшие, чем при работе с базой данных, поскольку определяются простой операцией чтения файла (записи в файл) без необходимости поиска и извлечения из базы данных.
- Порядок, в котором должны считываться данные, указывается в самом формате файла, что менее характерно для баз данных. Такой подход повышает скорость последовательного считывания данных, что благосклонно сказывается на производительности, например, обучения алгоритмов глубокого обучения.
- Конечные данные занимают в памяти гораздо меньший объем, чем при использовании базы данных, благодаря возможности максимально увеличить степень сжатия. Вы можете предельно точно настроить степень сжатия данных, чтобы добиться оптимального баланса между потребностями в минимизации размера хранилища данных и скорости ввода-вывода данных. Высокая степень сжатия позволяет уменьшить объем данных, но понижает скорость операций ввода-вывода.

**Библиотека NumPy**

Если данные временных рядов носят исключительно числовой характер, то для их хранения можно смело применять массивы библиотеки NumPy языка Python. Такие массивы могут иметь самые разные типы данных, а их относительная производительность освещается в большом количестве публикаций. Самостоятельно оценку производительности операций с различными типами массивов NumPy можно выполнить с помощью решения, представленного в репозитории `array_storage_benchmark` на GitHub.

Главный недостаток массива NumPy заключается в невозможности хранения в нем сразу нескольких типов данных. Это означает, что вы не можете автоматически сохранять в ней разнородные данные временных рядов и должны придумать способ приведения их к единственному типу данных в необработанном или обработанном виде (это ограничение можно обойти). Еще один важный недостаток массивов NumPy обусловливается тем фактом, что в нем не предусмотрена возможность добавления подписей к строкам и столбцам, поэтому, например, нет простого способа временной разметки отдельно каждой строки массива.

Преимущество использования массива NumPy состоит в поддержке большого количества форматов сохранения, включая сжатый двоичный формат, который позволяет сэкономить место и обеспечивает быстрый ввод-вывод по сравнению с традиционными базами данных. С точки зрения анализа и хранения данных массив NumPy является необычайно производительной структурой данных.


# Библиотека Pandas

Для более простой разметки данных или сохранения разнородных данных временных рядов (или и того, и другого) обратитесь к более структурно сложному и гибкому фрейму данных пакета Pandas. Он станет незаменимым при работе с временными рядами, состоящими из большого количества разнородных данных, в том числе включающих счетчики событий (целочисленные значения), характеристики состояния (числа с плавающей точкой) и подписи (текстовые строки или программный код). В таких случаях фреймы данных пакета Pandas (“pandas” происходит от словосочетания “panel data” (панельные данные), представляющего привычный формат в большинстве случаев использования) оказываются наиболее естественным решением.

Фреймы данных Pandas находят широкое применение в анализе временных рядов — результаты оценки их производительности при хранении данных разных форматов приведены на тематических площадках ([ссылка на источник](https://perma.cc/BNJ5-EDGM)).

### Разнозначные инструменты языка R

Собственный формат хранения объектов языка R представлен классами .Rds и .Rdata. В них данные представлены в битовой форме, что обусловливает более высокую, чем в текстовом формате, степень сжатия и скорость выполнения операций ввода-вывода. В этом понимании объекты языка R во многом напоминают фреймы данных Pandas языка Python. Более того, как в R, так и в Python фреймы данных можно сохранять в независимом от языка битовом формате feather ([ссылка на источник](https://perma.cc/4C3J-TBK8)). В R наибольшую производительность будут показывать, конечно же, собственные двоичные форматы. В табл. 4.3 приводятся сравнительные характеристики разных файловых форматов.

| Название | Относительный размер | Относительное время загрузки |
|----------|-----------------------|------------------------------|
| .RDS     | 1x                    | 1x                         |
| feather  | 2x                    | 1x                         |
| CSV      | 3x                    | 20x                        |

Как видите, собственный формат выступает явным победителем как по объему хранящихся данных, так и по скорости операций вводы-вывода. Наряду с этим аутсайдером выступает текстовый формат, отличающийся более низкими, чем в двоичном формате, оценками производительности.

### Пакет Хаrrау

При работе с многомерными временными рядами обратите внимание на одно из промышленных решений для хранения данных — в частности, на пакет Хаrrау, выделяющийся рядом полезных возможностей.

- Именованные размерности.
- Векторизованные математические операции, подобные применяемым в NumPy.
- Групповые операции, как в Pandas
- Функциональные особенности, свойственные базам данных, включая команды индексации по временным диапазонам
- Различные форматы хранения файлов

Хаrrау — это структура данных, которая поддерживает множество функций обработки данных временных рядов, в том числе индексации и повторной временной выборки, интерполяции данных и работы с отдельными компонентами даты и времени. Пакет Хаrrау разрабатывался как высокопроизводительный научный вычислительный инструмент и остается крайне недооцененным решением для анализа временных рядов.

Хаrrау представляется отдельной структурой данных в языке Python, обеспечивающей несколько вариантов хранения временных рядов. В ней возможны как сериализация, так и представление данных в еще одном двоичном формате — netCDF , — универсальном формате обмена научными данными, поддерживаемом многими платформами и языками. Для тех, кто ищет эффективный инструмент для работы с временными рядами в языке Python, пакет Хаrrау будет очень благоразумным выбором.

Как вы могли заметить, существует большое количество способов хранения данных временных рядов в плоских файлах. Одни из них предполагают использование ассоциированных функций (Хаrrау), а другие — работают только с упрощенными, исключительно числовыми наборами данных (NumPy). При переносе информации из конвейера базы данных в конвейер, основанный на использовании отдельных файлов, неизбежно будут возникать определенные трудности, связанные с необходимостью упрощения данных и переписывания сценариев — формализация логики базы данных в явных сценариях ETL (Extract-Transform-Load — извлечение-преобразование-загрузка). В случаях, когда первостепенное значение имеет производительность, перемещение базы данных в отдельные файлы окажется наиболее правильным шагом по оптимизации, позволяющим существенно снизить задержки в обработке данных. Давайте посмотрим, в каких именно случаях такой шаг оказывается наиболее оправданным.

- Чувствительное к временным задержкам прогнозирование, выполняемое для программного обеспечения, ориентированного на пользователя
- Операции ввода-вывода с частым повторным доступом к данным, например в задачах обучения алгоритмов глубокого обучения

С другой стороны, удобство использования, масштабируемость и гибкость базы данных оказываются более важными, чем производительность, факторами во многих приложениях. В результате оптимальным считается решение для хранения данных, при разработке которого учитываются как характер и назначение данных, так и способ их обработки.
