# Работа с БД: транзакции, репликация, шардирование и даже NoSQL

1. Транзакции и уровни изоляции
2. Миграции схемы и миграции данных, большие объемы данных;
3. Репликация, перенос сложных запросов на slave'ы, распределение нагрузки. 
4. Шардирование;
5. NoSQL.

# Транзакции и уровни изоляции 

**Транзакция** – это последовательность операций с базой данных, которая выполняется как единое целое. Транзакции позволяют гарантировать целостность данных и поддерживать согласованность базы данных, даже если происходит сбой системы или возникли ошибки в процессе выполнения операций.

## Транзакционная система

**Транзакционная система (Transaction Processing System, TPS)** – это система, которая поддерживает выполнение транзакций. Она должна обеспечивать выполнение четырех основных свойств транзакций, известных как ACID.

## ACID

- Atomicity (Атомарность): Транзакция выполняется полностью или не выполняется вообще. Если одна из операций в транзакции не выполнится, все остальные тоже должны быть отменены.
- Consistency (Согласованность): Транзакция переводит базу данных из одного согласованного состояния в другое согласованное состояние.
- Isolation (Изоляция): Результаты транзакции не видны другим транзакциям до тех пор, пока она не завершена.
- Durability (Долговечность): После завершения транзакции ее результаты сохраняются в системе и не теряются даже в случае сбоя.

## СУБД без транзакций

СУБД могут не поддерживать транзакции. Такие системы обычно используются в случаях, когда требуется высокая производительность и отказоустойчивость, но не требуется строгая согласованность данных, например, в системах аналитики, кэширования или NoSQL базах данных.

### Уровни изоляции транзакций и аномалии

#### Уровни изоляции

1. **Read Uncommitted (Чтение незафиксированных данных)**: 
    - Транзакция может видеть изменения, сделанные другими незавершенными транзакциями. 
    - Возможны все виды аномалий: грязные чтения, неповторяющиеся чтения и фантомные чтения.

2. **Read Committed (Чтение зафиксированных данных)**:
    - Транзакция видит только изменения, которые были зафиксированы другими транзакциями.
    - Предотвращает грязные чтения, но возможны неповторяющиеся чтения и фантомные чтения.

3. **Repeatable Read (Повторяемое чтение)**:
    - Транзакция гарантирует, что любые данные, прочитанные ею, не изменятся до завершения транзакции.
    - Предотвращает грязные чтения и неповторяющиеся чтения, но возможны фантомные чтения.

4. **Serializable (Сериализуемость)**:
    - Транзакции выполняются так, как если бы они были сериализованы, то есть последовательно одна за другой.
    - Предотвращает все виды аномалий: грязные чтения, неповторяющиеся чтения и фантомные чтения.

#### Аномалии

1. **Грязное чтение (Dirty Read)**:
    - Происходит, когда транзакция читает данные, которые были изменены другой транзакцией, но еще не зафиксированы.
    
2. **Неповторяющееся чтение (Non-repeatable Read)**:
    - Происходит, когда транзакция повторно читает данные и получает разные результаты, потому что другая транзакция изменила эти данные и зафиксировала изменения.

3. **Фантомное чтение (Phantom Read)**:
    - Происходит, когда транзакция повторно выполняет запрос, и результат включает строки, которых не было в предыдущем выполнении запроса, потому что другая транзакция вставила новые строки и зафиксировала изменения.

### Примеры использования уровней изоляции транзакций на SQL

#### Уровень изоляции: Read Uncommitted (Чтение незафиксированных данных)

```sql
-- Транзакция 1
BEGIN;
UPDATE accounts SET balance = balance + 500 WHERE account_id = 1;

-- Транзакция 2 (может видеть незафиксированные изменения)
SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED;
SELECT balance FROM accounts WHERE account_id = 1;
-- Вывод: 1500 (грязное чтение)

-- Завершаем Транзакцию 1
ROLLBACK;
```

#### Уровень изоляции: Read Сommitted (Чтение зафиксированных данных)

```sql
-- Транзакция 1
BEGIN;
UPDATE accounts SET balance = balance + 500 WHERE account_id = 1;
COMMIT;

-- Транзакция 2
SET TRANSACTION ISOLATION LEVEL READ COMMITTED;
BEGIN;
SELECT balance FROM accounts WHERE account_id = 1;
-- Вывод: 1000

-- В другой транзакции данные изменяются и фиксируются
UPDATE accounts SET balance = balance + 500 WHERE account_id = 1;
COMMIT;

-- Повторный запрос в Транзакции 2
SELECT balance FROM accounts WHERE account_id = 1;
-- Вывод: 1500 (неповторяющееся чтение)
COMMIT;
```

#### Уровень изоляции: Repeatable Read (Повторяемое чтение)

```sql
-- Транзакция 1
SET TRANSACTION ISOLATION LEVEL REPEATABLE READ;
BEGIN;
SELECT balance FROM accounts WHERE account_id = 1;
-- Вывод: 1000

-- В другой транзакции данные изменяются и фиксируются
UPDATE accounts SET balance = balance + 500 WHERE account_id = 1;
COMMIT;

-- Повторный запрос в Транзакции 1
SELECT balance FROM accounts WHERE account_id = 1;
-- Вывод: 1000 (данные не изменились)
COMMIT;
```

#### Уровень изоляции: Serializable (Сериализуемость)

```sql
-- Транзакция 1
SET TRANSACTION ISOLATION LEVEL SERIALIZABLE;
BEGIN;
SELECT balance FROM accounts WHERE account_id = 1;
-- Вывод: 1000

-- В другой транзакции данные изменяются и фиксируются
BEGIN;
UPDATE accounts SET balance = balance + 500 WHERE account_id = 1;
COMMIT;

-- Попытка выполнить повторный запрос в Транзакции 1 вызывает блокировку или откат
SELECT balance FROM accounts WHERE account_id = 1;
-- Ожидание или ошибка

COMMIT;
```

В контексте транзакций в базах данных, конфликт возникает, когда две или более транзакции пытаются одновременно изменить одни и те же данные, что приводит к нарушению целостности и согласованности данных. Конфликты могут происходить по-разному в зависимости от уровня изоляции транзакций.
Примеры конфликтов и уровней изоляции
- Read Uncommitted: Конфликты здесь могут быть неявными, так как транзакции могут видеть незавершенные изменения других транзакций. Это может привести к грязным чтениям, но система не обязательно откатывает транзакции.
- Read Committed: Здесь предотвращаются грязные чтения, но возможны неповторяющиеся чтения. Конфликт возникает, когда одна транзакция изменяет данные, которые читаются другой транзакцией, что может привести к различным результатам при повторных чтениях.
- Repeatable Read: Этот уровень предотвращает грязные и неповторяющиеся чтения. Конфликты могут возникнуть, если одна транзакция пытается изменить данные, которые уже были прочитаны другой транзакцией. В этом случае система может заблокировать изменения или откатить одну из транзакций, чтобы предотвратить нарушение целостности данных.
- Serializable: На самом высоком уровне изоляции все транзакции выполняются последовательно. Конфликты возникают, если одна транзакция пытается изменить данные, которые могут повлиять на другую транзакцию. Например, если одна транзакция читает диапазон данных, другая транзакция не может вставить новые данные в этот диапазон, пока первая не завершится. В случае конфликта транзакция может быть откатана с ошибкой, чтобы предотвратить нарушение сериализуемости.

## Примеры

In [None]:
import psycopg2

# Подключение к базе данных
conn = psycopg2.connect(
    dbname="your_db_name",
    user="your_db_user",
    password="your_db_password",
    host="your_db_host"
)

try:
    cur = conn.cursor()
    
    # Явное начало транзакции
    cur.execute("BEGIN")
    
    # Выполнение операций в рамках транзакции
    cur.execute("UPDATE accounts SET balance = balance - 100 WHERE account_id = 1")
    cur.execute("UPDATE accounts SET balance = balance + 100 WHERE account_id = 2")
    
    # Фиксация транзакции
    cur.execute("COMMIT")
    print("Транзакция успешно зафиксирована")
except Exception as e:
    # Откат транзакции в случае ошибки
    cur.execute("ROLLBACK")
    print(f"Ошибка транзакции: {e}")
finally:
    cur.close()
    conn.close()

In [None]:
from sqlalchemy import create_engine, update
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Column, Integer

# Настройка SQLAlchemy
engine = create_engine('postgresql://your_db_user:your_db_password@your_db_host/your_db_name')
Session = sessionmaker(bind=engine)
session = Session()
Base = declarative_base()

# Определение модели
class Account(Base):
    __tablename__ = 'accounts'
    account_id = Column(Integer, primary_key=True)
    balance = Column(Integer)

try:
    # Явное начало транзакции
    session.begin()
    
    # Выполнение операций в рамках транзакции
    account1 = session.query(Account).filter_by(account_id=1).one()
    account2 = session.query(Account).filter_by(account_id=2).one()
    account1.balance -= 100
    account2.balance += 100
    
    # Фиксация транзакции
    session.commit()
    print("Транзакция успешно зафиксирована")
except Exception as e:
    # Откат транзакции в случае ошибки
    session.rollback()
    print(f"Ошибка транзакции: {e}")
finally:
    session.close()

# Миграции схемы и миграции данных, большие объемы данных

**Миграция** – это процесс изменения структуры базы данных или данных в ней для поддержания актуальности с изменениями в приложении. Миграции могут включать изменения в схеме базы данных, добавление или удаление столбцов, изменение типов данных и миграцию данных между таблицами.

Типы миграций:

- **Миграция схемы**: Включает изменения в структуре базы данных, такие как создание, изменение или удаление таблиц и столбцов.
- **Миграция данных**: Включает перемещение или трансформацию данных, например, перенос данных из одного столбца в другой, объединение таблиц или очистку данных.

### Установка и настройка Alembic

Установка Alembic

```sh
pip install alembic
```

Инициализация проекта Alembic

```sh

alembic init alembic
```

Настройка Alembic
Редактируем файл alembic.ini

```ini

# Вставьте ваше подключение к базе данных
sqlalchemy.url = postgresql://user:password@localhost/mydatabase
```

Редактируем файл alembic/env.py, чтобы он использовал нашу модель SQLAlchemy

```python

from logging.config import fileConfig
from sqlalchemy import engine_from_config
from sqlalchemy import pool
from alembic import context

# Импорт вашей модели
from myapp.models import Base

# Настройка конфигурации Alembic
config = context.config
fileConfig(config.config_file_name)
target_metadata = Base.metadata

def run_migrations_offline():
    context.configure(
        url=config.get_main_option("sqlalchemy.url"),
        target_metadata=target_metadata,
        literal_binds=True,
        dialect_opts={"paramstyle": "named"},
    )
    with context.begin_transaction():
        context.run_migration()

def run_migrations_online():
    connectable = engine_from_config(
        config.get_section(config.config_ini_section),
        prefix="sqlalchemy.",
        poolclass=pool.NullPool,
    )
    with connectable.connect() as connection:
        context.configure(connection=connection, target_metadata=target_metadata)
        with context.begin_transaction():
            context.run_migration()

if context.is_offline_mode():
    run_migrations_offline()
else:
    run_migrations_online()
```

Создание и применение миграции
Создание новой миграции

```sh
alembic revision --autogenerate -m 'create accounts table'
```

Пример автоматически сгенерированной миграции (файл в папке alembic/versions)

```python

from alembic import op
import sqlalchemy as sa

# Ревизия миграции
revision = '1b1b1b1b1b1'
down_revision = None
branch_labels = None
depends_on = None

def upgrade():
    # Создание таблицы accounts
    op.create_table(
        'accounts',
        sa.Column('id', sa.Integer, primary_key=True),
        sa.Column('balance', sa.Integer)
    )

def downgrade():
    # Удаление таблицы accounts
    op.drop_table('accounts')
```

Применение миграции

```sh
alembic upgrade head
```

Миграции больших данных

Миграции больших данных требуют особого подхода, чтобы минимизировать время простоя и обеспечить целостность данных.

Best Practices для миграций больших данных:

    Планирование и тестирование: Всегда планируйте и тестируйте миграции в среде, максимально приближенной к рабочей, чтобы предвидеть возможные проблемы.

    Инкрементальные миграции: Разделите большие миграции на несколько маленьких, чтобы уменьшить время простоя и упростить откат в случае ошибки.

    Индексирование и производительность: Создавайте индексы и оптимизируйте запросы для больших таблиц, чтобы улучшить производительность миграций.

    Использование временных таблиц: При необходимости создавайте временные таблицы для промежуточного хранения данных, чтобы уменьшить блокировки и конфликты.

    Пакетная обработка: Разделите миграцию данных на пакеты, чтобы избежать проблем с памятью и производительностью.

    Откат изменений: Разработайте план отката на случай, если что-то пойдет не так. Всегда имейте возможность вернуть базу данных в исходное состояние.

    Мониторинг и логирование: Включите мониторинг и логирование, чтобы отслеживать процесс миграции и быстро реагировать на любые проблемы.

### Индексирование и производительность

#### Что такое индексы?
**Индексы** – это специальные структуры данных, которые используются для быстрого поиска и доступа к данным в таблицах баз данных. Они позволяют значительно улучшить производительность запросов, особенно в больших таблицах.

#### Как работают индексы?
Индексы создаются на основе одного или нескольких столбцов таблицы. Они работают по принципу аналогичному индексу в книге, предоставляя быстрый способ найти нужные строки без необходимости сканирования всей таблицы.

#### Типы индексов

1. **B-tree индекс**:
    - Наиболее распространенный тип индексов.
    - Подходит для точного поиска, диапазонных запросов и сортировки.
    - Используется по умолчанию в большинстве СУБД.

    ```sql
    CREATE INDEX index_name ON table_name(column_name);
    ```

2. **Hash индекс**:
    - Подходит для точного поиска.
    - Не поддерживает диапазонные запросы.
    - Используется в ситуациях, когда требуется быстрая проверка равенства.

    ```sql
    CREATE INDEX index_name ON table_name USING hash (column_name);
    ```

3. **GIN (Generalized Inverted Index)**:
    - Используется для индексирования элементов массивов, JSONB и полей полного текста.
    - Эффективен для поиска по множеству значений в одном столбце.

    ```sql
    CREATE INDEX index_name ON table_name USING gin (column_name);
    ```

4. **GiST (Generalized Search Tree)**:
    - Используется для индексирования геометрических данных и поиска по близости.
    - Подходит для сложных запросов, таких как ближайший сосед и поиск по диапазону.

    ```sql
    CREATE INDEX index_name ON table_name USING gist (column_name);
    ```

5. **BRIN (Block Range INdex)**:
    - Подходит для очень больших таблиц с данными, которые имеют естественный порядок.
    - Индексирует диапазоны блоков данных вместо отдельных строк, что делает его компактным и быстрым для определенных типов запросов.

    ```sql
    CREATE INDEX index_name ON table_name USING brin (column_name);
    ```

#### Оптимизация запросов с использованием индексов
- **Анализ запросов**: Используйте инструменты анализа запросов (например, `EXPLAIN` в PostgreSQL), чтобы понять, как СУБД выполняет запросы и использует ли индексы.
- **Выбор правильных столбцов**: Создавайте индексы на столбцах, которые часто используются в условиях `WHERE`, `JOIN`, `ORDER BY` и `GROUP BY`.
- **Композитные индексы**: Создавайте индексы на нескольких столбцах для оптимизации запросов, которые фильтруют или сортируют по нескольким критериям.

    ```sql
    CREATE INDEX index_name ON table_name (column1, column2);
    ```

- **Поддержка уникальности**: Используйте уникальные индексы для обеспечения уникальности значений в столбцах.

    ```sql
    CREATE UNIQUE INDEX index_name ON table_name(column_name);
    ```

- **Обновление статистики**: Регулярно обновляйте статистику базы данных, чтобы оптимизатор запросов имел актуальную информацию о распределении данных.

    ```sql
    ANALYZE table_name;
    ```

Индексы могут значительно улучшить производительность миграций и запросов, но важно правильно выбирать тип индекса и столбцы для индексирования, а также следить за актуальностью статистики и эффективностью запросов.


# Репликация, перенос сложных запросов на slave'ы, распределение нагрузки

#### Репликация

**Репликация** – это процесс копирования данных с одного сервера базы данных (мастер) на другой сервер (slave или реплика). Репликация обеспечивает отказоустойчивость, повышает доступность данных и позволяет распределять нагрузку между несколькими серверами.

##### Типы репликации

1. **Синхронная репликация**:
    - Обеспечивает высокую согласованность данных, так как изменения фиксируются на мастер-сервере и всех slave-серверах одновременно.
    - Может приводить к задержкам, так как мастер ждет подтверждения от всех реплик.

2. **Асинхронная репликация**:
    - Мастер-сервер не ждет подтверждения от slave-серверов, что обеспечивает быструю запись данных.
    - Возможны небольшие задержки в распространении изменений на slave-серверах.

3. **Полурепликация**:
    - Комбинация синхронной и асинхронной репликации, где часть данных реплицируется синхронно, а часть – асинхронно.

#### Перенос сложных запросов на slave'ы

Сложные и ресурсоемкие запросы могут перегружать мастер-сервер, особенно в высоконагруженных системах. Для оптимизации производительности можно переносить выполнение таких запросов на slave-сервера.

##### Примеры сложных запросов

- Генерация отчетов.
- Аналитические запросы.
- Долгие выборки данных.

##### Как перенести сложные запросы на slave'ы

1. **Настройка реплики**: Убедитесь, что у вас настроена репликация и slave-серверы готовы к приему запросов.
2. **Маршрутизация запросов**: Используйте логику в вашем приложении для маршрутизации запросов чтения на slave-сервера, а запросов записи – на мастер-сервер.
3. **Балансировка нагрузки**: Распределите сложные запросы между несколькими slave-серверами для равномерного распределения нагрузки.

Пример с использованием Python и SQLAlchemy:

```python
from sqlalchemy import create_engine, text
from sqlalchemy.orm import sessionmaker

# Подключение к мастер-серверу для записи
master_engine = create_engine('postgresql://user:password@master_host/dbname')
MasterSession = sessionmaker(bind=master_engine)
master_session = MasterSession()

# Подключение к slave-серверу для чтения
slave_engine = create_engine('postgresql://user:password@slave_host/dbname')
SlaveSession = sessionmaker(bind=slave_engine)
slave_session = SlaveSession()

# Пример записи на мастер
def write_to_master(data):
    master_session.execute(text("INSERT INTO table_name (column) VALUES (:data)"), {"data": data})
    master_session.commit()

# Пример чтения с slave
def read_from_slave():
    result = slave_session.execute(text("SELECT * FROM table_name"))
    return result.fetchall()

# Запись данных
write_to_master("example_data")

# Чтение данных
data = read_from_slave()
print(data)


### Распределение нагрузки для баз данных

Распределение нагрузки для баз данных – это процесс распределения запросов между несколькими серверами базы данных для повышения производительности и доступности системы. Это особенно важно для высоконагруженных приложений, где один сервер базы данных может не справляться с потоком запросов.

#### Методы распределения нагрузки для баз данных

1. **Мастер-Слейв Репликация**:
    - Мастер-сервер отвечает за все операции записи и реплицирует изменения на слейв-серверы.
    - Слейв-серверы обслуживают операции чтения.
    - Маршрутизация запросов чтения на слейв-серверы разгружает мастер-сервер.

2. **Мастер-Мастер Репликация**:
    - Все серверы могут выполнять операции чтения и записи.
    - Репликация изменений происходит между всеми серверами.
    - Обеспечивает высокую доступность и отказоустойчивость, но требует разрешения конфликтов данных.

3. **Разделение данных (Sharding)**:
    - Данные разделяются на несколько сегментов (шардов), каждый из которых хранится на отдельном сервере.
    - Запросы направляются к соответствующему серверу в зависимости от того, в каком шарде находятся данные.
    - Увеличивает горизонтальную масштабируемость, но усложняет управление и запросы.

4. **Зеркальное отражение (Mirroring)**:
    - Данные полностью копируются на несколько серверов (зеркал).
    - Обычно используется для обеспечения отказоустойчивости и резервного копирования.
    - Запросы могут распределяться между зеркалами для балансировки нагрузки.

#### Примеры распределения запросов к СУБД

##### Использование ProxySQL для MySQL

[ProxySQL](https://proxysql.com/) – это популярный прокси-сервер для MySQL, который позволяет распределять запросы между серверами баз данных.

1. **Установка ProxySQL**:

    ```sh
    sudo apt-get install proxysql
    ```

2. **Настройка ProxySQL**:

    Создайте конфигурационный файл `proxysql.cnf`:

    ```ini
    datadir="/var/lib/proxysql"

    admin_variables=
    {
        admin_credentials="admin:admin"
        mysql_ifaces="0.0.0.0:6032"
    }

    mysql_variables=
    {
        threads=4
        max_connections=2048
    }

    mysql_servers =
    (
        { address="master_host", port=3306, hostgroup=0, max_connections=1000 },
        { address="slave1_host", port=3306, hostgroup=1, max_connections=1000 },
        { address="slave2_host", port=3306, hostgroup=1, max_connections=1000 }
    )

    mysql_users =
    (
        { username="user", password="password", default_hostgroup=0 }
    )

    mysql_query_rules =
    (
        { rule_id=1, match_pattern="^SELECT", destination_hostgroup=1, apply=1 }
    )
    ```

3. **Запуск ProxySQL**:

    ```sh
    proxysql --config /path/to/proxysql.cnf
    ```

##### Использование pgpool-II для PostgreSQL

[pgpool-II](https://www.pgpool.net/mediawiki/index.php/Main_Page) – это промежуточный сервер для PostgreSQL, который поддерживает балансировку нагрузки, репликацию и другие функции.

1. **Установка pgpool-II**:

    ```sh
    sudo apt-get install pgpool2
    ```

2. **Настройка pgpool-II**:

    Редактируем конфигурационный файл `pgpool.conf`:

    ```ini
    listen_addresses = '*'
    port = 9999
    backend_hostname0 = 'master_host'
    backend_port0 = 5432
    backend_weight0 = 1
    backend_hostname1 = 'slave1_host'
    backend_port1 = 5432
    backend_weight1 = 1
    backend_hostname2 = 'slave2_host'
    backend_port2 = 5432
    backend_weight2 = 1

    load_balance_mode = on
    replication_mode = off
    master_slave_mode = on
    master_slave_sub_mode = 'stream'
    ```

3. **Запуск pgpool-II**:

    ```sh
    sudo service pgpool2 restart
    ```

#### Лучшие практики для распределения запросов к СУБД

1. **Мониторинг производительности**: Регулярно мониторьте производительность серверов баз данных и нагрузку на них, чтобы вовремя выявлять узкие места.

2. **Балансировка запросов**: Разделяйте запросы на чтение и запись, направляя запросы на чтение на реплики, а на запись – на мастер-сервер.

3. **Скалируемая архитектура**: Планируйте архитектуру базы данных с учетом горизонтального масштабирования, чтобы можно было легко добавлять новые серверы по мере роста нагрузки.

4. **Автоматизация и оркестрация**: Используйте инструменты автоматизации и оркестрации (например, Ansible, Kubernetes) для управления конфигурацией и развертыванием серверов баз данных.

5. **Тестирование и планирование**: Регулярно тестируйте системы балансировки нагрузки и репликации в условиях, приближенных к реальным, чтобы выявлять и устранять потенциальные проблемы до их появления в рабочей среде.

Распределение нагрузки для баз данных позволяет обеспечить высокую производительность и доступность системы, а также эффективно управлять ресурсами и масштабировать инфраструктуру по мере роста приложения.


### Распределение нагрузки из приложения

Распределение нагрузки из приложения – это подход, при котором само приложение отвечает за направление запросов к различным серверам баз данных для обеспечения высокой производительности и отказоустойчивости. Это может включать балансировку запросов на чтение и запись, использование кэширования и других методов оптимизации.

#### Методы распределения нагрузки из приложения

1. **Разделение чтения и записи**: 
    - Направляйте запросы на чтение к репликам (slave-серверам), а запросы на запись – к мастер-серверу.
    - Это позволяет разгрузить мастер-сервер и увеличить общую производительность системы.

2. **Кэширование данных**:
    - Используйте системы кэширования (например, Redis, Memcached) для временного хранения часто запрашиваемых данных.
    - Кэширование снижает нагрузку на базу данных, уменьшая количество запросов.

3. **Пул соединений**:
    - Используйте пулы соединений для управления и повторного использования соединений с базой данных.
    - Пулы соединений помогают сократить время, необходимое для установления соединений, и управлять количеством одновременно открытых соединений.

4. **Распределение запросов по времени**:
    - Распределяйте выполнение сложных или длительных запросов на менее загруженные периоды времени.
    - Это позволяет избежать пиковых нагрузок и равномерно распределить нагрузку на систему.

5. **Шардирование данных**:
    - Разделяйте данные на отдельные сегменты (шарды) и распределяйте их по различным серверам.
    - Шардирование позволяет масштабировать базу данных горизонтально и управлять нагрузкой.

6. **Балансировка нагрузки на уровне приложения**:
    - Реализуйте логику балансировки нагрузки внутри приложения, направляя запросы к различным серверам в зависимости от текущей нагрузки и доступности.

#### Примеры реализации распределения нагрузки из приложения

##### Пример использования SQLAlchemy для разделения чтения и записи

```python
from sqlalchemy import create_engine, text
from sqlalchemy.orm import sessionmaker

# Подключение к мастер-серверу для записи
master_engine = create_engine('postgresql://user:password@master_host/dbname')
MasterSession = sessionmaker(bind=master_engine)

# Подключение к slave-серверу для чтения
slave_engine = create_engine('postgresql://user:password@slave_host/dbname')
SlaveSession = sessionmaker(bind=slave_engine)

def get_master_session():
    return MasterSession()

def get_slave_session():
    return SlaveSession()

def write_to_master(data):
    session = get_master_session()
    try:
        session.execute(text("INSERT INTO table_name (column) VALUES (:data)"), {"data": data})
        session.commit()
    except Exception as e:
        session.rollback()
        print(f"Ошибка записи: {e}")
    finally:
        session.close()

def read_from_slave():
    session = get_slave_session()
    try:
        result = session.execute(text("SELECT * FROM table_name"))
        return result.fetchall()
    except Exception as e:
        print(f"Ошибка чтения: {e}")
    finally:
        session.close()

# Пример записи данных
write_to_master("example_data")

# Пример чтения данных
data = read_from_slave()
print(data)


### Redis для кэша

In [None]:
import redis
from sqlalchemy import create_engine, text
from sqlalchemy.orm import sessionmaker

# Настройка Redis
cache = redis.StrictRedis(host='localhost', port=6379, db=0)

# Подключение к базе данных
engine = create_engine('postgresql://user:password@host/dbname')
Session = sessionmaker(bind=engine)
session = Session()

def get_data_from_db(query):
    result = session.execute(text(query))
    return result.fetchall()

def get_data(query):
    # Проверяем кэш
    cache_result = cache.get(query)
    if cache_result:
        return cache_result

    # Если нет в кэше, получаем из базы данных
    data = get_data_from_db(query)
    # Сохраняем в кэш
    cache.set(query, data)
    return data

# Пример использования
query = "SELECT * FROM table_name"
data = get_data(query)
print(data)


### Шардирование для PostgreSQL

**Шардирование** – это метод распределения данных по нескольким серверам или базам данных для улучшения производительности и масштабируемости. Шардирование может быть реализовано как на уровне СУБД, так и на уровне приложения.

#### Шардирование на уровне СУБД

Для PostgreSQL шардирование можно реализовать с помощью таких инструментов, как Citus и PL/Proxy.

##### Использование Citus

[Citus](https://www.citusdata.com/) – это расширение для PostgreSQL, которое позволяет распределять данные и запросы по множеству узлов.

1. **Установка Citus**:

    ```sh
    sudo apt-get install postgresql-13-citus-10.0
    ```

2. **Настройка кластера Citus**:

    - Инициализируйте кластер Citus, добавив координатор и узлы-работники.
    - На координаторе выполните команды для добавления узлов-работников:

    ```sql
    SELECT * from master_add_node('worker1_host', 5432);
    SELECT * from master_add_node('worker2_host', 5432);
    ```

3. **Создание распределенной таблицы**:

    - Создайте таблицу и распределите ее по шардам:

    ```sql
    CREATE TABLE users (
        user_id bigint,
        name text,
        email text,
        PRIMARY KEY (user_id)
    );

    SELECT create_distributed_table('users', 'user_id');
    ```

4. **Вставка и запрос данных**:

    - Вставка данных автоматически распределяется по узлам-работникам:

    ```sql
    INSERT INTO users (user_id, name, email) VALUES (1, 'Alice', 'alice@example.com');
    ```

##### Использование PL/Proxy

[PL/Proxy](http://plproxy.github.io/) – это инструмент для создания распределенных баз данных в PostgreSQL.

1. **Установка PL/Proxy**:

    ```sh
    sudo apt-get install postgresql-plproxy
    ```

2. **Настройка PL/Proxy**:

    - Создайте базу данных и настройте серверы-работники в конфигурационном файле:

    ```sql
    CREATE FUNCTION worker_servers() RETURNS SETOF text AS $$
    BEGIN
        RETURN NEXT 'dbname=shard1 host=worker1_host';
        RETURN NEXT 'dbname=shard2 host=worker2_host';
    END;
    $$ LANGUAGE plpgsql;
    ```

3. **Создание функции маршрутизации запросов**:

    - Настройте функции для маршрутизации запросов к соответствующим шардам:

    ```sql
    CREATE FUNCTION get_user(user_id bigint) RETURNS SETOF users AS $$
    CLUSTER 'plproxy_cluster';
    RUN ON hashtext(user_id::text);
    $$ LANGUAGE plproxy;
    ```

#### Шардирование на уровне приложения

Шардирование на уровне приложения означает, что приложение само управляет распределением данных по различным базам данных. Это требует от разработчиков реализации логики для определения, какой шард использовать для каждой операции.

##### Пример реализации шардирования на уровне приложения

```python
from sqlalchemy import create_engine, MetaData, Table
from sqlalchemy.orm import sessionmaker

# Настройка соединений к разным шардам
shard_uris = {
    0: 'postgresql://user:password@shard0_host/dbname',
    1: 'postgresql://user:password@shard1_host/dbname'
}

shard_engines = {shard_id: create_engine(uri) for shard_id, uri in shard_uris.items()}
ShardSessions = {shard_id: sessionmaker(bind=engine) for shard_id, engine in shard_engines.items()}

# Функция для определения шарда
def get_shard(user_id):
    return user_id % len(shard_uris)

# Пример вставки данных
def insert_user(user_id, name, email):
    shard_id = get_shard(user_id)
    session = ShardSessions[shard_id]()
    try:
        session.execute(
            f"INSERT INTO users (user_id, name, email) VALUES ({user_id}, '{name}', '{email}')"
        )
        session.commit()
    except Exception as e:
        session.rollback()
        print(f"Ошибка вставки: {e}")
    finally:
        session.close()

# Пример чтения данных
def get_user(user_id):
    shard_id = get_shard(user_id)
    session = ShardSessions[shard_id]()
    try:
        result = session.execute(
            f"SELECT * FROM users WHERE user_id = {user_id}"
        )
        return result.fetchone()
    except Exception as e:
        print(f"Ошибка чтения: {e}")
    finally:
        session.close()

# Вставка пользователя
insert_user(1, 'Alice', 'alice@example.com')

# Получение пользователя


### Обзор NoSQL баз данных

**NoSQL** (Not Only SQL) базы данных – это тип баз данных, предназначенных для хранения и обработки больших объемов неструктурированных или слабо структурированных данных. Они разработаны для удовлетворения специфических требований к масштабируемости, доступности и производительности, которые часто трудно достичь с использованием традиционных реляционных баз данных (SQL).

#### Типы NoSQL баз данных

1. **Документо-ориентированные базы данных**:
    - Хранят данные в формате документов (обычно JSON или BSON).
    - Примеры: MongoDB, CouchDB.
    - **Сильные стороны**: Гибкость структуры данных, простота работы с вложенными данными, отличная масштабируемость.
    - **Слабые стороны**: Меньшая согласованность данных, чем в реляционных БД, сложность выполнения сложных запросов.

2. **Хранилища ключ-значение**:
    - Хранят данные в виде пар "ключ-значение".
    - Примеры: Redis, Riak.
    - **Сильные стороны**: Высокая производительность, простота и гибкость, отличная масштабируемость.
    - **Слабые стороны**: Ограниченные возможности запросов, отсутствие сложных структур данных.

3. **Колоночные базы данных**:
    - Хранят данные в формате столбцов, оптимизированные для больших объемов данных и аналитических запросов.
    - Примеры: Apache Cassandra, HBase.
    - **Сильные стороны**: Высокая производительность при работе с большими объемами данных, хорошая масштабируемость.
    - **Слабые стороны**: Сложность управления и настройки, ограниченные возможности запросов.

4. **Графовые базы данных**:
    - Хранят данные в виде графов (вершины и ребра), оптимизированные для обработки связей между данными.
    - Примеры: Neo4j, Amazon Neptune.
    - **Сильные стороны**: Отличная производительность при работе с сильно связанными данными, мощные возможности запросов.
    - **Слабые стороны**: Меньшая масштабируемость по сравнению с другими NoSQL базами, сложность моделирования данных.

#### Сильные и слабые стороны NoSQL баз данных

**Сильные стороны**:
1. **Горизонтальная масштабируемость**: NoSQL базы данных разработаны для масштабирования путем добавления новых серверов, что позволяет обрабатывать огромные объемы данных и трафика.
2. **Гибкость структуры данных**: NoSQL базы данных позволяют хранить данные без жесткой схемы, что делает их идеальными для работы с неструктурированными и полуструктурированными данными.
3. **Высокая производительность**: NoSQL базы данных оптимизированы для быстрого чтения и записи данных, что делает их подходящими для приложений с высокими требованиями к производительности.
4. **Доступность и отказоустойчивость**: Многие NoSQL базы данных обеспечивают высокую доступность и отказоустойчивость за счет репликации данных и распределенной архитектуры.

**Слабые стороны**:
1. **Отсутствие стандартного интерфейса**: В отличие от SQL, NoSQL базы данных не имеют стандартного языка запросов, что делает работу с ними более сложной для разработчиков, привыкших к SQL.
2. **Ограниченные возможности транзакций**: Многие NoSQL базы данных не поддерживают полноценные транзакции, что может быть проблемой для приложений, требующих строгой согласованности данных.
3. **Сложность управления и настройки**: Некоторые NoSQL базы данных требуют сложной настройки и управления, особенно при работе с большими кластерами.

#### Примеры использования NoSQL баз данных

1. **MongoDB**:
    - **Применение**: Веб-приложения, системы управления контентом, интернет-магазины.
    - **Пример**: Хранение данных о пользователях и продуктах в интернет-магазине, где структура данных может изменяться.

    ```python
    from pymongo import MongoClient

    client = MongoClient('localhost', 27017)
    db = client['mydatabase']
    collection = db['users']

    user = {
        "name": "John Doe",
        "email": "john.doe@example.com",
        "age": 30,
        "address": {
            "street": "123 Main St",
            "city": "Anytown",
            "state": "CA"
        }
    }

    collection.insert_one(user)
    ```

2. **Redis**:
    - **Применение**: Кэширование, системы очередей, управление сессиями.
    - **Пример**: Кэширование результатов вычислений или часто запрашиваемых данных.

    ```python
    import redis

    r = redis.Redis(host='localhost', port=6379, db=0)
    r.set('user:1000', 'John Doe')
    user = r.get('user:1000')
    print(user)
    ```

3. **Apache Cassandra**:
    - **Применение**: Аналитические системы, системы мониторинга, работа с большими данными.
    - **Пример**: Хранение данных о транзакциях в финансовой системе, требующей высокой доступности и быстрого доступа к данным.

    ```python
    from cassandra.cluster import Cluster

    cluster = Cluster(['127.0.0.1'])
    session = cluster.connect('mykeyspace')

    session.execute("""
    INSERT INTO users (user_id, name, email)
    VALUES (uuid(), 'John Doe', 'john.doe@example.com')
    """)
    ```

4. **Neo4j**:
    - **Применение**: Социальные сети, системы рекомендаций, анализ связей.
    - **Пример**: Хранение и анализ социальных связей между пользователями.

    ```python
    from neo4j import GraphDatabase

    uri = "bolt://localhost:7687"
    driver = GraphDatabase.driver(uri, auth=("neo4j", "password"))

    def create_user(tx, name):
        tx.run("CREATE (a:Person {name: $name})", name=name)

    with driver.session() as session:
        session.write_transaction(create_user, "John Doe")

    driver.close()
    ```