# Решение задачи №2
## Импорты

In [1]:
from datetime import datetime
from fixtures import load_large_fixtures
import os
from typing import List
from dataclasses import dataclass
from sqlalchemy import (
    create_engine, 
    MetaData, 
    Table, 
    Column, 
    Integer, 
    String, 
    Float, 
    DateTime, 
    ForeignKey, 
    Index, 
    select, 
    func, 
    and_,
)

## Безопасность, и настройка приложения
1. Использовать .env файл для хранения переменных среды окружения, и секретов
2. Использвоать класс для централизованного конфига

### Возможные улучшения
1. Можно использвоать pydantic_settings в реальном FastAPI приложении, он автоматически умеет работать с .env файлами 

In [2]:
@dataclass
class Settings:
    DATABASE_URL: str = "postgresql+psycopg://user:password@localhost:5432/dbname"
    POOL_SIZE: int = 20
    MAX_OVERFLOW: int = 30
    POOL_TIMEOUT: int = 30
    POOL_RECYCLE: int = 3600
    
    @classmethod
    def from_env(cls) -> 'Settings':
        """Загрузка настроек из переменных окружения"""
        return cls(
            DATABASE_URL=os.getenv('DATABASE_URL', cls.DATABASE_URL),
            POOL_SIZE=int(os.getenv('POOL_SIZE', cls.POOL_SIZE)),
            MAX_OVERFLOW=int(os.getenv('MAX_OVERFLOW', cls.MAX_OVERFLOW)),
            POOL_TIMEOUT=int(os.getenv('POOL_TIMEOUT', cls.POOL_TIMEOUT)),
            POOL_RECYCLE=int(os.getenv('POOL_RECYCLE', cls.POOL_RECYCLE)),
        )

# Использование
settings = Settings.from_env()

## Настройка Базы Данных

In [3]:
engine = create_engine(
    settings.DATABASE_URL,
    pool_size=settings.POOL_SIZE,
    max_overflow=settings.MAX_OVERFLOW,
    pool_timeout=settings.POOL_TIMEOUT,
    pool_recycle=settings.POOL_RECYCLE,
    echo=False  # Отключаем логирование SQL запросов для продакшена
)
metadata = MetaData()

## Описание схемы базы данных

In [4]:

users = Table(
    'users',
    metadata,
    Column('id', Integer, primary_key=True),
    Column('name', String),
    Column('gender', String),
    Column('age', Integer) # Change to Integer
)

heart_rates = Table(
    'heart_rates',
    metadata,
    Column('id', Integer, primary_key=True),
    Column('user_id', Integer, ForeignKey('users.id'), index=True),
    Column('timestamp', DateTime),
    Column('heart_rate', Float),
)

# Создаем индексы для оптимизации запросов
Index('idx_users_age_gender', users.c.age, users.c.gender)  # Для фильтрации пользователей
Index('idx_heart_rates_user_timestamp', heart_rates.c.user_id, heart_rates.c.timestamp)  # Для JOIN, фильтрации по времени и агрегации

# query_users: WHERE gender = ? AND age > ? AND timestamp BETWEEN ? AND ?
# Использует: idx_users_gender_age + idx_heart_rates_user_timestamp
# query_top: WHERE user_id = ? AND timestamp BETWEEN ? AND ?
# Использует: idx_heart_rates_user_timestamp

Index('idx_heart_rates_user_timestamp', Column('user_id', Integer(), ForeignKey('users.id'), table=<heart_rates>), Column('timestamp', DateTime(), table=<heart_rates>))

In [5]:
metadata.drop_all(engine)
metadata.create_all(engine)

## Генерация тестовых данных
1. 1 человек , по грубой оценке генерирует 6 записей в час. Суточный монитор. И того 6х24х360 = 51840 замеров, плюс внеплановые можно округлить до 60000 замеров на 1 человека в год.
2. Итого оценочное количесвто строк в таблице heart_rates , при N человек = Nх6х10^4
3. Значит при 1к активных пользователей 60м записей

## Важно перед тестами
1. 60м записей будет генерироваться около 30 минут
2. 25м записей - 15 минут
3. 2.5м записей - 1,5 минуты

In [6]:
# ! ВАЖНО
# 

load_large_fixtures(engine, users_count=100, target_heart_rate_records=2500000)

🚀 Начинаем генерацию 100 пользователей и ~2,500,000 записей пульса...
👥 Создание пользователей...
  👥 Прогресс пользователей: 100.0% (100/100)
✅ Создано 100 пользователей
💓 Создание записей пульса...
📊 Среднее записей на пользователя: 25000
  💓 Прогресс записей: 1.6% (40,134/2,500,000)
  💓 Прогресс записей: 2.7% (67,435/2,500,000)
  💓 Прогресс записей: 4.8% (120,441/2,500,000)
  💓 Прогресс записей: 5.6% (140,048/2,500,000)
  💓 Прогресс записей: 6.9% (172,240/2,500,000)
  💓 Прогресс записей: 8.1% (201,764/2,500,000)
  💓 Прогресс записей: 9.2% (229,699/2,500,000)
  💓 Прогресс записей: 10.4% (259,021/2,500,000)
  💓 Прогресс записей: 11.4% (286,060/2,500,000)
  💓 Прогресс записей: 12.3% (307,936/2,500,000)
  💓 Прогресс записей: 13.2% (329,504/2,500,000)
  💓 Прогресс записей: 14.2% (355,684/2,500,000)
  💓 Прогресс записей: 15.0% (375,038/2,500,000)
  💓 Прогресс записей: 16.0% (400,447/2,500,000)
  💓 Прогресс записей: 16.9% (422,500/2,500,000)
  💓 Прогресс записей: 17.8% (444,084/2,500,000)


## query_users
Возвращает всех пользователей, которые старше 'min_age' и 
имеют средний пульс выше, чем 'min_avg_heart_rate', на определенном промежутке времени

### Статистика вызовов
| num_users | num_heart_rate | execution_time(sec) |
|---------|----------|----------|
| 100 | 2,500,000 | 0.3 |
| 1000 | 25,000,000 | 2.3 |
| 1000 | 60,000,000 | 2.6 |

In [7]:
def query_users(
        min_age: int, 
        gender: str, 
        min_avg_heart_rate: float, 
        date_from: datetime, 
        date_to: datetime,
    ) -> List[int]:
    """
    Возвращает всех пользователей, которые старше 'min_age' и 
    имеют средний пульс выше, чем 'min_avg_heart_rate', на определенном промежутке времени
    
    Args:
        engine: SQLAlchemy engine для подключения к БД
        min_age: минимальный возраст пользователей
        gender: пол пользователей ('male' или 'female')
        min_avg_heart_rate: минимальный средний пульс
        date_from: начало временного промежутка
        date_to: конец временного промежутка
        
    Returns:
        List[int]: сописок с user_ids
    """
    
    query = (
        select(users.c.id)
        .select_from(
            users.join(
                heart_rates, 
                users.c.id == heart_rates.c.user_id
            )
        )
        .where(
            and_(
                users.c.age > min_age,  # Фильтруем пользователей рано
                users.c.gender == gender,
                heart_rates.c.timestamp >= date_from,
                heart_rates.c.timestamp <= date_to
            )
        )
        .group_by(users.c.id)
        .having(func.avg(heart_rates.c.heart_rate) > min_avg_heart_rate)
        .order_by(func.avg(heart_rates.c.heart_rate).desc())
    )

    # Выполняем запрос
    with engine.connect() as conn:
        user_ids = conn.execute(query).scalars().all()
    
    return user_ids

In [8]:
query_users(
    min_age=24, 
    gender="male", 
    min_avg_heart_rate=60.0, 
    date_from=datetime(2023, 1, 1), 
    date_to=datetime(2024, 1, 1)
)

[9,
 74,
 71,
 8,
 21,
 10,
 50,
 56,
 6,
 41,
 19,
 80,
 49,
 60,
 62,
 47,
 45,
 30,
 43,
 72,
 76,
 4,
 73,
 69,
 17,
 68,
 33,
 26,
 89,
 75,
 42,
 51,
 91,
 23,
 38,
 20,
 90,
 65,
 82,
 83,
 22,
 11]

## query_top
Возвращает топ 10 самых высоких средних показателей heart_rate 
за часовые промежутки для указанного пользователя в заданном периоде.

### Статистика вызовов
| num_users | num_heart_rate | execution_time(sec) |
|---------|----------|----------|
| 100 | 2,500,000 | > 0.1 |
| 1000 | 25,000,000 | >0.1 |
| 1000 | 60,000,000 | >0.1 |

In [11]:
def query_top(
        user_id: int, 
        date_from: datetime, 
        date_to: datetime
    ) -> List[float]:
    """
    Возвращает топ 10 самых высоких средних показателей heart_rate 
    за часовые промежутки для указанного пользователя в заданном периоде.
    
    Args:
        engine: SQLAlchemy engine для подключения к БД
        user_id: ID пользователя
        date_from: начало временного промежутка
        date_to: конец временного промежутка
        
    Returns:
        List[float]: список с данными о топ 10 часовых промежутках
    """
    hour_group = func.date_trunc('hour', heart_rates.c.timestamp)
    
    # Подзапрос для получения средних по часам
    subquery = (
        select(
            func.avg(heart_rates.c.heart_rate).label('avg_heart_rate')
        )
        .where(
            and_(
                heart_rates.c.user_id == user_id,
                heart_rates.c.timestamp >= date_from,
                heart_rates.c.timestamp <= date_to
            )
        )
        .group_by(hour_group)
    ).subquery()
    
    # Основной запрос с DISTINCT для уникальных значений
    query = (
        select(subquery.c.avg_heart_rate)
        .distinct()
        .order_by(subquery.c.avg_heart_rate.desc())
        .limit(10)
    )
    
    with engine.connect() as conn:
        results = conn.execute(query).scalars().all()
        
        return results


In [12]:
query_top(
    user_id=99, 
    date_from= datetime(2023, 1, 1), 
    date_to= datetime(2024, 1, 1)
)

[96.0, 95.5, 95.0, 93.0, 92.5, 92.33333333333333, 92.0, 91.5, 91.25, 91.0]

## Предложения

1. Стоит уточнить границы **использования** `query_users`. Не ясно из требований, **поддерживает** ли функция запросы **для** всех типов `gender`. Если да, тогда **изменить** запрос в строке `users.c.gender == gender` **на что-то вроде** `users.c.gender.in_([*genders])`

2. Стоит уточнить **требования** по времени ответа, особенно для `query_top`. Этот запрос **может быть связан** с мониторингом здоровья конкретного человека и **служить сигнальной метрикой**, на которую нужно реагировать **максимально быстро**. 

   **Если это критически важный запрос**, тогда необходимо:
   1. **Установить SLA** (например, < 100ms для 95% запросов)
   2. **Добавить тест производительности** этой функции
   3. **Настроить мониторинг** времени выполнения запроса

3. Стоит уточнить Контракт возвращаемых данных, в этом решение для ускорения сделал формат ответа максимально простым. `query_users -> List[int]` , `query_top -> List[float]`


4. При интеграции в **бэкенд** нужно добавить:
   1. **Обработку** ошибок и логирование
   2. **Можно** обернуть ответы в DTO (**Pydantic** или dataclass)
   3. **Настройки описать в виде класса Pydantic Settings**
   4. Подключения `with engine.connect() as conn:` можно вынести в общий блок, декоратор или UoW, чтобы единообразно управлять транзакциями и их атомарностью. 
   5. В случае ошибок во время операций записи автоматически делать rollback.

5. Производительность:
   1. Если позволяют ресурсы, возможно лучшим вариантом для аналитических запросов будет **ClickHouse** или другая колоночная СУБД.
   2. Можно добавить **аналитические таблицы и/или представления** с заранее посчитанными метриками.
   3. Можно попробовать **партиционирование** таблицы **по времени или user_id для улучшения производительности больших запросов**. А так же для быстрого удаления данных по каким то группам записей.
      1. Есть риски **Проблемы с JOIN** между партициями могут снизить производительность
      2. **Усложнение миграций** - изменения схемы становятся сложнее