# Контейнером

Поднять контейнера в фоне

In [32]:
!docker-compose up -d

[33mWARN[0m[0000] The "POSTGRES_USER" variable is not set. Defaulting to a blank string. 
[33mWARN[0m[0000] The "POSTGRES_DB" variable is not set. Defaulting to a blank string. 
[1A[1B[0G[?25l[+] Running 1/2
 [32m✔[0m Network bigdatasnowflake_default  [32mCreated[0m                               [34m0.0s [0m
 [33m⠋[0m Container bigdatasnowflake-db-1   Creating                              [34m0.0s [0m
[?25h[1A[1A[1A[0G[?25l[+] Running 1/2
 [32m✔[0m Network bigdatasnowflake_default  [32mCreated[0m                               [34m0.0s [0m
 [33m⠙[0m Container bigdatasnowflake-db-1   Starting                              [34m0.1s [0m
[?25h[1A[1A[1A[0G[?25l[34m[+] Running 2/2[0m
 [32m✔[0m Network bigdatasnowflake_default  [32mCreated[0m                               [34m0.0s [0m
 [32m✔[0m Container bigdatasnowflake-db-1   [32mStarted[0m                               [34m0.2s [0m
[?25h

Остановка контейнера

In [31]:
!docker-compose down

[33mWARN[0m[0000] The "POSTGRES_USER" variable is not set. Defaulting to a blank string. 
[33mWARN[0m[0000] The "POSTGRES_DB" variable is not set. Defaulting to a blank string. 
[1A[1B[0G[?25l[+] Running 0/1
 [33m⠋[0m Container bigdatasnowflake-db-1  S...                                   [34m0.1s [0m
[?25h[1A[1A[0G[?25l[+] Running 0/1
 [33m⠙[0m Container bigdatasnowflake-db-1  S...                                   [34m0.2s [0m
[?25h[1A[1A[0G[?25l[+] Running 0/1
 [33m⠹[0m Container bigdatasnowflake-db-1  S...                                   [34m0.3s [0m
[?25h[1A[1A[0G[?25l[+] Running 0/1
 [33m⠸[0m Container bigdatasnowflake-db-1  S...                                   [34m0.4s [0m
[?25h[1A[1A[0G[?25l[+] Running 0/1
 [33m⠼[0m Container bigdatasnowflake-db-1  S...                                   [34m0.5s [0m
[?25h[1A[1A[0G[?25l[+] Running 0/1
 [33m⠴[0m Container bigdatasnowflake-db-1  S...                                   [34m

Посмотреть логи

In [None]:
!docker-compose logs

# Подключения к БД

In [None]:
DB_USER = "postgres"
DB_PASS = "highload"
DB_HOST = "localhost"
DB_PORT = "5432" 
DB_NAME = "highload_db"
CONN_URL = f"postgresql+asyncpg://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}"

ECHO = False

Создам класс `DBManager`

In [None]:
import pandas as pd
from contextlib import asynccontextmanager
from sqlalchemy import text
from sqlalchemy.ext.asyncio import (
    create_async_engine,
    AsyncSession,
    AsyncEngine,
    async_sessionmaker,
)
from typing import AsyncGenerator, Union
from pathlib import Path


class DBManager:
    def __init__(self, db_url: str, pool_size: int = 5, max_overflow: int = 10, echo: bool = True):
        self.db_url: str = db_url
        try:
            self.engine: AsyncEngine = create_async_engine(
                self.db_url,
                pool_size=pool_size,
                max_overflow=max_overflow,
                echo=echo,
                pool_recycle=3600,
            )
            
            self._session_factory: async_sessionmaker[AsyncSession] = async_sessionmaker(
                bind=self.engine,
                expire_on_commit=False,  # important for async sessions
            )
            
        except ImportError as ie:
            raise ImportError(f"Ошибка драйвера: {ie}")
        except Exception as e:
            raise RuntimeError(f"Ошибка движка: {e}")
    
    
    @asynccontextmanager
    async def get_session(self) -> AsyncGenerator[AsyncSession, None]:
        session: AsyncSession = self._session_factory()
        try:
            yield session
            await session.commit()
        except Exception as e:
            await session.rollback()
            raise RuntimeError(f"Ошибка запроса к базе данных: {e}")
        finally:
            await session.close()

    
    async def create_tables_from_csv(self, file_csv: Union[Path, str]) -> bool:
        try:
            if isinstance(file_csv, str):
                file_csv = Path(file_csv)

            df = pd.read_csv(file_csv)
            # table_name = file_csv.stem
            table_name = "mock_data"

            # Используем напрямую async engine (а не session)
            async with self.engine.begin() as conn:
                await conn.run_sync(
                    lambda sync_conn: df.to_sql(
                        name=table_name,
                        con=sync_conn,
                        if_exists='append',
                        index=False
                    )
                )

            print(f"Таблица '{table_name}' успешно загружена.")
            return True

        except Exception as e:
            print(f"Критическая ошибка при загрузке CSV: {e}")
            print(f"Не удалось создать таблицу из файла {file_csv.name}.")
            return False


    async def execute_sql_file(self, sql_file: Union[Path, str]) -> Union[str, bool]:
        """
        Выполняет SQL файл асинхронно с поддержкой нескольких запросов.
        """
        try:
            if isinstance(sql_file, str):
                sql_file = Path(sql_file)
            
            if not sql_file.exists():
                raise FileNotFoundError(f"SQL файл не найден: {sql_file}")
            
            sql_content = sql_file.read_text(encoding='utf-8').strip()
            if not sql_content:
                print("SQL файл пуст")
                return False
            
            queries = [q.strip() for q in sql_content.split(';') if q.strip()]
            
            if not queries:
                print("Не найдено валидных SQL запросов")
                return False
            
            results = []
            successful_queries = 0
            
            for i, query in enumerate(queries, 1):
                if not query or query.strip().startswith('--'):
                    continue
                
                print(f"\n--- Запрос {i}/{len(queries)} ---")
                print(f"SQL: {query[:100]}...")
                
                try:
                    clean_query = " ".join(line for line in query.splitlines() 
                                        if not line.strip().startswith('--'))
                    clean_query = clean_query.strip()
                    
                    first_word = clean_query.split()[0].upper() if clean_query.split() else ""
                    is_select = first_word == 'SELECT'
                    
                    print(f"Тип запроса: {first_word}")
                    
                    if first_word in ['DROP', 'CREATE', 'ALTER', 'TRUNCATE']:
                        # DDL запросы - используем begin() который автоматически коммитит
                        print("Выполнение DDL запроса...")
                        async with self.engine.begin() as conn:
                            result = await conn.execute(text(query))
                            print(f"DDL выполнен, результат: {result}")
                        results.append(f"DDL запрос {i} выполнен успешно\n")
                        successful_queries += 1
                        print("✓ DDL запрос завершен")
                        
                    elif is_select:
                        print("Выполнение SELECT запроса...")
                        async with self.get_session() as session:
                            result = await session.execute(text(query))
                            rows = result.fetchall()
                            
                            if rows:
                                df = pd.DataFrame(rows, columns=result.keys())
                                results.append(f"Результат запроса {i}:\n{df.to_string(index=False)}\n")
                                print(f"Найдено строк: {len(rows)}")
                            else:
                                results.append(f"Запрос {i} выполнен, но данных не найдено\n")
                                print("Данные не найдены")
                            successful_queries += 1
                    else:
                        # DML запросы (INSERT, UPDATE, DELETE)
                        print("Выполнение DML запроса...")
                        async with self.get_session() as session:
                            result = await session.execute(text(query))
                            await session.commit()
                            print(f"DML выполнен, затронуто строк: {result.rowcount}")
                        results.append(f"DML запрос {i} выполнен успешно\n")
                        successful_queries += 1
                            
                except Exception as e:
                    error_msg = f"Ошибка в запросе {i}: {e}"
                    print(f"✗ Ошибка: {error_msg}")
                    results.append(error_msg + "\n")
                    continue
            
            # Проверим, какие таблицы действительно создались
            print("\n=== ПРОВЕРКА СОЗДАННЫХ ТАБЛИЦ ===")
            async with self.get_session() as session:
                try:
                    result = await session.execute(text("""
                        SELECT table_name 
                        FROM information_schema.tables 
                        WHERE table_schema = 'public'
                        ORDER BY table_name
                    """))
                    tables = result.fetchall()
                    print(f"Таблиц в базе: {len(tables)}")
                    for table in tables:
                        print(f"  - {table[0]}")
                except Exception as e:
                    print(f"Ошибка при проверке таблиц: {e}")
            
            final_result = "\n".join(results)
            print(f"\nИТОГ: Выполнено {successful_queries}/{len(queries)} запросов")
            
            if any("Результат запроса" in str(res) for res in results):
                return final_result
            else:
                return successful_queries == len(queries)
                
        except Exception as e:
            print(f"Критическая ошибка при выполнении SQL файла: {e}")
            return False
    
    def __repr__(self) -> str:
        return f"<DBManager(db_url='{self.db_url}')>"
        
        
db = DBManager(db_url=CONN_URL, echo=ECHO)
db


<DBManager(db_url='postgresql+asyncpg://bober:bober_kurwa@localhost:5432/bober_db')>

## 1. Создание стурктуры БД из директории `data`

In [35]:
# файлы с данными в формате csv
DATA_DIR = Path("./data")
CSV_FILES = list(DATA_DIR.glob("*.csv"))

# файлы с sql скриптами
SCRIPTS_DIR =  Path("./sql")

In [36]:
async def create_tables():
    # Создадим таблички из csv файлов
    for file in CSV_FILES:
        success = await db.create_tables_from_csv(file)
        if success:
            print(f"Таблица из файла {file.name} успешно создана.")
        else:
            print(f"Не удалось создать таблицу из файла {file.name}.")


await create_tables()

Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA.csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (1).csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (6).csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (7).csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (8).csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (4).csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (5).csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (9).csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (2).csv успешно создана.
Таблица 'mock_data' успешно загружена.
Таблица из файла MOCK_DATA (3).csv успешно создана.


Кол-во строк после загрузки из `csv` файлов

In [51]:
result = await db.execute_sql_file(SCRIPTS_DIR / "check_count_rows.sql")
print(result)


--- Запрос 1/2 ---
SQL: SELECT count(*) FROM mock_data md...
Тип запроса: SELECT
Выполнение SELECT запроса...
Найдено строк: 1

=== ПРОВЕРКА СОЗДАННЫХ ТАБЛИЦ ===
Таблиц в базе: 1
  - mock_data

ИТОГ: Выполнено 1/2 запросов
Результат запроса 1:
 count
 10000



Столбцы, которые появились в БД

In [52]:
result = await db.execute_sql_file(SCRIPTS_DIR / "select_all_rows.sql")
print(result)


--- Запрос 1/2 ---
SQL: select string_agg(column_name, ', ') from information_schema."columns" c 
where c.table_schema = 'pu...
Тип запроса: SELECT
Выполнение SELECT запроса...
Найдено строк: 1

--- Запрос 2/2 ---
SQL: select column_name
from information_schema."columns" c 
where c.table_schema = 'public'
and c.table_...
Тип запроса: SELECT
Выполнение SELECT запроса...
Найдено строк: 50

=== ПРОВЕРКА СОЗДАННЫХ ТАБЛИЦ ===
Таблиц в базе: 1
  - mock_data

ИТОГ: Выполнено 2/2 запросов
Результат запроса 1:
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            