In [5]:
import os
import pandas as pd
from clickhouse_driver import Client
import logging
from dotenv import load_dotenv

# Загрузка переменных окружения
load_dotenv()

# Настройка логирования с указанием кодировки
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler("load_excel_to_clickhouse.log", encoding='utf-8'),
        logging.StreamHandler()
    ]
)
logger = logging.getLogger()

# Параметры подключения
clickhouse_host = os.getenv('CLICKHOUSE_HOST', '10.95.19.132')
clickhouse_user = os.getenv('CLICKHOUSE_USER', 'default')
clickhouse_password = os.getenv('CLICKHOUSE_PASSWORD', 'quie1ahpoo5Su0wohpaedae8keeph6bi')
database_name = os.getenv('CLICKHOUSE_DB', 'default')

# Каталог с Excel файлами
excel_directory = './Программа'

# Создание ClickHouse client с указанием настроек
client = Client(
    host=clickhouse_host,
    user=clickhouse_user,
    password=clickhouse_password,
    port=9000,
    secure=False,
    settings={'strings_encoding': 'utf-8'}
)

# Определение ожидаемых типов данных для каждого столбца
expected_column_types = {
    'daily_flight_hours': 'Nullable(Float64)',
    'monthly_flight_hours': 'Nullable(Float64)'
}

def load_excel_to_clickhouse(file_path, table_name):
    try:
        # Прочитать Excel файл
        df = pd.read_excel(file_path, engine='openpyxl', header=None)
        logger.info(f"Файл {file_path} успешно прочитан.")

        # Извлечение значений из файла
        monthly_flight_hours = pd.to_numeric(df.iloc[0, 1], errors='coerce')
        daily_flight_hours = round((monthly_flight_hours * 12) / 365, 2) if pd.notna(monthly_flight_hours) else None

        # Создание таблицы с явными типами данных
        columns_with_types = [f'`{key}` {expected_column_types[key]}' for key in expected_column_types]

        create_table_query = f"""
        CREATE TABLE IF NOT EXISTS {database_name}.{table_name} (
            {', '.join(columns_with_types)}
        ) ENGINE = MergeTree()
        ORDER BY tuple()
        """
        logger.info(f"CREATE TABLE Query:\n{create_table_query}")
        client.execute(create_table_query)
        logger.info(f"Таблица {table_name} создана или уже существует.")

        # Вставка данных в таблицу
        if pd.notna(monthly_flight_hours):
            values = [daily_flight_hours, monthly_flight_hours]
            insert_query = f"INSERT INTO {database_name}.{table_name} ({', '.join(f'`{col}`' for col in expected_column_types.keys())}) VALUES"
            client.execute(insert_query, [values], types_check=True)
            logger.info(f"Данные из файла {os.path.basename(file_path)} успешно загружены в таблицу {table_name} в ClickHouse.")
        else:
            logger.error(f"Значение 'Налет_мес' отсутствует или некорректно в файле {os.path.basename(file_path)}.")

    except Exception as e:
        logger.error(f"Ошибка при загрузке файла {os.path.basename(file_path)}: {e}", exc_info=True)
        if hasattr(e, 'code'):
            logger.error(f"Error code: {e.code}")
        if hasattr(e, 'message'):
            logger.error(f"Error message: {e.message}")

def main():
    if not os.path.isdir(excel_directory):
        logger.error(f"Каталог {excel_directory} не существует.")
        return

    files = [f for f in os.listdir(excel_directory) if f.endswith(('.xlsx', '.xls'))]
    if not files:
        logger.info(f"В каталоге {excel_directory} нет Excel файлов для обработки.")
        return

    for file_name in files:
        file_path = os.path.join(excel_directory, file_name)
        logger.info(f"Начинаю обработку файла: {file_path}")
        load_excel_to_clickhouse(file_path, 'flight_hours')

if __name__ == "__main__":
    main()


2024-11-22 14:22:22,677 - INFO - Начинаю обработку файла: ./Программа/Program.xlsx
2024-11-22 14:22:22,693 - INFO - Файл ./Программа/Program.xlsx успешно прочитан.
2024-11-22 14:22:22,694 - INFO - CREATE TABLE Query:

        CREATE TABLE IF NOT EXISTS default.flight_hours (
            `daily_flight_hours` Nullable(Float64), `monthly_flight_hours` Nullable(Float64)
        ) ENGINE = MergeTree()
        ORDER BY tuple()
        
2024-11-22 14:22:22,705 - INFO - Таблица flight_hours создана или уже существует.
2024-11-22 14:22:22,711 - INFO - Данные из файла Program.xlsx успешно загружены в таблицу flight_hours в ClickHouse.
