In [8]:
import os
import pandas as pd
from clickhouse_driver import Client
import logging
from dotenv import load_dotenv

# Загрузка переменных окружения
load_dotenv()

# Настройка логирования с указанием кодировки
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler("load_excel_to_clickhouse.log", encoding='utf-8'),
        logging.StreamHandler()
    ]
)
logger = logging.getLogger()

# Параметры подключения
clickhouse_host = os.getenv('CLICKHOUSE_HOST', '10.95.19.132')
clickhouse_user = os.getenv('CLICKHOUSE_USER', 'default')
clickhouse_password = os.getenv('CLICKHOUSE_PASSWORD', 'quie1ahpoo5Su0wohpaedae8keeph6bi')
database_name = os.getenv('CLICKHOUSE_DB', 'default')

# Каталог с Excel файлами
excel_directory = './Программа'

# Создание ClickHouse client с указанием настроек
client = Client(
    host=clickhouse_host,
    user=clickhouse_user,
    password=clickhouse_password,
    port=9000,
    secure=False,
    settings={'strings_encoding': 'utf-8'}
)

# Определение ожидаемых типов данных для таблицы месячного налёта
monthly_table_columns = {
    'monthly_flight_hours': 'Nullable(Float64)'
}

# Определение ожидаемых типов данных для таблицы дневного налёта
daily_table_columns = {
    'monthly_flight_hours': 'Nullable(Float64)',
    'daily_flight_hours': 'Nullable(Float64)'
}

def create_tables_and_view():
    # Создание таблицы для месячного налёта
    monthly_columns_with_types = [f'`{key}` {monthly_table_columns[key]}' for key in monthly_table_columns]
    create_monthly_table_query = f"""
    CREATE TABLE IF NOT EXISTS {database_name}.monthly_flight_hours (
        {', '.join(monthly_columns_with_types)}
    ) ENGINE = MergeTree()
    ORDER BY tuple()
    """
    logger.info(f"CREATE TABLE Query for monthly_flight_hours:\n{create_monthly_table_query}")
    client.execute(create_monthly_table_query)
    logger.info("Таблица monthly_flight_hours создана или уже существует.")

    # Создание таблицы для дневного налёта
    daily_columns_with_types = [f'`{key}` {daily_table_columns[key]}' for key in daily_table_columns]
    create_daily_table_query = f"""
    CREATE TABLE IF NOT EXISTS {database_name}.flight_hours (
        {', '.join(daily_columns_with_types)}
    ) ENGINE = MergeTree()
    ORDER BY tuple()
    """
    logger.info(f"CREATE TABLE Query for flight_hours:\n{create_daily_table_query}")
    client.execute(create_daily_table_query)
    logger.info("Таблица flight_hours создана или уже существует.")

    # Создание материализованного представления
    create_view_query = f"""
    CREATE MATERIALIZED VIEW IF NOT EXISTS {database_name}.flight_hours_mv TO {database_name}.flight_hours AS
    SELECT
        monthly_flight_hours,
        round((monthly_flight_hours * 12) / 365, 2) AS daily_flight_hours
    FROM {database_name}.monthly_flight_hours
    """
    logger.info(f"CREATE MATERIALIZED VIEW Query:\n{create_view_query}")
    client.execute(create_view_query)
    logger.info("Материализованное представление flight_hours_mv создано или уже существует.")

def load_excel_to_clickhouse(file_path):
    try:
        # Прочитать Excel файл
        df = pd.read_excel(file_path, engine='openpyxl', header=None)
        logger.info(f"Файл {file_path} успешно прочитан.")

        # Извлечение значения месячного налёта
        monthly_flight_hours = pd.to_numeric(df.iloc[0, 1], errors='coerce')

        # Проверка наличия корректного значения
        if pd.notna(monthly_flight_hours):
            # Вставка месячного налёта в таблицу monthly_flight_hours
            insert_query = f"INSERT INTO {database_name}.monthly_flight_hours ({', '.join(f'`{col}`' for col in monthly_table_columns.keys())}) VALUES"
            client.execute(insert_query, [[monthly_flight_hours]], types_check=True)
            logger.info(f"Месячный налёт из файла {os.path.basename(file_path)} успешно загружен в таблицу monthly_flight_hours.")
        else:
            logger.error(f"Значение месячного налёта отсутствует или некорректно в файле {os.path.basename(file_path)}.")

    except Exception as e:
        logger.error(f"Ошибка при загрузке файла {os.path.basename(file_path)}: {e}", exc_info=True)
        if hasattr(e, 'code'):
            logger.error(f"Error code: {e.code}")
        if hasattr(e, 'message'):
            logger.error(f"Error message: {e.message}")

def main():
    # Создание необходимых таблиц и материализованного представления
    create_tables_and_view()

    if not os.path.isdir(excel_directory):
        logger.error(f"Каталог {excel_directory} не существует.")
        return

    files = [f for f in os.listdir(excel_directory) if f.endswith(('.xlsx', '.xls'))]
    if not files:
        logger.info(f"В каталоге {excel_directory} нет Excel файлов для обработки.")
        return

    for file_name in files:
        file_path = os.path.join(excel_directory, file_name)
        logger.info(f"Начинаю обработку файла: {file_path}")
        load_excel_to_clickhouse(file_path)

if __name__ == "__main__":
    main()



2024-11-26 06:29:21,100 - INFO - CREATE TABLE Query for monthly_flight_hours:

    CREATE TABLE IF NOT EXISTS default.monthly_flight_hours (
        `monthly_flight_hours` Nullable(Float64)
    ) ENGINE = MergeTree()
    ORDER BY tuple()
    
2024-11-26 06:29:21,109 - INFO - Таблица monthly_flight_hours создана или уже существует.
2024-11-26 06:29:21,110 - INFO - CREATE TABLE Query for flight_hours:

    CREATE TABLE IF NOT EXISTS default.flight_hours (
        `monthly_flight_hours` Nullable(Float64), `daily_flight_hours` Nullable(Float64)
    ) ENGINE = MergeTree()
    ORDER BY tuple()
    
2024-11-26 06:29:21,119 - INFO - Таблица flight_hours создана или уже существует.
2024-11-26 06:29:21,120 - INFO - CREATE MATERIALIZED VIEW Query:

    CREATE MATERIALIZED VIEW IF NOT EXISTS default.flight_hours_mv TO default.flight_hours AS
    SELECT
        monthly_flight_hours,
        round((monthly_flight_hours * 12) / 365, 2) AS daily_flight_hours
    FROM default.monthly_flight_hours
    


In [9]:
import os
import pandas as pd
from clickhouse_driver import Client
import logging
from dotenv import load_dotenv

# Загрузка переменных окружения
load_dotenv()

# Настройка логирования с указанием кодировки
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler("load_excel_to_clickhouse.log", encoding='utf-8'),
        logging.StreamHandler()
    ]
)
logger = logging.getLogger()

# Параметры подключения
clickhouse_host = os.getenv('CLICKHOUSE_HOST', '10.95.19.132')
clickhouse_user = os.getenv('CLICKHOUSE_USER', 'default')
clickhouse_password = os.getenv('CLICKHOUSE_PASSWORD', 'quie1ahpoo5Su0wohpaedae8keeph6bi')
database_name = os.getenv('CLICKHOUSE_DB', 'default')

# Каталог с Excel файлами
excel_directory = './Программа'

# Создание ClickHouse client с указанием настроек
client = Client(
    host=clickhouse_host,
    user=clickhouse_user,
    password=clickhouse_password,
    port=9000,
    secure=False,
    settings={'strings_encoding': 'utf-8'}
)

# Определение ожидаемых типов данных для каждой таблицы
flight_hours_column_types = {
    'daily_flight_hours': 'Nullable(Float64)',
    'monthly_flight_hours': 'Nullable(Float64)'
}

fleet_column_types = {
    'month': 'String',
    'mi8t_count': 'Nullable(Float64)',
    'mi17_count': 'Nullable(Float64)'
}

def load_excel_to_clickhouse(file_path, table_name, expected_column_types, data_processing_function):
    try:
        # Прочитать Excel файл
        df = pd.read_excel(file_path, engine='openpyxl', header=2)
        logger.info(f"Файл {file_path} успешно прочитан.")

        # Обработка данных
        values_list = data_processing_function(df)

        # Создание таблицы с явными типами данных
        columns_with_types = [f'`{key}` {expected_column_types[key]}' for key in expected_column_types]

        create_table_query = f"""
        CREATE TABLE IF NOT EXISTS {database_name}.{table_name} (
            {', '.join(columns_with_types)}
        ) ENGINE = MergeTree()
        ORDER BY tuple()
        """
        logger.info(f"CREATE TABLE Query:\n{create_table_query}")
        client.execute(create_table_query)
        logger.info(f"Таблица {table_name} создана или уже существует.")

        # Вставка данных в таблицу
        for values in values_list:
            insert_query = f"INSERT INTO {database_name}.{table_name} ({', '.join(f'`{col}`' for col in expected_column_types.keys())}) VALUES"
            client.execute(insert_query, [values], types_check=True)
        logger.info(f"Данные из файла {os.path.basename(file_path)} успешно загружены в таблицу {table_name} в ClickHouse.")

    except Exception as e:
        logger.error(f"Ошибка при загрузке файла {os.path.basename(file_path)}: {e}", exc_info=True)
        if hasattr(e, 'code'):
            logger.error(f"Error code: {e.code}")
        if hasattr(e, 'message'):
            logger.error(f"Error message: {e.message}")

def process_flight_hours(df):
    monthly_flight_hours = pd.to_numeric(df.iloc[0, 1], errors='coerce')
    daily_flight_hours = round((monthly_flight_hours * 12) / 365, 2) if pd.notna(monthly_flight_hours) else None
    return [[daily_flight_hours, monthly_flight_hours]]

def process_fleet(df):
    # Преобразование значений из Excel файла в нужный формат для таблицы fleet
    fleet_data = []
    for index, row in df.iterrows():
        if index >= 0 and pd.notna(row.iloc[0]):  # Предполагается, что данные начинаются с четвертой строки
            month = str(row.iloc[0])
            mi8t_count = pd.to_numeric(row.iloc[1], errors='coerce')
            mi17_count = pd.to_numeric(row.iloc[2], errors='coerce')
            fleet_data.append([month, mi8t_count, mi17_count])
    return fleet_data

def main():
    if not os.path.isdir(excel_directory):
        logger.error(f"Каталог {excel_directory} не существует.")
        return

    files = [f for f in os.listdir(excel_directory) if f.endswith(('.xlsx', '.xls'))]
    if not files:
        logger.info(f"В каталоге {excel_directory} нет Excel файлов для обработки.")
        return

    for file_name in files:
        file_path = os.path.join(excel_directory, file_name)
        logger.info(f"Начинаю обработку файла: {file_path}")
        if 'Program' in file_name:
            load_excel_to_clickhouse(file_path, 'fleet', fleet_column_types, process_fleet)

if __name__ == "__main__":
    main()

2024-11-26 06:32:20,384 - INFO - Начинаю обработку файла: ./Программа/Program.xlsx
2024-11-26 06:32:20,400 - INFO - Файл ./Программа/Program.xlsx успешно прочитан.
2024-11-26 06:32:20,403 - INFO - CREATE TABLE Query:

        CREATE TABLE IF NOT EXISTS default.fleet (
            `month` String, `mi8t_count` Nullable(Float64), `mi17_count` Nullable(Float64)
        ) ENGINE = MergeTree()
        ORDER BY tuple()
        
2024-11-26 06:32:20,414 - INFO - Таблица fleet создана или уже существует.
2024-11-26 06:32:20,469 - INFO - Данные из файла Program.xlsx успешно загружены в таблицу fleet в ClickHouse.
