# Скрипт отвечает за загрузку, предобработку и добавление новых данных по номенклатуре в справочник базы данных PostgreSQL

# 1. IMPORTS

In [1]:
import os
import sys
from functools import lru_cache

import pandas as pd
from sqlalchemy import Engine
from loguru import logger

sys.path.insert(0, r'C:\Users\user\Desktop\github\sotrans_analytics_department')
from source.core.de.connectors import PGConnector
from source.utils.decorators.handlers.excel import handler_xl_shared_string_xml
from source.utils.dtypes import set_category_dtype

# 2. SETTINGS

In [2]:
logger.remove()
logger.add(
    sink=sys.stderr,
    level='TRACE',
)

1

# 3. CONSTANTS

In [3]:
ROOT_FOLDER: str = r'C:\Users\user\YandexDisk\batch_movement\reference'
FILENAME: str = 'nomenclature.xlsx'

In [4]:
ENGINE: Engine = PGConnector().engine

[32m2025-05-19 11:42:27.522[0m | [1mINFO    [0m | [36msource.core.de.connectors.postgresql[0m:[36m__create_engine[0m:[36m94[0m - [1mНачало создания подключения к базе данных.[0m
[32m2025-05-19 11:42:27.523[0m | [1mINFO    [0m | [36msource.core.de.connectors.postgresql[0m:[36m__create_connection_string[0m:[36m61[0m - [1mНачало формирования строки подключения к базе данных.[0m
[32m2025-05-19 11:42:27.525[0m | [32m[1mSUCCESS [0m | [36msource.core.de.connectors.postgresql[0m:[36m__create_connection_string[0m:[36m73[0m - [32m[1mСтрока подключения к базе данных успешно создана.[0m
[32m2025-05-19 11:42:27.562[0m | [32m[1mSUCCESS [0m | [36msource.core.de.connectors.postgresql[0m:[36m__create_engine[0m:[36m97[0m - [32m[1mПодключение к базе данных успешно создано.[0m


# 4. FUNCTIONS

In [5]:
@lru_cache(maxsize=128)
@handler_xl_shared_string_xml
def create_dataframe() -> pd.DataFrame:
    """
    Функция создает DataFrame с данными из файла, используя библиотеку Pandas.

    Returns:
        pd.DataFrame: DataFrame с данными из файла.
    """
    
    dataframe: pd.DataFrame = pd.read_excel( # type: ignore
        io=os.path.join(ROOT_FOLDER, FILENAME),
        engine='openpyxl',
        dtype='string'
    )
    return dataframe

# 5. ETL

## 5.1. Extract

In [6]:
# Создать DataFrame с данными из файла;
dataframe: pd.DataFrame = create_dataframe()

In [7]:
# Замена пропусков на строки '_нет данных';
dataframe.fillna('_нет данных', inplace=True) # type: ignore

## 5.2. Transform

In [8]:
for column in dataframe.columns:
    try:
        logger.info(f'Преобразование строк столбца "{column}" к нижнему регистру;')
        dataframe[column] = dataframe[column].str.lower() # type: ignore
        logger.success(f'Преобразование строк столбца "{column}" к нижнему регистру выполнен;')
    
    except Exception as e:
        logger.error(f'Непредвиденная ошибка: {e};')

[32m2025-05-19 11:42:58.829[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m3[0m - [1mПреобразование строк столбца "brand_id_1c" к нижнему регистру;[0m
[32m2025-05-19 11:42:58.967[0m | [32m[1mSUCCESS [0m | [36m__main__[0m:[36m<module>[0m:[36m5[0m - [32m[1mПреобразование строк столбца "brand_id_1c" к нижнему регистру выполнен;[0m
[32m2025-05-19 11:42:58.968[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m3[0m - [1mПреобразование строк столбца "brand_name_1c" к нижнему регистру;[0m
[32m2025-05-19 11:42:59.043[0m | [32m[1mSUCCESS [0m | [36m__main__[0m:[36m<module>[0m:[36m5[0m - [32m[1mПреобразование строк столбца "brand_name_1c" к нижнему регистру выполнен;[0m
[32m2025-05-19 11:42:59.044[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m3[0m - [1mПреобразование строк столбца "sku_id_1c" к нижнему регистру;[0m
[32m2025-05-19 11:42:59.218[0m | [32m[1mSUCCESS [0m | [36m__main__[0m:[36m<module>

In [9]:
# Установка категориальных типов данных;
dataframe: pd.DataFrame = set_category_dtype(
    dataframe=dataframe,
    columns=tuple(dataframe.columns)
)

[32m2025-05-19 11:42:59.755[0m | [36m[1mTRACE   [0m | [36msource.utils.dtypes.set_dtypes[0m:[36mset_category_dtype[0m:[36m33[0m - [36m[1mКоличество строк в DataFrame: 450192;[0m
[32m2025-05-19 11:42:59.756[0m | [36m[1mTRACE   [0m | [36msource.utils.dtypes.set_dtypes[0m:[36mset_category_dtype[0m:[36m34[0m - [36m[1mРазмер трети DataFrame: 150064[0m
[32m2025-05-19 11:42:59.757[0m | [36m[1mTRACE   [0m | [36msource.utils.dtypes.set_dtypes[0m:[36mset_category_dtype[0m:[36m45[0m - [36m[1mТип данных для столбца "brand_id_1c": string.[0m
[32m2025-05-19 11:42:59.853[0m | [36m[1mTRACE   [0m | [36msource.utils.dtypes.set_dtypes[0m:[36mset_category_dtype[0m:[36m54[0m - [36m[1mКоличество уникальных значений: 3026.[0m
[32m2025-05-19 11:42:59.854[0m | [34m[1mDEBUG   [0m | [36msource.utils.dtypes.set_dtypes[0m:[36mset_category_dtype[0m:[36m58[0m - [34m[1mКоличество уникальных значений менее трети строк датафрейма;[0m
[32m2025-05-19 

In [11]:
# Получить текущие данные из базы данных PostgreSQL;
with ENGINE.begin() as connection:
    pg_nomenclature: pd.DataFrame = pd.read_sql_table(
        table_name='nomenclature',
        con=connection,
        schema='constant',
    )

In [12]:
# Удалить из текущего DataFrame те строки, которые уже присутствуют в базе данных PostgreSQL;
filtered_dataframe: pd.DataFrame = (
    dataframe[
        ~dataframe['sku_id_1c'].isin(values=pg_nomenclature['sku_id_1c'].unique()) # type: ignore
    ]
)

## 5.3. Load

In [13]:
with ENGINE.begin() as connection:
    # Вставить отфильтрованный DataFrame в базу данных PostgreSQL;
    filtered_dataframe.to_sql(
        name='nomenclature',
        schema='constant',
        con=connection,
        index=False,
        if_exists='append',
    )