Script for parsing ESF (Actual)

In [2]:
import os
import pandas as pd
from sqlalchemy import create_engine, MetaData, Table
from sqlalchemy.orm import sessionmaker
from datetime import datetime
import urllib


def read_and_rename_columns_from_file(file_path, column_mapping):
    df_list = []
    try:
        df_dict = pd.read_excel(file_path, sheet_name=None, dtype=str, engine='openpyxl')
        for sheet_name, df in df_dict.items():
            renamed_columns = {col: column_mapping.get(col, col) for col in df.columns}
            df.rename(columns=renamed_columns, inplace=True)
            df_list.append(df)
    except Exception as e:
        print(f"Ошибка при чтении и переименовании столбцов из файла: {file_path} - {e}")
    return df_list


def read_and_rename_columns_from_directory(directory_path, column_mapping):
    all_df = []
    file_info = []
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.xlsx'):
            file_path = os.path.join(directory_path, file_name)
            dfs_from_file = read_and_rename_columns_from_file(file_path, column_mapping)
            all_df.extend(dfs_from_file)

            # Записываем информацию о прочитанном файле
            inserted_date = datetime.now()
            kolchestvo_daty = len(dfs_from_file)
            kolichestvo_row_v_all = sum(len(df) for df in dfs_from_file)
            file_info.append((file_name, inserted_date, kolchestvo_daty, kolichestvo_row_v_all))
    return pd.concat(all_df, ignore_index=True), file_info


def create_table_and_insert_data(df, table_name, engine):
    try:
        df.to_sql(table_name, con=engine, index=False, if_exists='replace')
        print(f"Данные успешно вставлены в таблицу '{table_name}' в базе данных.")
    except Exception as e:
        print(f"Ошибка при вставке данных в таблицу: {e}")


def insert_file_info(file_info, engine):
    try:
        metadata = MetaData(bind=engine)
        inserted_files_table = Table('[dbo].[INSERTED_FILES]', metadata, autoload=True)
        conn = engine.connect()
        insert_stmt = inserted_files_table.insert().values(file_info)
        conn.execute(insert_stmt)
    except Exception as e:
        print(f"Ошибка при вставке информации о файле: {e}")


# Словарь для переименования столбцов
column_mapping = {
    'Регистрационный номер ЭСФ (29/08/2024)': 'ESF_Registration_Number',
    'Код органа государственных доходов': 'Tax_Authority_Code',
    'Вид счет-фактуры': 'Invoice_Type',
    'Статус ЭСФ': 'ESF_Status',
    'Статус ЭСФ после отправки получателю': 'ESF_Status_After_Sending',
    'Дата выписки': 'Issue_Date',
    'Дата выписки на бумажном носителе': 'Paper_Issue_Date',
    'Дата совершения оборота': 'Transaction_Date',
    'Ф.И.О., лица выписавшего ЭСФ': 'Issuer_Full_Name',
    'Номер учетной системы': 'System_Number',
    'Дата обновления СФ': 'Invoice_Update_Date',
    'ИИН/БИН': 'IIN_BIN',
    'Наименование поставщика по данным ИНИС на рус.': 'Supplier_Name_INIS',
    'Наименование поставщика по данным ИС ЭСФ': 'Supplier_Name_ESF',
    'Адрес места нахождения': 'Location_Address',
    'Номер свидетельства плательщика НДС': 'VAT_Certificate_Number',
    'Серия свидетельства плательщика НДС': 'VAT_Certificate_Series',
    'Номер документа, подтверждающего поставку ТРУ': 'Supply_Confirm_Document_Number',
    'Дата документа, подтверждающего поставку ТРУ': 'Supply_Confirm_Document_Date',
    'Дополнительные сведения': 'Additional_Information',
    'КБЕ': 'KBE',
    'ИИК': 'IBAN',
    'БИК': 'BIC',
    'Наименование банка': 'Bank_Name',
    'Доля участия': 'Participation_Share',
    'Дата выписки (поставщики)': 'Supplier_Issue_Date',
    'Категория поставщика': 'Supplier_Category',
    'Наименование получателя по данным ИС ЭСФ': 'Receiver_Name_ESF',
    'Наименование получателя по данным ИНИС на рус.': 'Receiver_Name_INIS',
    'ИИН/БИН.1': 'IIN_BIN_1',
    'Адрес места нахождения.1': 'Location_Address_1',
    'Дополнительные сведения.1': 'Additional_Information_1',
    'Код страны': 'Country_Code',
    'Доля участия.1': 'Participation_Share_1',
    'Дата выписки (получатели)': 'Receiver_Issue_Date',
    'Категория получателя': 'Receiver_Category',
    'ИИН/БИН.2': 'IIN_BIN_2',
    'Наименование': 'Name',
    'Адрес отправки': 'Shipping_Address',
    'ИИН/БИН.3': 'IIN_BIN_3',
    'Наименование грузополучателя': 'Consignee_Name',
    'Адрес доставки': 'Delivery_Address',
    'Код страны.1': 'Country_Code_1',
    'Номер договора (контракта) на поставку ТРУ': 'Supply_Contract_Number',
    'Дата договора (контракта) на поставку ТРУ': 'Supply_Contract_Date',
    'Условия оплаты по договору': 'Payment_Terms',
    'Способ отправления': 'Shipping_Method',
    'Номер доверенности на поставку ТРУ': 'Supply_Power_of_Attorney_Number',
    'Дата доверенности на поставку ТРУ': 'Supply_Power_of_Attorney_Date',
    'Пункт назначения': 'Destination_Point',
    'Наличие договора': 'Contract_Availability',
    'ИИК.1': 'IBAN_1',
    'Код ТРУ': 'TRU_Code',
    'Назначение платежа': 'Payment_Purpose',
    'БИК.1': 'BIC_1',
    'Порядковый номер ТРУ': 'TRU_Sequence_Number',
    'Признак происхождения товара, работ, услуг': 'Goods_Origin',
    'Наименование ТРУ': 'TRU_Name',
    'Наименование товаров в соответствии с Декларацией на товары или заявления о ввозе товаров и уплате косвенных налогов': 'Goods_Name_Declaration',
    'Код товара (ТН ВЭД)': 'Commodity_Code',
    'Единица измерения': 'Unit_of_Measurement',
    'Кол-во (объем)': 'Quantity',
    'Цена (тариф) за единицу ТРУ без косвенных налогов': 'Price_per_Unit_Excluding_Taxes',
    'Стоимость товаров, работ, услуг без учета косвенных налогов': 'Cost_Excluding_Taxes',
    'Ставка акциза': 'Excise_Rate',
    'Сумма акциза': 'Excise_Amount',
    'Размер оборота по реализации': 'Turnover_Size',
    'Ставка НДС': 'VAT_Rate',
    'Сумма НДС': 'VAT_Amount',
    'Стоимость товаров, работ, услуг с учетом косвенных налогов': 'Cost_Including_Taxes',
    'Номер декларации на товары, заявления в рамках ТС, СТ-1 или СТ-KZ': 'Declaration_Number',
    'Номер товарной позиции из заявления о ввозе товаров и уплате косвенных налогов или Декларации на товары': 'Item_Position_Number',
    'Дополнительные данные': 'Additional_Data',
    'Курс валюты': 'Currency_Rate',
    'Код валюты': 'Currency_Code',
    'Наименование валюты на рус.': 'Currency_Name',
    'Всего по счету, стоимость товаров, работ, услуг без учета косвенных налогов': 'Total_Cost_Excluding_Taxes',
    'Всего по счету, размер оборота по реализации': 'Total_Turnover_Size',
    'Всего по счету, сумма НДС': 'Total_VAT_Amount',
    'Всего по счету, стоимость товаров, работ, услуг с учетом косвенных налогов': 'Total_Cost_Including_Taxes',
    'ИИН/БИН участника совместной деятельности': 'Joint_Activity_Participant_IIN_BIN',
    'Номер продукта (товара, услуги)': 'Product_Number',
    'Количество (объём)': 'Quantity_Volume',
    'Сумма НДС.1': 'VAT_Amount_1',
    'Стоимость ТРУ с учетом НДС': 'Cost_Including_VAT',
    'Стоимость ТРУ без учета НДС': 'Cost_Excluding_VAT',
    'Размер оборота по реализации.1': 'Turnover_Size_1',
    'Регистрационный номер': 'Registration_Number',
    'Дата выписки СФ, к которому выписывается исправленный/дополнительный СФ': 'Corrected_Invoice_Date'
}


# Подключение к базе данных
server = '10.200.100.24'
database = 'Test'
username = 'CRM'
password = '2983523456Dare'
params = urllib.parse.quote_plus(
    f"DRIVER={{ODBC Driver 17 for SQL Server}};SERVER={server};DATABASE={database};UID={username};PWD={password};TrustServerCertificate=yes;"
)
engine = create_engine(f"mssql+pyodbc:///?odbc_connect={params}")

# Директория с файлами Excel
directory_path = '/Users/dauren/Desktop/02.09.2024 OK/'

# Прочитать и переименовать столбцы из всех файлов в директории
combined_df, file_info = read_and_rename_columns_from_directory(directory_path, column_mapping)

# Создать таблицу и вставить данные
table_name = 'combined_table'
create_table_and_insert_data(combined_df, table_name, engine)

# Вставить информацию о файлах
insert_file_info(file_info, engine)

Данные успешно вставлены в таблицу 'combined_table' в базе данных.
Ошибка при вставке информации о файле: MetaData.__init__() got an unexpected keyword argument 'bind'


In [None]:
import os
import re
import pandas as pd
from sqlalchemy import create_engine, MetaData, Table, text
from datetime import datetime
import urllib


def normalize_column_names(df, column_mapping):
    for old_name in df.columns:
        new_name = column_mapping.get(old_name, None)
        if new_name is None:
            for pattern in column_mapping.keys():
                if re.match(pattern, old_name):
                    new_name = column_mapping[pattern]
                    break
        if new_name:
            df.rename(columns={old_name: new_name}, inplace=True)


def read_and_rename_columns_from_file(file_path, column_mapping):
    df_list = []
    try:
        df_dict = pd.read_excel(file_path, sheet_name=None, dtype=str, engine='openpyxl')
        for sheet_name, df in df_dict.items():
            normalize_column_names(df, column_mapping)
            df_list.append(df)
    except Exception as e:
        print(f"Ошибка при чтении и переименовании столбцов из файла: {file_path} - {e}")
    return df_list


def read_and_rename_columns_from_directory(directory_path, column_mapping):
    all_df = []
    file_info = []
    for file_name in os.listdir(directory_path):
        if file_name.endswith('.xlsx'):
            file_path = os.path.join(directory_path, file_name)
            dfs_from_file = read_and_rename_columns_from_file(file_path, column_mapping)
            all_df.extend(dfs_from_file)

            # Записываем информацию о прочитанном файле
            inserted_date = datetime.now()
            kolchestvo_daty = len(dfs_from_file)
            kolichestvo_row_v_all = sum(len(df) for df in dfs_from_file)
            file_info.append((file_name, inserted_date, kolchestvo_daty, kolichestvo_row_v_all))
    return pd.concat(all_df, ignore_index=True), file_info


def create_table_and_insert_data(df, table_name, engine):
    try:
        df.to_sql(table_name, con=engine, index=False, if_exists='replace')
        print(f"Данные успешно вставлены в таблицу '{table_name}' в базе данных.")
    except Exception as e:
        print(f"Ошибка при вставке данных в таблицу: {e}")


def insert_file_info(file_info, engine):
    try:
        metadata = MetaData(bind=engine)
        inserted_files_table = Table('[dbo].[INSERTED_FILES]', metadata, autoload=True)
        conn = engine.connect()
        insert_stmt = inserted_files_table.insert().values(file_info)
        conn.execute(insert_stmt)
    except Exception as e:
        print(f"Ошибка при вставке информации о файле: {e}")


def create_tru_reference_table(engine):
    with engine.connect() as conn:
        # Check if the table exists
        table_exists_query = """
        SELECT COUNT(*)
        FROM sys.tables
        WHERE name = 'TRU_Reference';
        """
        result = conn.execute(table_exists_query)
        table_exists = result.scalar()  # Get the result

        # If the table does not exist, create it
        if table_exists == 0:
            create_table_query = """
            CREATE TABLE TRU_Reference (
                UID INT PRIMARY KEY,
                TRU_Name NVARCHAR(255) UNIQUE NOT NULL
            );
            """
            conn.execute(create_table_query)




def populate_tru_reference_table(df, engine):
    unique_tru_names = df[['TRU_Name']].dropna().drop_duplicates()
    unique_tru_names.to_sql('TRU_Temp', con=engine, index=False, if_exists='replace')

    with engine.connect() as conn:
        conn.execute("""
        INSERT INTO TRU_Reference (TRU_Name)
        SELECT TT.TRU_Name
        FROM TRU_Temp TT
        LEFT JOIN TRU_Reference TR ON TT.TRU_Name = TR.TRU_Name
        WHERE TR.TRU_Name IS NULL;
        DROP TABLE TRU_Temp;
        """)


def add_uid_to_dataframe(df, engine):
    trus = pd.read_sql('SELECT UID, TRU_Name FROM TRU_Reference', con=engine)
    df = df.merge(trus, on='TRU_Name', how='left')
    return df


# Словарь для переименования столбцов с использованием регулярных выражений
column_mapping = {
    r'Регистрационный номер ЭСФ \(\d{2}/\d{2}/\d{4}\)': 'ESF_Registration_Number',
    'Код органа государственных доходов': 'Tax_Authority_Code',
    'Вид счет-фактуры': 'Invoice_Type',
    'Статус ЭСФ': 'ESF_Status',
    'Статус ЭСФ после отправки получателю': 'ESF_Status_After_Sending',
    'Дата выписки': 'Issue_Date',
    'Дата выписки на бумажном носителе': 'Paper_Issue_Date',
    'Дата совершения оборота': 'Transaction_Date',
    'Ф.И.О., лица выписавшего ЭСФ': 'Issuer_Full_Name',
    'Номер учетной системы': 'System_Number',
    'Дата обновления СФ': 'Invoice_Update_Date',
    'ИИН/БИН': 'IIN_BIN',
    'Наименование поставщика по данным ИНИС на рус.': 'Supplier_Name_INIS',
    'Наименование поставщика по данным ИС ЭСФ': 'Supplier_Name_ESF',
    'Адрес места нахождения': 'Location_Address',
    'Номер свидетельства плательщика НДС': 'VAT_Certificate_Number',
    'Серия свидетельства плательщика НДС': 'VAT_Certificate_Series',
    'Номер документа, подтверждающего поставку ТРУ': 'Supply_Confirm_Document_Number',
    'Дата документа, подтверждающего поставку ТРУ': 'Supply_Confirm_Document_Date',
    'Дополнительные сведения': 'Additional_Information',
    'КБЕ': 'KBE',
    'ИИК': 'IBAN',
    'БИК': 'BIC',
    'Наименование банка': 'Bank_Name',
    'Доля участия': 'Participation_Share',
    'Дата выписки (поставщики)': 'Supplier_Issue_Date',
    'Категория поставщика': 'Supplier_Category',
    'Наименование получателя по данным ИС ЭСФ': 'Receiver_Name_ESF',
    'Наименование получателя по данным ИНИС на рус.': 'Receiver_Name_INIS',
    'ИИН/БИН.1': 'IIN_BIN_1',
    'Адрес места нахождения.1': 'Location_Address_1',
    'Дополнительные сведения.1': 'Additional_Information_1',
    'Код страны': 'Country_Code',
    'Доля участия.1': 'Participation_Share_1',
    'Дата выписки (получатели)': 'Receiver_Issue_Date',
    'Категория получателя': 'Receiver_Category',
    'ИИН/БИН.2': 'IIN_BIN_2',
    'Наименование': 'Name',
    'Адрес отправки': 'Shipping_Address',
    'ИИН/БИН.3': 'IIN_BIN_3',
    'Наименование грузополучателя': 'Consignee_Name',
    'Адрес доставки': 'Delivery_Address',
    'Код страны.1': 'Country_Code_1',
    'Номер договора (контракта) на поставку ТРУ': 'Supply_Contract_Number',
    'Дата договора (контракта) на поставку ТРУ': 'Supply_Contract_Date',
    'Условия оплаты по договору': 'Payment_Terms',
    'Способ отправления': 'Shipping_Method',
    'Номер доверенности на поставку ТРУ': 'Supply_Power_of_Attorney_Number',
    'Дата доверенности на поставку ТРУ': 'Supply_Power_of_Attorney_Date',
    'Пункт назначения': 'Destination_Point',
    'Наличие договора': 'Contract_Availability',
    'ИИК.1': 'IBAN_1',
    'Код ТРУ': 'TRU_Code',
    'Назначение платежа': 'Payment_Purpose',
    'БИК.1': 'BIC_1',
    'Порядковый номер ТРУ': 'TRU_Sequence_Number',
    'Признак происхождения товара, работ, услуг': 'Goods_Origin',
    'Наименование ТРУ': 'TRU_Name',
    'Наименование товаров в соответствии с Декларацией на товары или заявления о ввозе товаров и уплате косвенных налогов': 'Goods_Name_Declaration',
    'Код товара (ТН ВЭД)': 'Commodity_Code',
    'Единица измерения': 'Unit_of_Measurement',
    'Кол-во (объем)': 'Quantity',
    'Цена (тариф) за единицу ТРУ без косвенных налогов': 'Price_per_Unit_Excluding_Taxes',
    'Стоимость товаров, работ, услуг без учета косвенных налогов': 'Cost_Excluding_Taxes',
    'Ставка акциза': 'Excise_Rate',
    'Сумма акциза': 'Excise_Amount',
    'Размер оборота по реализации': 'Turnover_Size',
    'Ставка НДС': 'VAT_Rate',
    'Сумма НДС': 'VAT_Amount',
    'Стоимость товаров, работ, услуг с учетом косвенных налогов': 'Cost_Including_Taxes',
    'Номер декларации на товары, заявления в рамках ТС, СТ-1 или СТ-KZ': 'Declaration_Number',
    'Номер товарной позиции из заявления о ввозе товаров и уплате косвенных налогов или Декларации на товары': 'Item_Position_Number',
    'Дополнительные данные': 'Additional_Data',
    'Курс валюты': 'Currency_Rate',
    'Код валюты': 'Currency_Code',
    'Наименование валюты на рус.': 'Currency_Name',
    'Всего по счету, стоимость товаров, работ, услуг без учета косвенных налогов': 'Total_Cost_Excluding_Taxes',
    'Всего по счету, размер оборота по реализации': 'Total_Turnover_Size',
    'Всего по счету, сумма НДС': 'Total_VAT_Amount',
    'Всего по счету, стоимость товаров, работ, услуг с учетом косвенных налогов': 'Total_Cost_Including_Taxes',
    'ИИН/БИН участника совместной деятельности': 'Joint_Activity_Participant_IIN_BIN',
    'Номер продукта (товара, услуги)': 'Product_Number',
    'Количество (объём)': 'Quantity_Volume',
    'Сумма НДС.1': 'VAT_Amount_1',
    'Стоимость ТРУ с учетом НДС': 'Cost_Including_VAT',
    'Стоимость ТРУ без учета НДС': 'Cost_Excluding_VAT',
    'Размер оборота по реализации.1': 'Turnover_Size_1',
    'Регистрационный номер': 'Registration_Number',
    'Дата выписки СФ, к которому выписывается исправленный/дополнительный СФ': 'Corrected_Invoice_Date'
}

# Подключение к базе данных
connection_string = ('DRIVER={ODBC Driver 17 for SQL Server};'
                     'SERVER=10.200.100.24;'
                     'DATABASE=Test;'
                     'UID=CRM;'
                     'PWD=2983523456Dare;'
                     'TrustServerCertificate=yes;')

encoded_connection_string = urllib.parse.quote_plus(connection_string)
engine = create_engine(f'mssql+pyodbc:///?odbc_connect={encoded_connection_string}')

directory_path = '/Users/dauren/Desktop/02.09.2024 OK/'

# Читаем, переименовываем и объединяем данные, а также сохраняем информацию о файлах
all_df, file_info = read_and_rename_columns_from_directory(directory_path, column_mapping)

# Создаем таблицу и вставляем данные из объединенного DataFrame
create_table_and_insert_data(all_df, 'ESF_FACT_D', engine)

# Создаем таблицу для информации о файлах и вставляем данные
insert_file_info(file_info, engine)

# Создаем таблицу для TRU_Reference (если она еще не существует)
create_tru_reference_table(engine)

# Вставляем уникальные названия TRU в TRU_Reference
populate_tru_reference_table(all_df, engine)

# Объединяем DataFrame с UID из TRU_Reference
all_df_with_uid = add_uid_to_dataframe(all_df, engine)

# Создаем таблицу и вставляем обновленные данные из объединенного DataFrame
create_table_and_insert_data(all_df_with_uid, 'ESF_FACT_C', engine)
