## Формирование отчёта о финансовых результатах

### Расчёт "Прочие доходы"

In [None]:
'''
Скрипт для преобразования исходных данных из 1C
'''
# импортируем библиотеки
import pandas as pd
import numpy as np
import os
import pathlib
from openpyxl import load_workbook
from datetime import datetime, timedelta

In [None]:
# запишем путь к папке с исходными данными в переменную
source = pathlib.Path(os.getcwd().replace('Fin_Flow', os.path.join('YandexDisk', 'Fin_Flow')).replace('Scripts', 'Source data'))

In [None]:
# создадим списки с названиями всех необходимых файлов в папке с исходными данными
source_oth_incom_name = [raw_data for raw_data in os.listdir(source) if 'Прочие доходы' in raw_data and
                         raw_data.endswith('.xlsx')]

print(source_oth_incom_name)

In [None]:
# загрузим excel-файлы в pandas
oth_incom = {raw_data: pd.read_excel(os.path.join(source, f'{raw_data}'), header=None) for raw_data in source_oth_incom_name}

In [None]:
# загрузим excel-файлы в openpyxl
oth_incom_structure = {raw_data: load_workbook(filename=os.path.join(source, f'{raw_data}')) for raw_data in source_oth_incom_name}

In [None]:
# получим первый лист в каждом excel-файле
oth_incom_structure = {i[0]: i[1].worksheets[0] for i in oth_incom_structure.items()}

In [None]:
# создадим словарь для каждого файла, где ключ-номер строки, а значение-уровень группировки
oth_incom_structure = {i[0]: {row: i[1].row_dimensions[row].outline_level for row in i[1].row_dimensions} for i in oth_incom_structure.items()}

In [None]:
# преобразуем словари в pd.Series
oth_incom_structure = {i[0]: pd.Series(i[1], name='Уровень').reset_index(drop=True) for i in oth_incom_structure.items()}

In [None]:
# добавим в основные датафреймы уровни группировки строк
oth_incom = {i[0]: i[1].merge(oth_incom_structure[i[0]], left_index=True, right_index=True, how='inner') for i in oth_incom.items()}

In [None]:
oth_incom = {i[0]: i[1].drop(list(range(6))) for i in oth_incom.items()}

In [None]:
for i in oth_incom.values():
    i['Организация'] = i.apply(lambda row: row[0] if row['Уровень'] == 0 else np.nan,
                               axis=1)
    i['Счет'] = i.apply(lambda row: row[0] if row['Уровень'] == 1 else np.nan,
                        axis=1)
    i['Кор_счет'] = i.apply(lambda row: row[0] if row['Уровень'] == 2 else np.nan,
                            axis=1)
    i['Вид статьи'] = i.apply(lambda row: row[0] if row['Уровень'] == 3 else np.nan,
                              axis=1)
    i['Статья'] = i.apply(lambda row: row[0] if row['Уровень'] == 4 else np.nan,
                          axis=1)
    i['Дата'] = i.apply(lambda row: row[0] if row['Уровень'] == 5 else np.nan,
                        axis=1)

In [None]:
oth_incom = {i[0]: i[1].rename(columns={1: 'Изменение'}) for i in oth_incom.items()}

In [None]:
# словари с именами столбцов и типами данных
type_of_columns_oth_incom = {'Изменение': 'float64',
                             'Организация': 'object',
                             'Счет': 'object',
                             'Кор_счет': 'object', 
                             'Вид статьи': 'object',
                             'Статья': 'object'}

In [None]:
# подготовим строки для преобразования их в числовые значения
for i in oth_incom.values():
    i['Изменение'] = i['Изменение'].apply(lambda row: str(row).replace(',', '.').replace(' ', '')
                                          if pd.notna(row)
                                          else row)

In [None]:
# изменим тип данных в каждом датафрейме в соответствии со словарём 'type_of_columns'
oth_incom = {i[0]: i[1].astype(type_of_columns_oth_incom) for i in oth_incom.items()}

In [None]:
# заполним пропущенные значения в столбцах значениями предыдущей заполненной ячейки по строкам
for i in oth_incom.values():
    i['Организация'] = i['Организация'].fillna(method='ffill', axis=0)
    i['Счет'] = i['Счет'].fillna(method='ffill', axis=0)
    i['Кор_счет'] = i['Кор_счет'].fillna(method='ffill', axis=0)
    i['Вид статьи'] = i['Вид статьи'].fillna(method='ffill', axis=0)
    i['Статья'] = i['Статья'].fillna(method='ffill', axis=0)

In [None]:
for i in oth_incom.values():
    i.dropna(subset=['Дата'], inplace=True)

In [None]:
date_formats = ['%d.%m.%Y', '%m/%d/%Y'] # форматы дат
# преобразуем строки в даты, используя один из форматов
for i in oth_incom.values():
    i['Дата'] = i['Дата'].apply(lambda row: pd.to_datetime(row, format=next((f for f in date_formats if pd.to_datetime(row, format=f, errors='coerce') is not pd.NaT), None)))

In [None]:
oth_incom = {i[0]: i[1].drop(columns=[0, 'Кор_счет'])
         for i in oth_incom.items()}

In [None]:
# исключим пустые датафреймы
oth_incom = {i[0]: i[1] for i in oth_incom.items() if not i[1].empty}

In [None]:
for i in oth_incom.values():
    i['Статья'] = i['Статья'].fillna('-')

In [None]:
oth_incom = {i[0]: i[1].groupby(['Организация',
                                 'Вид статьи',
                                 'Статья',
                                 'Дата'], as_index=False)['Изменение'].sum() for i in oth_incom.items()}

In [None]:
# создадим словарь, где ключ - название группы компаний, а значение - список таблиц по всем компаниям группы
oth_incom_groups = {}

for key, value in oth_incom.items():
    group = key.split('(')[1].split(')')[0]
    if group in oth_incom_groups:
        oth_incom_groups[group].append(value)
    else:
        oth_incom_groups[group] = [value]

In [None]:
# создадим новый словарь с объединёнными таблицами
oth_incom_merged = {f'Прочие доходы_{i[0]}.xlsx': pd.concat(i[1], axis=0).reset_index(inplace=False, drop=True)
                    for i in oth_incom_groups.items()}

In [None]:
# определим последнюю дату по всем датафреймам группы компаний, чтобы продлить датафреймы с более ранними последними датами до самой поздней даты
last_date = {i[0]: i[1].sort_values(by='Дата')['Дата'].iloc[-1] for i in oth_incom_merged.items()}

In [None]:
# создадим словарь со строками на последнюю дату из статей, которые нужно продлить
oth_incom_new_rows = {i[0]: i[1].groupby(['Организация', 'Вид статьи', 'Статья'], as_index=False)['Дата'].max() for i in oth_incom.items()}

In [None]:
# удалим статьи, которые не нужно продлять
for i in oth_incom_new_rows.items():
    i[1].drop(i[1][i[1]['Дата'] == last_date[f'Прочие доходы_{i[0].split("(")[1].split(")")[0]}.xlsx']].index, inplace=True)

In [None]:
# изменим добавляемые строки
for i in oth_incom_new_rows.items():
    i[1]['Изменение'] = 0
    i[1]['Дата'] = last_date[f'Прочие доходы_{i[0].split("(")[1].split(")")[0]}.xlsx']

In [None]:
# добавим новые строки в датафреймы
oth_incom = {i[0]: pd.concat([i[1], oth_incom_new_rows[i[0]]]) for i in oth_incom.items()}

In [None]:
# создадим столбцы для добавления новых данных по остаткам на счетах
for i in oth_incom.values():
    i['Разница'] = i.groupby(['Организация', 'Вид статьи', 'Статья'])['Дата'].diff()

In [None]:
# добавим промежуточные значения по остаткам на счёте, используя диапазоны дат
for i in oth_incom.values():
    i['Начальная дата'] = i['Дата'] - i['Разница'] + timedelta(days=1)
    i['Конечная дата'] = i['Дата']
    i['Дата'] = i.apply(lambda row: pd.date_range(start=row['Начальная дата'],
                                                  end=row['Конечная дата']).tolist()
                        if pd.notna(row['Начальная дата'])
                        else row['Дата'],
                        axis=1)

In [None]:
# добавим новые строки с датами
oth_incom = {i[0]: i[1].explode('Дата') for i in oth_incom.items()}

In [None]:
for i in oth_incom.values():
    i['Изменение'] = i.apply(lambda row: 0 if row['Дата'] != row['Конечная дата'] else row['Изменение'],
                             axis=1)

In [None]:
oth_incom = {i[0]: i[1].drop(columns=['Разница',
                                      'Начальная дата',
                                      'Конечная дата'])
             for i in oth_incom.items()}

In [None]:
# создадим словарь для добавления промежуточных значений по остаткам на счетах, используя данные по остаткам на дату накопительным итогом
# сгруппируем до уровня дат и получим уникальные значения статей для каждой даты
oth_incom_values = {i[0]: i[1].groupby(['Организация', 'Вид статьи', 'Дата'], as_index=False)['Статья'].unique() for i in oth_incom.items()} 

In [None]:
# отсортируем датафреймы по дате
oth_incom_values = {i[0]: i[1].groupby(['Организация', 'Вид статьи'], as_index=False).apply(lambda row: row.sort_values('Дата')) for i in oth_incom_values.items()} 

In [None]:
# присвоим индексы
oth_incom_values = {i[0]: i[1].groupby(['Организация', 'Вид статьи'], as_index=False).apply(lambda row: row.reset_index(drop=True)) for i in oth_incom_values.items()}

In [None]:
# добавим на каждую дату список из списков уникальных статей накопительным итогом
grouped_dict = {}
for key, value in oth_incom_values.items():
    group_list = []
    for name, group in value.groupby(level=0):
        group['Статья (доп)'] = group.index.map(lambda row: group.loc[:row, 'Статья'].tolist())
        group['Статья (доп)'] = group['Статья (доп)'].apply(lambda row: set([x for sublist in row for x in sublist]))
        group_list.append(group)
    table = pd.concat(group_list, axis=0)
    grouped_dict[key] = table

In [None]:
oth_incom_values = grouped_dict

In [None]:
# добавим новые строки со статьями
oth_incom_values = {i[0]: i[1].explode('Статья (доп)') for i in oth_incom_values.items()} 

In [None]:
for i in oth_incom_values.values():
    i['Статья'] = i['Статья (доп)']
    i['Изменение'] = 0.0

In [None]:
oth_incom_values = {i[0]: i[1].drop(columns=['Статья (доп)'])
                    for i in oth_incom_values.items()}

In [None]:
oth_incom = {i[0]: pd.concat([i[1], oth_incom_values[i[0]]]) for i in oth_incom.items()}

In [None]:
oth_incom = {i[0]: i[1].sort_values(by='Дата').groupby(['Организация',
                                                        'Вид статьи',
                                                        'Статья',
                                                        'Дата'],
                                                       as_index=False)['Изменение'].sum() for i in oth_incom.items()}

In [None]:
for i in oth_incom.values():
    i['Начальный остаток'] = 0.0
    i['Конечный остаток'] = 0.0

In [None]:
# создадим новые таблицы для расчёта остатков
oth_incom_grouped = {i[0]: i[1].sort_values(by='Дата').groupby(['Организация',
                                                                'Вид статьи',
                                                                'Статья',
                                                                'Дата'],
                                                               as_index=False)['Изменение'].sum() for i in oth_incom.items()}

In [None]:
grouped_dict = {}
for key, value in oth_incom_grouped.items():
    # применение операций shift и cumsum к каждому счёту, организации и виду статьи отдельно
    group_list = []
    for name, group in value.groupby(['Организация',
                                      'Вид статьи',
                                      'Статья']):
        group['Начальный остаток'] = group['Изменение'].shift(fill_value=0).cumsum()
        group['Конечный остаток'] = group['Начальный остаток'] + group['Изменение']
        group_list.append(group)
    table = pd.concat(group_list, axis=0)
    grouped_dict[key] = table

In [None]:
oth_incom_grouped = grouped_dict

In [None]:
merged_dict = {}
# объединим словарь с таблицами для расчёта остатков
for key, table1 in oth_incom.items():
    table2 = oth_incom_grouped.get(key)
    merged_table = pd.merge(table1, table2, on=['Организация',
                                                'Вид статьи',
                                                'Статья',
                                                'Дата'],
                            how='left',
                            suffixes=('', '_new'))
    merged_dict[key] = merged_table

In [None]:
oth_incom = merged_dict

In [None]:
for i in oth_incom.values():
    i['Начальный остаток'] = i['Начальный остаток_new']
    i['Конечный остаток'] = i['Конечный остаток_new']

In [None]:
# удалим лишние столбцы
oth_incom = {i[0]: i[1].iloc[:, :-3] for i in oth_incom.items()}

In [None]:
for i in oth_incom.values():
    i['Показатель'] = 'Прочие доходы'

In [None]:
oth_incom = {i[0]: i[1].reset_index(drop=True) for i in oth_incom.items()}

In [None]:
# создадим словарь, где ключ - название группы компаний, а значение - список таблиц по всем компаниям группы
oth_incom_groups = {}

for key, value in oth_incom.items():
    group = key.split('(')[1].split(')')[0]
    if group in oth_incom_groups:
        oth_incom_groups[group].append(value)
    else:
        oth_incom_groups[group] = [value]

In [None]:
# создадим новый словарь с объединёнными таблицами
oth_incom_merged = {f'Прочие доходы_{i[0]}.xlsx': pd.concat(i[1], axis=0).reset_index(inplace=False, drop=True)
                    for i in oth_incom_groups.items()}

In [None]:
for i in oth_incom_merged.items():
    print(f'{i[0]}:')
    print(i[1].info(show_counts=True))
    print()

In [None]:
# удалим исходные данные с расширением .xlsx из первоначальной папки
for i in source_oth_incom_name:
    os.remove(os.path.join(source, i))