In [None]:
import pandas as pd
from openpyxl import load_workbook
from openpyxl.utils import get_column_letter
from openpyxl import Workbook

## Функции для считывания данных из excel-файлов

### Многоуровневый header

In [None]:
def replace_unnamed(df, value=''):
    """Функция заменяет значения Unnamed в названиях колонок датафрема df на указанное значение value"""
    unnamed = []
    for row in df.columns:
        for col in row:
            if 'Unnamed:' in col:
                unnamed.append(col)
    df = (df.rename(columns={key: value for key in unnamed}))
    return df

In [None]:
def change_header(df, new_header):
    """Функция заменяет header подаваемого dataframe-а на значение new_header"""
    df.columns = range(dialogs.shape[1])
    df.columns = new_header
    return df

def concat_files(path, dates, new_header=[]):
    """
    Функция объединяет данные из нескольких файлов (одного формата) за определенные даты в один датафрейм
    
    path: путь к хранилищу файлов
    
    dates: даты в установленном формате, файлы которых нужно объединить. 
    Предполагается, что каждому дню соответствует отдельный файл, с указанием даты в названии файла.
    
    new_header: список колонок нового header-а на который нужно заменить текущий.
    
    """
    dialogs = pd.DataFrame()

    for file in tqdm([file for file in sorted(os.listdir(path)) if file[-5:] == '.xlsx' and file[-15:-5] in dates]):
        date = file[-15:-5]
        day = pd.read_excel(path + file, 
                            sheet_name=dialogs_sheetname,
                            header=dialogs_header)
        
        if new_header:
            day = change_header(day, new_header)
        
        day['date'] = date
        dialogs = dialogs.append(day)
    return dialogs

## Форматирование excel-файлов

In [None]:
def scale_columns(df, scale_level):
    '''
    Функция собирает и возвращает словарь 
    формата {колонка : ширина колонки как минимум из ширины содержания и ширины названия}
    
    df: dataframe ширина колонок которого оценивается и записывается в словарь
    scale_level
    '''
    widths = dict()
    for idx, col in enumerate(df):
        series = df[col]
        
        max_len = max(
            series.astype(str).map(len).max(),
            len(str(series.name)) + 5 if isinstance(series.name, str) else len(str(series.name[scale_level])) + 5)
        # почему бы не смотреть на максимум по всем уровням?

        widths[col] = min([max_len, 80])
    return widths

### Настройка стиля (толщина границ, цвет фона и шрифта, выделение текста)

In [None]:
def set_attr(style, attr, indexes):
    ''' 
    Функция добавляет новый атрибут attr к набору стилей для каждой строке указанной в indexes.
    
    style: словарь формата {индекс строки: набору стилей, применяемых к этой строке}
    
    attr: атрибут стиля
    
    indexes: список индексов строк 
    
    '''
    for ind in indexes:
        style[ind] += f'; {attr}'
    return style

def set_style_properties(df, styledict):
    '''
    Функция получает на вход таблицу, а также схему стилей в виде словаря. Пример схемы стилей
    
    styledict = {'borders': [{'attr': "border-bottom-style: solid; border-bottom-width: 10px",
                              'indexes': [2,4]},], # индексы строк к которым нужно применить этот стиль
                              
                 'backgrounds': [{'attr': f"background-color: {'green'}", 
                                  'indexes': [1,4]},], 
                                  
                 'colors': [{'attr': f"color: {'red'}", 
                             'indexes': [2]},], 
                             
                 'bolds': [{'attr': "font-weight: bold", 
                            'indexes': [1,3]},]}
                            
    Для каждой строки таблицы формируется набор стилей (в словаре style), 
    которые применяются в конце. Функция возвращает объект Styler
    '''
    
    style = {ind: '' for ind in df.index}
    
    # borders
    if 'borders' in styledict:
        for border in styledict['borders']:
            style = set_attr(style, border['attr'], border['indexes'])
    
    # backgrounds
    if 'backgrounds' in styledict:
        for background in styledict['backgrounds']:
            style = set_attr(style, background['attr'], background['indexes'])
    
    # colors
    if 'colors' in styledict:
        for color in styledict['colors']:
            style = set_attr(style, color['attr'], color['indexes'])
    
    # bolds
    if 'bolds' in styledict:
        for bold in styledict['bolds']:
            style = set_attr(style, bold['attr'], bold['indexes'])
    
    
    df_styled = df.style.apply(lambda row: [style[row.name]]*len(row), axis=1)
    
    return df_styled

### Настройка листа (ширина, группировки, фильтрация)

In [None]:
def set_width(sheet, coldict, widths):
    '''Каждой колонке простовляется ширина из weights'''
    for col in widths:
        sheet.column_dimensions[get_column_letter(coldict[col]+1)].width = widths[col]
    return sheet

def set_cols_grouping(sheet, head, groups):
    '''Собираем колонки в группы, указанные в словаре groups'''
    for level in groups:
        for group, left in groups[level]:
            groupcols = [get_column_letter(col+1) for col in head[head[level] == group].index.tolist()[left:]]
            sheet.column_dimensions.group(groupcols[0],groupcols[-1], hidden=True)
    return sheet
def set_rows_grouping(sheet, groups):
    '''Собираем строки в группы, указанные в списке groups'''
    for group, left in groups:
        grouprows = group[left:]
        sheet.row_dimensions.group(grouprows[0], grouprows[-1], hidden=True)
    return sheet

def set_filter(sheet, row, conditions):
    """Функция добавляет фильтрацию к таблице"""
    cols = list(conditions.keys())
    sheet.auto_filter.ref = f"{get_column_letter(cols[0]+1)}{row}:{get_column_letter(cols[-1]+1)}{row}"
    
    for col in conditions:
        if conditions[col]:
            sheet.auto_filter.add_filter_column(col, conditions[col])
    
    return sheet
        

def set_writer_properties(sheet, 
                          coldict={}, widths={}, 
                          head={}, cols_grouping={}, 
                          rows_grouping={}, 
                          filtering=()):
    
    # widths
    if widths:
        sheet = set_width(sheet, coldict, widths)
    
    # cols grouping
    # проставляем, какие колонки стоит сгруппировать (предполагается, что группа объединена в шапку). 
    # На втором месте в картеже стоит число. Оно задает количество колонок, которые стоит оставить видимыми как заголовок группы
    if cols_grouping:
        sheet = set_cols_grouping(sheet, head, cols_grouping)
    
    # rows grouping
    if rows_grouping:
        sheet = set_rows_grouping(sheet, rows_grouping)
    
    # filtering
    if filtering:
        row, conditions = filtering
        sheet = set_filter(sheet, row, conditions)
    
    return sheet

## Пример форматирования и выгрузки многоуровневой таблицы

In [None]:
def offload_example(filepath):

    add = pd.DataFrame({col: [i]*5 for col, i in zip(df.columns, range(df.shape[1]))})
    df = df.append(add)

    widths = scale_columns(df, 2)
    df, coldict = drop_header(df)

    styledict = {'borders': [{'attr': "border-bottom-style: solid; border-bottom-width: 10px", 
                              'indexes': [2,4]},], 
                 'backgrounds': [{'attr': f"background-color: {'green'}", 
                                  'indexes': [1,4]},], 
                 'colors': [{'attr': f"color: {'red'}", 
                             'indexes': [2]},], 
                 'bolds': [{'attr': "font-weight: bold", 
                            'indexes': [1,3]},]}
    df = set_style_properties(df, styledict)




    writer = pd.ExcelWriter(filepath, engine='openpyxl')
    book = load_workbook(filepath)
    sheet = book[sheetname]

    cols_grouping = {"level_1": [('group 1',1), ('group 3',1)]}
    rows_grouping = []
    
    
    sheet = set_writer_properties(sheet, 
                                  coldict, widths, 
                                  head, cols_grouping, 
                                  rows_grouping)

    writer.book = book
    writer.sheets = dict((ws.title, ws) for ws in writer.book.worksheets)
    writer.sheet = sheet


    reader = pd.read_excel(filepath)
    df.to_excel(writer,sheet_name=sheetname, index=False, header=False, startrow=len(reader)+1)
    writer.close()