# Работа с Excel

Материалы:
* Макрушин С.В. Лекция 7: Работа с Excel
* https://docs.xlwings.org/en/stable/quickstart.html
* https://nbviewer.jupyter.org/github/pybokeh/jupyter_notebooks/blob/master/xlwings/Excel_Formatting.ipynb#search_text


In [23]:
from pathlib import Path

import pandas as pd
import xlwings as xw
from xlwings.constants import BordersIndex, BorderWeight, HAlign, RgbColor

In [2]:
DATA_DIR = Path('data/')
OUTPUT_DIR = Path('output/')

In [16]:
def get_new_col_idx(sheet):
    return sheet.range('A1').expand('right').shape[1] + 1


def get_last_row_idx(sheet):
    return sheet.range('A1').expand('down').shape[0]


def format_header(cell):
    sheet.range(cell).api.Font.Bold = True
    sheet.range(cell).api.HorizontalAlignment = HAlign.xlHAlignCenter
    for col_idx in (
            BordersIndex.xlEdgeTop,
            BordersIndex.xlEdgeRight,
            BordersIndex.xlEdgeBottom,
            BordersIndex.xlEdgeLeft
    ):
        sheet.range(cell).api.Borders(col_idx).LineStyle = 1
        sheet.range(cell).api.Borders(col_idx).Weight = BorderWeight.xlThin

## Задачи для совместного разбора

1. На листе "Рецептура" файла `себестоимостьА_в1.xlsx` для области "Пшеничный хлеб" рассчитать себестоимость всех видов продукции.

2. Результаты расчетов 1.1 сохранить в отдельном столбце области "Пшеничный хлеб"

3. Приблизить форматирование столбца, добавленного в задаче 2 к оформлению всей области.

4. Выполнить 3 с помощью "протягиваемых" формул.

## Лабораторная работа 7

1. Загрузите данные из файлов `reviews_sample.csv` (__ЛР2__) и `recipes_sample_with_tags_ingredients.csv` (__ЛР5__) в виде `pd.DataFrame`. Обратите внимание на корректное считывание столбца(ов) с индексами. Оставьте в таблице с рецептами следующие столбцы: `id`, `name`, `minutes`, `submitted`, `description`, `n_ingredients`

In [4]:
reviews_df = pd.read_csv(
    DATA_DIR.joinpath('reviews_sample.csv'),
    sep=',',
    index_col=0,
    parse_dates=['date']
)
reviews_df.head()

Unnamed: 0,user_id,recipe_id,date,rating,review
370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


In [5]:
recipes_df = pd.read_csv(
    DATA_DIR.joinpath('recipes_sample_with_filled_nsteps.csv'),
    sep=',',
    usecols=['id', 'name', 'minutes', 'submitted', 'description', 'n_ingredients'],
    parse_dates=['submitted']
)
recipes_df.head()

Unnamed: 0,name,id,minutes,submitted,description,n_ingredients
0,george s at the cove black bean soup,44123,90,2002-10-25,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,2003-07-26,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,2002-08-29,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,2002-07-27,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,2004-02-23,i think a fondue is a very romantic casual din...,


2. Случайным образом выберите 5% строк из каждой таблицы и сохраните две таблицы на разные листы в один файл `recipes.xlsx`. Дайте листам названия "Рецепты" и "Отзывы", соответствующие содержанию таблиц. 

In [6]:
reviews_sample = reviews_df.sample(int(reviews_df.shape[0] * 0.05))
reviews_sample

Unnamed: 0,user_id,recipe_id,date,rating,review
706480,230258,164058,2006-05-31,5,"These were great!!!! It tasted like dessert, b..."
247713,14410,346612,2009-12-23,5,Very easy and tasty. My husband made it for su...
15851,586022,102734,2008-02-06,4,These do taste like Lamberts! I tried the rec...
387070,2000236904,153508,2015-05-30,5,Love these. I have had trouble with the stick...
3708,29450,171002,2008-06-15,5,"Well, Kitten, this was one of your recipes I h..."
...,...,...,...,...,...
145058,171790,284288,2008-11-26,5,This is an excellent pizza. The crust is quite...
1050312,2000584995,53878,2015-10-20,0,Could you use sausage instead of pepperoni?
853140,560694,84797,2008-03-25,5,Excellent selection of sauces for fondue & bey...
421390,7888220,278998,2013-08-28,1,I am so disappointed in this recipe. Was supe...


In [7]:
recipes_sample = recipes_df.sample(int(recipes_df.shape[0] * 0.05))
recipes_sample

Unnamed: 0,name,id,minutes,submitted,description,n_ingredients
29048,warninks creme egg shooter,217529,4,2007-03-20,don't let the name fool you. this is a 3-layer...,
8729,crock pot tijuana turkey,219968,260,2007-03-31,the cocoa in this dish imparts a richness and ...,
26650,sweet cherry almond tart,66423,60,2003-07-09,mmm! this is so good when sweet cherries are i...,10.0
21053,polenta with butternut squash,164330,65,2006-04-14,butternut squash adds a lot of flavor and colo...,10.0
27939,trader joe s brownie truffle nuwave flavorwa...,283265,35,2008-02-01,these are cooking directions for trader joe's\...,
...,...,...,...,...,...,...
28167,turkey bacon vegetable soup,449555,33,2011-02-25,"after really really trying to like it, i still...",12.0
6803,chocolate applesauce flax seed bars,177749,35,2006-07-15,"this is a variation of a recipe from ""desserts...",
840,apple carrot salad,411505,120,2010-02-02,a delicious way to get your fruits and veggies...,
17192,mashed sweet potatoes brule,418062,50,2010-03-26,i thought i had a brainstorm one day and impro...,8.0


In [8]:
with pd.ExcelWriter(OUTPUT_DIR.joinpath('recipes.xlsx')) as writer:
    reviews_sample.to_excel(writer, sheet_name='Отзывы', index=False)
    recipes_sample.to_excel(writer, sheet_name='Рецепты', index=False)

3. Используя `xlwings`, добавьте на лист `Рецепты` столбец `seconds_assign`, показывающий время выполнения рецепта в секундах. Выполните задание при помощи присваивания массива значений диапазону ячеек.

In [9]:
wb = xw.Book(OUTPUT_DIR.joinpath('recipes.xlsx'))

In [10]:
sheet = wb.sheets['Рецепты']

In [11]:
seconds_assign = (recipes_sample['minutes'] * 60).rename('seconds_assign')
cell = (1, get_new_col_idx(sheet))
sheet.range(cell).options(index=False).value = seconds_assign
format_header(cell)

4. Используя `xlwings`, добавьте на лист `Рецепты` столбец `seconds_formula`, показывающий время выполнения рецепта в секундах. Выполните задание при помощи формул Excel.

In [12]:
formula = '=C2 * 60'
col_idx = get_new_col_idx(sheet)
last_row_idx = get_last_row_idx(sheet)

sheet.range(1, col_idx).value = 'seconds_formula'
sheet.range((2, col_idx), (last_row_idx, col_idx)).formula = formula
format_header((1, col_idx))

5. Добавьте на лист `Рецепты`  столбец `n_reviews`, содержащий кол-во отзывов для этого рецепта. Выполните задание при помощи формул Excel.

In [17]:
formula = '=COUNTIF(Отзывы!B:B, "="&B2)'  # чем я занимаюсь -_- ?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
col_idx = get_new_col_idx(sheet)
last_row_idx = get_last_row_idx(sheet)

sheet.range(1, col_idx).value = 'n_reviews'
sheet.range((2, col_idx), (last_row_idx, col_idx)).formula = formula
format_header((1, col_idx))

6. Сделайте названия всех добавленных столбцов полужирными и выровняйте по центру ячейки.

In [19]:
[*'Уже']

['У', 'ж', 'е']

In [20]:
sheet.range('A1').expand('right').autofit()

7. Раскрасьте ячейки столбца `minutes` в соответствии со следующим правилом: если рецепт выполняется быстрее 5 минут, то цвет - зеленый; от 5 до 10 минут - жёлтый; и больше 10 - красный.

In [30]:
last_row_idx = get_last_row_idx(sheet)
values = sheet.range(f'C2:C{last_row_idx}').value  # так, кажется, быстрее
for i in range(last_row_idx - 1):
    # кажется это кейс для match-case, нужно ставить python 3.10
    minutes = values[i]
    if minutes < 5:
        color = RgbColor.rgbLimeGreen
    elif 5 <= minutes <= 10:
        color = RgbColor.rgbYellow
    else:
        color = RgbColor.rgbRed
    sheet.range(f'C{i + 2}').color = color

# 1500 строчек, как же д-о-оооооооооооооооооооооооооооооо-о-лго

8. Напишите функцию `validate()`, которая проверяет соответствие всех строк из листа `Отзывы` следующим правилам:
    * Рейтинг - это число от 0 до 5 включительно
    * Соответствующий рецепт имеется на листе `Рецепты`
    
В случае несоответствия этим правилам, выделите строку красным цветом