# Работа с Excel

Материалы:
* Макрушин С.В. Лекция 7: Работа с Excel
* https://docs.xlwings.org/en/stable/quickstart.html
* https://nbviewer.jupyter.org/github/pybokeh/jupyter_notebooks/blob/master/xlwings/Excel_Formatting.ipynb#search_text


In [71]:
from pathlib import Path

import pandas as pd
import xlwings as xw
from xlwings.constants import BordersIndex, BorderWeight, HAlign

In [24]:
DATA_DIR = Path('data/')
OUTPUT_DIR = Path('output/')

## Задачи для совместного разбора

1. На листе "Рецептура" файла `себестоимостьА_в1.xlsx` для области "Пшеничный хлеб" рассчитать себестоимость всех видов продукции.

2. Результаты расчетов 1.1 сохранить в отдельном столбце области "Пшеничный хлеб"

3. Приблизить форматирование столбца, добавленного в задаче 2 к оформлению всей области.

4. Выполнить 3 с помощью "протягиваемых" формул.

## Лабораторная работа 7

1. Загрузите данные из файлов `reviews_sample.csv` (__ЛР2__) и `recipes_sample_with_tags_ingredients.csv` (__ЛР5__) в виде `pd.DataFrame`. Обратите внимание на корректное считывание столбца(ов) с индексами. Оставьте в таблице с рецептами следующие столбцы: `id`, `name`, `minutes`, `submitted`, `description`, `n_ingredients`

In [62]:
reviews_df = pd.read_csv(
    DATA_DIR.joinpath('reviews_sample.csv'),
    sep=',',
    index_col=0,
    parse_dates=['date']
)
reviews_df.head()

Unnamed: 0,user_id,recipe_id,date,rating,review
370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...


In [63]:
recipes_df = pd.read_csv(
    DATA_DIR.joinpath('recipes_sample_with_filled_nsteps.csv'),
    sep=',',
    usecols=['id', 'name', 'minutes', 'submitted', 'description', 'n_ingredients'],
    parse_dates=['submitted']
)
recipes_df.head()

Unnamed: 0,name,id,minutes,submitted,description,n_ingredients
0,george s at the cove black bean soup,44123,90,2002-10-25,an original recipe created by chef scott meska...,18.0
1,healthy for them yogurt popsicles,67664,10,2003-07-26,my children and their friends ask for my homem...,
2,i can t believe it s spinach,38798,30,2002-08-29,"these were so go, it surprised even me.",8.0
3,italian gut busters,35173,45,2002-07-27,my sister-in-law made these for us at a family...,
4,love is in the air beef fondue sauces,84797,25,2004-02-23,i think a fondue is a very romantic casual din...,


2. Случайным образом выберите 5% строк из каждой таблицы и сохраните две таблицы на разные листы в один файл `recipes.xlsx`. Дайте листам названия "Рецепты" и "Отзывы", соответствующие содержанию таблиц. 

In [64]:
reviews_sample = reviews_df.sample(int(reviews_df.shape[0] * 0.05))
reviews_sample

Unnamed: 0,user_id,recipe_id,date,rating,review
356903,1801009245,42603,2013-12-19,5,We loved this recipe! Left the skin on for Hub...
806013,837304,27742,2010-03-03,5,Delicious! I used a mixture of black-eyed pea...
80667,254614,98772,2006-01-18,5,Yes! I lost this recipe and now I have found i...
1005877,707200,10620,2010-06-26,5,This was delicious.\r\n\r\nWe substituted vege...
678861,311566,94441,2007-02-11,4,This was good. Thanks for the recipe.
...,...,...,...,...,...
101481,366104,193909,2007-07-05,5,Yum yum...I used a mix of broccoli and caulifl...
1029410,8629,430334,2011-01-30,5,This worked for me in recipe 168645 (Pancakes ...
1002089,91831,92963,2005-09-19,4,This was very yummy! No need for syrup here.....
868535,31232,53503,2004-08-26,5,Awesome marinade. I used it for thickly slice...


In [65]:
recipes_sample = recipes_df.sample(int(recipes_df.shape[0] * 0.05))
recipes_sample

Unnamed: 0,name,id,minutes,submitted,description,n_ingredients
4948,cauliflower with fresh cilantro,132241,20,2005-08-03,from the cookbook arabian delights. this is a ...,10.0
9782,easy no beat chocolate cake with frosting,256673,70,2007-10-02,"this is the quickest, easiest cake i have ever...",
27444,the humble fried egg,80546,5,2004-01-09,such a simple dish but one that not everyone k...,3.0
1588,babaloo s bbq sauce,55705,40,2003-03-05,"this sauce is sooooo good! it makes alot, so f...",18.0
22057,rachael ray s linguine with red clam sauce,170402,30,2006-05-30,rach's cupboard red clam sauce. lots of clams ...,15.0
...,...,...,...,...,...,...
16612,luscious almond cheesecake,119064,80,2005-04-25,"this is a recipe from a taste of home ""cheese ...",9.0
8537,crispy sole dijon,185436,25,2006-09-08,you can use almost any fish you like with this...,
20895,pink vodka cocktail,393306,5,2009-10-06,somthing to keep for when im not pregnant :),3.0
19549,outrageously oatmeal bread bread machine,177576,250,2006-07-13,another favorite of the kids... delicious alo...,8.0


In [66]:
with pd.ExcelWriter(OUTPUT_DIR.joinpath('recipes.xlsx')) as writer:
    reviews_sample.to_excel(writer, sheet_name='Отзывы', index=False)
    recipes_sample.to_excel(writer, sheet_name='Рецепты', index=False)

3. Используя `xlwings`, добавьте на лист `Рецепты` столбец `seconds_assign`, показывающий время выполнения рецепта в секундах. Выполните задание при помощи присваивания массива значений диапазону ячеек.

In [67]:
wb = xw.Book(OUTPUT_DIR.joinpath('recipes.xlsx'))

In [68]:
sheet = wb.sheets['Рецепты']

In [74]:
seconds_assign = (recipes_sample['minutes'] * 60).rename('seconds_assign')
new_column_range = (1, sheet.range('A1').expand('right').shape[1] + 1)
sheet.range(new_column_range).options(index=False).value = seconds_assign

In [None]:
sheet.range(new_column_range).api.Font.Bold = True
sheet.range(new_column_range).api.HorizontalAlignment = HAlign.xlHAlignCenter
for border_index in (
        BordersIndex.xlEdgeTop,
        BordersIndex.xlEdgeRight,
        BordersIndex.xlEdgeBottom,
        BordersIndex.xlEdgeLeft
):
    sheet.range(new_column_range).api.Borders(border_index).LineStyle = 1
    sheet.range(new_column_range).api.Borders(border_index).Weight = BorderWeight.xlThin

4. Используя `xlwings`, добавьте на лист `Рецепты` столбец `seconds_formula`, показывающий время выполнения рецепта в секундах. Выполните задание при помощи формул Excel.

5. Добавьте на лист `Рецепты`  столбец `n_reviews`, содержащий кол-во отзывов для этого рецепта. Выполните задание при помощи формул Excel.

6. Сделайте названия всех добавленных столбцов полужирными и выровняйте по центру ячейки.

7. Раскрасьте ячейки столбца `minutes` в соответствии со следующим правилом: если рецепт выполняется быстрее 5 минут, то цвет - зеленый; от 5 до 10 минут - жёлтый; и больше 10 - красный.

8. Напишите функцию `validate()`, которая проверяет соответствие всех строк из листа `Отзывы` следующим правилам:
    * Рейтинг - это число от 0 до 5 включительно
    * Соответствующий рецепт имеется на листе `Рецепты`
    
В случае несоответствия этим правилам, выделите строку красным цветом