# Работа с Excel

Материалы:
* Макрушин С.В. Лекция 7: Работа с Excel
* https://docs.xlwings.org/en/stable/quickstart.html
* https://nbviewer.jupyter.org/github/pybokeh/jupyter_notebooks/blob/master/xlwings/Excel_Formatting.ipynb#search_text


## Задачи для совместного разбора

In [6]:
import pandas as pd
import numpy as np
import xlwings as xw

from pathlib import Path 

In [19]:
path = Path('recipes_sample_with_tags_ingredients.csv')
path

PosixPath('recipes_sample_with_tags_ingredients.csv')

1. На листе "Рецептура" файла `себестоимостьА_в1.xlsx` для области "Пшеничный хлеб" рассчитать себестоимость всех видов продукции.

In [38]:
wb1 = xw.Book("себестоимостьА_в1.xlsx")
sheet = wb1.sheets["Рецептура"]
temp = sheet.range("G7:O10").options(np.array).value
temp

array([[0.2  , 0.4  , 0.02 , 0.02 , 0.01 , 0.005, 0.1  ,   nan,   nan],
       [0.07 , 0.25 , 0.01 , 0.06 , 0.015,   nan, 0.06 , 0.05 ,   nan],
       [0.12 , 0.22 , 0.005,   nan, 0.009, 0.005,   nan, 0.05 , 0.03 ],
       [0.12 , 0.23 , 0.01 ,   nan, 0.015,   nan,   nan,   nan, 0.05 ]])

In [39]:
unit_price = sheet.range("G14:O14").options(np.array).value
unit_price

array([  7.,  10., 184.,  19.,   7., 290., 105.,  83., 260.])

In [40]:
cost_price = np.nan_to_num(temp * unit_price).sum(axis=1)
cost_price

array([21.48 , 16.525, 17.423, 18.085])

2. Результаты расчетов 1.1 сохранить в отдельном столбце области "Пшеничный хлеб"

In [41]:
sheet.range("T7:T10").options(transpose=True).value = cost_price
sheet.range("T6").value = "Себестоимость"

3. Приблизить форматирование столбца, добавленного в задаче 2 к оформлению всей области.

In [61]:
sheet.range("T4:T6").api.merge()
sheet.range("T4:T6").color = (255,200,0)
sheet.range("T7:T10").color = (244,244,180)

4. Выполнить 3 с помощью "протягиваемых" формул.

In [13]:
sheet.range("U7").formula = "=SUMPRODUCT(G7:O7, $G$14:$O$14)"
sheet.range("U7").api.autofill(destination=sheet.range("U7:U10").api , type=xw.constants.AutoFillType.xlFillDefault)

## Лабораторная работа 7.1

1. Загрузите данные из файлов `reviews_sample.csv` (__ЛР2__) и `recipes_sample.csv` (__ЛР5__) в виде `pd.DataFrame`. Обратите внимание на корректное считывание столбца(ов) с индексами. Оставьте в таблице с рецептами следующие столбцы: `id`, `name`, `minutes`, `submitted`, `description`, `n_ingredients`

In [17]:
reviews_sample = pd.read_csv("reviews_sample (2).csv", sep=",", parse_dates=['date'])
reviews_sample = reviews_sample.rename(columns={"Unnamed: 0": "index"})
reviews_sample = reviews_sample.set_index("index")
reviews_sample

Unnamed: 0_level_0,user_id,recipe_id,date,rating,review
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
370476,21752,57993,2003-05-01,5,Last week whole sides of frozen salmon fillet ...
624300,431813,142201,2007-09-16,5,So simple and so tasty! I used a yellow capsi...
187037,400708,252013,2008-01-10,4,"Very nice breakfast HH, easy to make and yummy..."
706134,2001852463,404716,2017-12-11,5,These are a favorite for the holidays and so e...
312179,95810,129396,2008-03-14,5,Excellent soup! The tomato flavor is just gre...
...,...,...,...,...,...
1013457,1270706,335534,2009-05-17,4,This recipe was great! I made it last night. I...
158736,2282344,8701,2012-06-03,0,This recipe is outstanding. I followed the rec...
1059834,689540,222001,2008-04-08,5,"Well, we were not a crowd but it was a fabulou..."
453285,2000242659,354979,2015-06-02,5,I have been a steak eater and dedicated BBQ gr...


In [22]:
recipes_sample_with_tags_ingredients = pd.read_csv("recipes_sample_with_tags_ingredients.csv", sep=",", parse_dates=['submitted'])
recipes_sample_with_tags_ingredients = recipes_sample_with_tags_ingredients.rename(columns={"Unnamed: 0": "index"})
recipes_sample_with_tags_ingredients = recipes_sample_with_tags_ingredients.set_index("index")
recipes_sample_with_tags_ingredients

Unnamed: 0_level_0,id,name,minutes,contributor_id,submitted,n_steps,description,n_ingredients,n_tags,tags,ingredients
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,44123,george s at the cove black bean soup,90,35193,2002-10-25,11,an original recipe created by chef scott meska...,18,25,weeknight;time-to-make;course;main-ingredient;...,unsalted butter*carrot*onion*celery*broccoli s...
1,67664,healthy for them yogurt popsicles,10,91970,2003-07-26,3,my children and their friends ask for my homem...,3,31,15-minutes-or-less;time-to-make;course;prepara...,milk*frozen juice concentrate*plain yogurt
2,38798,i can t believe it s spinach,30,1533,2002-08-29,5,"these were so go, it surprised even me.",8,17,30-minutes-or-less;time-to-make;course;main-in...,onion*frozen chopped spinach*eggs*garlic powde...
3,35173,italian gut busters,45,22724,2002-07-27,7,my sister-in-law made these for us at a family...,9,11,60-minutes-or-less;time-to-make;course;prepara...,sandwich bun*good seasonings italian salad dre...
4,84797,love is in the air beef fondue sauces,25,4470,2004-02-23,4,i think a fondue is a very romantic casual din...,12,19,30-minutes-or-less;time-to-make;course;main-in...,beef steaks*vegetable oil*spicy mustard*fresh ...
...,...,...,...,...,...,...,...,...,...,...,...
29995,267661,zurie s holey rustic olive and cheddar bread,80,200862,2007-11-25,16,this is based on a french recipe but i changed...,10,18,time-to-make;course;main-ingredient;cuisine;pr...,dry white wine*eggs*cheddar cheese*baking powd...
29996,386977,zwetschgenkuchen bavarian plum cake,240,177443,2009-08-24,22,"this is a traditional fresh plum cake, thought...",11,19,time-to-make;course;main-ingredient;cuisine;pr...,unsalted butter*milk*flour*salt*vanilla*all-pu...
29997,103312,zwiebelkuchen southwest german onion cake,75,161745,2004-11-03,10,this is a traditional late summer early fall s...,13,20,time-to-make;course;main-ingredient;cuisine;pr...,onion*milk*eggs*butter*flour*salt*pepper*sugar...
29998,486161,zydeco soup,60,227978,2012-08-29,7,this is a delicious soup that i originally fou...,22,20,ham;60-minutes-or-less;time-to-make;course;mai...,onion*celery*dried thyme*dried oregano*fresh p...


In [23]:
recipes_sample_with_tags_ingredients.drop(["contributor_id", "n_steps","n_tags","tags","ingredients"], axis=1, inplace=True)
recipes_sample_with_tags_ingredients

Unnamed: 0_level_0,id,name,minutes,submitted,description,n_ingredients
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,44123,george s at the cove black bean soup,90,2002-10-25,an original recipe created by chef scott meska...,18
1,67664,healthy for them yogurt popsicles,10,2003-07-26,my children and their friends ask for my homem...,3
2,38798,i can t believe it s spinach,30,2002-08-29,"these were so go, it surprised even me.",8
3,35173,italian gut busters,45,2002-07-27,my sister-in-law made these for us at a family...,9
4,84797,love is in the air beef fondue sauces,25,2004-02-23,i think a fondue is a very romantic casual din...,12
...,...,...,...,...,...,...
29995,267661,zurie s holey rustic olive and cheddar bread,80,2007-11-25,this is based on a french recipe but i changed...,10
29996,386977,zwetschgenkuchen bavarian plum cake,240,2009-08-24,"this is a traditional fresh plum cake, thought...",11
29997,103312,zwiebelkuchen southwest german onion cake,75,2004-11-03,this is a traditional late summer early fall s...,13
29998,486161,zydeco soup,60,2012-08-29,this is a delicious soup that i originally fou...,22


2. Случайным образом выберите 5% строк из каждой таблицы и сохраните две таблицы на разные листы в один файл `recipes.xlsx`. Дайте листам названия "Рецепты" и "Отзывы", соответствующие содержанию таблиц. 

In [24]:
path = "recipes.xlsx"
coeff = 0.05
writer = pd.ExcelWriter(path)
new_recipes = recipes_sample_with_tags_ingredients.sample(frac = coeff)
new_recipes.to_excel(writer, sheet_name='Рецепты') 

In [25]:
new_reviews = reviews_sample.sample(frac = coeff)
new_reviews.to_excel(writer, sheet_name='Отзывы') 
writer.save()

3. Используя `xlwings`, добавьте на лист `Рецепты` столбец `seconds_assign`, показывающий время выполнения рецепта в секундах. Выполните задание при помощи присваивания массива значений диапазону ячеек.

In [26]:
wb = xw.Book(path)
sheet = wb.sheets["Рецепты"]
sheet.range("H1").value = "seconds_assign"
sheet.range("H1").api.font_object.font_style.set('bold')
sheet.range("H2:H1501").options(transpose=True).value = (new_recipes["minutes"] * 60).to_numpy()

4. Используя `xlwings`, добавьте на лист `Рецепты` столбец `seconds_formula`, показывающий время выполнения рецепта в секундах. Выполните задание при помощи формул Excel.

In [28]:
sheet.range("I1").value = "seconds_formula"
sheet.range("I1").api.font_object.font_style.set('bold')
sheet.range("I2").formula = "=D2*60"
sheet.range("I2").api.autofill(type=xw.constants.AutoFillType.xlFillDefault, destination=sheet.range("I2:I1501").api)

5. Сделайте названия всех добавленных столбцов полужирными и выровняйте по центру ячейки.

In [30]:
sheet.range("J1").value = "n_reviews"
sheet.range("J1").api.font_object.font_style.set('bold')

n = str(len(new_reviews)+1)
sheet.range("J2").formula = f'=COUNTIF(Отзывы!$C$2:$C${n}, "="&B2)'
sheet.range('J2').api.autofill(type=xw.constants.AutoFillType.xlFillDefault, destination=sheet.range("J2:J1501").api)

6. Раскрасьте ячейки столбца `minutes` в соответствии со следующим правилом: если рецепт выполняется быстрее 5 минут, то цвет - зеленый; от 5 до 10 минут - жёлтый; и больше 10 - красный.

In [31]:
sheet['H1:J1'].api.horizontalalignment = xw.constants.HAlign.xlHAlignCenter

table = xw.Range("A1:I1501")
table.columns[1].column_width = 50
for i in range(4, 9):
    table.columns[i].column_width = 25

7. Добавьте на лист `Рецепты`  столбец `n_reviews`, содержащий кол-во отзывов для этого рецепта. Выполните задание при помощи формул Excel.

In [32]:
from enum import Enum

class Colors(Enum):
    GREEN = (0, 255, 0)
    YELLOW = (255, 255, 0) 
    RED = (255, 0, 0)

In [33]:
values = sheet.range("D2:D1501").value

for i in range(len(values)):
    
    if values[i] <= 5:
        sheet.range(f"D{i+2}").color = Colors.GREEN.value
    
    elif 5 < values[i] <= 10:
        sheet.range(f"D{i+2}").color = Colors.YELLOW.value
    
    else:
        sheet.range(f"D{i+2}").color =  Colors.RED.value

## Лабораторная работа 7.2

8. Напишите функцию `validate()`, которая проверяет соответствие всех строк из листа `Отзывы` следующим правилам:
    * Рейтинг - это число от 0 до 5 включительно
    * Соответствующий рецепт имеется на листе `Рецепты`
    
В случае несоответствия этим правилам, выделите строку красным цветом

In [None]:
from typing import Union
def validate(data : Union[xw.main.Sheet, xw.main.Book]) -> None:
    
    sheet = None
    if isinstance(data, xw.main.Book):
        try:
            sheet = data.sheets["Отзывы"]
        except Exception as e:
            raise ValueError("Нет отзывов в данном файле Excel!")
    
    elif isinstance(data, xw.main.Sheet):
        sheet = data
    
    else:
        raise ValueError("data должен принимать либо Book, либо Sheet!")

    rng = sheet.range('A1')
    n = rng.current_region.end('down').row

    sheet.range("H2").formula = '=COUNTIF(Рецепты!$B$2:Рецепты!$B$1501,"="&C2)>0'
    sheet.range("H2").api.autofill(type=xw.constants.AutoFillType.xlFillDefault, destination=sheet.range(f"H2:H{n}").api)

    for i in range(2, int(n)+1):
        
        rating = sheet.range(f"E{i}").value
        exist_flag = sheet.range(f"H{i}").value
        
        if rating not in range(0,6) or not exist_flag:
            sheet.range(f"A{i}:G{i}").color = Colors.RED.value
    
    sheet.range('H:H').value = " "
    
new_sheet = wb.sheets["Отзывы"]
#validate(new_sheet)
validate(wb)
wb.save(path)
wb.close()

9. В файле `recipes_model.csv` находится модель данных предметной области "рецепты". При помощи пакета `csv` считайте эти данные. При помощи пакета `xlwings` запишите данные на лист `Модель` книги `recipes_model.xlsx`, начиная с ячейки `A2`, не используя циклы. Сделайте скриншот текущего состояния листа и прикрепите в ячейку ноутбука. 

In [68]:
with open('recipes_model.csv', 'r') as file:
    reader = csv.reader(file)
    data = list(reader)

book = xw.Book()

sheet = book.sheets['Модель книги']
sheet.range('A2').value = data

book.save('recipes_model.xlsx')
book.close()

CommandError: Command failed:
		OSERROR: -50
		MESSAGE: Parameter error.
		COMMAND: app(pid=28129).open_workbook(workbook_file_name='/Users/maksimkukin/PycharmProjects/Python_EGE/recipes_model.xlsx', update_links=k.do_not_update_links, read_only=None, format=None, password=None, write_reserved_password=None, ignore_read_only_recommended=None, origin=None, delimiter=None, editable=None, notify=None, converter=None, add_to_mru=None, timeout=-1)

10. При помощи пакета `xlwings` добавьте в столбец J формулу для описания столбца на языке SQL. Формула должна реализовывать следующую логику:

    1\. в начале строки идут значения из столбцов В и C (значение столбца С приведено к верхнему регистру), разделенные пробелом
    
    2\. далее идут слова на основе столбца "Ключ"
        2.1 если в столбце "Ключ" указано значение "PK", то дальше через пробел идет ключевое слово "PRIMARY KEY"
        2.2 если в столбце "Ключ" указано значение "FK", то дальше через пробел идет ключевое слово "REFERENCES", затем значения столбцов H и I в формате "название_таблицы(название_столбца)"
        
    3\. если в столбце "Обязательно к заполнению" указано значение "Y" и в столбце "Ключ" указано не "PK", то дальше через пробел идет ключевое слово "NOT NULL".

Заполните этой формулой необходимое количество строк, используя "протягивание". Количество строк для протягивания определите на основе данных.

Сделайте скриншот текущего состояния листа и прикрепите в ячейку ноутбука.

11. При помощи пакета `xlwings` измените стилизацию листа `Модель`.
* для заголовков добавьте заливку цвета `00ccff`
* примените автоподбор ширины столбца;
* сделайте шрифт заголовков полужирным;
* добавьте таблице автофильтр.

Сделайте скриншот текущего состояния листа и прикрепите в ячейку ноутбука.

12. Посчитайте количество атрибутов для каждой из сущностей. Создайте лист `Статистика` и запишите в него результат группировки, начиная с ячейки "А1". Визуализируйте полученный результат при помощи столбчатой диаграммы. Сохраните полученную визуализацию на лист `Статистика`, начиная с ячейки "E2".  Сделайте скриншот листа `Статистика` и прикрепите в ячейку ноутбука.

* Вы можете воспользоваться методами для визуализации, которые поставляются вместе с объектами `pandas` (см. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot) 