# Работа с Excel

Материалы:
* Макрушин С.В. Лекция 7: Работа с Excel
* https://docs.xlwings.org/en/stable/quickstart.html
* https://nbviewer.jupyter.org/github/pybokeh/jupyter_notebooks/blob/master/xlwings/Excel_Formatting.ipynb#search_text


## Задачи для совместного разбора

1. На листе "Рецептура" файла `себестоимостьА_в1.xlsx` для области "Пшеничный хлеб" рассчитать себестоимость всех видов продукции.

In [None]:
import xlwings as xw
import numpy as np
import pandas as pd

book1 = xw.Book("себестоимостьА_в1.xlsx")
sheet = book1.sheets["Рецептура"]
consumption = sheet.range("G7:O10").options(np.array).value
price_per_unit = sheet.range("G14:O14").options(np.array).value
cost_price = consumption * price_per_unit
cost_price[np.isnan(cost_price)] = 0
cost_price = np.round(np.sum(cost_price, axis=1).tolist(), 2)
cost_price

array([21.48, 16.52, 17.42, 18.08])

2. Результаты расчетов 1.1 сохранить в отдельном столбце области "Пшеничный хлеб"

In [None]:
sheet.range("T7:T10").options(transpose=True).value = cost_price
sheet.range("T6").value = "Себестоимость"

3. Приблизить форматирование столбца, добавленного в задаче 2 к оформлению всей области.

In [None]:
sheet.range("T4:T6").api.merge()
sheet.range("T4:T6").color = (255,200,0)
sheet.range("T7:T10").color = (244,244,180)

4. Выполнить 3 с помощью "протягиваемых" формул.

In [None]:
sheet.range("U7:U10").formula = "=SUMPRODUCT(G7:O7, $G$14:$O$14)"

## Лабораторная работа 7.1

1. Загрузите данные из файлов `reviews_sample.csv` (__ЛР2__) и `recipes_sample.csv` (__ЛР5__) в виде `pd.DataFrame`. Обратите внимание на корректное считывание столбца(ов) с индексами. Оставьте в таблице с рецептами следующие столбцы: `id`, `name`, `minutes`, `submitted`, `description`, `n_ingredients`

In [None]:
import pandas as pd

reviews = pd.read_csv('reviews_sample.csv', delimiter=',')

recipes = pd.read_csv('recipes_sample.csv', delimiter= ',')

recipes = recipes[['id', 'name', 'minutes', 'submitted', 'description', 'n_ingredients']]

reviews
recipes


2. Случайным образом выберите 5% строк из каждой таблицы и сохраните две таблицы на разные листы в один файл `recipes.xlsx`. Дайте листам названия "Рецепты" и "Отзывы", соответствующие содержанию таблиц. 

In [None]:
from pandas import ExcelWriter
writer = ExcelWriter(r'recipes.xlsx')

recipes = recipes_sample.sample(frac = 0.05)
reviews = reviews_sample.sample(frac = 0.05)
recipes.to_excel(writer, encoding='utf8',sheet_name="Рецепты")
reviews.to_excel(writer, encoding='utf8',sheet_name='Отзывы')
writer.save()

In [None]:
import xlwings as xw

recipes_ex = xw.Book('recipes.xlsx')
recipes_sheet = recipes_ex.sheets['Рецепты']
recipes_sheet.range("H1").value = 'seconds_assign'
second_assign = (recipes_sample["minutes"] * 60).to_numpy()
recipes_sheet.range("H2:H1501").options(transpose=True).value = second_assign

print(recipes_sheet.range("H2:H1501").value)

[1200.0, 1800.0, 2700.0, 2700.0, 1500.0, 2700.0, 1200.0, 1200.0, 2100.0, 600.0, 3600.0, 2400.0, 900.0, 300.0, 240.0, 1500.0, 3600.0, 29700.0, 1560.0, 1200.0, 3000.0, 2400.0, 300.0, 1080.0, 1800.0, 600.0, 3300.0, 3300.0, 180.0, 4800.0, 3600.0, 600.0, 1620.0, 1200.0, 300.0, 2700.0, 900.0, 600.0, 22200.0, 22800.0, 3480.0, 900.0, 3600.0, 1980.0, 1800.0, 1320.0, 14400.0, 300.0, 2100.0, 35100.0, 29700.0, 3000.0, 1320.0, 4200.0, 2400.0, 300.0, 900.0, 600.0, 1800.0, 6000.0, 2400.0, 2160.0, 1200.0, 2400.0, 1800.0, 1800.0, 18600.0, 1500.0, 4800.0, 2880.0, 960.0, 900.0, 1560.0, 13200.0, 1500.0, 1800.0, 1800.0, 600.0, 600.0, 5400.0, 2700.0, 2400.0, 4800.0, 2700.0, 2400.0, 900.0, 1200.0, 900.0, 900.0, 2400.0, 9900.0, 3000.0, 2100.0, 2100.0, 7500.0, 43800.0, 2100.0, 3900.0, 1200.0, 300.0, 3000.0, 7200.0, 3300.0, 1320.0, 4500.0, 14400.0, 1200.0, 4500.0, 2100.0, 4500.0, 1200.0, 8700.0, 300.0, 1200.0, 600.0, 1620.0, 1800.0, 1500.0, 9600.0, 1200.0, 3900.0, 1200.0, 3000.0, 2400.0, 2400.0, 600.0, 6900.0, 

In [None]:
sheet.range("I1").value = "seconds_formula"
sheet.range("I1").api.font_object.font_style.set('bold')
sheet.range("I2").formula = "=D2*60"
sheet.range("I2").api.autofill(type=xw.constants.AutoFillType.xlFillDefault, destination=sheet.range("I2:I1501").api)

5. Сделайте названия всех добавленных столбцов полужирными и выровняйте по центру ячейки.

In [None]:
sheet.range("H1:I1").api.HorizontalAlignment = -4108
sheet.range("H1:I1").api.VerticalAlignment = -4108
sheet.range("H1:I1").api.Font.Bold = True
sheet.range("H1:I1").api.Borders.Weight = 2

6. Раскрасьте ячейки столбца `minutes` в соответствии со следующим правилом: если рецепт выполняется быстрее 5 минут, то цвет - зеленый; от 5 до 10 минут - жёлтый; и больше 10 - красный.

In [None]:
sheet['H1:J1'].api.horizontalalignment = xw.constants.HAlign.xlHAlignCenter

table = xw.Range("A1:I1501")
table.columns[1].column_width = 50
for i in range(4, 9):
    table.columns[i].column_width = 25

In [None]:
feedbacks = xw.Book('recipes.xlsx').sheets['Отзывы']
sheet.range("J1").value = "n_reviews"
sheet.range("J2").formula = "=COUNTIF(Отзывы!C:C;C2)"
sheet.range("J2:J1501").formula = "=COUNTIF(Отзывы!$C$2:$C$6336,C2)"

## Лабораторная работа 7.2

8. Напишите функцию `validate()`, которая проверяет соответствие всех строк из листа `Отзывы` следующим правилам:
    * Рейтинг - это число от 0 до 5 включительно
    * Соответствующий рецепт имеется на листе `Рецепты`
    
В случае несоответствия этим правилам, выделите строку красным цветом

In [None]:
def validate():
    book = xw.Book('recipes.xlsx')
    reviews_sheet = book.sheets['Отзывы']
    recipes_sheet = book.sheets['Рецепты']

    for i in range(2, reviews_sheet.range('A1').current_region.last_cell.row):
        rating = reviews_sheet.range(f'E{i}').value
        recipe_id = reviews_sheet.range(f'C{i}').value

        if rating is None or not isinstance(rating, (int, float)) or rating < 0 or rating > 5:
            reviews_sheet.range(f'A{i}:F{i}').color = (255, 0, 0)  # Выделяем строку красным цветом
            continue

        if recipe_id not in recipes_sheet.range('A2:A1501').value:
            reviews_sheet.range(f'A{i}:F{i}').color = (255, 0, 0)  # Выделяем строку красным цветом
            continue

    wb.save()


9. В файле `recipes_model.csv` находится модель данных предметной области "рецепты". При помощи пакета `csv` считайте эти данные. При помощи пакета `xlwings` запишите данные на лист `Модель` книги `recipes_model.xlsx`, начиная с ячейки `A2`, не используя циклы. Сделайте скриншот текущего состояния листа и прикрепите в ячейку ноутбука. 

10. При помощи пакета `xlwings` добавьте в столбец J формулу для описания столбца на языке SQL. Формула должна реализовывать следующую логику:

    1\. в начале строки идут значения из столбцов В и C (значение столбца С приведено к верхнему регистру), разделенные пробелом
    
    2\. далее идут слова на основе столбца "Ключ"
        2.1 если в столбце "Ключ" указано значение "PK", то дальше через пробел идет ключевое слово "PRIMARY KEY"
        2.2 если в столбце "Ключ" указано значение "FK", то дальше через пробел идет ключевое слово "REFERENCES", затем значения столбцов H и I в формате "название_таблицы(название_столбца)"
        
    3\. если в столбце "Обязательно к заполнению" указано значение "Y" и в столбце "Ключ" указано не "PK", то дальше через пробел идет ключевое слово "NOT NULL".

Заполните этой формулой необходимое количество строк, используя "протягивание". Количество строк для протягивания определите на основе данных.

Сделайте скриншот текущего состояния листа и прикрепите в ячейку ноутбука.

11. При помощи пакета `xlwings` измените стилизацию листа `Модель`.
* для заголовков добавьте заливку цвета `00ccff`
* примените автоподбор ширины столбца;
* сделайте шрифт заголовков полужирным;
* добавьте таблице автофильтр.

Сделайте скриншот текущего состояния листа и прикрепите в ячейку ноутбука.

12. Посчитайте количество атрибутов для каждой из сущностей. Создайте лист `Статистика` и запишите в него результат группировки, начиная с ячейки "А1". Визуализируйте полученный результат при помощи столбчатой диаграммы. Сохраните полученную визуализацию на лист `Статистика`, начиная с ячейки "E2".  Сделайте скриншот листа `Статистика` и прикрепите в ячейку ноутбука.

* Вы можете воспользоваться методами для визуализации, которые поставляются вместе с объектами `pandas` (см. https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot) 