Центр непрерывного образования

# Программа «Python для автоматизации и анализа данных»

*Ян Пиле, НИУ ВШЭ*

## Openpyxl - библиотека для работы с Excel-файлами. 

Таблицы Excel - одна из тех вещей, с которыми вам, скорее всего, приходилось сталкиваться :). Возможно ваш начальник их любит, возможно они нужны отделу маркетинга, а возможно вы сами любите "покрутить" не слишком большие данные руками. Отличный способ немного автоматизировать свою раюобту - изучить библиотеку openpyxl.

Для начала библиотеку надо установить. Сделать это можно в Anaconda-prompt, введя **pip install openpyxl**.
Ну а теперь вы уже можете создать маленький Excel-файл Hello, world :)

In [1]:
!pip install openpyxl



In [2]:
from openpyxl import Workbook 

workbook = Workbook() # "Сделали файл"
sheet = workbook.active # "Создали вкладку"

sheet["A1"] = "hello"  #Вписали одно значение
sheet["B1"] = "world!" #Вписали другое значение

workbook.save(filename="hello_world.xlsx")  # Сохранили

Мы только что создали xlsx-файл в Python. Теперь давайте попробуем открыть уже готовый xlsx-файл и провести с ним некие манипуляции.

In [3]:
from openpyxl import load_workbook
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
workbook.sheetnames #Достали имена листов (если их несколько, будет список)

['sample_us']

In [4]:
sheet = workbook.active #Включили первый попавшийся лист
sheet

<Worksheet "sample_us">

In [5]:
sheet.title #Достали его название

'sample_us'

Теперь попробуем поработать с ячейками. Обращаться к ним на листе можно почти как к элементу списка. Если мы хотим достать то, что лежит в самом поле(достать значение поля), нужно воспользоваться методом **.value**.

In [6]:
sheet["A1"] #это объект-поле A1

<Cell 'sample_us'.A1>

In [7]:
sheet["A1"].value #А это значение поля A1

'marketplace'

In [8]:
sheet["F10"].value #А это значение поля A1

"Fisher-Price Octonauts Shellington's On-The-Go Pod Toy"

Чтобы вернуть значение ячейки, нужно сделать применять **.value**. В противном случае функция вернет сам объект Cell. Также можно использовать метод **.cell ()**, чтобы получить ячейку, используя индексную нотацию. Не забудьте добавить **.value**, чтобы получить фактическое значение, а не объект Cell:

In [9]:
print(sheet.cell(row=10, column=6))
print(sheet.cell(row=10, column=6).value)

<Cell 'sample_us'.F10>
Fisher-Price Octonauts Shellington's On-The-Go Pod Toy


#### Импорт данных из Excel
Теперь, когда мы изучили основы загрузки Excel, самое время приступить к интересной части: итерации и фактическому использованию значений в таблице. Например, данные можно перебирать, используя "срезы" вашего листа.


In [10]:
sheet["A1:C2"]

((<Cell 'sample_us'.A1>, <Cell 'sample_us'.B1>, <Cell 'sample_us'.C1>),
 (<Cell 'sample_us'.A2>, <Cell 'sample_us'.B2>, <Cell 'sample_us'.C2>))

Также можно получать все значения из колонки

In [11]:
sheet["A"][1]

<Cell 'sample_us'.A2>

Или из нескольких колонок:

In [12]:
sheet["A:B"][1][1]

<Cell 'sample_us'.B2>

Точно так же можно оперировать и со строками:

In [13]:
sheet[5]

(<Cell 'sample_us'.A5>,
 <Cell 'sample_us'.B5>,
 <Cell 'sample_us'.C5>,
 <Cell 'sample_us'.D5>,
 <Cell 'sample_us'.E5>,
 <Cell 'sample_us'.F5>,
 <Cell 'sample_us'.G5>,
 <Cell 'sample_us'.H5>,
 <Cell 'sample_us'.I5>,
 <Cell 'sample_us'.J5>,
 <Cell 'sample_us'.K5>,
 <Cell 'sample_us'.L5>,
 <Cell 'sample_us'.M5>,
 <Cell 'sample_us'.N5>,
 <Cell 'sample_us'.O5>)

In [14]:
sheet[5:6][1]

(<Cell 'sample_us'.A6>,
 <Cell 'sample_us'.B6>,
 <Cell 'sample_us'.C6>,
 <Cell 'sample_us'.D6>,
 <Cell 'sample_us'.E6>,
 <Cell 'sample_us'.F6>,
 <Cell 'sample_us'.G6>,
 <Cell 'sample_us'.H6>,
 <Cell 'sample_us'.I6>,
 <Cell 'sample_us'.J6>,
 <Cell 'sample_us'.K6>,
 <Cell 'sample_us'.L6>,
 <Cell 'sample_us'.M6>,
 <Cell 'sample_us'.N6>,
 <Cell 'sample_us'.O6>)

Конечно же кроме такого вывода в виде кортежей можно использовать генераторы для прохода по строкам или столбцам. Для этого используются методы:

* .iter_rows ()
* .iter_cols ()

Оба метода в качестве аргументов могут принимать:

* min_row
* max_row
* min_col
* max_col

Чтобы ограничивать область применения. Нумерация, к слову, начинается с 1.

In [15]:
for row in sheet.iter_rows(min_row=1,
                           max_row=2,
                           min_col=1,
                           max_col=3):
     print(row)

(<Cell 'sample_us'.A1>, <Cell 'sample_us'.B1>, <Cell 'sample_us'.C1>)
(<Cell 'sample_us'.A2>, <Cell 'sample_us'.B2>, <Cell 'sample_us'.C2>)


In [16]:
for column in sheet.iter_cols(min_row=1,
                              max_row=2,
                              min_col=1,
                              max_col=3):
    print(column)

(<Cell 'sample_us'.A1>, <Cell 'sample_us'.A2>)
(<Cell 'sample_us'.B1>, <Cell 'sample_us'.B2>)
(<Cell 'sample_us'.C1>, <Cell 'sample_us'.C2>)


Кроме того, у обеих функций есть аргумент values_only, который позволяет вместо полной информации о ячейке получать только ее значение.

In [17]:
for value in sheet.iter_rows(min_row=1,
                             max_row=2,
                             min_col=1,
                             max_col=3,
                             values_only=True):
    print(value)

('marketplace', 'customer_id', 'review_id')
('US', 18778586, 'RDIJS7QYB6XNR')


Если вы хотите выполнить итерацию по всему набору данных, вы также можете напрямую использовать атрибуты **.rows** или **.columns**, которые являются ярлыками для .iter_rows () и .iter_cols () без каких-либо аргументов:

In [18]:
for row in sheet.rows:
    print(row)
    break

(<Cell 'sample_us'.A1>, <Cell 'sample_us'.B1>, <Cell 'sample_us'.C1>, <Cell 'sample_us'.D1>, <Cell 'sample_us'.E1>, <Cell 'sample_us'.F1>, <Cell 'sample_us'.G1>, <Cell 'sample_us'.H1>, <Cell 'sample_us'.I1>, <Cell 'sample_us'.J1>, <Cell 'sample_us'.K1>, <Cell 'sample_us'.L1>, <Cell 'sample_us'.M1>, <Cell 'sample_us'.N1>, <Cell 'sample_us'.O1>)


Достанем имена всех колонок:

In [19]:
for value in sheet.iter_rows(min_row=1,
                             max_row=1,
                             values_only=True):
    print(value)

('marketplace', 'customer_id', 'review_id', 'product_id', 'product_parent', 'product_title', 'product_category', 'star_rating', 'helpful_votes', 'total_votes', 'vine', 'verified_purchase', 'review_headline', 'review_body', 'review_date')


А теперь возьмем информацию только из колонок:
    
* product_id
* product_parent
* product_title
* product_category


In [20]:
for value in sheet.iter_rows(min_row=2,
                             min_col=4,
                             max_col=7,
                             values_only=True):
    print(value)
    break

('B00EDBY7X8', 122952789, 'Monopoly Junior Board Game', 'Toys')


А теперь мы можем все это упаковать в json

In [21]:
import json
from openpyxl import load_workbook

workbook = load_workbook(filename="sample_us.xlsx")
sheet = workbook.active

products = {}

# Используем values_only, потому что нужны только значения
for row in sheet.iter_rows(min_row=2,
                           min_col=4,
                           max_col=7,
                           values_only=True):
    product_id = row[0]
    product = {
        "parent": row[1],
        "title": row[2],
        "category": row[3]
    }
    products[product_id] = product



In [22]:
product

{'parent': 149264874, 'title': 'Baby Einstein Octoplush', 'category': 'Toys'}

#### Как писать новую информацию в Excel

In [23]:
from openpyxl import load_workbook

# откроем наш первый ноутбук
workbook = load_workbook(filename="hello_world.xlsx")
sheet = workbook.active

# Запишем новую информацию
sheet["C1"] = "writing ;)"

# Сохраним ноутбук
workbook.save(filename="hello_world_append.xlsx")

#### Добавление/Удаление колонок и строк

При ручной работе с файлами Excel очень часто приходится добавлять и удалять строки и столбцы. 

Openpyxl позволяет это делать с помощью методов:

* .insert_rows()
* .delete_rows()
* .insert_cols()
* .delete_cols()

Каждый из этих методов принимает всего два аргумента:

* idx
* amount

Создадим для удобство печатающую файлик функцию

In [24]:
def print_rows():
    for row in sheet.iter_rows(values_only=True):
        print(row)

In [25]:
workbook = load_workbook(filename="hello_world.xlsx")
sheet = workbook.active
print_rows()

('hello', 'world!')


In [26]:
# Вставим новую колонку перед колонкой 1 ("A")
sheet.insert_cols(idx=1)
print_rows()

(None, 'hello', 'world!')


In [27]:
# Вставим 5 колонок между колонкой  2 ("B") и колонкой 3 ("C")
sheet.insert_cols(idx=3, amount=5)
print_rows()

(None, 'hello', None, None, None, None, None, 'world!')


In [28]:
# Удалим эти безобразные пустые колонки
sheet.delete_cols(idx=3, amount=5)
sheet.delete_cols(idx=1)
print_rows()


('hello', 'world!')


In [29]:
# Вставим новую строку перед первой
sheet.insert_rows(idx=1)
print_rows()

(None, None)
('hello', 'world!')


In [30]:
#Вставим еще 3 строки в начале
sheet.insert_rows(idx=1, amount=3)
print_rows()

(None, None)
(None, None)
(None, None)
(None, None)
('hello', 'world!')


In [31]:
# Зачистим это безобразие
sheet.delete_rows(idx=1, amount=4)
print_rows()

('hello', 'world!')


#### Добавление фильтров
Вы можете использовать openpyxl для добавления фильтров и сортировок в ваш Excel-файл.

In [32]:
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active

In [33]:
# проверим размерность таблички, используя метод "dimensions"
sheet.dimensions

'A1:O50'

In [34]:
sheet.auto_filter.ref = "A1:O50"
sheet.auto_filter.add_filter_column(10, ['N'])
workbook.save(filename="sample_with_filters.xlsx")

#### Добавление формул
Формулы являются одной из самых мощных функций Excel.

Они дают вам возможность применять конкретные математические формулы для диапазона ячеек. Использовать формулы с openpyxl так же просто, как редактировать значение ячейки.

Так можно посмотреть список формул, поддерживаемых openpyxl:

In [36]:
from openpyxl.utils import FORMULAE
# FORMULAE

Давайте добавим некоторые формулы в нашу электронную таблицу sample_us.xlsx.

Начнем с чего-то простого, давайте проверим средний рейтинг звезд по 49 отзывам в таблице:

In [37]:
# Star rating лежит в колонке "H"
sheet["P2"] = "=AVERAGE(H2:H50)"
workbook.save(filename="sample_formulae.xlsx")

Можно использовать ту же методологию, чтобы добавить любые формулы в таблицу. Например, давайте посчитаем количество отзывов, которые получили оценки >0

In [38]:
# "Полезные" оценки хранятся в колонке "I"
sheet["P3"] = '=COUNTIF(I2:I100, ">0")'
workbook.save(filename="sample_formulae.xlsx")

#### Условное форматирование
Эта функция является одной из моих любимых, когда дело доходит до добавления стилей в Excel.

Это гораздо более тонкий подход к стилю, поскольку он динамически применяет стили в зависимости от того, какие данные дежат в ячейке.

В двух словах, условное форматирование позволяет вам указать список стилей, которые будут применяться к ячейке (или диапазону ячеек) в соответствии с конкретными условиями.

Например, широко распространенным вариантом использования является наличие баланса, в котором все отрицательные итоги отмечены красным, а положительные - зеленым. Такое форматирование позволет намного удобнее выделить хорошие и плохие периоды.

Без лишних слов давайте выберем нашу любимую электронную таблицу - sample_us.xlsx - и добавим условное форматирование.

Начнем с добавления условия, которое добавляет красный фон ко всем обзорам менее чем с 3 звездами:

In [39]:
from openpyxl.styles import PatternFill, colors
from openpyxl.styles.differential import DifferentialStyle
from openpyxl.formatting.rule import Rule

green_background = PatternFill(bgColor='00FF00')
diff_style = DifferentialStyle(fill=green_background)
rule = Rule(type="expression", dxf=diff_style)
rule.formula = ["$H1<3"]
sheet.conditional_formatting.add("A1:O50", rule)
workbook.save("sample_conditional_formatting.xlsx")

С точки зрения кода, единственными новинками здесь являются объекты **DifferentialStyle** и **Rule**:

**DifferentialStyle** используется для объединения нескольких стилей, таких как шрифты, границы, выравнивание и так далее.
**Rule** отвечает за выбор ячеек и применение стилей, если ячейки соответствуют логике правила.
Используя объект **Rule**, вы можете создавать многочисленные сценарии условного форматирования.

Однако для простоты пакет openpyxl предлагает 3 встроенных формата, которые облегчают создание нескольких распространенных шаблонов условного форматирования. Эти встроенные модули:

* ColorScale
* IconSet
* DataBar

**ColorScale** дает вам возможность создавать цветовые градиенты:

In [40]:
from openpyxl.formatting.rule import ColorScaleRule
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active
color_scale_rule = ColorScaleRule(start_type="min",
                                  start_color='A3FF00',
                                  end_type="max",
                                  end_color='0000FF')

# Давайте добавим градиент к колонке рейтинга "H"
sheet.conditional_formatting.add("H2:H50", color_scale_rule)
workbook.save(filename="sample_conditional_formatting_color_scale.xlsx")

А еще можно третий цвет добавить!

In [43]:
from openpyxl.formatting.rule import ColorScaleRule
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active
color_scale_rule = ColorScaleRule(start_type="num",
                                  start_value=1,
                                  start_color='A3FF00',
                                  mid_type="num",
                                  mid_value=3,
                                  mid_color='111111',
                                  end_type="num",
                                  end_value=5,
                                  end_color='0000FF')

# Давайте добавим градиент к колонке рейтинга "H"
sheet.conditional_formatting.add("H2:H50", color_scale_rule)
workbook.save(filename="sample_conditional_formatting_color_scale_3.xlsx")

Элемент - **IconSet** позволяет добавить значок в ячейку в соответствии с ее значением.
Весь список иконок можно посмотреть тут: https://openpyxl.readthedocs.io/en/stable/formatting.html#iconset

In [44]:
from openpyxl.formatting.rule import IconSetRule
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active
icon_set_rule = IconSetRule("5Arrows", "num", [1, 2, 3, 4, 5])
sheet.conditional_formatting.add("H2:H50", icon_set_rule)
workbook.save("sample_conditional_formatting_icon_set.xlsx")

А еще в ячейку можно поместить Progress Bar

In [45]:
from openpyxl.formatting.rule import DataBarRule
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active
data_bar_rule = DataBarRule(start_type="num",
                            start_value=1,
                            end_type="num",
                            end_value="5",
                            color='00FF00')
sheet.conditional_formatting.add("H2:H50", data_bar_rule)
workbook.save("sample_conditional_formatting_data_bar.xlsx")

### Добавление рисунков
Еще в Excel модно рисовать диаграммы и графики прямо из python.

Графики - отличный способ быстро визуализировать и понимать множество данных. Существует множество различных типов графиков: гистограмма, круговая диаграмма, линейная диаграмма и т. д. openpyxl поддерживает многие из них.

Здесь вы увидите только пару примеров диаграмм, потому что теория, лежащая в их основе, одинакова для каждого типа:

Для любой диаграммы, которую вы хотите построить, вам нужно определить тип диаграммы: BarChart, LineChart и т.д., а также данные, которые будут использоваться для диаграммы.

Прежде чем вы сможете построить свою диаграмму, вам необходимо определить, какие данные вы хотите на ней видеть. Иногда вы можете использовать набор данных как есть, но иногда вам нужно немного покрутить данные, чтобы получить дополнительную информацию.

Давайте начнем с создания нового файла:

In [46]:
from openpyxl import Workbook
from openpyxl.chart import BarChart, Reference

workbook = Workbook()
sheet = workbook.active

# Let's create some sample sales data
rows = [
    ["Product", "Online", "Store"],
    [1, 30, 45],
    [2, 40, 30],
    [3, 40, 25],
    [4, 50, 30],
    [5, 30, 25],
    [6, 25, 35],
    [7, 20, 40],
 ]

for row in rows:
    sheet.append(row)

Теперь вы сделаем гистограмму, которая отображает общее количество продаж продукта:

In [47]:
chart = BarChart()
data = Reference(worksheet=sheet,
                 min_row=1,
                 max_row=8,
                 min_col=2,
                 max_col=3)

chart.add_data(data, titles_from_data=True)
sheet.add_chart(chart, "E2")

workbook.save("chart.xlsx")