Центр непрерывного образования

# Программа «Python для автоматизации и анализа данных»

*Ян Пиле, НИУ ВШЭ*

## Openpyxl - библиотека для работы с Excel-файлами. 

Таблицы Excel - одна из тех вещей, с которыми вам, скорее всего, приходилось сталкиваться :). Возможно ваш начальник их любит, возможно они нужны отделу маркетинга, а возможно вы сами любите "покрутить" не слишком большие данные руками. Отличный способ немного автоматизировать свою работу - изучить библиотеку openpyxl.

Для начала библиотеку надо установить. Сделать это можно, исполнив следующую строку.  
!pip install openpyxl==3.0.0 (уточняем нужную версию)
Ну а теперь вы уже можете создать маленький Excel-файл Hello, world :)

In [1]:
!pip install openpyxl==3.0.0



You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [4]:
from openpyxl import Workbook 

workbook = Workbook() # "Сделали файл"
print(workbook.active)
sheet = workbook.active # "Создали вкладку"
print(sheet)

sheet["A1"] = "hello"  # В писали одно значение
sheet["B1"] = "world!" # Вписали другое значение

workbook.save(filename="hello_world.xlsx")  # Сохранили

<Worksheet "Sheet">
<Worksheet "Sheet">


Мы только что создали xlsx-файл в Python. Теперь давайте попробуем открыть уже готовый xlsx-файл и провести с ним некие манипуляции.

In [14]:
from openpyxl import load_workbook
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
workbook.sheetnames # Достали имена листов (если их несколько, будет список)

['sample_us', 'Sheet1']

In [15]:
workbook.active # Хранит информацию, какая вкладка активна в excel. Попробуйте попереключать ее и посмотреть, как изменится значение

<Worksheet "sample_us">

In [16]:
sheet = workbook['sample_us'] # включили первый лист
sheet

<Worksheet "sample_us">

In [17]:
sheet.title # Достали его название

'sample_us'

Теперь попробуем поработать с ячейками. Обращаться к ним на листе можно почти как к элементу списка. Если мы хотим достать то, что лежит в самом поле (достать значение поля), нужно вызвать атрибут **.value**.

In [18]:
sheet["A1"] # это объект-поле A1

<Cell 'sample_us'.A1>

In [20]:
sheet["A1"].value # А это значение поля A1

'marketplace'

Обратите внимание, что значение возвращается сразу в верном формате (если этот формат был правильно выставлен в excel.)

In [24]:
sheet["H10"].value # А это значение поля H10

5

Чтобы вернуть значение ячейки, нужно применять **.value**. В противном случае функция вернет сам объект Cell. Также можно использовать метод **.cell ()**, чтобы получить ячейку, используя индексную нотацию. Не забудьте добавить **.value**, чтобы получить фактическое значение, а не объект Cell:

In [25]:
print(sheet.cell(row=10, column=6))
print(sheet.cell(row=10, column=6).value)

<Cell 'sample_us'.F10>
Fisher-Price Octonauts Shellington's On-The-Go Pod Toy


У каждой ячейки есть атрибуты, которые содержат номера ряда и столбца.

In [26]:
print(sheet["H2"].row)
print(sheet['h2'].column) # кстати, буквы необязательно должны быть заглавные

2
8


#### Импорт данных из Excel
Теперь, когда мы изучили основы загрузки Excel, самое время приступить к интересной части: итерации и фактическому использованию значений в таблице. Например, данные можно перебирать, используя "срезы" вашего листа.


In [28]:
sheet["A1:A5"] # так выглядит колонка

((<Cell 'sample_us'.A1>,),
 (<Cell 'sample_us'.A2>,),
 (<Cell 'sample_us'.A3>,),
 (<Cell 'sample_us'.A4>,),
 (<Cell 'sample_us'.A5>,))

In [29]:
for cell in sheet["A1:A5"]:
    print(cell[0].value)

marketplace
US
US
US
US


In [42]:
sheet["A1:H1"] # а так ряд. Обртатие внимание на размерность

((<Cell 'sample_us'.A1>,
  <Cell 'sample_us'.B1>,
  <Cell 'sample_us'.C1>,
  <Cell 'sample_us'.D1>,
  <Cell 'sample_us'.E1>,
  <Cell 'sample_us'.F1>,
  <Cell 'sample_us'.G1>,
  <Cell 'sample_us'.H1>),)

In [37]:
for cell in sheet["A1:H1"]:
    print(cell[0].value)

marketplace


Видите, не сработало, как в примере с колонкой, потому что структура данных немного другая.

In [43]:
for row in sheet["A1:H1"]:
    print(row) # развернули ряд
    for cell in row: # и только теперь пошли по ячейкам
        print(cell.value)

(<Cell 'sample_us'.A1>, <Cell 'sample_us'.B1>, <Cell 'sample_us'.C1>, <Cell 'sample_us'.D1>, <Cell 'sample_us'.E1>, <Cell 'sample_us'.F1>, <Cell 'sample_us'.G1>, <Cell 'sample_us'.H1>)
marketplace
customer_id
review_id
product_id
product_parent
product_title
product_category
star_rating


А что делать со сложным срезом? 

In [45]:
sheet["A1:H3"]

((<Cell 'sample_us'.A1>,
  <Cell 'sample_us'.B1>,
  <Cell 'sample_us'.C1>,
  <Cell 'sample_us'.D1>,
  <Cell 'sample_us'.E1>,
  <Cell 'sample_us'.F1>,
  <Cell 'sample_us'.G1>,
  <Cell 'sample_us'.H1>),
 (<Cell 'sample_us'.A2>,
  <Cell 'sample_us'.B2>,
  <Cell 'sample_us'.C2>,
  <Cell 'sample_us'.D2>,
  <Cell 'sample_us'.E2>,
  <Cell 'sample_us'.F2>,
  <Cell 'sample_us'.G2>,
  <Cell 'sample_us'.H2>),
 (<Cell 'sample_us'.A3>,
  <Cell 'sample_us'.B3>,
  <Cell 'sample_us'.C3>,
  <Cell 'sample_us'.D3>,
  <Cell 'sample_us'.E3>,
  <Cell 'sample_us'.F3>,
  <Cell 'sample_us'.G3>,
  <Cell 'sample_us'.H3>))

In [47]:
for row in sheet["A1:H3"]:
    print(row)
    for cell in row: # и только теперь пошли по ячейкам
        print(cell.value)

(<Cell 'sample_us'.A1>, <Cell 'sample_us'.B1>, <Cell 'sample_us'.C1>, <Cell 'sample_us'.D1>, <Cell 'sample_us'.E1>, <Cell 'sample_us'.F1>, <Cell 'sample_us'.G1>, <Cell 'sample_us'.H1>)
marketplace
customer_id
review_id
product_id
product_parent
product_title
product_category
star_rating
(<Cell 'sample_us'.A2>, <Cell 'sample_us'.B2>, <Cell 'sample_us'.C2>, <Cell 'sample_us'.D2>, <Cell 'sample_us'.E2>, <Cell 'sample_us'.F2>, <Cell 'sample_us'.G2>, <Cell 'sample_us'.H2>)
US
18778586
RDIJS7QYB6XNR
B00EDBY7X8
122952789
Monopoly Junior Board Game
Toys
5
(<Cell 'sample_us'.A3>, <Cell 'sample_us'.B3>, <Cell 'sample_us'.C3>, <Cell 'sample_us'.D3>, <Cell 'sample_us'.E3>, <Cell 'sample_us'.F3>, <Cell 'sample_us'.G3>, <Cell 'sample_us'.H3>)
US
24769659
R36ED1U38IELG8
B00D7JFOPC
952062646
56 Pieces of Wooden Train Track Compatible with All Major Train Brands
Toys
5


Также двойной индексацией можно получать ячейку (колонка и ряд)

In [48]:
sheet["A"][1]

<Cell 'sample_us'.A2>

Можно получить всю колонку.

In [49]:
sheet['A']

(<Cell 'sample_us'.A1>,
 <Cell 'sample_us'.A2>,
 <Cell 'sample_us'.A3>,
 <Cell 'sample_us'.A4>,
 <Cell 'sample_us'.A5>,
 <Cell 'sample_us'.A6>,
 <Cell 'sample_us'.A7>,
 <Cell 'sample_us'.A8>,
 <Cell 'sample_us'.A9>,
 <Cell 'sample_us'.A10>,
 <Cell 'sample_us'.A11>,
 <Cell 'sample_us'.A12>,
 <Cell 'sample_us'.A13>,
 <Cell 'sample_us'.A14>,
 <Cell 'sample_us'.A15>,
 <Cell 'sample_us'.A16>,
 <Cell 'sample_us'.A17>,
 <Cell 'sample_us'.A18>,
 <Cell 'sample_us'.A19>,
 <Cell 'sample_us'.A20>,
 <Cell 'sample_us'.A21>,
 <Cell 'sample_us'.A22>,
 <Cell 'sample_us'.A23>,
 <Cell 'sample_us'.A24>,
 <Cell 'sample_us'.A25>,
 <Cell 'sample_us'.A26>,
 <Cell 'sample_us'.A27>,
 <Cell 'sample_us'.A28>,
 <Cell 'sample_us'.A29>,
 <Cell 'sample_us'.A30>,
 <Cell 'sample_us'.A31>,
 <Cell 'sample_us'.A32>,
 <Cell 'sample_us'.A33>,
 <Cell 'sample_us'.A34>,
 <Cell 'sample_us'.A35>,
 <Cell 'sample_us'.A36>,
 <Cell 'sample_us'.A37>,
 <Cell 'sample_us'.A38>,
 <Cell 'sample_us'.A39>,
 <Cell 'sample_us'.A40>,
 <Cell 's

Точно так же можно оперировать и со строками:

In [51]:
sheet[5] # вернет все ячейки, в которых есть значения

(<Cell 'sample_us'.A5>,
 <Cell 'sample_us'.B5>,
 <Cell 'sample_us'.C5>,
 <Cell 'sample_us'.D5>,
 <Cell 'sample_us'.E5>,
 <Cell 'sample_us'.F5>,
 <Cell 'sample_us'.G5>,
 <Cell 'sample_us'.H5>,
 <Cell 'sample_us'.I5>,
 <Cell 'sample_us'.J5>,
 <Cell 'sample_us'.K5>,
 <Cell 'sample_us'.L5>,
 <Cell 'sample_us'.M5>,
 <Cell 'sample_us'.N5>,
 <Cell 'sample_us'.O5>)

Конечно же кроме такого вывода в виде кортежей можно использовать генераторы для прохода по строкам или столбцам. Для этого используются методы:

* .iter_rows ()
* .iter_cols ()

Оба метода в качестве аргументов могут принимать:

* min_row
* max_row
* min_col
* max_col

Чтобы ограничивать область применения. Нумерация, к слову, начинается с 1.

In [62]:
for row in sheet.iter_rows(min_row=1,
                           max_row=2,
                           min_col=1,
                           max_col=3):
     print(row)

(<Cell 'sample_us'.A1>, <Cell 'sample_us'.B1>, <Cell 'sample_us'.C1>)
(<Cell 'sample_us'.A2>, <Cell 'sample_us'.B2>, <Cell 'sample_us'.C2>)


In [63]:
for column in sheet.iter_cols(min_row=1,
                              max_row=2,
                              min_col=1,
                              max_col=3):
    print(column)

(<Cell 'sample_us'.A1>, <Cell 'sample_us'.A2>)
(<Cell 'sample_us'.B1>, <Cell 'sample_us'.B2>)
(<Cell 'sample_us'.C1>, <Cell 'sample_us'.C2>)


Кроме того, у обеих функций есть аргумент values_only, который позволяет вместо полной информации о ячейке получать только ее значение.

In [64]:
for value in sheet.iter_rows(min_row=1,
                             max_row=2,
                             min_col=1,
                             max_col=3,
                             values_only=True):
    print(value)

('marketplace', 'customer_id', 'review_id')
('US', 18778586, 'RDIJS7QYB6XNR')


Если вы хотите выполнить итерацию по всему набору данных, вы также можете напрямую использовать атрибуты **.rows** или **.columns**, которые являются ярлыками для .iter_rows () и .iter_cols () без каких-либо аргументов:

In [65]:
for row in sheet.rows:
    print(row)
    break

(<Cell 'sample_us'.A1>, <Cell 'sample_us'.B1>, <Cell 'sample_us'.C1>, <Cell 'sample_us'.D1>, <Cell 'sample_us'.E1>, <Cell 'sample_us'.F1>, <Cell 'sample_us'.G1>, <Cell 'sample_us'.H1>, <Cell 'sample_us'.I1>, <Cell 'sample_us'.J1>, <Cell 'sample_us'.K1>, <Cell 'sample_us'.L1>, <Cell 'sample_us'.M1>, <Cell 'sample_us'.N1>, <Cell 'sample_us'.O1>)


Также можно напрямую обратиться ко всем значениям.

In [66]:
for value in sheet.values:
    print(value) # выводит кортеж ряда
    break

('marketplace', 'customer_id', 'review_id', 'product_id', 'product_parent', 'product_title', 'product_category', 'star_rating', 'helpful_votes', 'total_votes', 'vine', 'verified_purchase', 'review_headline', 'review_body', 'review_date')


Достанем имена всех колонок:

In [67]:
for value in sheet.iter_rows(min_row=1,
                             max_row=1,
                             values_only=True):
    print(value)

('marketplace', 'customer_id', 'review_id', 'product_id', 'product_parent', 'product_title', 'product_category', 'star_rating', 'helpful_votes', 'total_votes', 'vine', 'verified_purchase', 'review_headline', 'review_body', 'review_date')


А теперь возьмем информацию только из колонок:
    
* product_id
* product_parent
* product_title
* product_category


In [68]:
for value in sheet.iter_rows(min_row=2,
                             min_col=4,
                             max_col=7,
                             values_only=True):
    print(value)
    break

('B00EDBY7X8', 122952789, 'Monopoly Junior Board Game', 'Toys')


А теперь мы можем все это упаковать в json

In [69]:
import json
from openpyxl import load_workbook

workbook = load_workbook(filename="sample_us.xlsx")
sheet = workbook.active

products = {}

# Используем values_only, потому что нужны только значения
for row in sheet.iter_rows(min_row=2,
                           min_col=4,
                           max_col=7,
                           values_only=True):
    product_id = row[0]
    product = {
        "parent": row[1],
        "title": row[2],
        "category": row[3]
    }
    products[product_id] = product

# print(json.dumps(products, indent=4))

#### Как писать новую информацию в Excel

In [71]:
from openpyxl import load_workbook

# откроем наш первый ноутбук
workbook = load_workbook(filename="hello_world.xlsx")
sheet = workbook.active

# Запишем новую информацию
sheet["C1"] = "writing ;)"

# Сохраним ноутбук
workbook.save(filename="hello_world_append.xlsx")

#### Добавление/Удаление колонок и строк

При ручной работе с файлами Excel очень часто приходится добавлять и удалять строки и столбцы. 

Openpyxl позволяет это делать с помощью методов:

* .insert_rows()
* .delete_rows()
* .insert_cols()
* .delete_cols()

Каждый из этих методов принимает всего два аргумента:

* idx
* amount

Создадим для удобства печатающую файлик функцию

In [72]:
def print_rows():
    for row in sheet.iter_rows(values_only=True):
        print(row)

In [73]:
workbook = load_workbook(filename="hello_world.xlsx")
sheet = workbook.active
print_rows()

('hello', 'world!')


In [74]:
# Вставим новую колонку перед колонкой 1 ("A")
sheet.insert_cols(idx=1)
print_rows()

(None, 'hello', 'world!')


In [75]:
# Вставим 5 колонок между колонкой  2 ("B") и колонкой 3 ("C")
sheet.insert_cols(idx=3, amount=5)
print_rows()

(None, 'hello', None, None, None, None, None, 'world!')


In [76]:
# Удалим эти безобразные пустые колонки
sheet.delete_cols(idx=3, amount=5)
sheet.delete_cols(idx=1)
print_rows()


('hello', 'world!')


In [77]:
# Вставим новую строку перед первой
sheet.insert_rows(idx=1)
print_rows()

(None, None)
('hello', 'world!')


In [78]:
#Вставим еще 3 строки в начале
sheet.insert_rows(idx=1, amount=3)
print_rows()

(None, None)
(None, None)
(None, None)
(None, None)
('hello', 'world!')


In [79]:
# Зачистим это безобразие
sheet.delete_rows(idx=1, amount=4)
print_rows()

('hello', 'world!')


#### Добавление фильтров
Вы можете использовать openpyxl для добавления фильтров и сортировок в ваш Excel-файл. Однако при открытии файла данные не будут переставлены в соответствии с этим отображением и фильтрами.

Поначалу это может показаться довольно бесполезной функцией, но когда вы программно создаете электронную таблицу, которая будет отправлена и использована кем-то другим, все равно неплохо по крайней мере создать фильтры и позволить людям переиспользовать ее позже.

Попробуем добавить некие фильтры в наш файл sample_us.xlsx:

In [80]:
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active

In [87]:
# проверим размерность таблички, используя метод "dimensions"
sheet.dimensions

'A1:O50'

In [88]:
sheet.auto_filter.ref = "A1:O50"
workbook.save(filename="sample_with_filters.xlsx")

#### Добавление формул
Формулы являются одной из самых мощных функций Excel.

Они дают вам возможность применять конкретные математические формулы для диапазона ячеек. Использовать формулы с openpyxl так же просто, как редактировать значение ячейки.

Так можно посмотреть список формул, поддерживаемых openpyxl:

In [89]:
from openpyxl.utils import FORMULAE
# FORMULAE

Давайте добавим некоторые формулы в нашу электронную таблицу sample_us.xlsx.

Начнем с чего-то простого, давайте проверим средний рейтинг звезд по 49 отзывам в таблице:

In [90]:
# Star rating лежит в колонке "H"
sheet["P2"] = "=AVERAGE(H2:H50)"
workbook.save(filename="sample_formulae.xlsx")

Можно использовать ту же методологию, чтобы добавить любые формулы в таблицу. Например, давайте посчитаем количество отзывов, которые получили оценки >0

In [92]:
# "Полезные" оценки хранятся в колонке "I"
sheet["P3"] = '=COUNTIF(I2:I100, ">0")'
workbook.save(filename="sample_formulae.xlsx")

#### Условное форматирование
Эта функция является одной из моих любимых, когда дело доходит до добавления стилей в Excel.

Это гораздо более тонкий подход к стилю, поскольку он динамически применяет стили в зависимости от того, какие данные дежат в ячейке.

В двух словах, условное форматирование позволяет вам указать список стилей, которые будут применяться к ячейке (или диапазону ячеек) в соответствии с конкретными условиями.

Например, широко распространенным вариантом использования является наличие баланса, в котором все отрицательные итоги отмечены красным, а положительные - зеленым. Такое форматирование позволет намного удобнее выделить хорошие и плохие периоды.

Без лишних слов давайте выберем нашу любимую электронную таблицу - sample_us.xlsx - и добавим условное форматирование.

Начнем с добавления условия, которое добавляет красный фон ко всем обзорам менее чем с 3 звездами:

In [93]:
from openpyxl.styles import PatternFill, colors
from openpyxl.styles.differential import DifferentialStyle
from openpyxl.formatting.rule import Rule

red_background = PatternFill(bgColor=colors.RED)
diff_style = DifferentialStyle(fill=red_background)
rule = Rule(type="expression", dxf=diff_style)
rule.formula = ["$H1<3"]
sheet.conditional_formatting.add("A1:O50", rule)
workbook.save("sample_conditional_formatting.xlsx")

С точки зрения кода, единственными новинками здесь являются объекты **DifferentialStyle** и **Rule**:

**DifferentialStyle** используется для объединения нескольких стилей, таких как шрифты, границы, выравнивание и так далее.
**Rule** отвечает за выбор ячеек и применение стилей, если ячейки соответствуют логике правила.
Используя объект **Rule**, вы можете создавать многочисленные сценарии условного форматирования.

Однако для простоты пакет openpyxl предлагает 3 встроенных формата, которые облегчают создание нескольких распространенных шаблонов условного форматирования. Эти встроенные модули:

* ColorScale
* IconSet
* DataBar

**ColorScale** дает вам возможность создавать цветовые градиенты:

In [94]:
from openpyxl.formatting.rule import ColorScaleRule
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active
color_scale_rule = ColorScaleRule(start_type="min",
                                  start_color=colors.RED,
                                  end_type="max",
                                  end_color=colors.GREEN)

# Давайте добавим градиент к колонке рейтинга "H"
sheet.conditional_formatting.add("H2:H50", color_scale_rule)
workbook.save(filename="sample_conditional_formatting_color_scale.xlsx")

А еще можно третий цвет добавить!

In [95]:
from openpyxl.formatting.rule import ColorScaleRule
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active
color_scale_rule = ColorScaleRule(start_type="num",
                                  start_value=1,
                                  start_color=colors.RED,
                                  mid_type="num",
                                  mid_value=3,
                                  mid_color=colors.YELLOW,
                                  end_type="num",
                                  end_value=5,
                                  end_color=colors.GREEN)

# Давайте добавим градиент к колонке рейтинга "H"
sheet.conditional_formatting.add("H2:H50", color_scale_rule)
workbook.save(filename="sample_conditional_formatting_color_scale_3.xlsx")

Элемент - **IconSet** позволяет добавить значок в ячейку в соответствии с ее значением.
Весь список иконок можно посмотреть тут: https://openpyxl.readthedocs.io/en/stable/formatting.html#iconset

In [96]:
from openpyxl.formatting.rule import IconSetRule
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active
icon_set_rule = IconSetRule("5Arrows", "num", [1, 2, 3, 4, 5])
sheet.conditional_formatting.add("H2:H50", icon_set_rule)
workbook.save("sample_conditional_formatting_icon_set.xlsx")

А еще в ячейку можно поместить Progress Bar

In [97]:
from openpyxl.formatting.rule import DataBarRule
workbook = load_workbook(filename="sample_us.xlsx") #открыли файл
sheet = workbook.active
data_bar_rule = DataBarRule(start_type="num",
                            start_value=1,
                            end_type="num",
                            end_value="5",
                            color=colors.GREEN)
sheet.conditional_formatting.add("H2:H50", data_bar_rule)
workbook.save("sample_conditional_formatting_data_bar.xlsx")

### Добавление рисунков
Еще в Excel можно рисовать диаграммы и графики прямо из python.

Графики - отличный способ быстро визуализировать и понимать множество данных. Существует множество различных типов графиков: гистограмма, круговая диаграмма, линейная диаграмма и т. д. openpyxl поддерживает многие из них.

Здесь вы увидите только пару примеров диаграмм, потому что теория, лежащая в их основе, одинакова для каждого типа:

Для любой диаграммы, которую вы хотите построить, вам нужно определить тип диаграммы: BarChart, LineChart и т.д., а также данные, которые будут использоваться для диаграммы.

Прежде чем вы сможете построить свою диаграмму, вам необходимо определить, какие данные вы хотите на ней видеть. Иногда вы можете использовать набор данных как есть, но иногда вам нужно немного покрутить данные, чтобы получить дополнительную информацию.

Давайте начнем с создания нового файла:

In [109]:
from openpyxl import Workbook
from openpyxl.chart import BarChart, Reference

workbook = Workbook()
sheet = workbook.active

# Let's create some sample sales data
rows = [
    ["Product", "Online", "Store"],
    [1, 30, 45],
    [2, 40, 30],
    [3, 40, 25],
    [4, 50, 30],
    [5, 30, 25],
    [6, 25, 35],
    [7, 20, 40],
 ]

for row in rows:
    sheet.append(row)

Теперь вы сделаем гистограмму, которая отображает общее количество продаж продукта:

In [111]:
chart = BarChart()
data = Reference(worksheet=sheet,
                 min_row=1,
                 max_row=8,
                 min_col=2,
                 max_col=3)

chart.add_data(data, titles_from_data=True)
sheet.add_chart(chart, "E2")

workbook.save("chart.xlsx")

Немного поменяем данные и нарисуем график:

In [112]:
import random
from openpyxl import Workbook
from openpyxl.chart import LineChart, Reference

workbook = Workbook()
sheet = workbook.active

# Создадим данные
rows = [
    ["", "January", "February", "March", "April",
    "May", "June", "July", "August", "September",
     "October", "November", "December"],
    [1],
    [2],
    [3],
]

for row in rows:
    sheet.append(row)

for row in sheet.iter_rows(min_row=2,
                           max_row=4,
                           min_col=2,
                           max_col=13):
    for cell in row:
        cell.value = random.randrange(5, 100)

С помощью приведенного выше кода мы сгенерировали случайные данные о продажах 3 различных продуктов за год.
Теперь можно нарисовать график:

In [113]:
chart = LineChart()
data = Reference(worksheet=sheet,
                 min_row=2,
                 max_row=4,
                 min_col=1,
                 max_col=13)

chart.add_data(data, from_rows=True, titles_from_data=True)
sheet.add_chart(chart, "C6")

workbook.save("line_chart.xlsx")

Здесь следует иметь в виду, что при добавлении данных вы используете from_rows = True. Этот аргумент делает график построчно, а не столбец за столбцом.

В данных примера вы видите, что у каждого продукта есть строка с 12 значениями (1 столбец в месяц). Поэтому мы используем from_rows. Если не передать этот аргумент, по умолчанию график попытается построить график по столбцу, и вы получите ежемесячное сравнение продаж.

In [115]:
chart = LineChart()
data = Reference(worksheet=sheet,
                 min_row=1,
                 max_row=4,
                 min_col=2,
                 max_col=13)

chart.add_data(data, from_rows=False, titles_from_data=True)
sheet.add_chart(chart, "C6")

workbook.save("line_chart.xlsx")

Другое отличие, связанное с изменением аргумента выше, заключается в том, что наша ссылка теперь начинается с первого столбца, min_col = 1, а не со второго. Это изменение необходимо, поскольку в диаграмме теперь ожидается, что в первом столбце будут заголовки.

Есть еще несколько пунктов, которые можно изменить в стиле диаграммы. Например, можно добавить определенные категории на график и подписать оси: