Тема урока: именованные кортежи
Модуль collections
Именованные кортежи
Аннотация. Урок посвящен модулю collections, а именно именованным кортежам (тип namedtuple).

Модуль collections

Python содержит встроенный модуль collections, который содержит специализированные типы коллекций, альтернативных традиционным list, tuple, dict:

namedtuple
defaultdict
OrderedDict
Counter
ChainMap
deque

Уверенное владение встроенными модулями, такими как collections, – одна из черт, отличающих продвинутых программистов от начинающих.

Именованные кортежи

Именованные кортежи (тип namedtuple) — это подтип обычных кортежей в Python. У них те же функции, что и у обычных, но их значения можно получать как с помощью индекса (например, [0]), так и с помощью имени через точку (например, .name).

Основное предназначение именованных кортежей — это улучшение читаемости программного кода.

Рассмотрим пример, в котором происходит работа с точкой на плоскости, имеющей две координаты x и y.

Приведенный ниже код использует функционал обычных кортежей (тип tuple):

In [1]:
point = (3, 7)

print(point)
print(point[0], point[1])
print(type(point))

(3, 7)
3 7
<class 'tuple'>


Не забывайте, что кортежи являются неизменяемыми, при попытке изменить значение кортежа мы получим ошибку TypeError

Приведенный выше код работает как и полагается: он создает точку с двумя координатами. Однако является ли данный код читабельным? Можно ли заранее сказать, за что отвечают индексы 0 и 1? Всегда ли нулевой индекс — это значение x, а первый индекс — значение y?

Чтобы предотвратить эту двусмысленность и сделать код читабельнее, мы можем использовать именованный кортеж.

In [2]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])     # объявляем тип Point именованного кортежа

point = Point(3, 7)                         # создаем именованный кортеж Point

print(point)
print(point.x, point.y)
print(point[0], point[1])
print(type(point))

Point(x=3, y=7)
3 7
3 7
<class '__main__.Point'>


В приведенном выше коде мы создали объект типа Point, который является именованным кортежем. Обратиться к полям именованного кортежа можно через точку (point.x, point.y) или по индексу (point[0], point[1]), как и в обычных кортежах.

Важно отметить, что, хотя кортежи и именованные кортежи неизменяемы, сохраняемые в них значения не обязательно должны быть неизменяемыми. Совершенно законно создать кортеж или именованный кортеж, содержащий изменяемые значения.

In [3]:
from collections import namedtuple

Person = namedtuple('Person', ['name', 'children'])

sveta = Person('Sveta Gueva', ['Larisa', 'Timur'])
print(sveta)

sveta.children.append('Soslan')
print(sveta)

Person(name='Sveta Gueva', children=['Larisa', 'Timur'])
Person(name='Sveta Gueva', children=['Larisa', 'Timur', 'Soslan'])


In [4]:
from collections import namedtuple

Person = namedtuple('Person', ['name', 'children'])

sveta = Person('Sveta Gueva', ['Larisa', 'Timur'])
sveta.children = ['Larisa', 'Timur', 'Soslan']

AttributeError: can't set attribute

Таким образом, мы можем создавать именованные кортежи, содержащие изменяемые объекты. Мы можем изменять изменяемые объекты в исходном кортеже. Однако это не означает, что мы изменяем сам кортеж. Кортеж продолжит содержать те же ссылки на память.

Кортежи и именованные кортежи с изменяемыми значениями не могут быть хешированы, поэтому не могут быть элементами множеств и ключами в словарях. Кортежи и именованные кортежи без изменяемых значений могут быть хешированы, поэтому могут быть элементами множеств и ключами в словарях.

Функция namedtuple()

Функция namedtuple() выступает в роли фабричной функции, порождающей новые типы данных.

namedtuple(typename, field_names, *, rename=False, defaults=None, module=None)

То есть функция принимает два обязательных параметра typename и field_names и три необязательных rename, defaults, module, имеющих значения по умолчанию False, None, None соответственно.

Параметры typename и field_names

Параметр typename отвечает за имя создаваемого типа, параметр field_names за названия полей. Имя типа — это строка с типом, который нужно сделать именованным кортежем. В качестве параметра field_names можно использовать:

список
словарь
кортеж
строка
множество

Параметр field_names является списком:

In [None]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])    # в качестве второго параметра передаем список
point =  Point(2, 4)
print(point)                               # выводит Point(x=2, y=4)

Параметр field_names является кортежем:

In [None]:
from collections import namedtuple

Point = namedtuple('Point', ('x', 'y'))    # в качестве второго параметра передаем кортеж
point =  Point(2, 4)
print(point)                               # выводит Point(x=2, y=4)

Параметр field_names является словарем:

В этом случае для полей именованного кортежа используются ключи словаря, поэтому в качестве значений можно указать, все что угодно.

In [None]:
from collections import namedtuple

Point = namedtuple('Point', {'x': 0, 'y': 69})    # в качестве второго параметра передаем словарь
point =  Point(2, 4)
print(point)                                      # выводит Point(x=2, y=4)

Параметр field_names является строкой:

При создании именованного кортежа с помощью строки мы указываем поля либо через символ пробела, либо разделяя их символом ,

In [7]:
from collections import namedtuple

Point = namedtuple('Point', 'x y')    # в качестве второго параметра передаем строку
point =  Point(2, 4)
print(point)                          # выводит Point(x=2, y=4)

Point(x=2, y=4)


либо:

In [8]:
from collections import namedtuple

Point = namedtuple('Point', 'x,y')     # в качестве второго параметра передаем строку
point =  Point(2, 4)
print(point)                           # выводит Point(x=2, y=4)

Point(x=2, y=4)


Параметр field_names является множеством:

Мы можем создать именованный кортеж с помощью множества, однако делать это не рекомендуется. Как мы знаем, множество – это неупорядоченный набор данных. Когда мы используем неупорядоченный набор данных для предоставления полей именованному кортежу, мы можем получить неожиданный результат.

In [24]:
from collections import namedtuple

Point = namedtuple('Point', {'x', 'y'})    # в качестве второго параметра передаем множество
point =  Point(2, 4)
print(point)

Point(x=2, y=4)


В качестве параметра field_names можно передавать любой итерируемый объект, например, результат вызова функций map() и filter()

Обратите также внимание на то, что создавать именованные кортежи можно не только с помощью позиционных аргументов, но и с помощью именованных.

In [25]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])
point1 = Point(2, 4)                          # позиционные аргументы
point2 = Point(y=10, x=3)                     # именованные аргументы

print(point1)
print(point2)

Point(x=2, y=4)
Point(x=3, y=10)


В качестве названия полей для именованных кортежей мы можем использовать любое корректное название имени переменной, за исключением:

имен, начинающихся с подчеркивания (_)
ключевых слов языка Python (if, with, else, class, ...)

In [26]:
from collections import namedtuple

Point = namedtuple('Point', ['x', '_y'])

ValueError: Field names cannot start with an underscore: '_y'

In [27]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'if'])

ValueError: Type names and field names cannot be a keyword: 'if'

Параметр rename

Допустим, мы импортируем данные из CSV-файла и превращаем каждую строку в именованный кортеж. Структура файла имеет вид:

name,surname,age,class
Timur,Guev,28,11
Ruslan,Chaniev,22,9
...

Названия полей мы берем из заголовка CSV-файла:

In [None]:
from collections import namedtuple

headers = ('name', 'surname', 'age', 'class')

Student = namedtuple('Student', headers)

Поскольку одно поле имеет название class (ключевое слово языка Python) мы получаем ошибку: ValueError: Type names and field names cannot be a keyword: 'class'.

Проблема заключается в том, что мы не знаем, будут ли в качестве названий полей у нас ключевые слова языка Python или нет. Для решения данной проблемы можно использовать параметр rename со значением True.

In [28]:
from collections import namedtuple

headers = ('name', 'surname', 'age', 'class')

Student = namedtuple('Student', headers, rename=True)

stud = Student('Роман', 'Белых', 26, 10)
print(stud)

Student(name='Роман', surname='Белых', age=26, _3=10)


Обратите внимание на то, что Python автоматически переименовал поле class в _3.

In [29]:
from collections import namedtuple

headers = ('name', 'surname', 'age', 'class', 'with', 'color', 'name', 'class', 'if')

Student = namedtuple('Student', headers, rename=True)

stud = Student('Тимур', 'Гуев', 28, 11, 'sister', 'green', 'Tim', '11A', 'else')
print(stud)

Student(name='Тимур', surname='Гуев', age=28, _3=11, _4='sister', color='green', _6='Tim', _7='11A', _8='else')


Как мы видим, неудачные имена полей переименовались в соответствии с их порядковыми номерами, причем перед порядковым номером используется символ подчеркивания.

Параметр defaults

Параметр defaults используется для того, чтобы установить значения по умолчанию для полей именованного кортежа.

In [30]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'], defaults=(0, 0))
point1 = Point()      # используем значения по умолчанию
point2 = Point(1, 9)

print(point1)
print(point2)

Point(x=0, y=0)
Point(x=1, y=9)


Можно указать значение по умолчанию только для некоторых полей, при этом defaults присваивает значения по умолчанию с конца.

In [31]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'], defaults=(0,))
point =  Point(7)      # используем значения по умолчанию для y
print(point)

Point(x=7, y=0)


Имейте в виду, что параметр defaults работает только в Python 3.7+.

Параметр module

In [33]:
from collections import namedtuple

Point = namedtuple('jopa', ['x', 'y'])
point = Point(1, 2)
print(type(point))

<class '__main__.jopa'>


Если мы укажем допустимое имя модуля для этого аргумента, тогда атрибуту .__ module__ результирующего именованного кортежа будет присвоено это значение.

In [34]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'], module='customtypes')
point = Point(1, 2)
print(type(point))

<class 'customtypes.Point'>


Параметр module был добавлен в Python 3.6 для того, чтобы появилась возможность сериализовать/десериализовать именованные кортежи с помощью модуля pickle в разных реализациях Python (IronPython, Jython и т.д.)

Распаковка именованного кортежа

Мы можем распаковывать именованный кортеж, также как и обычный.

In [35]:
from collections import namedtuple

Person = namedtuple('Person', ['name', 'age', 'height'])

timur = Person('Тимур', 29, 170)

name, age, height = timur

print(name)
print(age)
print(height)

Тимур
29
170


Примечания

Примечание 5. При работе с именованным кортежами мы можем использовать срезы.

In [36]:
from collections import namedtuple

Point = namedtuple('Point3D', ['x', 'y', 'z'])

point = Point(89, 54, -34)

print(point[1:])
print(point[:2])
print(point[1:2])

(54, -34)
(89, 54)
(54,)


Примечание 6. Как уже упоминалось, функция namedtuple() является фабричной, то есть порождающей новые типы данных. Важно понимать, что названием типа является строка, передаваемая в функцию в качестве  первого аргумента, а не название переменной, в которой содержится результат вызова функции.

In [37]:
from collections import namedtuple

unknowntype = namedtuple('Point', ['x', 'y'])

point = unknowntype(2, 4)

print(type(point))

<class '__main__.Point'>


Дабы избежать путаницы, старайтесь давать переменным название типа.

In [46]:
import csv
import random
from collections import namedtuple

Point = namedtuple('Point', ('x', 'y'))

# Запись данных в CSV
with open('points.csv', mode='w', encoding='utf-8', newline='') as file_out:
    data = [[random.randint(0, 100), random.randint(0, 100)] for _ in range(20)]
    writer = csv.writer(file_out)
    writer.writerows(data)

# Чтение данных из CSV и создание списка точек
with open('points.csv', mode='r', encoding='utf-8') as file_in:
    rows = csv.reader(file_in)
    points = []
    for row in rows:
        # Пропускаем пустые строки (если такие есть)
        if row:
            x, y = map(int, row)  # Преобразуем строки в числа
            points.append(Point(x, y))

# Печать списка точек
print(points)

[Point(x=75, y=1), Point(x=76, y=45), Point(x=78, y=12), Point(x=83, y=11), Point(x=65, y=4), Point(x=11, y=19), Point(x=15, y=44), Point(x=77, y=48), Point(x=19, y=14), Point(x=68, y=28), Point(x=11, y=23), Point(x=9, y=13), Point(x=65, y=65), Point(x=46, y=29), Point(x=31, y=73), Point(x=46, y=88), Point(x=100, y=79), Point(x=6, y=36), Point(x=21, y=21), Point(x=90, y=80)]


In [78]:
from collections import namedtuple

Movie = namedtuple('Movie', ['name', 'genres', 'director', 'imdb_rating'])

movie = Movie('La La Land', ['comedy', 'drama', 'musical'], 'Damien Chazelle', 8)



movie['name'] # TypeError

movie('name') # TypeError

movie[0] # 'La La Land'

movie.0 # SyntaxError

movie[1] # ['comedy', 'drama', 'musical']

movie.name # 'La La Land'

SyntaxError: invalid syntax (2688458173.py, line 15)

In [79]:
from collections import namedtuple

Weather = namedtuple('Weather', ['temp', 'wind', 'rain', 'cloud'])

tokyo_weather = Weather(11, 6, 0.0, 25)

for x in tokyo_weather:
    print(x)

11
6
0.0
25


In [80]:
from collections import namedtuple

Country = namedtuple('Country', 'name,capital,president,language,currency')

iceland = Country('Iceland', 'Reykjavik', 'Gwydni Jouhannesson', 'Icelandic', 'Iceland krona')

_, _, *data = iceland

print(data)

['Gwydni Jouhannesson', 'Icelandic', 'Iceland krona']
