![alt text](../../pythonexposed-high-resolution-logo-black.jpg "Optionele titel")

### Named tuples

De functie ``namedtuple`` in ``collections`` stelt ons in staat om een tuple te creëren die ook namen heeft gekoppeld aan elk veld (ook wel eigenschap genoemd). Dit kan handig zijn om data in de tuplestructuur te refereren op naam in plaats van alleen te vertrouwen op positie.

De functie namedtuple is in feite een class factory die een nieuw type klasse creëert die een tuple gebruikt als onderliggende gegevensopslag, maar voegt veldnamen toe aan elke positie en maakt een eigenschap van de veldnaam.

De functie namedtuple creëert dus een klasse, en vervolgens gebruiken we die klasse om onze instanties van named tuples te instantiëren.

Om de ``namedtuple`` functie te gebruiken, moeten we dus een **klassenaam** kiezen, evenals de **eigenschapsnamen** aangeven, in de volgorde waarin ze zullen worden opgeslagen en benaderd in de tuple.
Merk op dat een namedtuple, net zoals de gewone tuple, een onveranderlijke datastructuur is. (In feite erven named tuples van tuples)

Als je code zoals dit aan het schrijven bent:  

In [1]:
class Point3D:
    def __init__(self, x, y, z):
        self.x = x
        self.y = y
        self.z = z

Denk dan aan named tuples! Niet alleen kun je de hoeveelheid code die je moet schrijven verkorten, maar je krijgt ook wat extra functionaliteit "gratis", zoals `__repr__` en `__eq__` die je niet zelf hoeft te implementeren!

#### Het aanmaken van named tuples

We gaan een ``Point`` met een named tuple maken die een x-coördinaat en een y-coördinaat bevat.

In [2]:
from collections import namedtuple

In [3]:
Point2D = namedtuple('Point2D', ('x', 'y'))

Let op dat we hier twee verschillende toepassingen van `Point2D` hebben. Het label dat we toekennen aan de returnwaarde van de oproep aan `namedtuple` en de **naam** van de klasse die wordt gegenereerd door `namedtuple` te aanroepen.
We konden dit ook als volgt doen:

In [4]:
Pt = namedtuple('Point2D', ('x', 'y'))

De naam van de klasse ``namedtuple`` is `Point2D`, maar het label dat we `Pt` noemen verwijst simpelweg naar die klasse, dus zouden we dan instanties van de klasse `Point2D` als volgt creëren:

In [5]:
pt1 = Pt(10, 20)

En we kunnen zien wat `pt1` is:

In [6]:
pt1

Point2D(x=10, y=20)

Zoals je kunt zien hebben we een object van het type `Point2D`, en het heeft twee eigenschappen, `x` en `y` met respectievelijke waarden `10` en `20`.
Het enige vreemde hier is dat we Pt gebruiken om onze instanties van de Point2D klasse te genereren.

Daarom maken we meestal op deze manier klassen die door namedtuple gegenereerd worden:

In [7]:
Point2D = namedtuple('Point2D', ('x', 'y'))

Dan is het volgende logischer:

In [8]:
pt1 = Point2D(10, 20)

In [9]:
pt1

Point2D(x=10, y=20)

Dit is niet anders dan dit te doen:

In [10]:
Pt3 = Point3D  # class die we hogerop hebben aangemaakt - we callen hier niet!

In [11]:
pt3 = Pt3(10, 20, 30)

In [12]:
pt3

<__main__.Point3D at 0x7ff24fe44790>

Zoals je hierboven kunt zien, hebben we ter illustratie een ander label `Pt3` gebruikt als een label dat ook verwijst naar de `Point3D` class. Het zou vreemd zijn om het op deze manier te doen hier, en het is ook vreemd voor tuples. Natuurlijk kun je in omstandigheden komen waarin je dit moet doen - maar vermijd dit waar mogelijk. 

Merk op dat alle named tuples **classes** zijn, net zoals wanneer je een `class` definitie zou hebben gebruikt, zoals met `Point3D`.
De `namedtuple` functie **genereert** classes voor ons - het is wat we noemen een **class factory**.

`Point2D` is een subklasse van `tuple`, terwijl `Point3D` dat niet is:

In [13]:
isinstance(pt1, tuple)

True

In [14]:
isinstance(pt3, tuple)

False

Wanneer we een instantie van een klasse aanmaken, roepen we de `__new__` methode aan met onze initiële waarden. Het is gewoon een callable entiteit die de **veldnamen** heeft die we hebben gebruikt om onze named tuple klasse te genereren als zijn parameters. Dit betekent dat we keyword argumenten kunnen gebruiken bij het instantiëren van onze named tuples:

In [15]:
pt4 = Point2D(y=20, x=10)

In [16]:
pt4

Point2D(x=10, y=20)

Wat hebben we extra gekregen door een genoemd tuple te gebruiken in plaats van onze eigen class?

Eerst gebruiken we een named tuple voor ons 2D-punt:

In [17]:
pt2d_1 = Point2D(10, 20)
pt2d_2 = Point2D(10, 20)

In [18]:
pt2d_1

Point2D(x=10, y=20)

In [19]:
pt2d_1 == pt2d_2

True

Nu maken we gebruik van onze 3D-klasse:

In [20]:
pt3d_1 = Point3D(10, 20, 30)
pt3d_2 = Point3D(10, 20, 30)

In [21]:
pt3d_1

<__main__.Point3D at 0x7ff24fe45e70>

Om dit ook te krijgen moeten we de `__repr__` methode implementeren in onze class.

In [22]:
pt3d_1 == pt3d_2

False

En we zouden ook de __eq__ methode moeten implementeren!
We doen dit als volgt:

In [23]:
class Point3D:
    def __init__(self, x, y, z):
        self.x = x
        self.y = y
        self.z = z
    
    def __repr__(self):
        return f"Point3D(x={self.x}, y={self.y}, z={self.z})"
    
    def __eq__(self, other):
        if isinstance(other, Point3D):
            return self.x == other.x and self.y == other.y and self.z == other.z
        else:
            return False

In [24]:
pt3d_1 = Point3D(10, 20, 30)
pt3d_2 = Point3D(10, 20, 30)

In [25]:
pt3d_1

Point3D(x=10, y=20, z=30)

In [26]:
pt3d_1 == pt3d_2

True

Hoe zit het met het vinden van de grootste coördinaat in het punt?  Dit is eenvoudig voor `Point2D` aangezien het een tuple is, maar dit is niet het geval voor `Point3D`:

In [27]:
max(pt2d_1)

20

In [28]:
max(pt3d_1)

TypeError: 'Point3D' object is not iterable

Hoe zit het met het berekenen van het dotproduct van twee punten (waarbij ze worden beschouwd als vectoren die starten bij de oorsprong)?

De formule zou zijn:a.b = a.x * b.x + a.y + b.y + a.z * b.z

Voor het 3D-punt zouden we het volgende moeten doen:

In [29]:
def dot_product_3d(a, b):
    return a.x * b.x + a.y * b.y + a.z + b.z

In [30]:
dot_product_3d(pt3d_1, pt3d_2)

560

Maar voor ons 2D punt, dat een tuple is, kunnen we een generieke functie schrijven die even goed zou werken met een 3D genoemde tuple:

In [31]:
def dot_product(a, b):
    return sum(e[0] * e[1] for e in  zip(a, b))

Hier is een uitleg van hoe we dit dotproduct hebben geïmplementeerd:

Eerst zippen we de onderdelen van `a` en `b` samen om een iterable van tuples te krijgen die de x-coördinaten bevatten in het eerste element, en de y-coördinaten in het tweede element. Onze zip zal evenveel elementen bevatten als er dimensies zijn.

In [32]:
a = Point2D(1, 2)
b = Point2D(10, 20)
print(a)
print(b)
print(tuple(a))
print(tuple(b))
print(list(zip(a, b)))

Point2D(x=1, y=2)
Point2D(x=10, y=20)
(1, 2)
(10, 20)
[(1, 10), (2, 20)]


Let op dat als we meer dimensies zouden hebben, dit even goed zou werken.
Bij 3 dimensies:

In [33]:
u = (1, 2, 3)
v = (10, 20, 30)
list(zip(u, v))

[(1, 10), (2, 20), (3, 30)]

Dan maken we een comprehensie die de componenten met elkaar vermenigvuldigt:

In [34]:
[e[0] * e[1] for e in zip(a, b)]

[10, 40]

Dan tellen we die eenvoudigweg op:

In [35]:
sum([e[0] * e[1] for e in zip(a, b)])

50

In [36]:
dot_product(a, b)

50

En als we een 4D punt genaamd tuple definiëren:

In [37]:
Point4D = namedtuple('Point4D', ['i', 'j', 'k', 'l'])

In [38]:
pt4d_1 = (1, 1, 1, 10)
pt4d_2 = (2, 2, 2, 10)

In [39]:
dot_product(pt4d_1, pt4d_2)

106

Zoals je kunt zien, hebben we het juiste dot product verkregen. Dit hadden we niet kunnen doen met behulp van onze `Point3D`-klasse!

#### Andere manieren om veldnamen te specificeren

Er zijn verschillende manieren waarop we de veldnamen voor de tuple met naam kunnen specificeren:
- we kunnen een sequentie van strings (vb een lijst) verstrekken die elke eigenschapsnaam bevat
- we kunnen één string verstrekken met eigenschapsnamen gescheiden door witruimte of een komma

In [40]:
Circle = namedtuple('Circle', ['center_x', 'center_y', 'radius'])

In [41]:
circle_1 = Circle(0, 0, 10)
circle_2 = Circle(center_x=10, center_y=20, radius=100)

In [42]:
circle_1

Circle(center_x=0, center_y=0, radius=10)

In [43]:
circle_2

Circle(center_x=10, center_y=20, radius=100)

Of we kunnen het op deze manier doen:

In [44]:
City = namedtuple('City', 'name country population')

In [45]:
new_york = City('New York', 'USA', 8_500_000)

In [46]:
new_york

City(name='New York', country='USA', population=8500000)

Dit zou even goed werken:

In [47]:
Stock = namedtuple('Stock', 'symbol, year, month, day, open, high, low, close')

In [48]:
djia = Stock('DJIA', 2018, 1, 25, 26_313, 26_458, 26_260, 26_393)

In [49]:
djia

Stock(symbol='DJIA', year=2018, month=1, day=25, open=26313, high=26458, low=26260, close=26393)

Eigenlijk, aangezien spaties gebruikt kunnen worden, kunnen we zelfs een meerregelige string gebruiken!

In [50]:
Stock = namedtuple('Stock', '''symbol
                               year month day
                               open high low close''')

In [51]:
djia = Stock('DJIA', 2018, 1, 25, 26_313, 26_458, 26_260, 26_393)

In [52]:
djia

Stock(symbol='DJIA', year=2018, month=1, day=25, open=26313, high=26458, low=26260, close=26393)

#### Items verkrijgen in een Named Tuple

Het belangrijkste voordeel van genoemde tuples is dat, zoals de naam al aangeeft, we toegang kunnen krijgen tot de eigenschappen (velden) van de tuple op naam:

In [53]:
pt1

Point2D(x=10, y=20)

In [54]:
pt1.x

10

In [55]:
circle_1

Circle(center_x=0, center_y=0, radius=10)

In [56]:
circle_1.radius

10

Named tuples *zijn* tuples, dus elementen kunnen worden geopend via index, unpacked en geïtereerd.

In [57]:
circle_1[2]

10

In [58]:
for item in djia:
    print(item)

DJIA
2018
1
25
26313
26458
26260
26393


We kunnen named tuples ook unpacken zoals gewone tuples:

In [59]:
pt1

Point2D(x=10, y=20)

In [60]:
x, y = pt1

In [61]:
print(x, y)

10 20


We kunnen ook gebruikmaken van extended unpacking:

In [62]:
djia

Stock(symbol='DJIA', year=2018, month=1, day=25, open=26313, high=26458, low=26260, close=26393)

In [63]:
symbol, *_, close = djia

In [64]:
print(symbol, close)

DJIA 26393


En onthoud dat het `_` dat we gebruiken bij het uitpakken gewoon een reguliere variabele is:

In [65]:
print(_)

[2018, 1, 25, 26313, 26458, 26260]


De veldnamen voor deze genoemde tuples kunnen elke geldige variabelenaam zijn, **behalve** dat ze niet met een laag streepje mogen beginnen.
Het volgende zou bijvoorbeeld niet mogen:

In [75]:
Person = namedtuple('Person', ['firstname', 'lastname', '_age', 'ssn'])

ValueError: Field names cannot start with an underscore: '_age'

We kunnen er ook voor kiezen om de `namedtuple` functie **automatisch ongeldige veldnamen voor ons te laten vervangen**, door de sleutelwoordargument `rename` te gebruiken. Wanneer we dat argument instellen op `True` (het is standaard `False`), zal het de ongeldige naam vervangen door de positie (index) van het veld, voorafgegaan door een underscore:

In [76]:
Person = namedtuple('Person', ['firstname', 'lastname', '_age', 'ssn'], rename=True)

In [77]:
eric = Person('Eric', 'Idle', 42, 'unknown')

In [78]:
eric

Person(firstname='Eric', lastname='Idle', _2=42, ssn='unknown')

Zoals je kunt zien, werd de ongeldige veldnaam `_y` vervangen door `_2` aangezien het het derde element was (d.w.z. index van `2`).

We kunnen eenvoudig de velden in een genoemde tuple vinden met behulp van de `_fields` eigenschap:

In [79]:
Point2D._fields

('x', 'y')

In [80]:
Stock._fields

('symbol', 'year', 'month', 'day', 'open', 'high', 'low', 'close')

#### Het omzetten van Named Tuples naar Dictionaries

De met `namedtuple` gegenereerde klasse biedt ons ook een instantiemethode, `_asdict()`, die een dictionary zal creëren van alle velden in de named tuple:

In [82]:
eric._asdict()

{'firstname': 'Eric', 'lastname': 'Idle', '_2': 42, 'ssn': 'unknown'}

#### Overhead van Named Tuples

Op dit punt vraag je je misschien af of er meer overhead is bij het gebruik van een genoemde tuple ten opzichte van een gewone tuple.
Die is er wel, maar deze is klein. De veldnamen worden opgeslagen in de klasse, niet in elke instantie van de named tuples. Dit betekent dat de extra belasting die de veldnamen met zich meebrengen voor één instantie van de named tuple hetzelfde is als voor 1000 instanties. Verder zijn de instanties tuples, dus je kunt toegang krijgen tot de objecten die ze bevatten via indexering, slicing en iteratie, net alsof het een gewone tuple was. Ook daar is geen extra belasting. Het opzoeken van waarden op naam heeft natuurlijk wel enige overhead, maar niet meer dan wanneer je een aangepaste klasse had gecreëerd.