![alt text](../../pythonexposed-high-resolution-logo-black.jpg "Optionele titel")

### Tupels als Datastructuren

Tuples zijn een onveranderlijk container type.

Ze bevatten een verzameling objecten. De tuple is een sequentieel type - dit betekent dat de **volgorde** belangrijk is (en behouden blijft) en dat elementen toegankelijk zijn via index (nul-gebaseerd), slicing of iteratie.

Andere gangbare sequentie types in Python zijn lijsten en strings. Strings, net als tuples, zijn onveranderlijk, terwijl lijsten veranderlijk zijn.

Tuples worden soms voorgesteld als onveranderlijke lijsten, maar in feite kunnen ze beter vergeleken worden met strings, met één groot verschil: strings zijn homogene sequenties, terwijl tuples heterogeen kunnen zijn.

Een tupel-literal wordt vaak gepresenteerd als:

In [1]:
('a', 10, True)

('a', 10, True)

Maar de haakjes geven niet aan dat het om een tuple gaat - dat doen de komma's:

In [2]:
a = ('a', 10, True)
b = 'b', 20, False

In [3]:
type(a)

tuple

In [4]:
type(b)

tuple

Soms zijn echter de haakjes *verplicht* om eventuele ambiguïteit te verwijderen.
Bijvoorbeeld, neem deze functie die een tuple (of ander iterabel object) als argument verwacht:

In [5]:
def iterate(t):
    for element in t:
        print(element)

Als we de functie op deze manier aanroepen, zal Python dit interpreteren als drie argumenten:

In [6]:
iterate(1, 2, 3)

TypeError: iterate() takes 1 positional argument but 3 were given

In plaats daarvan moeten we nu de haakjes gebruiken:

In [7]:
iterate((1, 2, 3))

1
2
3


Aangezien tuples sequentietypen zijn, kunnen we items benaderen op index:

In [8]:
a = 'a', 10, True

In [9]:
a[2]

True

Of we kunnen ze zelfs slicen:

In [10]:
a = 1, 2, 3, 4, 5
a[2:4]

(3, 4)

We kunnen erover itereren:

In [11]:
a = 1, 2, 3, 4, 5
for element in a:
    print(element)

1
2
3
4
5


We kunnen ook gebruikmaken van 'unpacking':

In [12]:
point = 10, 20, 30

In [13]:
x, y, z = point

In [14]:
print(x)
print(y)
print(z)

10
20
30


We kunnen 'tuples uitbreiden', maar net zoals bij strings, maken we eigenlijk gewoon een nieuwe tuple:

In [17]:
a = 1, 2, 3

In [18]:
id(a)

2726988303960

In [19]:
a = a + (4, 5, 6)

In [20]:
a

(1, 2, 3, 4, 5, 6)

In [21]:
id(a)

2726964089000

Zoals je kunt zien hebben we niet langer hetzelfde geheugenadres voor `a`.

#### Tupels als datastructuren

We kunnen tuples interpreteren als lichtgewicht gegevensstructuren waarbij, bij conventie, de positie van het element in de tuple betekenis heeft.  We zouden een punt in een vlak kunnen representeren door zijn coördinaten via een tuple:

In [6]:
pt1 = (0, 0)
pt2 = (10, 10)

Hier beslissen we eenvoudigweg dat de eerste positie van het tuple de x-coördinaat vertegenwoordigt, terwijl het tweede element de y-coördinaat van een punt in 2D-ruimte vertegenwoordigt.

We zouden ook kunnen beslissen dat we een stad gaan voorstellen met een tuple, waarbij de eerste positie de stadnaam zal zijn, de tweede positie het land, en de derde positie de bevolking:

In [8]:
london = 'London', 'UK', 8_780_000
new_york = 'New York', 'USA', 8_500_000
beijing = 'Beijing', 'China', 21_000_000

We kunnen zelfs een lijst van deze tuples hebben:

In [9]:
cities = london, new_york, beijing

We kunnen een lijst van alle steden in de lijst verkrijgen met behulp van een eenvoudige list comprehension en het feit dat de naam van de stad het eerste element (index 0) van elke tuple is:

In [10]:
city_names = [t[0] for t in cities]
print(city_names)

['London', 'New York', 'Beijing']


We zouden zelfs de totale bevolking van al deze steden kunnen berekenen.
We kunnen dit met een simpele loop:

In [11]:
total = 0
for city in cities:
    total += city[2]
print (f'total={total}')

total=38280000


De reden dat dit werkte, is omdat de `cities`-lijst **alleen** stadtuples bevatte. De lijst was homogeen. De tuples daarentegen zijn heterogeen.  

Dit is vaak een belangrijk verschil tussen lijsten en tuples, vooral wanneer we tuples als datastructuren beschouwen. Tuples zijn heterogeen, terwijl de lijst homogeen moet zijn zodat we dezelfde berekeningen op elk element van de lijst kunnen toepassen.

Het bovenstaande voorbeeld zou niet werken als een van de elementen in de lijst cities bijvoorbeeld een geheel getal was.

Terug naar ons voorbeeld waarbij we de totale bevolking berekenen. Er is een meer Pythonic manier om dit te doen - we gebruiken een comprehension om de populatie van elke city te verkrijgen:

In [12]:
[city[2] for city in cities]

[8780000, 8500000, 21000000]

Vervolgens tellen we eenvoudigweg de bevolkingswaarden op:

In [13]:
sum([city[2] for city in cities])

38280000

In feite hebben we zelfs de vierkante haken niet nodig in de som:

In [14]:
sum(city[2] for city in cities)

38280000

Nu kunnen we, aangezien tuples sequentietypen zijn en dus iterabel, ook unpacking gebruiken om waarden uit de tuple te halen:

In [36]:
city, country, population = new_york

In [37]:
print(city)
print(country)
print(population)

New York
USA
8500000


We kunnen ook gebruik maken van extended unpacking:

In [17]:
record = 'DJIA', 2018, 1, 19, 25_987, 26_072, 25_942, 26_072

Waarbij de structuur is: symbool, jaar, maand, dag, open, hoog, laag, sluit.

We kunnen dit record uitpakken met rechtstreeks uitpakken:

In [18]:
symbol, year, month, day, open_, high, low, close = record

In [19]:
print(symbol)
print(close)

DJIA
26072


Maar stel dat we alleen geïnteresseerd zijn in het symbool, jaar, maand, dag en slotkoers. Dan zouden we uitgebreid uitpakken als volgt kunnen gebruiken:

In [41]:
symbol, year, month, day, *others, close = record

In [42]:
print(symbol, year, month, day, close)

DJIA 2018 1 19 26072


In [43]:
print(others)

[25987, 26072, 25942]


Een conventie die vaak wordt gebruikt in Python wanneer we niet bijzonder geïnteresseerd zijn in iets, is om een liggend streepje te gebruiken als variabelenaam:

In [44]:
symbol, year, month, day, *_, close = record

Er is niets bijzonders aan het underscore-teken hier, het is gewoon een geldige variabelenaam (in een interactieve Python-sessie wordt het underscore-teken eigenlijk gebruikt om de resultaten van de laatste berekening op te slaan)

In [45]:
print(_)

[25987, 26072, 25942]


Schrijf geen code zoals deze om de unpacking te doen die we zojuist hebben gedaan:

In [46]:
symbol, year, close = record[0], record[1], record[7]

Hoewel dit werkt, is het niet erg leesbare code: je maakt een nieuwe tuple aan de rechterkant en pakt deze vervolgens uit in de variabelen aan de linkerzijde. Het is veel beter om dit te doen:

In [20]:
symbol, year, *_, close = record

Indien je slechts een paar elementen uit de tuple hoeft te kiezen (zoals in ons voorbeeld waar we enkel de bevolking wilden om op te tellen), dan kun je het gerust direct benaderen door gebruik te maken van de index.

Maar wist je dat je ook tuples direct kunt uitpakken in de loop?

In [48]:
for element in cities:
    print(element)

('London', 'UK', 8780000)
('New York', 'USA', 8500000)
('Beijing', 'China', 21000000)


Zoals je kunt zien, is elk element een tuple, en we kunnen het eigenlijk tegelijk uitpakken tijdens de loop op deze manier:

In [49]:
for city, country, population in cities:
    print(f'city={city}, population={population}')

city=London, population=8780000
city=New York, population=8500000
city=Beijing, population=21000000


Dit is trouwens hoe we de `enumerate` functie kunnen gebruiken in Python. De enumerate functie produceert een iteratie-object vanuit een ander iteratie-object maar bevat het indexnummer. Waarden worden geretourneerd als tuples, waarbij de eerste positie de indexwaarde is, en de tweede positie de waarde. Dus die tuple kan als volgt worden uitgepakt:

In [21]:
for index, value in enumerate(beijing):
    print(f'{index}: {value}')

0: Beijing
1: China
2: 21000000


Natuurlijk, aangezien we in dit geval geen interesse hebben in het land, kunnen we het ook op deze manier schrijven:

In [51]:
for city, _, population in cities:
    print(f'city={city}, population={population}')

city=London, population=8780000
city=New York, population=8500000
city=Beijing, population=21000000


Een andere veelvoorkomende toepassing van het gebruik van tuples als datastructuren is voor het retourneren van meerdere waarden uit een functie.  Hieronder vind je een Monte Carlo simulatie om een benadering van pi (π) te berekenen. De reden waarom deze specifieke code een benadering van pi geeft, is gebaseerd op de verhouding van de oppervlakte van een cirkel tot de oppervlakte van een omschreven vierkant waarbinnen de cirkel past.

In [22]:
from random import uniform   # samples uit een uniforme distributie
from math import sqrt

def random_shot(radius):
    '''Genereert een willekeurige 2D-coördinaat binnen de grenzen 
    [-radius, radius] * [-radius, radius] 
    (een vierkant met een oppervlakte van 4) 
    en bepaalt ook of het binnen een cirkel valt die gecentreerd is 
    op de oorsprong met een gespecificeerde straal.
    '''
    
    random_x = uniform(-radius, radius)
    random_y = uniform(-radius, radius)

    if sqrt(random_x ** 2 + random_y ** 2) <= radius:
        is_in_circle = True
    else:
        is_in_circle = False
    
    return random_x, random_y, is_in_circle

In [23]:
num_attempts = 1_000_000
count_inside = 0
for i in range(num_attempts):
    *_, is_in_circle = random_shot(1)
    if is_in_circle:
        count_inside += 1

print(f'Pi is approximately: {4 * count_inside / num_attempts}')

Pi is approximately: 3.140908


Uitleg van de Methode:  

Definitie van het gebied:
De code genereert willekeurige punten binnen een vierkant met zijden van -1 tot 1  
(dus een zijde van 2 en een oppervlakte van 2×2=4).  
Binnen dit vierkant bevindt zich een cirkel met een straal van 1, gecentreerd op de oorsprong (0,0).

Oppervlakte van de cirkel:
De oppervlakte van de cirkel kan wiskundig worden berekend als 
π×r², waarbij r de straal van de cirkel is. In dit geval is de straal 1, dus de oppervlakte van de cirkel is π.

Verhouding van de oppervlaktes:
Het vierkant dat het kader vormt voor de simulatie heeft een oppervlakte van 4. De verhouding van de oppervlakte van de cirkel tot de oppervlakte van het vierkant is dus 𝜋 / 4.

Monte Carlo Simulatie:
Door willekeurige punten binnen dit vierkant te genereren, meet de code hoeveel van deze punten binnen de cirkel vallen. De verhouding van het aantal punten binnen de cirkel tot het totale aantal gegenereerde punten moet dicht bij de verhouding van de oppervlaktes liggen, ofwel 𝜋 / 4

Berekening van Pi:
Als je deze verhouding van binnen-de-cirkel punten vermenigvuldigt met 4 (de oppervlakte van het vierkant), krijg je een benadering van pi.