In [22]:
HTML(f'<img src="data:image/png;base64,{encoded_string}" />')

### Veelvoorkomende Set-operaties

Er zijn bepaalde wiskundige concepten en operaties verbonden aan wiskundige verzamelingen. Python implementeert gelijkaardige concepten en operatoren voor sets.

We kunnen kijken of twee sets geen gemeenschappelijke elementen hebben:

In [3]:
s1 = {'a', 'b', 'c'}
s2 = {True, False}
s3 = {'a', 100, 200}

In [4]:
s1.isdisjoint(s2)

True

In [5]:
s1.isdisjoint(s3)

False

We kunnen een element toevoegen aan een set door gebruik te maken van de `add()` methode:

In [6]:
s = set()  # lege set

In [7]:
s.add(100)

In [8]:
s.add(200)

In [9]:
s

{100, 200}

Houd in gedachten dat set elementen uniek zijn, dus als we een element proberen toe te voegen dat al in een set zit, gebeurt er niets:

In [10]:
s

{100, 200}

In [11]:
s.add(100)

In [12]:
s

{100, 200}

We kunnen ook een element uit een set verwijderen, door de `remove()` of `discard()` methodes te gebruiken.

Het belangrijkste verschil tussen de twee methoden is dat `remove()` een `KeyError`-exception zal genereren als het item dat we proberen te verwijderen niet aanwezig is in de verzameling. Aan de andere kant zal `discard()` dat niet doen (en als het element niet bestaat, muteert het de set helemaal niet).

Merk op dat beide operaties de set (mogelijk) zullen muteren - en geen nieuwe set zullen maken en retourneren.

In [13]:
s = set('abc')

In [14]:
s

{'a', 'b', 'c'}

In [15]:
s.remove('a')

In [16]:
s

{'b', 'c'}

In [17]:
s.discard('x')

In [18]:
s

{'b', 'c'}

In [17]:
s.remove('x')

KeyError: 'x'

Wiskundige verzamelingen hebben beijvoorbeeld het concept van deelverzamelingen.

Voor dat kunnen de `<`, `<=`, `>` en `>=` operatoren worden gebruikt.

In [18]:
s1 = set('abc')
s2 = set('abcd')

In [19]:
s1

{'a', 'b', 'c'}

In [20]:
s2

{'a', 'b', 'c', 'd'}

In [21]:
s1 <= s2

True

In [22]:
s1 < s2

True

In [23]:
s2 >= s1

True

In [24]:
s2 > s1

True

In [25]:
s1 = set('abc')
s2 = set('abc')

Deze twee sets zijn gelijk, dus beide vergelijkingen zullen `True` zijn:

In [26]:
s1 <= s2

True

In [27]:
s2 >= s1

True

Echter, dit retourneert false:

In [19]:
s1 < s2

False

In [20]:
s2 > s1

False

We hebben ook wiskundige bewerkingen zoals vereniging (union) en doorsnede (intersection) voor verzamelingen. Python heeft hetzelfde, door gebruik te maken van de operatoren:
- union: `|` 
- intersection: '&'

We kunnen op deze manier naar deze operatoren kijken: `|` wordt vaak gebruikt om `or` te vertegenwoordigen (in talen zoals C of Java), terwijl `&` wordt gebruikt voor `and`.

Wanneer we naar de unie van twee verzamelingen kijken, creëren we een nieuwe set die elementen bevat die in verzameling 1 **of** verzameling 2 zitten.

Wanneer we kijken naar de doorsnede van twee verzamelingen, creëren we een nieuwe set die elementen bevat die in set 1 **en** set 2 zitten.

Laten we eens kijken naar enkele eenvoudige voorbeelden:

In [30]:
s1 = set('abc')
s2 = set('bcd')

In [31]:
s1

{'a', 'b', 'c'}

In [32]:
s2

{'b', 'c', 'd'}

In [33]:
s1 | s2

{'a', 'b', 'c', 'd'}

Merk op hoe elementen die gemeenschappelijk waren voor beide verzamelingen *niet* herhaald worden (verzamelelementen zijn uniek).

In [34]:
s1 & s2

{'b', 'c'}

Zoals je kunt zien, bevat de resulterende set alleen elementen die gemeenschappelijk waren aan beide sets (de intersectie).

Deze sets en set-operaties kunnen op verschillende manieren erg handig zijn, zoals we zullen zien gedurende de cursus.

Stel dat we twee strings hebben en we willen alle karakters vinden die aanwezig zijn in beide strings.

In [35]:
str_1 = 'python is an awesome language!'
str_2 = 'a python is also a snake.'

In [36]:
set_1 = set(str_1)
set_2 = set(str_2)

In [37]:
set_1

{' ',
 '!',
 'a',
 'e',
 'g',
 'h',
 'i',
 'l',
 'm',
 'n',
 'o',
 'p',
 's',
 't',
 'u',
 'w',
 'y'}

In [38]:
set_2

{' ', '.', 'a', 'e', 'h', 'i', 'k', 'l', 'n', 'o', 'p', 's', 't', 'y'}

Om de elementen die gemeenschappelijk zijn voor beide te vinden, hebben we enkel de doorsnede nodig:

In [39]:
set_1 & set_2

{' ', 'a', 'e', 'h', 'i', 'l', 'n', 'o', 'p', 's', 't', 'y'}

Een ander voorbeeld zou kunnen zijn waar we twee of meer sets hebben die een aantal aandelensymbolen bevatten die verschillende systemen bijhouden, en we willen een lijst samenstellen van al deze aandelensymbolen.

In [40]:
s1 = {'FB', 'AMZN', 'AAPL', 'NFLX', 'GOOG', 'MSFT'}
s2 = {'BABA', 'WMT', 'COST'}
s3 = {'TSLA', 'F', 'GM'}

Om een samengevoegde lijst te krijgen, zouden we dit kunnen doen:

In [41]:
consolidated = s1 | s2 | s3

In [42]:
consolidated

{'AAPL',
 'AMZN',
 'BABA',
 'COST',
 'F',
 'FB',
 'GM',
 'GOOG',
 'MSFT',
 'NFLX',
 'TSLA',
 'WMT'}

Om deze set daadwerkelijk om te zetten naar een lijst, kunnen we eenvoudig de `list()` functie gebruiken:

In [43]:
symbols = list(s1 | s2 | s3)

In [44]:
symbols

['AMZN',
 'BABA',
 'COST',
 'F',
 'FB',
 'AAPL',
 'NFLX',
 'TSLA',
 'GOOG',
 'MSFT',
 'GM',
 'WMT']

Een andere veelvoorkomende bewerking zou kunnen zijn om "een" set van een andere af te trekken.

Bijvoorbeeld, stel dat we een lijst hebben die alle widgets bevat die op een bepaalde site zijn verkocht, en een lijst die alle widgets bevat die zijn geretourneerd.

In [45]:
sold = {'w1', 'w2', 'w3', 'w4'}
returned = {'w1'}        

We willen weten welke widgets die verkocht zijn geen retouren hadden:

In [46]:
not_returned = sold - returned

In [47]:
not_returned

{'w2', 'w3', 'w4'}

Een andere mogelijke toepassing hiervoor zou kunnen zijn om te bepalen welke karakters in één string niet aanwezig zijn in een andere string:

In [48]:
alphabet = set('abcdefghijklmnopqrstuvwxyz')

Het schrijven van het bovenstaande was een beetje vervelend, dus we kunnen enkele van Python's ingebouwde functies hiervoor gebruiken:

In [49]:
import string

In [50]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [51]:
string.ascii_uppercase

'ABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [52]:
string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [53]:
alphabet = set(string.ascii_letters)

Nu stel dat we deze zin hebben:

In [54]:
text = 'The quick brown fox jumps over the lazy dog'

En we willen weten welke alfabetletters niet gebruikt werden in die string:

In [55]:
set(string.ascii_letters) - set(text)

{'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z'}

Een probleem hier is dat kleine letters en hoofdletters niet hetzelfde zijn - we willen dit p een niet-hoofdlettergevoelige manier doen.

In [56]:
text

'The quick brown fox jumps over the lazy dog'

Dus we kunnen gebruikmaken van 'case folding' om dit niet-hoofdlettergevoelig te maken:

In [57]:
set(string.ascii_letters.casefold()) - set(text.casefold())

set()

Interessant genoeg heeft deze zin alle letters van het Nederlandse alfabet :-)

Laten we het proberen met een andere string die niet alle letters van het alfabet bevat:

In [58]:
text = 'aBcDeFgHiJkKlLmMnNoOpPqQrRsStTuUvVwW'

In [59]:
set(string.ascii_letters.casefold()) - set(text.casefold())

{'x', 'y', 'z'}