# More on Lists

## Data

- string
- integer / float
- list

2D arrays zijn *lijsten van lijsten*, `LoL`'s

### Lists

Lists zijn containers, ze bevatten *verwijzingen* naar data

In [None]:
my_list = [5, 42, "hi"]

![List references](images/7/list_references.png)

### Indentiteit

In [2]:
help(id)

Help on built-in function id in module builtins:

id(obj, /)
    Return the identity of an object.

    This is guaranteed to be unique among simultaneously existing objects.
    (CPython uses the object's memory address.)



Het geheugenadres van `my_list`

In [None]:
id(my_list)

127961443272576

De geheugenadressen van de elementen van `L`

In [None]:
id(my_list[0])  # 5

11754024

In [None]:
id(my_list[1])  # 42

11755208

In [None]:
id(my_list[2])  # "hi"

11797416

### Waarde en identiteit

In [7]:
a = "Astronaut wordt snel oud tijdens een reis naar Mars"
b = "Astronaut wordt snel oud tijdens een reis naar Mars"

In [8]:
a == b

True

In [9]:
a is b

False

In [10]:
id(a)

127961442838224

In [11]:
id(b)

127961442838416

### Verwijzingen

*by reference*

Lists bevatten verwijzingen naar *geheugenadressen*, niet de waarden zelf!

*by value*

Getallen en strings verwijzen naar de *waarde*

### Mutabiliteit

*mutable* (veranderlijk)

Lists kunnen worden aangepast

*immutable* (onveranderlijk)

Getallen en strings kunnen *niet* worden aangepast

### Mutable

Lists

In [None]:
my_list = [11, 21]
id(my_list)

127961443192448

In [None]:
my_list[0] = 42
id(my_list)

127961443192448

In [None]:
my_list

[42, 21]

### Immutable

Strings en getallen

In [None]:
string = "hallo "
id(string)

127961441252384

In [None]:
string += "wereld"
id(string)

127961441456816

In [None]:
number = 10
id(number)

11754184

In [None]:
number += 1
id(number)

11754216

### Functies?

*by copy*

Functies ontvangen parameters als *kopie*

In [19]:
def fav(x):
    print("fav VOOR: x is", id(x), "en heeft de waarde x", x)
    x = "Pizza quattro formaggi"
    print("fav NA: x is", id(x), "en heeft de waarde x", x)
    
def main():
    y = "Pizza salami ananas"  # bah
    print("main VOOR: y is", id(y), "en heeft de waarde", y)
    fav(y)
    print("main NA: y is", id(y), "en heeft de waarde", y)

In [20]:
main()

main VOOR: y is 127961441491632 en heeft de waarde Pizza salami ananas
fav VOOR: x is 127961441491632 en heeft de waarde x Pizza salami ananas
fav NA: x is 127961441494320 en heeft de waarde x Pizza quattro formaggi
main NA: y is 127961441491632 en heeft de waarde Pizza salami ananas


## Shallow versus deep copy

De ene kopie is de andere niet!

### Shallow copy

> Assignment statements in Python do not copy objects, they create bindings between a target and an object.
>
> [https://docs.python.org/3/library/copy.html](https://docs.python.org/3/library/copy.html)

Wat *create bindings* hier betekent laten we in het midden, duidelijk is dat geen kopie wordt gecreëerd maar iets van een verwijzing die later eenvoudig te verbreken valt.

In [21]:
x = "regen"
y = x

In [22]:
x is y

True

In [23]:
y = "zonneschijn"

In [24]:
x is y

False

In [25]:
print("Na", x, "komt", y)

Na regen komt zonneschijn


### Lists en shallow copy

In [None]:
my_list = [5, 42, "hi"]

In [None]:
your_list = my_list

In [None]:
your_list[0] = 60

In [None]:
your_list[0]

60

In [None]:
my_list[0]

60

Lists zijn mutable en de shadow copy `M` verwijst nog steeds naar `L` en een aanpassing van `M` zal niet leiden tot een nieuwe list (zoals je wel zag gebeuren bij strings en integers).

### Deep copy

Deep copy is alleen relevant voor containertypes als lists!

> A deep copy constructs a new compound object and then, recursively, inserts copies into it of the objects found in the original.
>
> [https://docs.python.org/3/library/copy.html](https://docs.python.org/3/library/copy.html)

Een *deep copy* creëert een nieuwe container, eventuele wijzigingen zijn vervolgens alleen van toepassing op de kopie, niet het origineel.

In [31]:
from copy import deepcopy

In [None]:
my_list = [5, 42, "hi"]

In [None]:
your_list = deepcopy(my_list)

In [None]:
your_list is my_list

False

In [None]:
your_list[0] = 60

Wat is de waarde van `L[0]`?

In [None]:
my_list[0]

5

In [37]:
from copy import deepcopy

In [None]:
my_list = [5, 42, "hi"]

In [None]:
your_list = deepcopy(my_list)

In [None]:
your_list is my_list

False

In [None]:
your_list[0] = 60

Wat is de waarde van `my_list[0]`?

In [None]:
my_list[0]

5

### Slicing is ook diep!

In [None]:
my_list = [5, 42, "hi"]

In [None]:
your_list = my_list[:]

In [None]:
your_list[0] = 60

In [None]:
my_list[0]

5

## Quiz

### Vraag 1

In [47]:
def conform1(fav):
    fav = 42
    return fav

def main1():
    fav = 7
    conform1(fav)
    print(fav)

Wat wordt geprint voor `fav` in de functie `main1`?

### Antwoord

In [48]:
main1()

7


### Vraag 2

In [None]:
def conform2(lst):
    lst = [42, 42]
    return lst

def main2():
    lst = [7, 11]
    conform2(lst)
    print(lst)

Wat wordt geprint voor `lst` in de functie `main2`?

### Antwoord

In [50]:
main2()

[7, 11]


### Vraag 3

In [None]:
def conform3(lst):
    lst[0] = 42
    lst[1] = 42
    
def main3():
    lst = [7, 11]
    conform3(lst)
    print(lst)

Wat wordt geprint voor `lst` in de functie `main3`?

### Antwoord

In [52]:
main3()

[42, 42]


## Dictionaries

Dictionaries zijn *willekeurige* containers

```python
d = {47: 2, 42: 1}
```

Elementen (of waarden) worden opgehaald met een *sleutel* op een *willekeurige* positie

```python
d[47] == 2
d[42] == 1
```

Goed nieuws, sleutels kunnen ook andere typen dan `int` zijn!

![Van Dale](images/7/van_dale_woordenboek.png)

### Een bekende structuur

- woord ⟶ verklaring
- naam ⟶ telefoonnummer
- afkorting ⟶ betekenis
- dier ⟶ jaren Chinese dierenriem

![Chinese dierenriem](images/7/chinese_dierenriem.png)

### Dictionaries zijn `in`

In [None]:
zodiac_years = {
    "rabbit": [1999, 1987, 1975],
    "ox": [1997, 1985, 1973],
    "dragon": [2000, 1998]
}

De *sleutels* zijn hier strings en de bijbehorende *waarden* zijn lists. Dit voorbeeld gaat over de jaren per dier in de Chinese dierenriem, zie het Wikipedia [artikel](https://en.wikipedia.org/wiki/Chinese_zodiac) voor alle dieren en jaren!

Is `"dragon"` een sleutel in `zodiac_years`?

In [None]:
"dragon" in zodiac_years

True

Is `1969` een waarde in `zodiac_years["dragon"]`?

In [None]:
1969 in zodiac_years["dragon"]

False

## Woorden tellen

In [None]:
list_of_words = ["spam", "spam", "taart", "spam"]

In [None]:
word_count = {}

In [None]:
for word in list_of_words:
    if word not in word_count:
        word_count[word] = 1
    else:
        word_count[word] += 1

In [None]:
word_count

{'spam': 3, 'taart': 1}

## Model genereren


Gegegeven de volgende text: 


In [60]:
text = "Ik wil taarten en 42 en spam. Ik krijg toch spam en taarten voor de vakantie? Ik wil 42 taarten!"

In [None]:
list_of_words = text.split()
word_count = {}

for word in list_of_words:
    if word not in word_count:
        word_count[word] = 1
    else:
        word_count[word] += 1
        
print(f"There are {len(word_count)} DISTINCT words")  # expressions in f-strings!

word_count

There are 13 DISTINCT words


{'Ik': 3,
 'wil': 2,
 'taarten': 2,
 'en': 3,
 '42': 2,
 'spam.': 1,
 'krijg': 1,
 'toch': 1,
 'spam': 1,
 'voor': 1,
 'de': 1,
 'vakantie?': 1,
 'taarten!': 1}

Met een paar aanpassingen van het programma dat worden telt, is het mogelijk om een eenvoudige taalgenerator te maken.

In plaats van het tellen van woorden zal worden gekeken welk woord na een voorgaand woord wordt gebruikt.

In [62]:
%run assets/markov.py

In [None]:
words_follow = create_dictionary(text)

In [None]:
words_follow

{'$': ['Ik', 'Ik', 'Ik'],
 'Ik': ['wil', 'krijg', 'wil'],
 'wil': ['taarten', '42'],
 'taarten': ['en', 'voor'],
 'en': ['42', 'spam.', 'taarten'],
 '42': ['en', 'taarten!'],
 'krijg': ['toch'],
 'toch': ['spam'],
 'spam': ['en'],
 'voor': ['de'],
 'de': ['vakantie?']}

Het stappenplan voor het maken van een taalmodel is als volgt:

1. begin met het vorige woord `previous_word` als "$"

2. voor elk volgend woord in de lijst van woorden voeg het toe aan ...

3. maak `previous_word` gelijk aan `new_word`

   - behalve als `new_word[-1]` punctuatie is, maak `previous_word` dan gelijk aan ...

## Tekst genereren

Een $ staat voor het begin van een zin. Dit model heeft voor elk woord een lijst van woorden waar uit gekozen kan worden. Als we dit random doen, wordt er een random tekst genereerd.

In [None]:
generate_text(words_follow, 42)

'Ik krijg toch spam en taarten voor de vakantie? Ik wil taarten en spam. Ik wil taarten voor de vakantie? Ik krijg toch spam en 42 en 42 taarten! Ik wil 42 taarten! Ik wil taarten voor de vakantie? Ik wil 42 '

Als we een veel grotere tekst gebruiken om onze database mee te vullen, kunnen we betere teksten generen. 

Het stappenplan voor het genereren van tekst is als volgt:

1. begin met `previous_word` als de "$" string

2. kies random een `new_word` dat volgt op `previous_word` en voeg het toe aan ...

3. maak `previous_word` gelijk aan `new_word`

   - behalve als `new_word[-1]` punctuatie is, maak dan `previous_word` gelijk aan ...