<a href="https://colab.research.google.com/github/BaseKan/optimisation_workshop/blob/main/generators_iterators.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Setup

In [None]:
import os
import sys

In [None]:
!pip install memory_profiler

In [None]:
import memory_profiler
import time

def time_mem_decorator(func):                                                                                            
    def out(*args, **kwargs):                                                                                            
        m1 = memory_profiler.memory_usage()
        t1 = time.time()
        
        result = func(*args, **kwargs)
        
        t2 = time.time()
        m2 = memory_profiler.memory_usage()
        time_diff = t2 - t1
        mem_diff = m2[0] - m1[0]
        print(f"It took {time_diff} Secs and {mem_diff} Mb to execute this function.")
        return(result)
    return out  


We definieren nu ook een functie om over een object te itereren. Dit kan alleen als het object een iterable is. Dit houdt in dat je het object kan gebruiken als een iterator. Dit kan bijvoorbeeld met een lijst of dictionary. Er volgt eerst een voorbeeld.

In [None]:
iterable = [1, 2, 3, 4, 5]
# Maak van de lijst een iterator
iterator = iter(iterable)
# Vraag het volgende item op
print(next(iterator))
print(next(iterator))

Als je een for loop gebruikt met een iterable wordt het maken van een iterator en aanroepen van *next* voor je gedaan.

In [None]:
@time_mem_decorator
def iterate(result):
    for r in result:
        print(r)

# Fibbonaci

We kunnen om gebruik te maken van de fibbonaci reeks een lijst vullen met de getallen.

In [None]:
@time_mem_decorator
def fibb_function(max):
    fibb = [0, 1]
    a = 0
    b = 1
    for i in range(max):
        a, b = b, a + b
        fibb.append(b)
    return fibb

In [None]:
fibb_list = fibb_function(5000)

In [None]:
print(iterate(fibb_list))

In [None]:
# Needed to reset the kernel for a good comparison.
os._exit(00)

In [None]:
import memory_profiler
import time

def time_mem_decorator(func):                                                                                            
    def out(*args, **kwargs):                                                                                            
        m1 = memory_profiler.memory_usage()
        t1 = time.time()
        
        result = func(*args, **kwargs)
        
        t2 = time.time()
        m2 = memory_profiler.memory_usage()
        time_diff = t2 - t1
        mem_diff = m2[0] - m1[0]
        print(f"It took {time_diff} Secs and {mem_diff} Mb to execute this function.")
        return(result)
    return out  


In [None]:
@time_mem_decorator
def iterate(result):
    for r in result:
        print(r)

Om het geheuegen gebruik terug te dringen, kunnen we een generator gebruiken. Om van deze functie een generator te maken vervangen we *return* voor *yield*. Het uitvoeren van deze functie geeft nu geen lijst terug, maar een generator object. Dit lijkt erg op een iterable, maar is een stuk flexibeler. Je kan namelijk van vrijwel elke functie een generator maken. 

Als je *next* aanroept met een generator, wordt de functie uitgevoerd tot de volgende *yield* instructie. Er wordt net als bij *return* iets teruggeven en de functie stopt. De status wordt echter onthouden en bij de volgende aanroep van *next* gaat de functie weer verder waar die gebleven was tot de volgende *yield* instructie.

In [None]:
def test_generator():
  yield "1 keer aangeroepen"
  yield "2 keer aangeroepen"

generator = test_generator()
print(next(generator))
print(next(generator))

In [None]:
print(next(generator))

Zoals je ziet begint de generator niet opnieuw als die aan het einde is, maar geeft die een error. Om opnieuw te beginnen moet je hem weer opnieuw aanmaken.

Daarnaast kun je voor iterators en generators geen willekeurige objecten erin opvragen met de index, maar enkel in een vaste volgorde erdoorheen lopen. Ze zijn dus niet voor elk doel geschikt!

In [None]:
@time_mem_decorator
def fibb_generator(max):
    a = 0
    b = 1
    for i in range(max):
        yield b
        a, b = b, a + b
        


In [None]:
my_generator = fibb_generator(5000)

In [None]:
print(next(iter(my_generator)))

In [None]:
my_generator = fibb_generator(5000)

In [None]:
iterate(my_generator)

# CSV bestand uitlezen

Voor deze opdracht gaan we het aantal regels in een csv bestand tellen.

In [None]:
import os
import pandas as pd
import csv
import sys
csv.field_size_limit(sys.maxsize)

Download de csv files

In [None]:
!curl -L -c cookies.txt 'https://docs.google.com/uc?export=download&id=1DhyJdebnB6zwV5Jce1TgTO8PwfNtwn7P' | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1/p' > confirm.txt
!curl -L -b cookies.txt -o 'en-books-dataset.zip' 'https://docs.google.com/uc?export=download&id=1DhyJdebnB6zwV5Jce1TgTO8PwfNtwn7P&confirm='$(<confirm.txt)
!unzip en-books-dataset.zip
!rm -f confirm.txt cookies.txt en-books-dataset.zip

In [None]:
!ls

Een naïve oplossing is het bestand volledig inlezen en vervolgens het aantal rijen teruggeven door naar de shape te kijken,

In [None]:
def naive_csv_reader(filename):
    result = pd.read_csv(filename)
    return result

In [None]:
@time_mem_decorator
def naive_row_count(filename):
    result = naive_csv_reader(filename)
    rows = result.shape[0]
    return f"There are {rows} rows in the csv file."

In [None]:
naive_row_count('en-books-dataset.csv')

Schrijf een snellere methode om het aantal regels te tellen. De meeste tijd zit hem in het volledig inlezen van de data. Met een generator kun je dit voorkomen. 

Gebruik in fast_csv_reader de *csv.reader* functie. 

Hint: https://docs.python.org/3/library/csv.html

In [None]:
def fast_csv_reader(filename):
    with open(filename, 'r') as csv_file:
        # YOUR CODE HERE

In [None]:
@time_mem_decorator
def fast_row_count(filename):
  # YOUR CODE HERE