# Optymalizacje

## rozgrzewka - Tips and Tricks

Trochę sztuczek i tricków. Niektóre mogą być przydatne przy optymalizacji. Potraktujmy to jako formę rozgrzewki

In [1]:
import dis

#### bardziej zwięzłe wyrażenia warynkowe przypisujące wartości

In [2]:
condition = True

In [3]:
%%timeit
if condition:
    x = 1
else:
    x = 0

32.3 ns ± 0.564 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [4]:
%%timeit
x = 1 if condition else 0

36 ns ± 1.53 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [5]:
dis.dis("""if condition:
    x = 1
else:
    x = 0""")

  1           0 LOAD_NAME                0 (condition)
              2 POP_JUMP_IF_FALSE       10

  2           4 LOAD_CONST               0 (1)
              6 STORE_NAME               1 (x)
              8 JUMP_FORWARD             4 (to 14)

  4     >>   10 LOAD_CONST               1 (0)
             12 STORE_NAME               1 (x)
        >>   14 LOAD_CONST               2 (None)
             16 RETURN_VALUE


In [6]:
dis.dis("""x = 1 if condition else 0""")

  1           0 LOAD_NAME                0 (condition)
              2 POP_JUMP_IF_FALSE        8
              4 LOAD_CONST               0 (1)
              6 JUMP_FORWARD             2 (to 10)
        >>    8 LOAD_CONST               1 (0)
        >>   10 STORE_NAME               1 (x)
             12 LOAD_CONST               2 (None)
             14 RETURN_VALUE


#### Separator _ w liczbach

In [7]:
num1 = 10000000000
num2 = 10000000

print(num1 + num2)

10010000000


In [8]:
num1 = 10_000_000_000
num2 = 10_000_000

print(f'{num1 + num2:_}')

10_010_000_000


#### iterowanie po kilku listach

In [9]:
names = ['Peter Parker', 'Clark Kent', 'Wade Wilson', 'Bruce Wayne']
heroes = ["Spiderman", "Superman", "Deadpool", "Batman"]

In [10]:
for i, name in enumerate(names):
    hero = heroes[i]
    print(f"{name} to {hero}")

Peter Parker to Spiderman
Clark Kent to Superman
Wade Wilson to Deadpool
Bruce Wayne to Batman


In [11]:
for name, hero in zip(names, heroes):
    print(f"{name} to {hero}")

Peter Parker to Spiderman
Clark Kent to Superman
Wade Wilson to Deadpool
Bruce Wayne to Batman


In [12]:
universes = ['Marvel', 'DC', 'Marvel', 'DC']

for name, hero, universe in zip(names, heroes, universes):
    print(f"{name} to {hero} from {universe}")

Peter Parker to Spiderman from Marvel
Clark Kent to Superman from DC
Wade Wilson to Deadpool from Marvel
Bruce Wayne to Batman from DC


#### Rozpakowywanie

In [13]:
a, b, *_, d = (1, 2, 3, 4, 5, 6, 7, 8)  # czy to zadziała i jak?

#### `type`, `hasattr`, `getattr`, `setattr`

In [14]:
class Person():
    pass

person = Person()

print(hasattr(person, 'first_name'))
setattr(person, 'first_name', 'Corey')
print(hasattr(person, 'first_name'))
print(person.first_name)

key = 'first_name'
value = getattr(person, key)
print(value)

False
True
Corey
Corey


In [15]:
x = type("Dynamiczny",(),{'ala': "kot"})
print(type(x))
print(type.__name__)
x.ala

y = x()
print(type(y))


<class 'type'>
type
<class '__main__.Dynamiczny'>


##### Zadanie

Korzystając z modułu `json`. 
Odczytaj plik musicians.json (jest w katalogu dane).

Utwórz dynamicznie klasy i ich instancje - na podstawie pola type
Ustaw instancjom atrybuty - bez atrybutu type
Dodaj instancję do listy `instances`



In [None]:
#### hasło w konsoli

In [16]:
username = input("Username: ")
password = input("Password: ")

print("Logging in...")

Username: wbkusy
Password: qwerty
Logging in...


In [None]:
with open("data/musicians.json") as f:
    dane = json.load(f)

instances = []
for el in dane:
    type_ = el.pop('type')
    tmp_obj = type(type_, (),{})()
    
    for k, v in el.items():
        setattr(tmp_obj, k, v)
    instances.append(tmp_obj)
instances

In [17]:
from getpass import getpass

username = input("Username: ")
password = getpass("Password: ")

print("Logging in...")

Username: wbkusy
Password: ········
Logging in...


#### generatory

Problem - chcemy policzyć linie w pliku, ale jest na tyle duzy, że nie chcemy otworzyć go w całości i robić splitlines, a zrobić to w jakiś sprytniejszy sposób



In [None]:
with open('data/movies.csv') as f:
    print(sum([1 for line in f]))

In [None]:
with open('data/movies.csv') as f:
    file_gen = (row for row in f)

print(type(file_gen))

In [None]:
def file_gen(file_name):
    for row in open(file_name):
        yield row
        
wiersze = file_gen('data/moves.csv')
wiersze

In [None]:
next(wiersze)

In [None]:
next(wiersze)

In [None]:
for i in range(10):
    print(next(wiersze))

In [None]:
import sys
sys.getsizeof(wiersze)

##### Zadanie

Napisz generator, który będzie zwracać kolejne potęgi dwójki. 

In [None]:
def potegi_dwojki():
    i = 0
    while True:
        yield 2**i
        i += 1

c = potegi_dwojki()

for i in range(10):
    print(next(c))

## Czasowo złożoność obliczeniowa

Złożoność obliczeniową określamy jako funkcję danych wejściowych algorytmu. Wyznacza się ją licząc operacje potrzebne do jej wykoanania
W praktyce wystarczą oszacowania takiej funkcji. Wprowadza się tu notacja Ο (dużego O), notacja Ω (omega) i notacja Θ (theta).

Niektóre funkcje i określenia złożoności z nimi związane:

* log(n)- złożoność logarytmiczna
* n - złożoność liniowa
* nlog(n) - złożoność liniowo-logarytmiczna
* n<sup>2</sup> - złożoność kwadratowa
* n<sup>k</sup>  - złożoność wielomianowa
* 2<sup>n</sup>  - złożoność wykładnicza
* n! - złożoność wykładnicza, ponieważ n!>2n już od n=4


Przykład obrazujący wzrost czasu wykonania programu w zależności od jego czasowej założoności obliczeniowej

* Duże "O", np O(n<sup>2</sup>) - górne asymptoryczne oszacowanie złożoności czasowej

Przykład - algorytm sortowania bąbelkowego w najgorszym przypadku ma czas obliczeń rzędu O(n<sup>2</sup>). Nie oznacza to jednak, że za każdym razem czas będzie to taki czas. 
Jeśli np dane wejściowe będa posortowane, to czas obliczeń wyniesie zaledwie O(N) (nie mówimy tutaj o czasie w sensie czasu zegarowego, ale liczbie operacji dominujących). Tak więc notacja „O duże” informuje nas, że czas wykonywania tego algorytmu nie jest dłuży niż O(n<sup>2</sup>) - ale może być krótszy.


* Duże "Omega" - np. Ω(N) - odnosi się ograniczenia asymptotycznego tempa wzrostu czasu wykonywania algorytmu od dołu.

W tym przypadku chodzi o to, że np. algorytm sortowania bąbelkowego w najlepszym przypadku ma czas obliczeń rzędu Ω(N). Nie oznacza to jednak, że za każdym razem czas ten będzie taki sam. Jeżeli dana na wejściu tablica n elementowa nie będzie posortowana czas ten wyniesie Ω(n<sup>2</sup>). Tak więc notacja „Omega duże” informuje nas, że czas wykonywania danego algorytmu nie jest krótszy niż Ω(N) - ale może być dłuższy.

* Notacja „Theta” (przykładowo: Θ(N2)) - to oszacowanie pomiędzy O i Omega

Więcej informacji np. tutaj: https://www.samouczekprogramisty.pl/podstawy-zlozonosci-obliczeniowej/






## Reguły optymalizacj: 

(https://wiki.c2.com/?RulesOfOptimization)

Jeśli zamierzasz przystąpić do optymalizacji rozważ następujące reguły:

1. Nie rób tego

    Czy na pewno tego potrzebujesz?

2. Nie rób tego ... jeszcze.

    Jeśli potrzebujesz to:
    1. Skończ swój kod
    2. Napisz testy
    3. Ok.. teraz możesz optymalizować

3. Profiluj - przed optymalizacją
    
    Zanim zaczniesz coś zmieniać wykonaj profilowanie:
    1. cProfile
    2. pstats
    3. RunSnakeRun SnakeViz

### Poziomy optymalizacji:

Wychodzimy tu poza optymalizacje sprzętowe. 

#### Projekt (desing)

W pewnych sytuacjach korzystne, czy wręcz konieczne może być przepisanie projektu. 

Mogą to być:

* zmiana technologi - niektóre języki po prostu są szybsze od innych. Ale często też i trudniej się w nich pisze.
* zmiany w stosie technologicznym - może baza danych nie daje rady, może serwer jest za wolny? 
* architektury - np. przejście na rozwiązanie asynchroniczne, czy wieloprocesowe 

Tu prawdopodobnie można uzyskać najlepsze wyniki, ale jest to kosztowne. 
Trzeba dobrze wiedzieć czego się chce i co zastosować. 
Może się to opłacać dla krytcznych, często uruchamianych fragmentów systemu.

#### Algorytmy i struktury danych.

Stosując lepsze algorytmy możemy uzyskać znaczne przyspieszenie działania programu. Często trzeba tu nieźle pogłówkować, wpaśc na jakiś sprytny pomysł. Przydaje się wiedza z innych dziedzin - takich jak matematyka.

Przykład. Jeśli chcemy zsumować liczby z jakiegoś zakresu, to możemy użyć pętli for:
    

In [19]:
N = 500000

In [20]:
%%timeit -n2
suma = 0
for x in range(1, N+1):
    suma += x

42.4 ms ± 1.9 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)


Sumowanie musimy wykonać N razy. Więcj jest to złożonośc O(n). Znajac lepszy algorytm możemy wykonać te działanie szybciej, np. możemy wykorzystać wzór na sume N elementów.

In [21]:
%timeit -n2 N * (1 + N) / 2

The slowest run took 4.83 times longer than the fastest. This could mean that an intermediate result is being cached.
493 ns ± 391 ns per loop (mean ± std. dev. of 7 runs, 2 loops each)


#### Optymalizacja kodu źródłowego

- poziom budowania aplikacji - ustawianie różnego rodzaju flag przy uruchamianiu, czy kompilowaniu kodu. Pozwala to na optymalizację kodu na poziomie maszyny
- optymalizacje na poziomie kompilacji - niektóre kompilatory mogą być szybsze od innych
- optymalizacje na poziomie środowiska uruchomieniowego -  tu może pomóc instalacja nowszej wersji oprogramowania
- No i wreszcie - wykorzystanie samego języka w sposób optymalny



#### Różne obszary optymalizacji

Optymalizować mozemy zarówno szybkość, pamięć, zajmowaną przestrzeń dyskową, dyskowe i sieciowe operacje I/O, zużycie energii ...

**<cite>Always code as if the guy who ends up maintaining yout code will be a violent psychopath who knows where your live</cite><br>
<small>John Woods</small>**

### Wybrane przykłady optymalizacji kodu źródłowego

#### Ile zajmuje zwykłe wywołanie funkcji i zwrócenie wartości?

In [22]:
def the_answer_to_life_universe_and_everything():
    return 42

In [23]:
%timeit -n10000 the_answer_to_life_universe_and_everything()

83.1 ns ± 2.65 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)




7.5 miliona lat to ... 236520000000000 sekund

In [None]:
sekundy = 7_500_000 * 365 * 24 * 60 * 60
sekundy

In [None]:
(sekundy * 10 **9) / 67.6

Czyli ~ 3.5 x 10<sup>21</sup> szybciej niż w Autostopem przez Galaktykę ... :D. Nie jest źle.

https://www.youtube.com/watch?v=aboZctrHfK8&t

Dalej podobnie - będziemy pisać kod w różnych wersjach i porównywać ze sobą.. 

####  Zliczenie elementów w liście

In [24]:
MILION_ELEMENTS = [1]*1_000_000

In [25]:
%%timeit -n10

how_many = 0
for element in MILION_ELEMENTS:
    how_many += 1


52.3 ms ± 245 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [26]:
%timeit -n10 len(MILION_ELEMENTS)

271 ns ± 22.3 ns per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [None]:
ns = 1
um = 100
ms = 100_000
s = 100_000_000

In [None]:
37*ms / 107*ns

#### Wybieranie z listy

Problem: wybrać z listy określone elementy. Np. liczby parzyste.

In [27]:
MILLION_ELEMENTS = list(range(1000000))

In [28]:
%%timeit -n10
output = []
for element in MILLION_ELEMENTS:
    if element % 2:
        output.append(element)
            


101 ms ± 1.17 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [29]:
%timeit -n10 list(filter(lambda x: x % 2, MILLION_ELEMENTS))

127 ms ± 1.39 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [30]:
%timeit -n10 [x for x in MILLION_ELEMENTS if x % 2]

78.4 ms ± 1.39 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Pytać o zgode, czy prosic o przebaczenie

W niektórych przypadkach wydajniej jest spróbować coś zrobić i obsłużyć to jakoś w przypadku niepowodzenia. Np przy pomocy `try ... except`. 
Czasem jednak lepiej jest najpierw sprawdzić.


In [31]:
class Foo:
    a1 = "a"
    a2 = "b"
    a3 = "c"

foo = Foo()


##### Podejście `ask for permission`

In [32]:
%%timeit -n100
if hasattr(foo, 'a1'):
    foo.a1

271 ns ± 5.83 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)


##### Podejście `beg for forgiveness`

In [33]:
%%timeit -n100
try:
    foo.a1
except AttributeError:
    pass


66.1 ns ± 1.64 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)


Jeszcze lepiej to widać przy większej ilości warunków

In [None]:
%%timeit -n100 

if (hasattr(foo, 'a1') and hasattr(foo, 'a2') and hasattr(foo, 'a3')):
    foo.a1
    foo.a2
    foo.a3

In [None]:
%%timeit -n100
try:
    foo.a1
    foo.a2
    foo.a3
except AttributeError:
    pass

Jeśli atrybutu jednak rzeczywiście nie ma to obsługa błędu staje się kosztowniejsza:

In [None]:
class Bar:
    pass


bar = Bar()

In [None]:
%%timeit -n100

if hasattr(bar, 'hello'):
    bar.hello

In [None]:
%%timeit -n100
try: 
    bar.hello
except AttributeError:
    pass


* Jeśli spodziewamy się częstych problemów z atrybutami, to lepsze będzie podejście "ask for perrmission". 
* Jeśli takich sytuacji spodziewamy się rzadko, to przewagę da podejście "beg for forgiveness"

#### Sprawdzanie przynależności - membership

In [34]:
def check_membership(number):
    for item in MILLION_ELEMENTS:
        if item == number:
            return True
    return False



In [35]:
%timeit -n10 check_membership(1)

320 ns ± 53.2 ns per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [36]:
%timeit -n100 check_membership(500000)

25.2 ms ± 101 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [37]:
%timeit -n100 check_membership(1000000)

50.4 ms ± 195 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [38]:
def check_membership2(number):
    return number in MILLION_ELEMENTS

In [39]:
%timeit -n100 check_membership2(1)

291 ns ± 11.3 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [40]:
%timeit -n100 check_membership2(500000)

8.69 ms ± 81.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


**Oba podejścia nadal przechodzą przez całą listę.** 

Jeśli szukamy liczby z początku listy to mamy szczeście, jeśli z końca to musimy poczekać.

Przydałaby się struktura danych ze stałym czasem dostępu. Takimi strukturami są np. `set` i `dict`

In [41]:
MILLION_SET = set(MILLION_ELEMENTS)

In [42]:
%timeit -n100 1 in MILLION_SET

63.4 ns ± 3.11 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [43]:
%timeit -n100 999999 in MILLION_SET

80 ns ± 3.3 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)


**Ale!! Zamiana listy na set jest kosztowna!**

Opłaca się to robić więc tylko wtedy, gdy takich sprawdzeń robimy dużo. Najpierw zamieniamy listę na set a potem sprawdzamy. 

In [None]:
%timeit -n2 set(MILLION_ELEMENTS)

#### Usuwanie duplikatów

Trzeba tez pamiętać o tym, że w zbiorze nie ma powtórzeń! Zamiana na set jest najszybszym sposobem pozbycia sie duplikatów. Poniżej koszmarny alogrytm - złożoność O(n<sup>2</sup>):

In [44]:
ELEMENTS = list(range(1, 1001))

In [45]:
%%timeit -n2

unique = []
for element in ELEMENTS:
    if element not in unique:
        unique.append(element)

8.87 ms ± 1.88 ms per loop (mean ± std. dev. of 7 runs, 2 loops each)


I szybki sposób

In [46]:
%timeit -n2 set(ELEMENTS)

18.3 µs ± 2.07 µs per loop (mean ± std. dev. of 7 runs, 2 loops each)


#### Sortowanie list

In [47]:
import random

RANDOM_NUMBERS = [random.random() for i in range(1000000)]

In [48]:
%timeit -n3 sorted(RANDOM_NUMBERS)

380 ms ± 6.76 ms per loop (mean ± std. dev. of 7 runs, 3 loops each)


In [49]:
%timeit -n3 RANDOM_NUMBERS.sort()

66.8 ms ± 37.1 ms per loop (mean ± std. dev. of 7 runs, 3 loops each)


#### Wiele operacji z jedną funkcją.


In [50]:
def kwadrat(n):
    return n**2

In [51]:
%timeit -n10000 [kwadrat(i) for i in range(1000)]

561 µs ± 3.97 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [52]:
def oblicz_kwadraty():
    return [i**2 for i in range(1000)]

In [53]:
%timeit -n10000 oblicz_kwadraty()

472 µs ± 1.7 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


#### Instrukcje warunkowe, testowanie prawdy i fałszu, sprawdzanie czy struktury są puste czy nie

In [54]:
v1 = True
v2 = False

In [55]:
%%timeit 
if v1 == True:
    pass

42.7 ns ± 0.48 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [56]:
%%timeit
if v2 == True:
    pass

41.6 ns ± 1.35 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [57]:
%%timeit
if v1 is True:
    pass

37.2 ns ± 0.318 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [58]:
%%timeit
if v2 is True:
    pass

35.5 ns ± 1.77 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [59]:
%%timeit
if v1:
    pass

27.9 ns ± 0.404 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [60]:
%%timeit
if v2:
    pass

24.7 ns ± 0.439 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [61]:
%%timeit
if not v2:
    pass

29.5 ns ± 2.05 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


Podobnie możemy zoptymalizować czy struktury danych są puste

In [None]:
lista = []

In [None]:
%%timeit

if len(lista) == 0:
    pass

In [None]:
%%timeit

if lista == []:
    pass

In [None]:
%%timeit

if not lista:
    pass

#### Czy jest różnica w szybkości między zwykłą funkcją a lambdą?


In [None]:
def hello1(name):
    return f"Hello {name}"

hello2 = lambda name: f"Hello {name}"

In [None]:
%timeit hello1("Rafał")

In [None]:
%timeit hello2("Rafał")

In [None]:
import dis
dis.dis(hello1)

In [None]:
dis.dis(hello2)

#### `list()` czy `[]`

In [62]:
%timeit list()

121 ns ± 0.843 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [63]:
%timeit []

27.7 ns ± 1.31 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [64]:
dis.dis('[]')

  1           0 BUILD_LIST               0
              2 RETURN_VALUE


In [65]:
dis.dis('list()')

  1           0 LOAD_NAME                0 (list)
              2 CALL_FUNCTION            0
              4 RETURN_VALUE


In [66]:
%timeit dict()

137 ns ± 3.93 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [67]:
%timeit {}

45.8 ns ± 2.37 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


#### Sloty w klasach

Klasy w zasadzie oferują nam możliwość dynamicznego tworzenia atrybutów. Ma to z pewnością swoje zalety, ale może prowadzić do problemów z pamięcią. Słownik to dynamiczna struktura. Czy da się tak zdefiniować klasę, by możliwe było korzystanie z tylko określonych atrybutów? Tak. Służy do tego specjalny atrybut `__slots__`. 

In [68]:
class MyClass1(object):
    def __init__(self, name, identifier):
        self.name = name
        self.identifier = identifier

    def hello(self):
        print("Hello")

In [69]:
class MyClass2(object):
    __slots__ = ['name', 'identifier']

    def __init__(self, name, identifier):
        self.name = name
        self.identifier = identifier

    def hello(self):
        print("Hello")

In [None]:
%timeit MyClass1("a", 1)

In [None]:
%timeit MyClass2("a", 1)

In [None]:
%timeit MyClass1('a', 1).name

In [None]:
%timeit MyClass2('a', 1).name

##### Zbadajmy zużycie pamięci

In [None]:
# !pip install ipython_memory_usage

In [None]:
import ipython_memory_usage.ipython_memory_usage as imu

In [None]:
imu.start_watching_memory()

In [None]:
%%writefile slots.py
class MyClass(object):
        __slots__ = ['name', 'identifier']
        def __init__(self, name, identifier):
                self.name = name
                self.identifier = identifier

num = 1024*256
x = [MyClass(1,1) for i in range(num)]

In [None]:
%%writefile noslots.py
class MyClass(object):
        def __init__(self, name, identifier):
                self.name = name
                self.identifier = identifier

num = 1024*256
x = [MyClass(1,1) for i in range(num)]

In [None]:
import slots

In [None]:
import noslots

In [None]:
imu.stop_watching_memory()

#### Przykład. Łączenie napisów

In [None]:
text = [str(x) for x in range(600000)]

In [None]:
def for_concat(lista):
    x = ""
    for i in lista:
        x += i
    return x

In [None]:
%timeit -n10 x = for_concat(text)


In [None]:
timeit -n10 x = "".join(text)

In [70]:
my_var = "my"
my_var1 = "1"
my_var2 = "3 4"


In [71]:
%timeit -n1000000 msg = 'hello ' + my_var + ' world' + my_var1 + my_var2

331 ns ± 15.6 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [72]:
%timeit -n1000000 msg = 'hello %s world %s %s' % (my_var, my_var1, my_var2)

501 ns ± 7.13 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [73]:

%timeit -n1000000 msg = 'hello {} world {} {}'.format(my_var, my_var1, my_var2) 

540 ns ± 9.65 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [74]:
%timeit -n1000000 msg = f'hello {my_var} world {my_var1} {my_var2}'

243 ns ± 12.6 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


#### Zliczanie linii w pliku - różne optymalizacje

In [None]:
import mmap
import numpy as np
import pandas as pd
import time
import mmap
import random
from collections import defaultdict


filename = "data/PESEL_NAZWISKA.csv"  # 298127 linii


def simplecount(filename):
    lines = 0
    with open(filename) as f:
        for line in f:
            lines += 1
    return lines


def simplecount2(filename):
    with open(filename) as f:
        lines = sum(1 for line in f)
    return lines


def enumerate_count(fname):
    with open(fname) as f:
        for i, l in enumerate(f):
            pass
    return i + 1


def mapcount(filename):
    lines = 0
    with open(filename) as f:
        buf = mmap.mmap(f.fileno(), 0, prot=mmap.PROT_READ)
        readline = buf.readline
        while readline():
            lines += 1
    return lines


def bufcount(filename):
    lines = 0
    buf_size = 1024 * 1024

    with open(filename) as f:
        lines = 0
        read_f = f.read  # loop optimization
        buf = read_f(buf_size)
        while buf:
            lines += buf.count('\n')
            buf = read_f(buf_size)
    return lines


def numpy_count(filename):
    my_data = np.genfromtxt(filename, delimiter=',')
    return my_data.shape[0]


def pd_read(filename):
    df = pd.read_csv(filename)
    return df.shape[0] + 1


methods = [
    simplecount,
    simplecount2,
    enumerate_count,
    mapcount,
    bufcount,
    numpy_count,
    pd_read,


]

counts = defaultdict(list)

for i in range(5):
    for func in methods:
        start_time = time.time()
        assert func("data/PESEL_NAZWISKA.csv") == 298127
        counts[func].append(time.time() - start_time)

for key, vals in counts.items():
    print(key.__name__, ":", sum(vals) / float(len(vals)))

#### Optymalizacje, które trzeba stosować ze szczególną uwagą:

##### przypisywanie wartości do zmiennych

In [None]:
%%timeit
q=1
w=1
e=1
r=1
t=1
y=1
u=1
i=1
o=1
p=1

In [None]:
%%timeit
q,w,e,r,t,y,u,i,o,p = 1,1,1,1,1,1,1,1,1,1

W Pythonie 3.8 już nie widać tutaj różnicy. We wcześniejszych wersjach mogła być dostrzegalna.

##### Przestrzenie nazw

Poruszanie się po przestrzeniach nazw też może mieć wpływ na wydajność:

In [None]:
def kwadraty_v1(lista):
    output = []
    for element in lista:
        output.append(element**2)
    return output

In [None]:
def kwadraty_v2(lista):
    output = []
    append = output.append  # Tu dzieje się magia
    for element in lista:
        append(element**2)
    return output

In [None]:
%timeit -n10 kwadraty_v1(MILLION_ELEMENTS)

In [None]:
%timeit -n10 kwadraty_v2(MILLION_ELEMENTS)

Jak widać jest trochę szybciej.. ale też jest mniej czytelnie.

### Profilowanie

Zadanie

1. Wczytaj listę filmów z pliku data/movies.txt (na początku - do testów weź pierwszych 5000 filmów, gdy kod będzie działąć szybko dodaj kolejne)
2. Zwróć listę tytułów występujących więcej niż raz
3. Wyszukiwanie powinno być nieczułe na wielkość liter


Do tego zadania potrzebna nam będzie umiejetność korzystania z profilera. To taki specjalny program, który pozwala nam oszacować różne parametry związane z wykonywaniem naszych programów - np. czas w jakim się wykonuje całość i poszczególne funkcje w ramach programu

Wykorzystamy do tego dekorator

In [75]:
import cProfile, pstats, io

def profile(func):
    """A decorator that uses cProfile to profile a function"""
    
    def wrapper(*args, **kwargs):
        pr = cProfile.Profile()
        pr.enable()
        retval = func(*args, **kwargs)
        pr.disable()
        s = io.StringIO()
        sortby = "cumulative"
        ps = pstats.Stats(pr, stream=s).sort_stats(sortby)
        ps.print_stats()
        print(s.getvalue())
        return retval
    return wrapper

In [76]:
import time

@profile
def list_to_str(lista):
    output = []
    for el in lista:
        output.append(str(el))
        time.sleep(0.001)
    return "\n".join(output)

list_to_str(range(1, 5000))

         10001 function calls in 75.652 seconds

   Ordered by: cumulative time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.093    0.093   75.652   75.652 <ipython-input-76-7a698e362e27>:3(list_to_str)
     4999   75.553    0.015   75.553    0.015 {built-in method time.sleep}
     4999    0.005    0.000    0.005    0.000 {method 'append' of 'list' objects}
        1    0.000    0.000    0.000    0.000 {method 'join' of 'str' objects}
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}





'1\n2\n3\n4\n5\n6\n7\n8\n9\n10\n11\n12\n13\n14\n15\n16\n17\n18\n19\n20\n21\n22\n23\n24\n25\n26\n27\n28\n29\n30\n31\n32\n33\n34\n35\n36\n37\n38\n39\n40\n41\n42\n43\n44\n45\n46\n47\n48\n49\n50\n51\n52\n53\n54\n55\n56\n57\n58\n59\n60\n61\n62\n63\n64\n65\n66\n67\n68\n69\n70\n71\n72\n73\n74\n75\n76\n77\n78\n79\n80\n81\n82\n83\n84\n85\n86\n87\n88\n89\n90\n91\n92\n93\n94\n95\n96\n97\n98\n99\n100\n101\n102\n103\n104\n105\n106\n107\n108\n109\n110\n111\n112\n113\n114\n115\n116\n117\n118\n119\n120\n121\n122\n123\n124\n125\n126\n127\n128\n129\n130\n131\n132\n133\n134\n135\n136\n137\n138\n139\n140\n141\n142\n143\n144\n145\n146\n147\n148\n149\n150\n151\n152\n153\n154\n155\n156\n157\n158\n159\n160\n161\n162\n163\n164\n165\n166\n167\n168\n169\n170\n171\n172\n173\n174\n175\n176\n177\n178\n179\n180\n181\n182\n183\n184\n185\n186\n187\n188\n189\n190\n191\n192\n193\n194\n195\n196\n197\n198\n199\n200\n201\n202\n203\n204\n205\n206\n207\n208\n209\n210\n211\n212\n213\n214\n215\n216\n217\n218\n219\n220\n221\n22

Widzimy ile razy dany fragment był wywołany (`ncalls`) i w odpowiednich kolumnach widzimy ile to zajęło czasu. 

Spróbujcie teraz napisać rozwiązanie zadania, sprofiluj je a potem zoptymalizuj


- Wczytaj listę filmów z pliku data/movies.txt (na początku - do testów weź pierwszych 5000 filmów, gdy kod będzie działąć szybko dodaj kolejne)
- Zwróć listę tytułów występujących więcej niż raz
- Wyszukiwanie powinno być nieczułe na wielkość liter


In [79]:


# ver 0
def read_movies(src, N=5000):
    with open(src) as fh:
        return fh.read().splitlines()[:N]

def is_duplicate(needle, haystack):

    for movie in haystack:
        if needle.lower() == movie.lower():
            return True
    return False

@profile
def find_duplicate_movies(src="data/movies.csv"):
    movies = read_movies(src)
    duplicates = []
    while movies:
        movie = movies.pop()
        if is_duplicate(movie, movies):
            duplicates.append(movie)
    return duplicates


Zmierzmy czas wykonania takiego wyszukiwania:


In [80]:
%timeit -n1 find_duplicate_movies()

UnicodeDecodeError: 'charmap' codec can't decode byte 0x83 in position 4162889: character maps to <undefined>

Postarajmy się sprofilować nasz kod i zobaczyć co tam się dzieje.
W tym celu stworzymy dekorator `@profile`, który umożliwi profilowanie funkcji i wypisze raport. Napiszemy to w oparciu o: https://docs.python.org/3/library/profile.html#profile.Profile

In [None]:
import cProfile, pstats, io

def profile(func):
    """A decorator that uses cProfile to profile a function"""
    
    def wrapper(*args, **kwargs):
        pr = cProfile.Profile()
        pr.enable()
        retval = func(*args, **kwargs)
        pr.disable()
        s = io.StringIO()
        sortby = "cumulative"
        ps = pstats.Stats(pr, stream=s).sort_stats(sortby)
        ps.print_stats()
        print(s.getvalue())
        return retval
    return wrapper

Udekorujemy teraz funkcję, którą chcemy profilować. Można to zrobić w oryginalnej celce, ale zachowam tutaj kolejność i przepisze kod jeszcze raz

In [None]:
# ver 1 - dodany dekorator profilera

def read_movies(src, N=5000):
    with open(src) as fh:
        return fh.read().splitlines()[:N]

def is_duplicate(needle, haystack):

    for movie in haystack:
        if needle.lower() == movie.lower():
            return True
    return False

@profile
def find_duplicate_movies(src="data/movies.csv"):
    movies = read_movies(src)
    duplicates = []
    while movies:
        movie = movies.pop()
        if is_duplicate(movie, movies):
            duplicates.append(movie)
    return duplicates

find_duplicate_movies()

Widzimy winowajcę:

            1    0.005    0.005    5.454    5.454 <ipython-input-209-7044ee3853c0>:12(find_duplicate_movies)
         5000    3.095    0.001    5.367    0.001 <ipython-input-209-7044ee3853c0>:5(is_duplicate)
     24679772    2.272    0.000    2.272    0.000 {method 'lower' of 'str' objects}
     
Zmieńmy więc trochę implementację:



In [None]:
# ver 2 - optymalizacja ze względu na lower()
def read_movies(src, N=5000):
    with open(src) as fh:
        return fh.read().splitlines()[:N]

def is_duplicate(needle, haystack):

    for movie in haystack:
        if needle == movie:
            return True
    return False

@profile
def find_duplicate_movies(src="data/movies.csv"):
    movies = [movie.lower() for movie in read_movies(src)]
    duplicates = []
    while movies:
        movie = movies.pop()
        if is_duplicate(movie, movies):
            duplicates.append(movie)
    return duplicates

find_duplicate_movies()

Czy potrzebujemy teraz funkcji is_duplicate? Zamiast pętli moglibyśmy sprawdzić przecież przynależność

In [None]:
# ver 3 sprawdzenie przynależności zamiast pętli
def read_movies(src, N=5000):
    with open(src) as fh:
        return fh.read().splitlines()[:N]

@profile
def find_duplicate_movies(src="data/movies.csv"):
    movies = [movie.lower() for movie in read_movies(src)]
    duplicates = []
    while movies:
        movie = movies.pop()
        if movie in movies:
            duplicates.append(movie)
    return duplicates

find_duplicate_movies()

Dopracujmy metodę read_movies - to się powinno dać zrobić szybciej. Może coś zamiast read?

In [None]:
# ver 4 optymalizacja read movies
def read_movies(src, N=5000):
    with open(src) as fh:
        return [next(fh) for i in range(N)]

@profile
def find_duplicate_movies(src="data/movies.csv"):
    movies = [movie.lower() for movie in read_movies(src)]
    duplicates = []
    while movies:
        movie = movies.pop()
        if movie in movies:
            duplicates.append(movie)
    return duplicates

find_duplicate_movies()

Do zrobienia jest jeszcze trochę w tym miejscu:
    
    duplicates = []
    while movies:
        movie = movies.pop()
        if movie in movies:
            duplicates.append(movie)


Wielokrotnie iterujemy po liście. Może coś tutaj dałoby się wymyśleć. 

gdybyśmy mieli taką listę: 
    
    [1, 3, 1, 4, 2, 3, 1]

i gdybyśmy ją posortowali 

    [1, 1, 1, 2, 3, 3, 4]

jeśli teraz zrobimy sobie dwie listy, które są wycinkami tej listy - bez pierwszego i bez ostatniego

    [1, 1, 2, 3, 3, 4]
    [1, 1, 1, 2, 3, 3]
    
Dzięki posortowaniu wiemy, że te same elementy leżeć będą obok siebie. Tutaj więc będą się zgadzać ich pozycje. Wykorzystajmy to


In [None]:
# ver 5 optymalizacja read movies
def read_movies(src, N=5000):
    with open(src) as fh:
        return [next(fh) for i in range(N)]

@profile    
def find_duplicate_movies(src="data/movies.csv"):
    movies = [movie.lower() for movie in read_movies(src)]
    movies.sort()
    duplicates = [movie1 for movie1, movie2 in zip(movies[:-1], movies[1:]) if movie1 == movie2]
    return duplicates

find_duplicate_movies()

Musimy się jeszcze uodpornić na wczytanie większej liczby linii



In [None]:
# ver 6 wczytywanie większej liczby linii
def read_movies(src, N):
    with open(src) as fh:
        return [next(fh) for i in range(N)]

@profile    
def find_duplicate_movies(src="data/movies.csv", N=5000):
    movies = [movie.lower() for movie in read_movies(src, N)]
    movies.sort()
    duplicates = [movie1 for movie1, movie2 in zip(movies[:-1], movies[1:]) if movie1 == movie2]
    return duplicates

find_duplicate_movies(N=500000)

By poradzić sobie ze StopIteration możemy sięgnąć np po `itertools.islice`

In [None]:
# ver 7
import itertools

def read_movies(src, N=5000):
    with open(src) as fh:
        return list(itertools.islice(fh, N))

@profile    
def find_duplicate_movies(src="data/movies.csv", N=5000):
    movies = [movie.lower() for movie in read_movies(src, N)]
    movies.sort()
    duplicates = [movie1 for movie1, movie2 in zip(movies[:-1], movies[1:]) if movie1 == movie2]
    return duplicates

find_duplicate_movies(N=500000)

In [None]:
# ver 8 
import itertools

def read_movies(src, N=5000):
    with open(src) as fh:
        return list(itertools.islice(fh, N))

@profile    
def find_duplicate_movies(src="data/movies.csv", N=5000):
    l = str.lower
    movies = [l(movie) for movie in read_movies(src, N)]
    movies.sort()
    duplicates = [movie1 for movie1, movie2 in zip(movies[:-1], movies[1:]) if movie1 == movie2]
    return duplicates

find_duplicate_movies(N=500000)

In [None]:
def xxx(text):
    l = str.lower
    return l(text)

def xxx2(text):
    return text.lower()
    

In [None]:
%timeit xxx("QWE")

In [None]:
%timeit xxx2("QWE")

#### Podsumowując

* Są różne rodzaje optymalizacji (szybkość, pamięć, stabilność itp)
* Są różne poziomy optymalizacji (projekt, algorytmy, struktury danych, kod źródłowy)
* Optymalizacja kodu źródłowego sumuje się - każda poprawka wnosi swój wkład w przyspieszenie
* Optymalizacja kodu źródłowego jest stosunkowo prosta i "tania" - wystarczy, że będziemy trzymać się idiomów pythona, korzystać z funkcji wbudowanych, biblioteki standardowej. Nie wymyślajmy koła na nowo.
* Przed optymalizacją dokończ swój kod - spraw by powstała działająca wersja, napisz testy, które pomogą uniknąć błędów regresji, przetestuj swój kod. Zapisz wyniki i czas by mieć z czym porównywać. Profiluj swój kod. 