# Python w analizie ekonomicznej - poziom zaawansowany, warsztaty
## Temat: Python przypomnienie zagadnień, elementy zaawansowane języka 


Plan przedmiotu

    * Python przypomnienie, elementy programowania funkcyjnego
    * Python interfejs konsolowy
    * API bazy danych w pythonie
    * Korzystanie z API webowych/wprowadzenie do Flask
    * Korzystanie z bazy danych we Flasku
    * Flask templates
    * Flask REST API
    * Pandas - wczytywanie danych, operacje na dużych zbiorach danych
    * PySpark
    


# Python - przypomnienie

Agenda:
    * Struktury danych
    * `Flow control`
    * Comprehensions
    
w drugiej części python - elementy zaawansowane.

# Struktury danych

## Listy

In [None]:
a = [1, 2, 'a', 'b']
print('Czy 3 jest w liście', 3 in a)

print("# dodawanie elementów insert, append")
a.insert(2, 'środek')
print(a)

print('# dodanie elementu na koniec listy')
a.append('koniec')
print(a)

Czy 3 jest w liście False
# dodawanie elementów insert, append
[1, 2, 'środek', 'a', 'b']
# dodanie elementu na koniec listy
[1, 2, 'środek', 'a', 'b', 'koniec']


In [None]:
print('# usuwanie elementów del, pop')
del a[0]
print(a)

ostatni_element = a.pop()
print(f'Ostatni element `{ostatni_element}` pobrany z listy {a}')

print('usuwamy dwa pierwsze elementy')
del a[:2]
print(a)

# usuwanie elementów del, pop
[2, 'środek', 'a', 'b', 'koniec']
Ostatni element `koniec` pobrany z listy [2, 'środek', 'a', 'b']
usuwamy dwa pierwsze elementy
['a', 'b']


Kopiowanie tablic

In [None]:
a = [1, 2, 'a', 'b']
b = a

del a[0] # co będzie w b?

In [None]:
# w b zostanie również usunięty pierwszy element
# lista b wskazuje na listę a dlatego po zmianie/usunięciu
# jakiegokolwiek elementu w liście a
# zmienia się lista b

print(f'b:\t{b}\na:\t{a}')

b:	[2, 'a', 'b']
a:	[2, 'a', 'b']


In [None]:
# usunięcie w `a` ale nie w `b`
# musimy wykonać kopię obiektu - kopię listy a
a = [1, 2, 'a', 'b']
b = a.copy()

del a[0]
print(f'b:\t{b}\na:\t{a}')

b:	[1, 2, 'a', 'b']
a:	[2, 'a', 'b']


"Rozpakowywanie" list - głównie używane do 'odbierania' elementów z funkcji oraz przekazywania argumentów do funkcji (będzie o tym później).

In [None]:
some_list = ['a', 'b', 'c', 'd', 'e']
def jakas_funkcja():
    return (1, 2)

# rozpakowywanie wyników funkcji
first, last = jakas_funkcja()
print(f'pierwszy element: {first}, drugi element {last}')

# 'przepisanie' jej elementów na nowe
# możemy to zrobić za pomocą 'cięcia' (slice) listy w taki sposób
(first, second, rest) = some_list[0], some_list[1:-1], some_list[-1]
(first, second, rest)
# ma ktoś pomysł jak wykonać tę samą operację za pomocą rozpakowywania (z użyciem *) ?

('a', ['b', 'c', 'd'], 'e')

In [None]:
# a znacznie lepiej wygląda to w taki sposób
(first, *middle, rest) = some_list
(first, second, rest)

('a', ['b', 'c', 'd'], 'e')

## Tuple

Uporządkowana, niemutowalna kolekcja.

Jaka są różnice między tuplą a listą?

In [None]:
fruits = ("apple", "banana", "cherry")
print(fruits[:2])

('apple', 'banana')


In [None]:
# Jeżeli stworzymy tuple, nie możemy zmieniać wartości jej elementów
fruits[0] = 'tomato'

TypeError: 'tuple' object does not support item assignment

In [None]:
# ani nie możemy zmieniać jej długości - nie ma metod append, add ani delete,
# czy remove.

## Zbiory

In [None]:
uczniowie = ['jan', 'maria', 'jan', 'andrzej', 'kornwalia']
uczniowie = set(uczniowie)
print(f'# nasi uczniowie {uczniowie}')

print(f"# czy `jan` jest w zbiorze uczniów? {'tak' if 'jan' in uczniowie else 'nie'}")

# nasi uczniowie {'andrzej', 'jan', 'kornwalia', 'maria'}
# czy `jan` jest w zbiorze uczniów? tak


In [None]:
# bardzo przydatna własność zbiorów - nie przechowuje duplikatów
uczniowie = set()
uczniowie.add('jan')
uczniowie.add('jan')
uczniowie.add('andrzej')
uczniowie

{'andrzej', 'jan'}

Operacje na zbiorach - na zbiorach pythonowych możemy wykonywać te same operacje co na zbiorach matematycznych.

In [None]:
nauczyciele = set(['joanna', 'jan', 'zbyszek'])

print('# operacje na zbiorach')
print('suma', uczniowie.union(nauczyciele))
print('przecięcie', uczniowie.intersection(nauczyciele))
print('różnica', uczniowie.difference(nauczyciele))
print('różnica symetryczna', uczniowie.symmetric_difference(nauczyciele))

# operacje na zbiorach
suma {'zbyszek', 'andrzej', 'joanna', 'jan'}
przecięcie {'jan'}
różnica {'andrzej'}
różnica symetryczna {'joanna', 'andrzej', 'zbyszek'}


In [None]:
# to samo za pomocą symboli
print('suma', uczniowie | nauczyciele) # nie `+` !
print('przecięcie', uczniowie & nauczyciele)
print('różnica', uczniowie - nauczyciele)
print('różnica symetryczna', uczniowie ^ nauczyciele)

suma {'zbyszek', 'andrzej', 'joanna', 'jan'}
przecięcie {'jan'}
różnica {'andrzej'}
różnica symetryczna {'joanna', 'andrzej', 'zbyszek'}


## Słowniki
To kolekcje przechowujące dane w postaci klucz:wartość.

In [None]:
kolory = { 
    'biały': (255, 255, 255),
    'czarny': (0, 0, 0)
}

kolory['czerwony'] = (255, 0, 0)
print('#jakie mamy kolor?', kolory)

kolory = dict(biały=(255, 255, 255), czarny = (0, 0, 0))
print('#jakie mamy kolor?', kolory)

print('# albo inaczej...')
for kolor in kolory:
    print(f'Kolor `{kolor}` ma wartość {kolory[kolor]}')

#jakie mamy kolor? {'biały': (255, 255, 255), 'czarny': (0, 0, 0), 'czerwony': (255, 0, 0)}
#jakie mamy kolor? {'biały': (255, 255, 255), 'czarny': (0, 0, 0)}
# albo inaczej...
Kolor `biały` ma wartość (255, 255, 255)
Kolor `czarny` ma wartość (0, 0, 0)


Wyciąganie wartości

In [None]:
kolory
kolor = input('Podaj kolor do sprawdzenia: ')

Podaj kolor do sprawdzenia: różowy


In [None]:
# niebezpieczna wersja - należy używać, gdy jesteśmy pewni, że słownik posiada dany klucz
jakiś_kolor_rgb = kolory[kolor]
print(f'wartość rgb dla koloru `{kolor}` to {jakiś_kolor_rgb}')

KeyError: 'różowy'

In [None]:
jakiś_kolor_rgb = kolory.get(kolor, None)
print(f'wartość rgb dla koloru `{kolor}` to {jakiś_kolor_rgb}')

wartość rgb dla koloru `różowy` to None


## Counter
Słownik podliczający wystąpienia.

In [None]:
from collections import Counter
# lista z 20 janami, 10 mariami,...
uczniowie = ['jan', 'maria', 'jan', 'andrzej', 'kornwalia']*10
uczniowie_wystapienia = Counter(uczniowie)

uczniowie_wystapienia

print('# wypisanie wysątpień wszystkich studentów')
for uczen in uczniowie_wystapienia:
    print(f'Imię: `{uczen}` pojawił się {uczniowie_wystapienia[uczen]} razy')

# wypisanie wysątpień wszystkich studentów
Imię: `jan` pojawił się 20 razy
Imię: `maria` pojawił się 10 razy
Imię: `andrzej` pojawił się 10 razy
Imię: `kornwalia` pojawił się 10 razy


## Stringi

In [None]:
# różne sposoby łączenia stringów i ich porównanie
pewien_tekst = 'Ala ma'
zwierzę = 'kota'

print(
    pewien_tekst + ' ' + zwierzę,
    '{} {}'.format(pewien_tekst, zwierzę),
    ' '.join([pewien_tekst, zwierzę]),
    f'{pewien_tekst} {zwierzę}',
sep='\n')

%timeit -n 1000 pewien_tekst + ' ' + zwierzę
%timeit -n 1000 '{} {}'.format(pewien_tekst, zwierzę)
%timeit -n 1000 ' '.join([pewien_tekst, zwierzę])
%timeit -n 1000 f'{pewien_tekst} {zwierzę}'

Ala ma kota
Ala ma kota
Ala ma kota
Ala ma kota
93.3 ns ± 0.324 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)
187 ns ± 17.4 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)
110 ns ± 4.1 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)
82.7 ns ± 9.37 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [None]:
# dlaczego używanie znaku '+' nie jest najlepszym sposobem na łączenie stringów
pewien_tekst = "Ania mierzy"
wzrost = 164.5
print(pewien_tekst + ' ' + wzrost + 'cm') # ' '.join([pewien_tekst, wiek]) też error

TypeError: must be str, not float

In [None]:
# formatowanie stringów za pomocą metody format, inne przykłady https://pyformat.info
print(
    '{} {:.2f} cm'.format(pewien_tekst, wzrost),
    f'{pewien_tekst} {wzrost} cm',
sep='\n')

person = {'first': 'Jean-Luc', 'last': 'Picard'}
print(
    'Imię: {p[first]}, nazwisko: {p[last]}'.format(p=person)
)

Ania mierzy 164.50 cm
Ania mierzy 164.5 cm
Imię: Jean-Luc, nazwisko: Picard


In [None]:
# wypisywanie tekstu z zachowaniem odstępów
print(''' 
Imię:              {imie},
Nazwisko:          {nazw},
PESEL:             {pesel}
'''.format(
    nazw='Jan', 
    imie='Kowalski', 
    pesel='1234...'))

 
Imię:              Kowalski,
Nazwisko:          Jan,
PESEL:             1234...



In [None]:
# dzielenie tekstu na pdstawie znaku
text = 'jan;ma;wrotki'
print(text.split(';'))

# dzielenie tekstu na podstawie znaków - używamy modułu re
import re
text2 = 'jan;ma,różowe|wrotki'
re.split(',|;', text) # dziel tekst gdy wystąpi , lub | lub ;

['jan', 'ma', 'wrotki']


['jan', 'ma', 'wrotki']

# Flow control

In [None]:
a = 1
# sprawdzanie przedziału normalnie
if -1 <= a and (a <= 1):
    print('A is in range')

# jaka jest wersja 'pythonowa' ?

A is in range


In [None]:
# wersja pythonowa
if -1 <= a <= 1:
    print('A is in range')

A is in range


`for ... else` - else w przypadku pętli for jest wykonywany, gdy przejdziemy całą pętlę bez wywołania break.

In [None]:
def print_first_girl(students):
    for student in students:
        if student.endswith('a'):
            print(student)
            break
    else:
        # zostanie wywołane tylko, gdy nie był wywołany break
        print('W zbiorze nie było studentki')

students = ['Jan', 'Andrzej', 'Joanna', 'Ewelina']
print_first_girl(students)
students = ['Jan', 'Andrzej']
print_first_girl(students)

Joanna
W zbiorze nie było studentki


`enumerate` - przechodzenie po liście/słowniku/tupli... wraz z indeksem.

In [None]:
students = ['Jan', 'Andrzej', 'Joanna', 'Ewelina']
for i, student in enumerate(students):
    print(f'{i}: {student}')

0: Jan
1: Andrzej
2: Joanna
3: Ewelina


## Comprehension

Jednolinijkowa metoda pozwalająca tworzyć listy, słowniki, czy zbiory.

*Zadanie*

Jak wyciągnąć imiona studentek o numerach indeksu powyżej 120000?

In [None]:
students = [
    ('Jan', 111000), ('Anna', 111001),
    ('Andrzej', 111005), ('Maria', 120000),
    ('Janusz', 120001), ('Marta', 120002)
]

In [None]:
# TODO
students_girls_over_120k = [student for student, index in students if student.endswith('a') and index > 120000]
students_girls_over_120k

['Marta']

*Zadanie*

Stwórz dwuwymiarową tablicę o rozmiarze 2x10 (2 wiersze, 10 kolumn) wypełnioną zerami używając tylko jednej linijki kodu.

*Podpowiedź*: Jednowymiarową tablicę można stworzyć jak poniżej

In [None]:
columns = 10
rows = 2

zeros = [0]*columns
zeros

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [None]:
# TODO
zeros2d = [[0]*columns]*rows
zeros2d

[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

In [None]:
# UWAGA: nie wywołuj poniższych komórek bez poprawnego uzupełnienia powyższych!!!


# do drugiej kolumny w pierwszym wierszy wstawiamy wartość 2
zeros[0][1] = 2
zeros

[[0, 2, 0, 0, 0, 0, 0, 0, 0, 0], [0, 2, 0, 0, 0, 0, 0, 0, 0, 0]]

Nieoczekiwany wynik. Dlaczego?
Wykonując linijkę
```python
    [[0]*columns]*rows
```
tworzymy wektor z 10 zerami. A następnie kopiujemy referencje do niego (do obiektu, nie tworzymy nowych 0), więc po wstawieniu 2
```python
    zeros[0][1] = 2
```
mamy zmianę w dwóch miejscach, bo oba odnoszą się do tego samego miejsca w pamięci. Musimy więc tworzyć nowe obiekty wektorów w pamięci. [Szerszy opis.](https://snakify.org/en/lessons/two_dimensional_lists_arrays/)

In [None]:
# Poprawne rozwiązanie
zeros = [[0]*columns for _ in range(rows)]
zeros[0][1] = 2
zeros

[[0, 2, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

## Comprehension
dla słowników

*Zadanie* Jak przetrasformować poniższą listę, tak aby stworzyć słownik: indeks -> imię studenta, dla studentów z parzystymi indeksami?

In [None]:
students = [
    ('Jan', 111000), ('Anna', 111001),
    ('Andrzej', 111005), ('Maria', 120000),
    ('Janusz', 120001), ('Marta', 120002),
    ('Jan', 120006)
]

In [None]:
# TODO
students_dictionary = {
    index: student for student, index in students if index % 2 == 0
}
for index, student in students_dictionary.items():
  print(f'{index}:\t{student}')

111000:	Jan
120000:	Maria
120002:	Marta
120006:	Jan


# Python - poziom zaawansowany

* generatory
* dekoratory
* `*args`, `**kwargs`
* elementy funkcyjne pythona

## Generatory
Nazywamy tak funkcje, które zwracają obiekt po którym możemy iterować. Zazwyczaj taką funkcję będziemy wywoływali po słowie kluczowym `in` w pętli `for`.
Dzięki generatorom możemy iterować (przechodzić po kolejnych elementach) kolekcji takich jak na przykład lista.
Jednkaże, możemy pisać własne generatory jak ten poniżej

In [None]:
def some_generator():
    a, b = 0, 1
    while True:
        yield a
        a, b = b, a + b
        
gen = some_generator()
print(next(gen))
print(next(gen))
print(next(gen))
print(next(gen))
print(next(gen))

0
1
1
2
3


Ktoś ma pomysł czym są kolejne wyniki funkcji `some_generator`?

Ten sam generator troszkę inaczej

In [None]:
def some_generator(limit):
    a, b = 0, 1
    for i in range(limit):
        yield i, a
        a, b = b, a + b

In [None]:
for i in some_generator(10):
    print(i)

(0, 0)
(1, 1)
(2, 1)
(3, 2)
(4, 3)
(5, 5)
(6, 8)
(7, 13)
(8, 21)
(9, 34)


Odpowiedź: Generator generuje tuple, indeks oraz wartość. Wartość należy do ciągu Fibonacciego.

## `*args`, `**kwargs`

Są to po prostu zmienne. Pojawiają się jako parametry funkcji. Zasadniczo nazwy `args` oraz `kwargs` są umowne, to pewna konwencja używana dla czytelności.
Gwiazdki oznaczają rozpakowywanie

* `*args` oznacza rozpakowanie zmiennej `args`, która jest tablicą:

In [None]:
def fun(*args):
    print(args)
    
params = [1, 2, 3]
fun(*params)

(1, 2, 3)


* `**kwargs` oznacza rozpakowanie zmiennej `kwargs`, która jest słownikiem:

In [None]:
def fun(**kwargs):
    print(kwargs)
    
params = {'first': 'Jan', 'last': 'Kowalski'}
fun(**params)

{'first': 'Jan', 'last': 'Kowalski'}


`*args`, `**kwargs` co nam to daje?

In [None]:
def print_student_names(*students):
    for student in students:
        print(f'Student ma na imię: {student}')
        
print_student_names('jan', 'anna', 'andrzej')

Student ma na imię: jan
Student ma na imię: anna
Student ma na imię: andrzej


In [None]:
# za pomocą **kwargs nie musimy podawać parametrów bezpośrednio tylko przez słownik
def display_person(first_name, last_name, **kwargs):
    print(f'Imię:\t\t{first_name}')
    print(f'Nazwisko:\t{last_name}')
    for key, value in kwargs.items():
        print(f'{key}:\t\t{value}')
        
params = dict(first_name='Jan', last_name='Kowalski', PESEL=12345678901, wiek=12)
display_person(**params)

Imię:		Jan
Nazwisko:	Kowalski
PESEL:		12345678901
wiek:		12


## Dekoratory

To funkcje zwracające funkcje. Ich celem jest wykonywanie pewnego kodu przed i po wywołaniu danej funkcji. Dekorator dodajemy do danej funkcji, dodając `@nazwa_dekoratora` nad definicją danej funkcji, która ma być dekorowana. [Trochę bardziej zaawansowane](http://scottlobdell.me/2015/04/decorators-arguments-python/).

In [None]:
def dekorator(funkcja):
    def _funkcja_dekorująca():
        print('-'*20)
        funkcja()
        print('+'*20)
    return _funkcja_dekorująca

@dekorator
def wyświetl_coś():
    print('Ala ma kota')

    
wyświetl_coś()
wyświetl_coś()

--------------------
Ala ma kota
++++++++++++++++++++
--------------------
Ala ma kota
++++++++++++++++++++


Zadanie: Napisz dekorator obliczający czas (i wyświetlający go) wykonywania poniższej funkcji:

In [None]:
from time import sleep

def do_sth():
    print('doing sth...', end='')
    sleep(1)
    print('done!')
    
do_sth()

doing sth...done!


Twoje rozwiązanie

In [None]:
from time import sleep, time

def time_counter(func):
    def decorator():
        x = time()
        func()
        y = time()
        print('wywołanie funkcji {} trwało {:.2} s.'.format(func.__name__, y - x))
    return decorator

@time_counter
def do_sth():
    print('doing sth...', end='')
    sleep(1)
    print('done!')

do_sth()

doing sth...done!
wywołanie funkcji do_sth trwało 1.0 s.


## Elementy funkcyjne pythona

Są dostępne np. w bibliotece [functools](https://docs.python.org/3.7/library/functools.html#module-functools), czy [itertootls](https://docs.python.org/3.7/library/itertools.html#module-itertools).

* Jednymi z większych różnic paradygmatu funkcyjnego od paradygmatu proceduralnego, czy obiektowego jest brak wewnętrznego stanu funkcji, który wpływa na wynik danej funkcji. W programowaniu obiektowym mamy na przykład pola prywatne, które mogą wpływać na wyniki metod danego obiektu. W podejściu funkcyjnym działamy na funkcjach, które na podstawie argumentów wejściowych zwracają wyniki, bez wykorzystania zmiennych globalnych, czy innych zmiennych reprezentujących jakiś stan obiektu.

* Większość współczesnych języków korzysta z wielu paradygmatów. W pythonie możemy pisać proceduralnie, obiektowo lub funkcyjnie.

* Jednymi z zalet programowania funkcyjnego są modularność i łatwość testowania.

Moduł `functools` zawiera funkcje wyższego rzędu - takie które biorą jako argumenty inne funkcje lub zwracają funkcje jako wynik działania.

Przeładowywanie funkcji

In [None]:
def sum_(some_list):
    return sum(list)

def sum_(a, b):
    return a+b

try:
    print(sum_([1, 2, 3, 4]), sum_(1, 2))
except Exception as e:
    print('error:', e)

error: sum_() missing 1 required positional argument: 'b'


In [None]:
def sum_(*args):
    return sum(*args)

try:
    print(sum_([1, 2, 3, 4]))
    print('-'*10)
    print(sum_(1, 2))
except Exception as e:
    print('error:', e) 

10
----------
error: 'int' object is not iterable


In [None]:
from functools import singledispatch

@singledispatch
def sum_(arg):
    print(f"Na razie nie obsługujemy typu `{type(arg).__name__}`, wartość:", arg)
    
# musimy dodać dekorator `register` do każdej przeładowanej funkcji, wraz z typem, który ma być obsługiwany
@sum_.register(int)
def _(*args, **kwargs):
    print('Suma intów:', sum(args))

@sum_.register(list)
def _(arg: list):
    print('Suma elementów w liście:', sum(arg))

sum_([1, 2, 3])
sum_(1, 2, 5)
sum_('jakiś tekst')

Suma elementów w liście: 6
Suma intów: 8
Na razie nie obsługujemy typu `str`, wartość: jakiś tekst


Memoizacja - przydatna w rekurencji. Przykład dla ciągu fibonnaciego. Poniżej są wypisane wartości ciągu dla poszczególnych liczb.
```
(0, 0)
(1, 1)
(2, 1)
(3, 2)
...
(30, 832040)
(31, 1346269)
```


In [None]:
def fib(n):
    if n == 0: return 0
    if n == 1: return 1
    return fib(n-1)+fib(n-2)

%timeit -n 1 fib(30)
%timeit -n 1 fib(31)

268 ms ± 6.55 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
436 ms ± 11.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


```python
def fib(n):
    if n == 0: return 0
    if n == 1: return 1
    return fib(n-1)+fib(n-2)
```
<img src="imgs/fibo.svg" alt="Drawing" style="width: 700px;"/>
<!-- ![fibonacci](imgs/fibo_tree.png) -->

In [None]:
from functools import lru_cache

@lru_cache(maxsize=50)
def fibo_2(n):
    if n == 0: return 0
    if n == 1: return 1
    return fibo_2(n-1)+fibo_2(n-2)

%timeit -n 1 fibo_2(30)
%timeit -n 1 fibo_2(31)

The slowest run took 126.43 times longer than the fastest. This could mean that an intermediate result is being cached.
3.88 µs ± 8.84 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
The slowest run took 16.41 times longer than the fastest. This could mean that an intermediate result is being cached.
1.25 µs ± 1.92 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
from functools import lru_cache

def fibo_3(n):
    a, b = 0, 1
    for i in range(n-1):
        a, b = b, a+b
    return b

assert fibo_3(30) == fibo_2(30)

# fibo_2.cache_clear()
%timeit -n 1 fibo_2(100)
%timeit -n 1 fibo_3(100)
%timeit -n 1 fibo_3(30) # wersja iteracyjna
%timeit -n 1 fibo_2(30) # wersja rekurencyjna

The slowest run took 7.10 times longer than the fastest. This could mean that an intermediate result is being cached.
411 ns ± 403 ns per loop (mean ± std. dev. of 7 runs, 1 loop each)
6.16 µs ± 1.07 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
1.83 µs ± 504 ns per loop (mean ± std. dev. of 7 runs, 1 loop each)
The slowest run took 8.84 times longer than the fastest. This could mean that an intermediate result is being cached.
358 ns ± 409 ns per loop (mean ± std. dev. of 7 runs, 1 loop each)


Currying - częściowe wykonanie funkcji

In [None]:
def exp(base, power):
    return base ** power

In [None]:
print('normalne wywołanie funkcji', exp(base=3, power=2)) # normalne wywołanie funkcji

from functools import partial
square_of = partial(exp, power=2) # zapisanie wywołania funkcji tylko z jednym parametrem power=2
# square_of jest funkcją przyjmującą jeden parametr = base
# square_of podnosi podaną liczbę do potęgi 2
print('wywołanie square_of', square_of(3)) 

normalne wywołanie funkcji 9
wywołanie square_of 9


In [None]:
from functools import partial
def get_person_description(first_name, last_name, age, city):
    return f'{first_name} {last_name}, mieszka w {city}, wiek {age}.'

# podobne wykorzystanie funkcji partial jak powyżej    
poznan_resident = partial(get_person_description, city = 'Poznan')
young_poznan_resident = partial(poznan_resident, age = 20)
print(young_poznan_resident('Jan', 'Kowalski'))
print(young_poznan_resident('Anna', 'Nowak', age=21))
print(poznan_resident('Andrzej', 'Nowak', age=33))

Jan Kowalski, mieszka w Poznan, wiek 20.
Anna Nowak, mieszka w Poznan, wiek 21.
Andrzej Nowak, mieszka w Poznan, wiek 33.


```python
map(func, *iterables)
```

In [None]:
# Chcemy podnieść każdą liczbę z items do potęgi 2
items = [1, 2, 3, 4, 5]
squared = []
for i in items:
    squared.append(i**2)

In [None]:
items = [1, 2, 3, 4, 5]
def op(x):
    return x**2

# wskazujemy aby funkcja op działała na każdym elemencie listy items
squared = map(op, items)
# zamiast op można wpisać lambda x: x**2
squared_2 = map(lambda x: x**2, items)
list(squared), list(squared_2)

([1, 4, 9, 16, 25], [1, 4, 9, 16, 25])

In [None]:
# def d(z):
#     def op():
#         z()
#     return op

d = lambda z: z()
op = lambda x: d(x)

@d
def sth():
    print('ok')
sth()

ok


```python
filter(func, iterable)
```

In [None]:
# chcemy odfiltrować tylko wartości parzyste z przedziału -5 do 5
number_list = range(-5, 5)
even_in_range = []
for n in number_list:
    if n % 2 == 0:
        even_in_range.append(n)
even_in_range

[-4, -2, 0, 2, 4]

In [None]:
# to samo z użyciem funkcji filter
number_list = range(-5, 5)
def is_even(x):
    return x % 2 == 0

even_in_range = list(filter(is_even, number_list))
op = lambda x: x % 2 == 0
even_in_range_2 = list(filter(op, number_list))
even_in_range, even_in_range_2

([-4, -2, 0, 2, 4], [-4, -2, 0, 2, 4])

```python
reduce(func, iterable[, initial])
```

In [None]:
# chcemy dodać do siebie liczby z listy elements
sum_ = 0
elements = list(range(10))
for num in elements:
    sum_ = sum_ + num
sum_

45

In [None]:
from functools import reduce

# chcemy dodać do siebie liczby z listy elements z użyciem funkcji reduce
elements = list(range(10))
sum_func = lambda x, y: x+y

sum_of_elements = reduce(sum_func, elements)

print(' + '.join(map(str, elements)), '=', sum_of_elements)

0 + 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 = 45


In [None]:
product = reduce((lambda x, y: x * y), [1, 2, 3, 4])
sum_of_elements = reduce((lambda x, y: x + y), [1, 2, 3, 4])
product, sum_of_elements

(24, 10)

In [None]:
# skąd wiadomo jaka jest początkowa wartość?
try:
    product = reduce((lambda x, y: x * y), [])
except Exception as e:
    print('error', e)

error reduce() of empty sequence with no initial value


In [None]:
# możemy wykorzystać 3-ci parametr
product = reduce((lambda x, y: x * y), [], None)
print(product)

product = reduce((lambda x, y: x + y), [1], 100)
print(product)

product = reduce((lambda x, y: x * y), [1, 2, 3], 5)
print(product)

None
101
30


# Zadania domowe

## *Zadanie domowe 1.1*
Napisz dekorator o nazwie `count_time` obliczający czas wykonania funkcji przyjmującej parametry:

```python
@count_time
def print_students_names(students):
    for student in students:
        print(f'Imię studenta: {student}')

@count_time
def print_students_info(students, students_indices):
    for student, index in zip(students, students_indices):
        print(f'Imię studenta: {student}, indeks {index}')
        
students = ['Jan', 'Maria']
indices = [111001, 111002]
print_students_names(students)
print_students_info(students, indices)
```

In [5]:
from time import time

def count_time(func):
    def dec_func(arr, *arr2):
        print('....................')
        x = time()
        func(arr, *arr2)
        y = time()
        print(f'Time elapsed: {round(y - x, 5)} sec')
        print('--------------------')
    return dec_func

@count_time
def print_students_names(students):
    for student in students:
        print(f'Imię studenta: {student}')

@count_time
def print_students_info(students, students_indices):
    for student, index in zip(students, students_indices):
        print(f'Imię studenta: {student}, indeks {index}')

students = ['Jan', 'Maria']
indices = [111001, 111002]
print_students_names(students)
print_students_info(students, indices)

....................
Imię studenta: Jan
Imię studenta: Maria
Time elapsed: 0.00059 sec
--------------------
....................
Imię studenta: Jan, indeks 111001
Imię studenta: Maria, indeks 111002
Time elapsed: 0.00048 sec
--------------------


oczekiwany rezultat
```
....................
Imię studenta: Jan
Imię studenta: Maria
Time elapsed: 0.00017 sec.
--------------------
....................
Imię studenta: Jan, indeks 111001
Imię studenta: Maria, indeks 111002
Time elapsed: 0.00002 sec.
--------------------
```

## *Zadanie domowe 1.2*
Oblicz średni błąd kwadratowy ([MSE](https://en.wikipedia.org/wiki/Mean_squared_error)) dla danych z pliku `data.csv`. W pliku znajduje się 300 tys. linii z danymi w 2 kolumnach odseparowanych średnikiem. <b>Wykorzystaj szablon kodu znajduący się na kolejnym slajdzie</b>.

Dane są typu float, pierwsza kolumna zawiera predykcje, druga kolumna oczekiwane wyniki. Użyj poniższego wzorca. Sprawdź różnice w czasie wykonywania obu funkcji za pomocą wcześniej napisanego dekoratora. Funkcje mają zwracać wartość `MSE`, sprawdź, czy po dodaniu dekoratora jest ona zwracana.

Upewnij się, czy wyniki funkcji `calc_mean_square_error_python` oraz `calc_mean_square_error_pandas` są takie same (załózmy dokładność do 10-tego miejsca po przecinku).

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [7]:
import pandas as pd
import numpy as np
import csv
from functools import reduce

@count_time
def calc_mean_square_error_python(filename):

    first = []
    second = []

    with open('/content/drive/MyDrive/Wstęp do Big Data w ekonomii/' + filename, 'r') as f:
        # TODO używamy context managera (słowo kluczowe with do poprawnego zamknięcia pliku w przypadku błędu)
        # należy pamiętać o rzutowaniu na danych oraz ich rozbiciu
        data = csv.reader(f, delimiter=';')
        for row in data:         
		        first.append(float(row[0]))
		        second.append(float(row[1]))

    # postaraj się użyć funkcji map oraz reduce, by unikać rozległych pętli for
    differences = map((lambda x, y: x-y), first, second)
    squares = map(lambda x: x**2, differences)
    mean = reduce((lambda x, y: x+y), squares) / len(first)
    
    return mean

@count_time
def calc_mean_square_error_pandas(filename):
    # TODO dodaj wczytywanie danych za pomocą np. read_csv z biblioteki pandas
    data = pd.read_csv('/content/drive/MyDrive/Wstęp do Big Data w ekonomii/' + filename, sep=';', header = None)

    # oraz wykorzystaj funkcje z numpy takie jak np.mean, np.sqaure do obliczenia MSE
    differences = pd.Series(data[0] - data[1])
    mean = np.mean(np.square(differences))

    return mean
 
result_pandas = calc_mean_square_error_pandas('data.csv')
print('Wynik za pomocą pandas/numpy', result_pandas)

result_python = calc_mean_square_error_python('data.csv')
print('Wynik za pomocą pythona', result_python)

#assert np.isclose(result_pandas, result_python, 1e-10)

....................
Time elapsed: 0.14934 sec
--------------------
Wynik za pomocą pandas/numpy None
....................
Time elapsed: 0.73987 sec
--------------------
Wynik za pomocą pythona None


oczekiwany rezultat (mniej więcej):
```
....................
Time elapsed: 0.10839 sec.
--------------------
Wynik za pomocą pandas/numpy -0.0007971461071350931
....................
Time elapsed: 1.04017 sec.
--------------------
Wynik za pomocą pythona -0.0007971461071350973

```