# Fonis Datageeks
## Wokshop: Exploratory Data Analysis
### 1. Funkcije, lambde, map i filter, list comprehension
Pripremio: [Dimitrije Milenković](https://www.linkedin.com/in/dimitrijemilenkovicdm/)
<br>dimitrijemilenkovic.dm@gmail.com
***

Iako je tema radionice EDA, pre toga imamo dva kratka tutorijala koje pokrivaju koncepte koje tematski pripadaju prvoj radionici ali na njoj nismo stigli da pričamo o tome.
***

Do sada smo koristili ugrađene funkcije. Njihov poziv ima sledeću formu:
> output_parametri = naziv_funkcije(input_parametri)

Prisetimo se i slike:
<br>![function](img/function.jpg)

<br>Evo nekih funkcija koje smo već koristili:

In [1]:
x = str(5)
print(x)

5


In [2]:
print(type(x))

<class 'str'>


Pomenuto je da je funkcija deo koda koji rešava određeni problem i koji je neko napisao i dao nama na korišćenje. Međutim, naši problemi nekada nisu klasični, ali se ipak ponavljaju. Ako nisu klasični verovatno niko do sada nije napisao funkciju za njihovo rešavanje. Ipak ako se ponavljaju, nama je zgodno da za njih imamo funkciju koja ih rešava. 
<br>U tom slučaju možemo sami napisati funkciju. Do sada smo se bavili izlazima i ulazima u kutiju sa slike, a u ovom delu se bavimo samom kutijom - pišemo funkcije. Funkcije imaju sledeću formu:

Prvi red se naziva **header**om (zaglavljem) funkcije, dok je ostalo **body** (telo) funkcije. Izlazna vrednost se navodi nakon ključne reči **return**, kao i u drugim programskim jezicima. Naravno, ne moramo uvek imati parametre koji ulaze iz funkciju ili izlaze iz nje. Pogledajmo prvo jednu funkciju bez parametra.

In [3]:
def square(): # header
    new_value = 4 ** 2 # body
    print(new_value) # body

In [4]:
square() # poziv funkcije

16


Međutim ova funkcija rešava baš specifičan problem: kvadriranje četvorke. Mogla bi da bude malo generičkija kada bi se parametar koji se kvadrira slao kao input parametar:

In [5]:
def square1(value): 
    new_value = value ** 2 
    print(new_value)
square1(4)
square1(5) 

16
25


Ako želimo da bude još generičkija, nećemo štampati vrednost već ćemo je vratiti kao output parametar. Time obezbeđujemo da možemo i da je štampamo, ali da je koristimo za neka dalja računanja.

In [6]:
def square2(value):
    new_value = value ** 2
    return new_value
print(square2(4), square2(3) - 2)

16 7


Ranije su već pomenuti **Docstrings**. Oni važe za jako dobru praksu u Pythonu, a služe za opisivanje funkcija, poput dokumentacije naše funkcije. Pišu se odmah ispod headera izmedju '''. 

In [7]:
def square2(value):
    '''Vraća kvadrat prosleđenog broja'''
    new_value = value ** 2
    return new_value

Razmislimo opet kako ova naša funkcija može biti još generičkija. Sada nam ona služi samo za podizanje na drugi stepen, tj kvadriranje. Mogli bismo da napišemo funkciju kojoj pored broja koji treba da podigne na stepen, prosleđujemo i na koji stepen treba da ga podigne.

In [8]:
def raise_to_power(v1, v2):
    ''' Podiže broj v1 na stepen broja v2. '''
    new_value = v1 ** v2
    return new_value
a = raise_to_power(5,4)
print(a)

625


Pri pisanju funkcije možemo postaviti i opcione parametre, one koji u slučaju da im pri pozivu ne prosledimo vrednost, imaju neku default vrednost.

In [9]:
def raise_to_power1(v1, v2=2):
    ''' Podiže broj v1 na stepen broja v2. '''
    new_value = v1 ** v2
    return new_value
raise_to_power1(5), raise_to_power1(5,3)

(25, 125)

Vidimo da lako možemo proslediti funkciji više input parametara. Međutim šta je sa slučajevima kada želimo da vratimo više parametara? 
### Tuples
Već znamo za liste i mogli bismo to da uradimo vraćanje liste, ali to nije preporuljivo. Znamo da su liste promenljive strukture, a nije baš poželjno da nešto što je rešenje funkcije može kasnije da se promeni. Zato uglavom u ovim slučajevima koristimo **tuples**. Tuplovi su struktura podataka slična listi, sa jednom velikom razlikom -- oni su immutable, što znači da se nakon inicijalizovanja, elementi tupla ne mogu menjati. Tuplovi se pišu u običnim zagrada.

In [10]:
even = (2,4,6)
type(even)

tuple

In [11]:
even[1]

4

In [12]:
even[1] = 5 # ne moze

TypeError: 'tuple' object does not support item assignment

Tuple možemo otpakovati u obične promenljive na sledeći način:

In [13]:
a,b,c = even
print(a)

2


In [14]:
def raise_to_power2(v1, v2):
    ''' Podiže v1 na stepen broja v2 i obrnuto. '''
    new_value1 = v1 ** v2
    new_value2 = v2 ** v1
    return (new_value1, new_value2)
a = raise_to_power2(5,4)
print(a, type(a))

(625, 1024) <class 'tuple'>


`Zadatak 1.` Napisati funkciju koja spaja dva prosleđena stringa na dva načina: prvi sa drugim i drugi sa prvim.

In [15]:
def concatenate(s1, s2):
    ''' Dodaje string s1 na s2 i obrnuto. '''
    r1 = s1+s2
    r2 = s2+s1
    return (r1, r2)
a = concatenate('fonis ', 'datageeks ')
a

('fonis datageeks ', 'datageeks fonis ')

`Zadatak 2.` Napisati funkciju koja štampa prvih n brojeva fibonačijevog niza. n može biti prosleđen kao parametar, a ako nije onda štampati prvih 10 brojeva. Opisati šta radi funkcija u docstringu.

In [16]:
def fib(n=10):
    a, b = 0, 1
    br = 0
    while br < n:
        print(a, end=' ')
        a, b = b, a+b
        br += 1

In [17]:
fib(50)

0 1 1 2 3 5 8 13 21 34 55 89 144 233 377 610 987 1597 2584 4181 6765 10946 17711 28657 46368 75025 121393 196418 317811 514229 832040 1346269 2178309 3524578 5702887 9227465 14930352 24157817 39088169 63245986 102334155 165580141 267914296 433494437 701408733 1134903170 1836311903 2971215073 4807526976 7778742049 

In [18]:
fib()

0 1 1 2 3 5 8 13 21 34 

### Promenljiv broj input parametara funkcije: args i kwargs

Kao što je već napomenuto, u programiranju koristimo funkcije kako bi jedan isti kod koristili više puta za slične probleme.

Međutim, recimo da nam treba trivijalna funkcija za sabiranje 3 broja:

In [19]:
def my_sum(x, y, z):
    return x+y+z

In [20]:
my_sum(3, 5, 6)

14

Ovu funkciju možemo koristiti svaki put kada je potrebno da saberemo 3 broja. Međutim, kada nam se desi da je potrebno sabrati 4 broja, moramo pisati novu funkciju. Jasno je da ovo neće raditi:

In [21]:
my_sum(3, 5, 6, 10)

TypeError: my_sum() takes 3 positional arguments but 4 were given

Divni Python ima način kako se bori sa ovim. U slučaju da želimo da naša funkcija može primiti promenljiv broj inputa, koristimo:
- *args (Arguments - input argumenti bez naziva)
- **kwargs (Keyword Arguments - input argumenti sa nazivima)

Ako želimo da naša funkcija primi proizvoljan broj argumenata koji ne moraju imati naziv, koristimo `*args`. Pri definiciji funkcije navodimo promenljivu sa prefiksom * (promenljiva se ne mora zvati args, ali je to konvencija). Kasnije u funkciji, args posmatramo kao tuple i sa njim možemo raditi sve što možemo sa tuple-om.

In [22]:
def my_sum(*args):
    sum = 0
    
    for n in args:
        sum = sum + n

    return sum

In [23]:
print(my_sum(3, 5, 6))
print(my_sum(3, 5, 6, 10))
print(my_sum(3, 5, 6, 10, 51, 16, 110, 15, 600, 100))

14
24
916


Međutim, na prethodni način ne možemo proslediti imenovane inpute. Zbog toga Python uvodi `**kwargs`. Pri definiciji funkcije, potrebno je navesti promenljivu sa prefiksom **, a kasnije u funkciji ona se može koristiti kao dictionary. Evo primera:

In [24]:
def people_info(**kwargs):
    print('Tip input parametra je', type(kwargs))
    print('Informacije o osobi:')
    for key, value in kwargs.items():
        print("{}: {}".format(key,value))

In [25]:
people_info(Ime="Andjela", Prezime="Velimirovic", Godine=25, Telefon=1234567890) # hvala za sugestiju
people_info(Ime="Dimitrije", Prezime="Milenkovic", Email="dimitrije@nomail.com", Drzava="Srbija", Godine=22, Telefon=9876543210)

Tip input parametra je <class 'dict'>
Informacije o osobi:
Ime: Andjela
Prezime: Velimirovic
Godine: 25
Telefon: 1234567890
Tip input parametra je <class 'dict'>
Informacije o osobi:
Ime: Dimitrije
Prezime: Milenkovic
Email: dimitrije@nomail.com
Drzava: Srbija
Godine: 22
Telefon: 9876543210


Ako bolje pogledamo, sa argsom smo lako mogli da implementiramo sabiranje. Međutim, ne bi bilo pametno koristiti ga za operacije gde je redosled bitan, kao što je to kod oduzimanja. Ako u ovom slučaju koristimo args, možemo upasti u problem kada pri pozivu funkcije neko prosledi parametre redosledom koji mi nismo podrazumevali. Zato smo sa kwargsom sigurni:

In [26]:
def my_substract(**kwargs):
    for key in ['Minuend', 'Subtrahend_1', 'Subtrahend_2']:
        if kwargs.get(key) is None:
            kwargs[key] = 0

    return kwargs.get('Minuend') - kwargs.get('Subtrahend_1') - kwargs.get('Subtrahend_2')

In [27]:
print(my_substract(Minuend=10, Subtrahend_1=3))
print(my_substract(Minuend=10, Subtrahend_1=3, Subtrahend_2=5))
print(my_substract(Subtrahend_1=3, Subtrahend_2=5))

7
2
-8


### Anonimne lambda funkcije. map() i filter()

Pored klasičnih funkcija, u Pythonu možemo pisati anonimne (lambda) funkcije koje se definišu bez imena. Umesto defa koristimo ključnu reč lambda, a forma izgleda ovako:

Lambda funkcija može uzimati više input argumenata, ali je ograničena na samo jedan izraz. Pri pozivu taj izraz se izvršava sa prosleđenim argumentima i vraća rezultat. Pri definisanju, lambda vraća objekat funkcija koji se može sačuvati u neku promenljivu. Uvek je jasnije uz primer:

In [28]:
duplo = lambda x: x * 2

In [29]:
duplo(4)

8

U ovom primeru x je ulazni argument, a x * 2 je izraz koji se izvršava i vraća rezultat. Funkcija nema naziv, već vraća objekat funkcija:

In [30]:
type(duplo)

function

Tako duplo dalje možemo koristiti kao običnu funkciju.

Jasno je da se lambda funkcije koriste kada nam je potrebna anonimna funkcija na kratko vreme. Obično, lambde koristimo kao input argument u nekim drugim funkcijama, a česte su kombinacije sa funkcija map() i filter(). 

In [31]:
ocene = [5,6,7,8,9,10]

In [32]:
visoke_ocene = list(filter(lambda x: (x > 8), ocene))
visoke_ocene

[9, 10]

**filter()** funkcija služi za filterisanje samo onih vrednosti iz liste koje zadovoljavaju određeni uslov. Funkcija uzima sve vrednosti iz liste, a vraća samo one za koje je rezultat lambda funkcija True.

In [33]:
podeljene_ocene = list(map(lambda x: ( x // 2), ocene))
podeljene_ocene

[2, 3, 3, 4, 4, 5]

**map()** ima sličan poziv kao filter(), s tim što ova funkcija vraća listu elemenata gde svaki odgovara rezultatu izvršenja lambde sa svakim od elemenata prosleđene liste. 

Primetimo da sve što možemo sa lambda funkcijama možemo i sa običnim, s tim što nam lambde dosta skraćuju kod, a tim i štede vreme.

### List comprehension
Međutim nekada nam ni nisu potrebne map i filter funkcije jer sve to možemo uraditi u jednom redu koristeći **list comrehension**. To je koncept koji nam iteriranje čini još lakšim i preglednijim:

In [34]:
rec = 'kako kida ovaj python'
h_letters = [ slovo for slovo in rec ]
h_letters

['k',
 'a',
 'k',
 'o',
 ' ',
 'k',
 'i',
 'd',
 'a',
 ' ',
 'o',
 'v',
 'a',
 'j',
 ' ',
 'p',
 'y',
 't',
 'h',
 'o',
 'n']

Umesto ciste promenljive slovo mogao je stojati bilo koji izraz, logički ili računski, koji bi se primenio na svaki element strukture kroz koje se iterira (string, lista, niz...). Dakle, forma je sledeća:

In [35]:
podeljene_ocene = [ o // 2 for o in ocene]
podeljene_ocene

[2, 3, 3, 4, 4, 5]

Takođe, možemo koristiti i uslove u kombinaciji sa list comprehension:

In [36]:
visoke_ocene = [ o for o in ocene if o > 8 ]
visoke_ocene

[9, 10]

Kako list comprehension može olakšati iteriranje, tako **oneline if** može olakšati dodelu vrednosti promenljivoj na osnovu uslova:

In [37]:
age = 15
person = 'kid' if age < 18 else 'adult'
person

'kid'

Oneline if je zamena za ternarni operator (?) u drugim programskim jezicima. Pritom, može se koristiti i više ifova:

In [38]:
age = 15
person = 'kid' if age < 13 else 'teenager' if age < 18 else 'adult'
person

'teenager'

In [30]:
age = 15
person = 'kid' if age < 13 else 'teenager' if age < 18 else 'adult'
person

'teenager'