# Drobnarije

## Argumenti funkcij

https://docs.python.org/3/tutorial/controlflow.html#more-on-defining-functions

Funkcijam lahko definiramo privzete vrednosti nekaterih argumentov, ki jih nato ne rabimo vsakič znova podajati. Poimensko lahko podamo tudi vrednosti samo nekaterih, ostale pa pustimo na privzetih vrednostih.

Funkcije `fib` vrača `n`-ti element posplošenega Fibonaccijevega zaporedja, ki se začne z `a` in `b`.

In [1]:
# 0 1 1 2 3 5 8 13 ...
def fib(n, a=0, b=1):
    for i in range(n-1):
        a, b = b, a+b
    return b

print([fib(i) for i in range(1,10)])
print([fib(i,3,5) for i in range(1,10)])
print([fib(i,9) for i in range(1,10)])
print([fib(i,b=5) for i in range(1,10)])
print([fib(i,a=2,b=5) for i in range(1,10)])

[1, 1, 2, 3, 5, 8, 13, 21, 34]
[5, 8, 13, 21, 34, 55, 89, 144, 233]
[1, 10, 11, 21, 32, 53, 85, 138, 223]
[5, 5, 10, 15, 25, 40, 65, 105, 170]
[5, 7, 12, 19, 31, 50, 81, 131, 212]


Nekatere vgrajene funkcije kot sta npr. `max` in `print` lahko sprejmejo poljubno število argumentov (ne seznama, ki je pravzaprav en sam argument).

In [2]:
print(max(4,6), max(3,1), max(6,2,8,1,3,2))

6 3 8


Enako funkcionalnost lahko dosežemo pri implementaciji lastnih funkcij z uporabo argumenta `*args`, ki v obliki terke zajame vse dodatne argumente. Implementirajmo funkcijo `naj`, ki bo sprejela vsaj dva argumenta in vrnila največjega med njimi.

In [3]:
def naj(a, b, *args):  # poljubno število pozicijskih argumentov
    m = a if a>b else b
    for x in args:
        if x>m: m = x
    return m

print(naj(7,1), naj(2,8))
print(naj(7,1,9,3,4))

7 8
9


Naredimo pa lahko tudi obratno. Seznam argumentov lahko razpakiramo pri klicu funkcije. Tako se klic `naj(*seznam)` izvede kot `naj(seznam[0], seznam[1], ..., seznam[-1])`. Tudi tu imamo opravka z operatorjem `*`, vendar gre za drugačen pomen v podobnem kontekstu dela z argumenti funkcij.

In [4]:
seznam = [6,2,8,1,3,2]
print(naj(*seznam))  # razpakiranje seznama

8


Podobno funkcionalnost poznamo tudi za poimenovane argumente (keyword arguments) z uporabo `**kwargs`. Prav tako lahko z operatorjem `**` razpakiramo slovar v poimenovane argumente funkcije in njihove pripadajoče vrednosti. Funkcija `izpisi_arg` ne počne nič drugega, kot da izpiše argumente, ki jih prejme na različne načine.

In [5]:
# *args ... pozicijski argumenti, **kwargs ... poimenovani argumenti
def izpisi_arg(a, *args, **kwargs):
    print("a = ", a)
    print("args = ", args)
    print("kwargs = ", kwargs)

izpisi_arg(3, 7, 1, c=8, d=9)
print()
slovar = {'y': 9, 'z': 10}
izpisi_arg(4, 5, 6, x=7, **slovar)  # razpakiranje slovarja

a =  3
args =  (7, 1)
kwargs =  {'c': 8, 'd': 9}

a =  4
args =  (5, 6)
kwargs =  {'x': 7, 'y': 9, 'z': 10}


## Obravnavanje izjem

https://docs.python.org/3/tutorial/errors.html

Pri programiranju lahko večkrat pride do kakšne napake, nad katerimi nimamo kontrole. Pri branju datoteke lahko nekdo odklopi medij ali pride do napake pri branju zaradi okvare, pri prenosu podatkov lahko pride do izgube povezave itd. Deljenje z nič ni ena od njih, vendar bo za enostaven primer povsem na mestu. 

Najprej si poglejmo, kako lahko lastnoročno sprožimo kakšno izjemo z ukazom `raise`.

In [6]:
a = int(input("deljenec: "))
b = int(input("delitelj: "))
if a%b!=0:
    raise ValueError
print("količnik: ", a//b)

deljenec: 7
delitelj: 2


ValueError: 

Če sprožimo napako, ki dokončno sesuje program, nismo naredili prav veliko. Zato obstaja ukaza `try` in `except`. Če se v vsebini `try` bloka sproži izjema, se izvajanje nadaljuje v `except` bloku, program pa se ne sesuje.

V to kategorijo pašeta še `else` in `finally`, s katerima pa se ne bomo ukvarjali. Več si lahko preberete v Pythonovi dokumentaciji.

In [7]:
try:
    a = int(input("deljenec: "))
    b = int(input("delitelj: "))
    if a%b!=0:
        raise ValueError
    print("količnik", a//b)
except:
    print("ne gre")

deljenec: 7
delitelj: 2
ne gre


Ustvarimo lahko tudi lasten tip izjeme, ki pa mora biti izpeljana iz katere od obstoječih izjem. Tako lahko ustvarimo lastno hierarhijo napak. V `except` blokih pa lahko po vrsti lovimo različne tipe napak in jih primerno obravnavamo.

In [8]:
class DivisionError(ValueError):  # lastna izjema
    pass

try:
    a = int(input("deljenec: "))
    b = int(input("delitelj: "))
    if a%b!=0:
        raise DivisionError("ostanek != 0")
    print("količnik", a//b)
except DivisionError as e:
    print("napaka pri deljenju:", e)
except:
    print("ne gre")

deljenec: 7
delitelj: 2
napaka pri deljenju: ostanek != 0


Obstaja najbrž še cel kup načinov, kako se lahko zgornja koda sesuje. Ločeno lahko ulovimo deljenje z nič, branje števila v napačni obliki, ...

In [9]:
try:
    a = int(input("deljenec: "))
    b = int(input("delitelj: "))
    if a%b!=0:
        raise DivisionError("ostanek != 0")
    print("količnik", a/b)
except DivisionError as e:
    print("napaka pri deljenju:", e)
except ZeroDivisionError:
    print("delitelj je 0!")
except ValueError as e:
    print("napačna vrednost:", e)
except:
    print("ne gre")

deljenec: 7
delitelj: dva
napačna vrednost: invalid literal for int() with base 10: 'dva'


## Introspekcija in podatkovni tipi

Na voljo so številna uporabne standardne funkcije (https://docs.python.org/3/library/functions.html) v povezavi z lastnostmi spremenljivk. Funkcija `dir` vrne seznam metod in atributov danega objekta. S `hasattr` lahko preverimo, ali ima objekt nek atribut oz. metodo ali ne. Funkcija `type` pa nam vrne tip objekta.

Python je sposoben še precej več introspekcije. Kogar to zanima, si lahko ogleda npr. modul `inspect` (https://docs.python.org/3/library/inspect.html).

In [10]:
x, y, z = [4,5,6], [4,5], "abc"
print(dir(x))  # seznam metod, atributov
print(hasattr(y, "append"))
y.append(6)
print(type(x), type(y), type(z))
print(x==y, x is y, id(x), id(y), id(z))  # enakost in identičnost

['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']
True
<class 'list'> <class 'list'> <class 'str'>
True False 2518346815680 2518346750528 2518279378224


In [11]:
a = "programiranje 2"
b = "programiranje 2"
a is b

False

Zgornji `False` najbrž ni presenetljiv. Ustvarimo dva objekta in primerjamo, ali gre za istega. Seveda ne gre. No, ni tako očitno, kot to demonstrira spodnji minimalno spremenjeni primer. Še huje, v teh primerih lahko dobite različne rezultate glede na verzijo prevajalnika in način izvajanja (v skripti ali preko Pythonovo interaktivne konzole). Python včasih poenoti nespremenljive (*immutable*) objekte, včasih pa ne.

In [12]:
c = "programiranje2"
d = "programiranje2"
c is d

True

Še ena uporabna funkcija je `isinstance(obj, tip)`, ki nam pove, ali je objekt `obj` tipa `tip`. Na prvi pogled se morda zdi odveč, ker lahko podobno funkcionalnost dosežemo z uporabo funkcije `type`.

In [13]:
x = 5
print(isinstance(x, int), type(x) == int)

True True


Do ključne razlike pa pride pri dedovanju. Števec `Counter` je izpeljan iz slovarja `dict`, česar funkcija `type` ne ve.

In [14]:
from collections import Counter
c = Counter("abcaab")
print(isinstance(c, Counter), isinstance(c, dict))

True True


Za ponovitev napišimo funkcijo `concat(a,b)`, ki bo sposobna konkatenacije (združevanja) seznamov ali posameznih številskih elementov tipa `int` ali `float`. Klici `concat([1,2], [3])`, `concat([1,2], 3)`, `concat(1, [2,3])` in `concat([1,2,3], [])` naj vsi vrnejo seznam `[1,2,3,4]`.

In [15]:
def concat(a,b):
    if isinstance(a, (int, float)): a = [a]
    if isinstance(b, (int, float)): b = [b]
    return a+b

print(concat([1,2], [3,4]))
print(concat([1,2,3], 4))
print(concat(1, [2,3,4]))

[1, 2, 3, 4]
[1, 2, 3, 4]
[1, 2, 3, 4]


Sedaj pa posplošimo funkcijo, da bo delovala na poljubnem številu in tipih argumentov. Vsak element, ki ni seznam, naj zapakira v seznam z enim elementom, da jih lahko nato združi.

In [16]:
def concat(*args):
    args = [x if isinstance(x, list) else [x] for x in args]
    return sum(args, start=[])

print(concat([1,2], [3,4,5], 7, "8", [9, 10], 11.9))

[1, 2, 3, 4, 5, 7, '8', 9, 10, 11.9]


## Anotacija tipov spremenljivk

Anotacija tipov spremenljivk je relativno nov dodatek k Pythonu. Anotacije niso obvezujoče in jih interpreter ne upošteva. Upoštevajo pa jih programerji in orodja za razvoj programov, kot je npr. PyCharm. Anotacija tipov se še aktivno spreminja/nadgrajuje med verzijami. Več o anotacijah najdete na naslovu https://docs.python.org/3/library/typing.html.

In [17]:
from math import sqrt
from typing import List, Union

class Vektor:
    def __init__(self, dim: int, koord: List[Union[int,float]]):  # v novejših verzijah lahko kar list[int|float]
        # assert isinstance(dim, int)
        # assert all(isinstance(x, (int, float)) for x in koord)
        self.dim = dim
        self.koord = koord
        assert len(self.koord) == self.dim
    def dolzina(self) -> float:
        return sqrt(sum(x**2 for x in self.koord))

v = Vektor(3, [2, 5.8, 6])
print(v.dolzina())

8.581375181169975


V podanem primeru smo sestavili razred `Vektor`, ki mu podamo dimenzije in seznam koordinat. Dimenzija mora biti tipa `int`, koordinate pa so seznam, ki vsebuje objekte tipa `int` ali `float`. V novejših verzijah lahko ta tip opišemo kot `list[int|float]`, v starejših pa potrebujemo dodatne konstrukte iz modula `typing`, da opišemo tip kot `List[Union[int,float]]`. Če bi želeli, da konstruktor dejansko preverja pravilnost tipov, moramo to narediti ročno. Z oznako `-> float` smo sporočili, da bo funkcija `dolzina` vračala rezultat tipa `float`.

## Regularni izrazi

Regularni izrazi so opisi vzorcev, ki jih iščemo v nizih. Z njimi si lahko poenostavimo iskanje datumov, e-mail naslovov in drugih vzorcev, ki jih znamo natančno definirati z regularnim izrazom. Z dovolj znanja in spretnosti lahko opišemo marsikaj. Pri sestavljanju si pomagajte z dokumentacijo https://docs.python.org/3/library/re.html.

> Some people, when confronted with a problem, think "I know, I'll use regular expressions." Now they have two problems.

Pri regularnih izrazih lahko hitro spregledamo kakšno podrobnost. Prav vam bo prišla kakšna spletna stran za hitro testiranje napisani izrazov. Ena od takih je https://regex101.com/.

V Pythonovih nizih imajo znaki `\` posebno vlogo. Običajno označujejo začetek posebne oznake, v zgornjem primeru znak za skok v novo vrstico `\n`. Take oznake so pogoste tudi v regularnih izrazih, zato želimo v nizu, ki opisuje izraz dobesedno ohraniti znak `\`. To najlažje dosežemo z uporabo *raw string* sintakse `r"niz"`.

In [18]:
print("Danes\nje\nponedeljek");

Danes
je
ponedeljek


In [19]:
print("Danes\\nje\\nponedeljek");
print(r"Danes\nje\nponedeljek");

Danes\nje\nponedeljek
Danes\nje\nponedeljek


Znak `.` v regularnem izrazu se ujema s katerimkoli znakom. `\d` se ujema s števkami, kvalifikator `+` pa pomeni eno ali več zaporednih ponovitev predhodnega objekta, `*` pa nič ali več. Nabor sprejemljivih znakov lahko naštejemo tudi v oglatih oklepajih, npr. `[aeiou]` za male samoglasnike. Opremljeni s tem lahko iz niza izločimo že marsikatero število.

Povejmo še, da se `\w` ujema z znaki, ki jih pričakujemo v besedah (to so vsaj a-z, A-Z in 0-9), `\s` pa bele znake (*whitespace*) kot so presledek, tab, nova vrstica itd.

In [20]:
import re

print(re.findall(r"20..", "2021/10/11"))
print(re.findall(r"\d+", "2021/10/11"))
print(re.findall(r"[0123456789]+", "2021/10/11"))
print(re.findall(r"[0-9]+", "2021/10/11"))
print(re.findall(r"\d+/\d+/\d+", "2021/10/11 9:28"))

['2021']
['2021', '10', '11']
['2021', '10', '11']
['2021', '10', '11']
['2021/10/11']


Če želimo ponuditi dve možnosti, ju lahko navedemo z ločilom `|`. V spodnjem primeru najprej sestavimo in prevedemo regularni izraz. Prevajanje kompleksnih izrazov je lahko dolgotrajno, zato je to včasih koristno narediti vnaprej. Sestavimo regularni izraz, ki se bo ujemal z nizi, ki vsebujejo ime dneva (omejili se bomo na ponedeljek) in trenutni datum v slovenščini ali angleščini.

In [21]:
r = re.compile(r"(monday|ponedeljek) \d\d.\d\d.\d+")
print(r.match("monday 11/10/2021"))
print(r.match("ponedeljek 11.10.2021"))
print(r.match("09:32 11.10.2021"))

<re.Match object; span=(0, 17), match='monday 11/10/2021'>
<re.Match object; span=(0, 21), match='ponedeljek 11.10.2021'>
None


Rezultat iskanja ujemanj z regularnim izrazom tipično vrne objekt tipa `Match`. Ta objekt vsebuje podatke o lokaciji ujemanja (`start`, `end`), regularnem izrazu, besedilu in skupinah, ki jih bomo pojasnili malo kasneje. Za začetek naj bo dovolj, da skupina 0 (`group(0)`) predstavlja ujemanje celega regularnega izraza.

In [22]:
m = re.match(r"\w+ \w+", "Tomaž Hočevar Programiranje 2")
print(m, dir(m))
print(m.start(), m.end(), m.group(0))

<re.Match object; span=(0, 13), match='Tomaž Hočevar'> ['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'end', 'endpos', 'expand', 'group', 'groupdict', 'groups', 'lastgroup', 'lastindex', 'pos', 're', 'regs', 'span', 'start', 'string']
0 13 Tomaž Hočevar


Modul `re` ponuja celo kopico različnih metod za iskanje ujemanj z regularnimi izrazi:
- `findall` poišče vsa neprekrivajoča se ujemanja in jih vrne v obliki seznama nizov,
- `match` išče ujemanje na začetku niza in vrne `Match` objekt,
- `fullmatch` išče ujemanje celega niza s podanim izrazom,
- `search` išče ujemanje kjerkoli v nizu,
- `finditer` vrne iterator čez najdena ujemanja,
- ...

In [23]:
print(re.findall(r"\w+", "Tomaz Hocevar"))

['Tomaz', 'Hocevar']


In [24]:
print(re.match(r"^\w+$","Tomaz"), re.match(r"^\w+$","Tomaz Hocevar"))  # ^ predstavlja začetek, $ pa konec niza

<re.Match object; span=(0, 5), match='Tomaz'> None


In [25]:
print(re.fullmatch(r"\w+\s+\w+","Tomaz    Hocevar"))

<re.Match object; span=(0, 16), match='Tomaz    Hocevar'>


In [26]:
print(re.search(r"\d\d:\d\d", "ponedeljek 11.10.2021 09:40 UTC+2"))

<re.Match object; span=(22, 27), match='09:40'>


In [27]:
for m in re.finditer(r"\w+", "Tomaz Hocevar"):
    print(m.span())

(0, 5)
(6, 13)


Iskanje ujemanj je tipično požrešno (*greedy*). To pomeni, da se začetne oznake ujemajo s čim večjim delom, ki še vodi do ujemanja celotnega izraza. To nas lahko preseneti npr. pri iskanju **krepkih** besed v html kodi. Pričakovali bi tri ujemanja, vendar se `</b>` namesto s prvim poravna z zadnjim.

In [28]:
print(re.findall("<b>.*</b>", "<b>Lep</b> <b></b> <b>pozdrav</b>"))

['<b>Lep</b> <b></b> <b>pozdrav</b>']


Težavo lahko rešimo tako, da prepovemo vmesno pojavitev znakov `<`. Sintaksa `[^abc]` predstavlja negacijo in se ujema s katerimkoli znakom, ki ni a, b ali c. Druga možnost je uporaba nepožrešnega kvalifikatorja `?` za oznako `.` ali `*`.

In [29]:
print(re.findall("<b>[^<]*</b>", "<b>Lep</b> <b></b> <b>pozdrav</b>"))
print(re.findall("<b>.*?</b>", "<b>Lep</b> <b></b> <b>pozdrav</b>"))  # non-greedy qualifier

['<b>Lep</b>', '<b></b>', '<b>pozdrav</b>']
['<b>Lep</b>', '<b></b>', '<b>pozdrav</b>']


Z uporabo zavitih oklepajev `{}` lahko definiramo natančno število ponovitev.

In [30]:
print(re.search(r"(\d\d/){2}\d{4}", "11/10/2021"))
print(re.search(r"\d{2}/\d{2}/\d{4}", "11/10/2021"))

<re.Match object; span=(0, 10), match='11/10/2021'>
<re.Match object; span=(0, 10), match='11/10/2021'>


Za konec omenimo še skupine (*groups*). V regularnem izrazu lahko z okroglimi oklepaji označimo več delov izraza, ki jim rečemo skupine. V spodnjem primeru lahko iščemo datum, pri tem pa vsak del regularnega izraza za dan, mesec in leto ovijemo v oklepaje `()` in po ujemanju dobimo še ujemanja posameznih skupin. Skupina 0 ustreza celotnemu izrazu.

In [31]:
m = re.search(r"(\d{2})/(\d{2})/(\d{4})", "danes je 11/10/2021, ponedeljek")
print(m.groups())
print(m.group(0))
dan, mesec, leto = m.group(1), m.group(2), m.group(3)
print(dan, mesec, leto)

('11', '10', '2021')
11/10/2021
11 10 2021
