[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/prokaj/elte-python/blob/main/6-gyakorlat.ipynb)

## Feladatok előadásról


### 2-sum

Adott egy $n\leq 10^5$ szám és egy $n$ hosszú $a$ lista, melynek elemeire $-10^{5} \leq a_i \leq 10^5$ teljesül.

Keressünk olyan $1\leq p<q\leq n$ indexpárt, hogy $a[p] = −a[q]$, ha ilyen létezik.


Például:
```
5
5 4 -5 6 8
```

itt egy lehetséges válasz `(0, 2)`

**Ötlet**: iteráljunk végig az indexpárokon és vizsgáljuk meg minden esetben, hogy teljesíti-e a feltételeket.

Ezt a megoldási módszert, amiben potenciálisan minden lehetséges jelöltet kipróbálunk, **brute force**-alapú (nyers erő) megoldásnak nevezünk. A brute force megoldás mindig működik, a kérdés inkább az, hogy vajon nem tudunk-e ennél jobbat kitalálni.

In [None]:
from itertools import combinations

def solve_2_sum(seq):
    for (i1, x1), (i2, x2) in combinations(enumerate(seq), 2):
        if x1 == -x2:
            return i1, i2
                
    return None


In [None]:
def format_ns(t):
    for unit in ['ns', 'μs', 'ms']:
        if t<1000:
            return f"{t:.2f} {unit}"
        t /= 1000
    return f"{t:.2f} s"

In [None]:
import random
import time

random.seed(2112)

xss = [[random.randint(-10**5, 10**5) for _ in range(50_000)],
       list(range(1,51)),
       list(range(1,501)),
       list(range(1,5_001))]

for xs in xss:
    t = time.perf_counter_ns()
    res = solve_2_sum(xs)
    print(f"run time: {format_ns(time.perf_counter_ns() - t)}")
    print(f"solution: {res}, check xs[res]={tuple(xs[i] for i in res) if res else res}")



A futási idő négyzetes a sorozat hosszában. Ha a bemenet 50_000 hosszúságú, akkor várhatóan
$$
    550*100~\text{ms} = 55~000~\text{ms} = 55~\text{s} 
$$
a futási idő

Milyen típus lenne alkalmas a már látott értékek és legalább egy hozzájuk tartozó index tárolására?

Egészítsük ki a következő függvényt

In [None]:
def solve_2_sum_better(seq):
    
    for i, x in enumerate(seq):
        ## ha -x volt korábban return 
        pass
    return None

In [None]:
random.seed(2112)

xss = [
       [random.randint(-10**5, 10**5) for _ in range(50_000)], 
       list(range(1,51)),list(range(1,501)),
       list(range(1,5_001)),
       list(range(1,50_001)),
       [1]*50, [1]*500, [1]*5_000, [1]*50_000
       ]
       

for xs in xss:
    print(f"---xs min={min(xs)}, max={max(xs)}, len(xs)={len(xs)}")

    t = time.perf_counter_ns()
    res = solve_2_sum_better(xs)
    print(f"   run time: {format_ns(time.perf_counter_ns() - t)}")
    print(f"   solution: {res}, check xs[res]={tuple(xs[i] for i in res) if res else res}")
    print("---")

## Fibonacci zárt alakban

Ötlet. $f_{n} = f_{n-1}+f_{n-2}$ megoldását keressük $f_n=x^n$ alakban, alkalmas $x$-szel. Azaz oldjuk meg a
$$
    x^{n} = x^{n-1}+x^{n-2},\quad n\geq 2
$$
egyenletet. Az azonosan nulla sorozat nem érdekel minket. Ha $x\neq0$, akkor átosztás és átrendezés után
$$
    x^2-x-1=0\quad x_{1,2}=\frac{1\pm\sqrt{(-1)^2-4\cdot(-1)}}{2}=\frac{1\pm\sqrt{5}}2
$$
Tetszőleges $c_1,c_2\in\mathbb{R}$ számokra
$$
    f_n=c_1 x_1^n +c_2x_2^n
$$ 
kielégíti a Fibinacci sorozat rekurzióját. Ahhoz, hogy $f_0=0$, $f_1=1$ is teljesüljön,
$$
    f_0 = c_1+c_2 = 0,\quad f_1=c_1x_1+c_2x_2=c_1(x_1-x_2)=1
$$
is kell. $x_1-x_2=\sqrt{5}$, azaz $c_1=\frac{\sqrt{5}}{5}$ és $c_2=-\frac{\sqrt{5}}{5}$.

A $f_0=0$, $f_1=1$ kezdeti értékekből induló sorozat $n$. tagja zárt alakban tehát:
$$
    f_0=0,\quad
    f_1=1,\quad
    f_n = \frac{1}{\sqrt{5}}\left(\left(\frac{1+\sqrt{5}}{2}\right)^n- \left(\frac{1-\sqrt{5}}{2}\right)^n\right)
$$


Előadás a sorozatot $f_0=1$, $f_1=1$-ből indítottuk. Ez csak az index eltolását jelenti, ha ugyanis $f_0=0$, $f_1=1$, akkor $f_2=1$ és megkapjuk az elődáson szereplő értékeket az eggyel nagyobb indexű helyen.

Előadás változatra a zárt alak:
$$
    f_0=1,\quad
    f_1=1,\quad
    f_n = \frac{1}{\sqrt{5}}\left(\left(\frac{1+\sqrt{5}}{2}\right)^{n+1}- \left(\frac{1-\sqrt{5}}{2}\right)^{n+1}\right)
$$

**Próbáljuk ki, hogy működik-e?**

Egészítsük ki a következő függvény definíciót!

In [None]:
import math

sqrt5 = math.sqrt(5)

def fibonacci_super_fast(n):
    return (((1+sqrt5)/2)**(n+1) - ((1-sqrt5)/2)**(n+1))/sqrt5


def fibonacci(n):
    a, b = 1, 1
    for _ in range(n):
        a, b = a+b, a
    return b

In [None]:
try:
    import ipytest
    ipytest.autoconfig()
    
except ModuleNotFoundError:
    print("Trying to install ipytest")
    ! pip install ipytest --quiet
    print("Try again!")

In [None]:
%%ipytest

def test_fibonacci():
    assert fibonacci(0) == 1
    assert fibonacci(1) == 1
    assert fibonacci(2) == 2
    assert fibonacci(3) == 3
    assert fibonacci(4) == 5
    
def test_super_fibonacci_fast():
    for n in range(100):
        assert fibonacci(n) == fibonacci_super_fast(n)
    

Mi okozza a hibát? Meg lehet oldani?

Ötletek:

1. $a+b\sqrt{5}$ alakú számokkal dolgozunk, ahol $a$, $b$ racionális. A python képes kezelni racionális számokat
   `Fraction` erre építve definálhatunk egy osztályt, ami a $\mathbb(Q)(\sqrt{5})=\left\{a+b\sqrt{5}\colon a,b\in\mathbb{Q}\right\}$ testet implementálja: Összeadás, kivonás, szorzás, osztás, hatványozás és akkor a kerekítési hibáktól megszabadulunk. (HF.)

2. Újra gondoljuk a zárt alakot.
   
   Ha $v_n=(f_{n+1},f_n)^T$, akkor $n>0$-re
   $$
      v_n = \begin{pmatrix}f_{n+1}\\f_{n}\end{pmatrix} = 
      \underbrace{\begin{pmatrix}1 & 1\\ 1 & 0\end{pmatrix}}_{=A}\begin{pmatrix}f_{n}\\f_{n-1}\end{pmatrix} = A v_{n-1}
   $$
   Itt v_0=(1,1)^T$ és iterálva az összefüggést:
   $$
      v_n=Av_{n-1}=A(A v_{n-2})=\cdots= A^n v_0
   $$
   Az $A$ mátrix elemei egészek, $A^n$ is ilyen, azaz elég az (egész értékű) $A$ mátrix $n$. hatványát kiszámolni.
   $$
      f_n = (0, 1) A^n v_0
   $$

   Ha $n = \sum_{i} r_i 2^i$, ahol $r_i\in\{0,1\}$ a diakikus jegyek sorozata, akkor
   $$
      A^n = \prod_{i: r_i=1} A^{2^i}
   $$ 

   Írjunk egy függvényt, ami $2\times 2$ mátrixok szorzatát számolja ki! Ennek segítségével implementáljuk a mátrix hatványozást!

   Mátrixokat kényelmesen ábrázolhatunk listákkal, pl. `A = [A_11, A_12, A_21, A_22]`. Ráadásul a mi esetünkben, a mátrix szimmetrikus, az hatványozásnál megmarad, akár ezt is kihasználhatjuk.


### Mi köze a két zárt alaknak egymáshoz?

Otthon gondolkodjunk rajta!

In [None]:

def mat_mul(A, B):
    """
    product of self-adjoint 2x2 matrices
    given in the following format
    A = [A_11, A_12, A_22]
    
    The return value has the same format!
    """
    return [A[0]*B[0]+A[1]*B[1], A[0]*B[1]+A[1]*B[2], A[1]*B[1]+A[2]*B[2]]

def mat_pow(A, n):
    n, r = divmod(n, 2)
    B =  A if r==1 else [1, 0, 1]## identity matrix 
    while n>0:
        A = mat_mul(A, A)
        n, r = divmod(n, 2)
        if r==1:
            B = mat_mul(B, A)
    return B
    

def mat_str(A):
    a = [str(ai) for ai in A]
    max_width = max(len(ai) for ai in a)
    format_str = f">{max_width}"
    return  f"{a[0]:{format_str}} {a[1]:{format_str}}\n{a[1]:{format_str}} {a[2]:{format_str}}"


In [None]:
A = [1,1,0]
print(f"A=\n{mat_str([1,1,0])}\n---")

B = mat_mul(A, A)
exponent=2
print(f"A^{exponent}=\n{mat_str(B)}\n---")

for _ in range(5):
    B = mat_mul(B, B)
    exponent *= 2
    print(f"A^{exponent}=\n{mat_str(B)}\n---")


In [None]:
%%ipytest

def test_mat_exp():
    A = [1,1,1]
    assert mat_pow(A, 0) == [1, 0, 1]
    assert mat_pow(A, 1) == A
    B = A
    for k in range(2, 10):
        B = mat_mul(B, A)
        assert mat_pow(A, k) == B

In [None]:
def fibonacci_fast(n):
    A = [1, 1, 0]
    B = mat_pow(A, n)
    # B = A**n
    # (0, 1) B (1, 1)^T = B_21+B_22
    return B[1]+B[2]

In [None]:
%%ipytest

def test_fibonacci_fast():
    for n in range(100):
        assert fibonacci(n) == fibonacci_fast(n)


Melyik változat a gyorsabb?

In [None]:
for n in [10, 100, 1000, 10_000]:
    for f in [fibonacci, fibonacci_fast]:
        txt = f"{f.__name__}({n}):"
        print(f"{txt:>25}", end=" ")
        %timeit f(n)



### Mátrix class

Néhány műveletet defináltunk 2x2 szimmetrikus mátrixokra. Ezt elegánsabban is megtehetjük. 

In [None]:
class SymmetricMatrix:
    """Symmetric 2x2 matrix"""
    
    def __init__(self, values):
        self.values = list(values)
    
    def __mul__(self, other):
        A = self.values
        B = other.values 
        result = [A[0]*B[0]+A[1]*B[1], A[0]*B[1]+A[1]*B[2], A[1]*B[1]+A[2]*B[2]]
        return type(self)(result)

    def __add__(self, other):
        return type(self)(ai+bi for ai, bi in zip(self.values, other.values))
    
    def __pow__(self, n):
        n, r = divmod(n, 2)
        B = self if r==1 else type(self)([1, 0, 1]) ## identity matrix
        A = self 
        while n>0:
            A = A * A
            n, r = divmod(n, 2)
            if r==1:
                B = B * A
        return B

    def __repr__(self):
        return f"{type(self).__name__}({self.values})"

    def __str__(self):
        a = [str(ai) for ai in self.values]
        max_width = max(len(ai) for ai in a)
        format_str = f">{max_width}"
        return  f"{a[0]:{format_str}} {a[1]:{format_str}}\n{a[1]:{format_str}} {a[2]:{format_str}}"


In [None]:
def fibonacci_fast2(n):
    B = SymmetricMatrix([1, 1, 0])**n
    # B = A**n
    # (0, 1) B (1, 1)^T = B_21+B_22
    _, b , c = B.values
    return b+c

In [None]:
%%ipytest

def test_fibonacci_fast():
    for n in range(100):
        assert fibonacci(n) == fibonacci_fast2(n)


In [None]:
for n in [100, 1000]:
    for f in [fibonacci, fibonacci_fast, fibonacci_fast2]:
        txt = f"{f.__name__}({n}):"
        print(f"{txt:>25}", end=" ")
        %timeit f(n)


Az eleganciának ára van. Lehetne optimalizálni a hatványozást úgy, 
hogy csak a végén hozzuk létre a SymmetricMatrix típust

## Kivételkezelés

    try:
        pass
    except:
        pass
    else:
        pass
    finally:
        pass
        
Nem nagyon fogunk olyan kódot írni, ami ezt használja. Kivéve két esetet:

- üres sorozat kezelése `next` `iter` hívásoknál: `StopIteration`

- Adatok letöltése internetről. `TimeoutError`, `HTTPError` stb.

- Saját kontexus `with` statementhez, hasonló ahhoz, amit file olvasásnál láttunk előadáson.


****


## Olvasás fileból

    with open(filename, mode) as file:
       do_something with file
       
- `filename` a file elérési útja
- `mode` 
  + `r` reading olvasás
  + `w` writing írás
  + `b` binary
  + `t` text
  + `a` append
  
  Ha nem adjuk meg `rt`.
  
  Lehetne még `r, w, rb, wb, a`
  

### Feladat.

Írjuk meg a `grep` program egyszerűsített változatát.

A `grep` soronként olvas egy szövegfileból és a megadott mintát tartalmazó sorokat kiírja a kimenetre.

Képes arra, hogy kiírja a mintát tartalmazó sorral együtt azt megelőző és azt követő néhány sort is.

A mi változatunk egy generator függvény lesz, ami a megadott file soraiból azokat tartja meg, amik az adott mintát tartalmazzák.


In [None]:
%%writefile test.txt
első sor
második sor
harmadik
utolsó

In [None]:
filename = "test.txt"

with open(filename, "r") as file:
    print(file)
    print(f"---{filename}:")
    for line in file:
        print(line, end="")
    print("---")
        

Egészítsük ki a következő kódot!

In [None]:
def simple_grep(filename: str, pattern: str): # Generator[str]
    with open(filename, "r") as file:
        for line in ???:
            if ???:
                yield line

In [None]:
list(simple_grep("test.txt", "ls"))

### Adatok olvasása netről

Ez  megoldható `urllib.request` modullal


In [None]:
import urllib.request as request

url = "https://www.gutenberg.org/files/1342/1342-0.txt" # Pride and prejudice
url = "https://www.gutenberg.org/ebooks/67098.txt.utf-8" # Winnie the pooh

with request.urlopen(url) as file:
    btext = file.read()

print(type(btext))

In [None]:
text = btext.decode()
lines = text.split("\n")


In [None]:
len(lines), lines[:50]

### File letöltés 

In [None]:
request.urlretrieve?

In [None]:
request.urlretrieve(url, "winnie-the-pooh.txt")

In [None]:
! ls

In [None]:
! head winnie-the-pooh.txt

In [None]:
def simple_grep(filename: str, pattern: str): # Generator[str]
    with open(filename, "r") as file:
        for lineno, line in enumerate(file):
            if pattern in line.lower():
                yield lineno, line

## Melyek a leggyakoribb szavak a Micimackó angol változatában? 

In [None]:
from collections import Counter

In [None]:
def words(lines):
    for line in lines:
        for word in line.split():
            yield word

Gondoljuk meg, hogyan tudnánk az írásjelektől megszabadulni!

In [None]:
with open("winnie-the-pooh.txt") as textfile:
    counter = Counter(map(str.lower, words(textfile)))
len(counter)

In [None]:
counter.most_common(50)

## Feladat előadásról

Adva van egy szövegfile. [P0022.txt](https://eltehu.sharepoint.com/:t:/s/Crs22-23-1bevtudprogm22ea1Bevezetsatudomnyosprogramozsbaelad/EcraA_ZkX4VGpoCn4mzaCCcBlKbsnmDqrm_EejiXr7-57g?e=BhFq1M)

Ebben a fájlban keresztnevek vannak. Hány olyan lényegében különböző névpár van, hogy a pár második eleme az első névnek a megfordítottja?

pl. ("NORA", "ARON")


Az ("ARON", "NORA") pár nem különbözik lényegében az előzőtől.

A nevek kezdőbetűit tekintve melyik az 5 leggyakoribb? W-vel vagy C-vel kezdődik több név?

In [None]:
import urllib.request as request

url = "https://eltehu.sharepoint.com/:t:/s/Crs22-23-1bevtudprogm22ea1Bevezetsatudomnyosprogramozsbaelad/EcraA_ZkX4VGpoCn4mzaCCcBlKbsnmDqrm_EejiXr7-57g?e=BhFq1M"
try:
    request.urlretrieve(url, "P0022_names.txt")

except request.HTTPError:
    print("Downnload manually!")


In [None]:
with open("./P0022_names.txt") as f:
    names = [line.strip() for line in f]
len(names)

In [None]:
from itertools import combinations


Párok brute force-szal.

In [None]:
%%time
[(a,b) for a, b in combinations(names, 2) if a[::-1]==b] + [(a,a) for a in names if a==a[::-1]]


In [None]:
%%time
A = set(names)
pairs = [(x, x[::-1]) for x in names if x<=x[::-1] and x[::-1] in A]
len(pairs)

In [None]:
from collections import Counter

counter = Counter(x[0] for x in names)
counter.most_common(5)

## Újabb feladat előadásról

Adott egy kifejezés, ami a `(`, `)`, `[` és `]` karakterekből állhat. Állapítsuk meg, hogy a kifejezés helyesen zárójelezett-e vagy sem.

pl. `([()])` helyes zárójelezés, `([(]))` nem az, mert a szögletes zárójelpár tartalmaz pár nélküli nyitó zárójelet.

Próbáljuk megoldani stack-kel (listával).

In [None]:
pairs = "()[]{}"
opening = pairs[::2]
closing = pairs[1::2]
closing_symbols = dict(zip(closing, opening))

def is_balanced(string):
    stack = []
    for x in string:
        if x in opening:
            stack.append(x)
        else:
            if not stack or closing_symbols[x] != stack.pop():
                return False
    return len(stack)==0

In [None]:
opening, closing, closing_symbols

In [None]:
%%ipytest

def test_is_balanced():
    assert is_balanced("[([(()[]())])]") == True
    assert is_balanced("[[))") == False
    assert is_balanced("") == True
    assert is_balanced("[") == False

## Mi történik a `with` statement alkalmazásakor?

### Mit lehet a with mögé írni?

Hasonlóan a `for`-hoz szinte bármit, aminek van két metódusa:

- `__enter__`
- `__exit__`


    with obj as x:
       do_something with x

Itt az `obj.__enter__()` hívás eredménye lesz az x értéke és a block végén **GARANTÁLTAN** végrehajtódik az `obj.__exit__(...)` hívás.
Az `__enter__` metódus végezheti az előkészítést, az `__exit__` a takarítást!

#### Kell-e nekünk ezeket a metódusokat közvetlenül implementálni?

Valójában nem. Elegendő egy generátor függvényt megírni:

    import time
    
    def timer():
        try:
            start = time.time()
            yield

        finally:
            runtime = time.time() - start
            print(f"run time: {runtime:3f}")
            

Így még csak egy generátort kapunk ami egyszer visszaad semmit (`None`) majd jelzi, hogy vége van a sorozatnak. 

Próbáljuk ki `for`-ral

In [None]:
import time
    
def timer():
    try:
        start = time.time()
        yield

    finally:
        runtime = time.time() - start
        print(f"run time: {runtime:3f}")
        
for x in timer():
    print(x)

`with`-del hibát kapunk

In [None]:
with timer() as x:
    print(x)

A `contextlib` module `contextmanager` függvénye generátorból `contextmanager`-t készít.

In [None]:
from contextlib import contextmanager
timer2 = contextmanager(timer)
with timer2() as x:
    print(x)

Ha egy függvény akarunk alkalmazni egy függvényre, hogy azt átalakítsuk, de ugyanaz maradjon a neve akkor a python `@` szintakszist használja. Ilyenkor ,,dekoráljuk'' a függvényt. A `contextmanager` egy példa **dekorátor**ra.

    @contextmanager
    def timer():
        try:
            start = time.time()
            yield

        finally:
            runtime = time.time() - start
            print(f"run time: {runtime:3f}")
    
Példaként írjunk egy olyan contextmanager-t, ami jelzi nekünk, hogy mikor milyen hívás történik.

In [None]:
@contextmanager
def print_whats_going_on(x):
    print("try blokk előtt")
    try:
        print("yield előtt")
        yield x
        print("yield után")
    except:
        print("except ág")
    finally:
        print("finally ág")
    print("try blokk után")

In [None]:
with print_whats_going_on("hello") as x:
    print(x)
print("with után")

print("-"*50)

with print_whats_going_on("hello") as x:
    print(x)
    raise ValueError
print("with után")


In [None]:
@contextmanager
def timer():
    try:
        start = time.time()
        yield

    finally:
        runtime = time.time() - start
        print(f"run time: {runtime:3f}")

Előadáson a `property` dekorátor szerepelt.