# Ismétlés.

- OOP: öröklödés. Látunk rá egy rövid példát.
- `numpy`. Numerikus python könyvtár. Legfontosabb típusa a ,,tömb'', `ndarray`.
    
   * A tömb típus legfontosabb attribútumai: `shape`, `dtype`.

   * tömb létrehozása: `np.array`, `np.zeros`, `np.ones`, `np.empty`, `np.full`
     (létezik `_like` változat is, amikor az `dtype`, `shape` attribútumokat egy másik tömb alapján állítja be).


Műveletek:

- Elemenkénti műveletek: aritmetikai, logikai, bit műveletek elemenként értendőek.

- Broadcasting: Ha két tömb alakja kompatibilis, akkor nincs gond az elemenkénti műveletekkel. Szabály: 
     
  * A rövidebb `shape` kiegészül egyesekkel az elején.
     
  * Ha a két `shape` azonos hosszúságú, akkor az azonos tengelyek vagy egyforma méretűek, vagy legalább az egyik egyes.
    
- mátrix szorzás: `@`, `np.matmul`.

- tömb műveletek: `sum`, `min`, `max`.
  
  * ezeknek lehet `axis` paraméterük. Melyik tengely mentén végezzük el az összevonást?

   

### Tömbök összefűzése

In [None]:
import numpy as np

In [None]:
A = np.arange(15).reshape(3, 5)

B = np.zeros(shape=(3, 5), dtype=np.int_)

In [None]:
# np.vstack((A, B))
np.concatenate((A, B), axis=0)

In [None]:
# np.hstack((A, B))
np.concatenate((A, B), axis=1)

In [None]:
np.stack((A, B))

### Egyszerűbb statisztikai függvények

In [None]:
v = np.array([1, 4, 3, 5, 35, 0, -1, 2])

$$
\overline v \equiv \text{mean}(v) = \frac{\sum_{i=1}^n v_i}{n},
\quad
\text{std}(v) = \sqrt{\frac{\sum_{i=1}^n (v_i - \overline{v})^2}{n}}
$$

In [None]:
print(f"összeg: {np.sum(v)}, átlag: {np.mean(v):.3f}")
print(f"medián: {np.median(v)}, szórás: {np.std(v):.3f}")
print(f"szórásnégyzet (variancia): {np.var(v):.3f}")

In [None]:
A = np.array([[1,  2,  3],
              [10, 11, 12],
              [0,  3,  1],
              [10, -5, 1]])
A

In [None]:
# A.sum()
np.sum(A)

In [None]:
# Elemek abszolútértékeinek összege
np.sum(np.abs(A))

In [None]:
# elemek átlaga
np.mean(A)

In [None]:
# elemek szórása
np.std(A)

In [None]:
# elemek szórásnégyzete
np.var(A)

Többdimenziós tömböknél azonban érdekelhet minket a sorösszeg / oszlopösszeg, a sorátlag / oszlopátlag, stb. is.

In [None]:
print(A.shape)
# ez tehát az oszlopösszeg
np.sum(A, axis=0)

In [None]:
print(np.sum(A[1, :]))
# ez a sorösszeg
np.sum(A, axis=1)

In [None]:
# A keletkező vektor egyik dimenziója azonban eltűnt, 
# a sorösszeg egy 1-dimenziós vektor lett
row_sums = np.sum(A, axis=1, keepdims=True)
print(row_sums.shape)
row_sums

In [None]:
# Hasonlóan, oszlopátlagot is számolhatunk
np.mean(A, axis=0)

In [None]:
A

In [None]:
# melyik tengely mentén rendez a `sort`, ha nem adunk meg semmit?
np.sort(A)

In [None]:
np.sort(A, axis=0)

In [None]:
help(np.sort)

## Lineáris algebra és alkalmazásai

In [None]:
A = np.array([[2, 4, 1], [2, 6, -1], [1, 5, 2]])
b = np.array([4, 10, 2])

In [None]:
print(f"Az A mátrix determinánsa {np.linalg.det(A)}")

Hogy lehet egy egész elemű mátrix determinánsa nem egész?

In [None]:
qr = np.linalg.qr(A)
print(qr.Q)
print("-"*10)
print(qr.R)
print("-"*10)
print(np.prod(qr.R.diagonal()))

In [None]:
print(qr.Q.T @ qr.Q)
print("-"*10)
print(qr.Q @ qr.R)

In [None]:
import functools

def prod(iterable):
    return functools.reduce(lambda a, b: a*b, iterable, 1)

def det3(A):
    assert A.shape == (3, 3)
    return sum(
        prod(A[j, (j+i) % 3] for j in range(3)) 
        - 
        prod(A[j, (i-j) % 3] for j in range(3))
        for i in range(3) 
    )

In [None]:
det3(A)

In [None]:
# Az A mátrix inverze
np.linalg.inv(A), np.linalg.inv(A) @ A

In [None]:
# Az Ax = b lineáris egyenletrendszer megoldása:
x = np.linalg.solve(A, b)
x

In [None]:
print(f"{A @ x=}, {b=}")

**Feladat**: Adott két numpy vektor, `a = np.array([1,2,3,2,3,4,3,4,5,6])` és `b = np.array([7,2,10,2,7,4,9,4,9,8])`, állítsuk elő azt a vektort, ami a közös elemeket tartalmazza. (Keressünk numpy függvényeket erre a célra.)


**Feladat**: Készítsünk egy $3\times 3$-mas mátrixot, ami $2$ és $4$ közötti véletlen számokat tartalmaz. (Nézzük meg az `np.random` modul függvényeit.)

**Feladat**: Az alábbi mátrix tartalmaz végtelen értékeket is. Töröljük azokat az oszlopokat, amelyekben szerepel végtelen érték. Hogyan kaphatjuk meg azon oszlopok indexeit, amely tartalmaz végtelen értéket?

```python
A = np.array([
    [1,      2,       3, 14], 
    [2, np.inf,      -4,  0], 
    [3,      4, -np.inf, -3]
])
```

**Feladat**: Adott mátrixra számoljuk ki minden sorra a sorbeli minimum és maximum értékek hányadosát.

A `numpy` egy nagy könyvtár, minden részletét megismerni valószínűleg felesleges, megtanulni valószínűleg lehetetlen. 

Ha valamire szükségünk van, akkor érdemes utánanézni, hogyan oldható meg.

- [`numpy` dokumentáció](https://numpy.org/doc)

- [`numpy` tutorials](https://numpy.org/numpy-tutorials/features.html)

- [`numpy` howtos](https://numpy.org/doc/1.26/user/howtos_index.html)

- [web3c numpy](https://www.w3schools.com/python/numpy/default.asp)

# Adatok vizualizációja, `plot`s

Azonban akár képekkel, akár idősorokkal dolgozunk, nehéz tájékozódni vizuális segítség nélkül. 

A Python leggyakrabban használt plot-könyvtára a `matplotlib`.

Néhány erre épülő könyvtár:

- `seaborn` kényelmes statisztikai ábrák

- `plotnine` kényelmes statisztikai ábrák, (a `ggplot2` `R` csomag pythonos megfelelője).

Javascript-re épülő interaktív grafika jupyter notebookban:

- `plotly`.

- `gravis` gráfok megjelenítésére.

Statikus gráf megjelenítés: `graphviz`.

## Néhány példa függvény ábrára

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.figure(figsize=(16, 4))
xs = np.linspace(0, 2*np.pi, 100)
plt.plot(xs, np.sin(xs))
plt.title("A szinusz függvény")
plt.grid(); plt.show() 

In [None]:
plt.figure(figsize=(16, 4))
xs = np.linspace(0, 2*np.pi, 100)
plt.plot(xs, np.sin(xs))
plt.yticks([-1, -0.5, 0, 0.5, 1.0])
plt.title("A szinusz függvény"); plt.grid(); plt.show()

In [None]:
fig, ax = plt.subplots(nrows=3, ncols=1, figsize=(18, 6))
xs = np.linspace(0, 2*np.pi, 100)
ax[0].plot(xs, np.sin(xs))
ax[1].plot(xs, np.sin(2*xs))
ax[2].plot(xs, np.sin(4*xs))
plt.show()

In [None]:
fig, ax = plt.subplots(nrows=3, ncols=1, figsize=(18, 6), sharex=True)
xs = np.linspace(0, 2*np.pi, 100)
ax[0].plot(xs, np.sin(xs), label="sin(x)")
ax[0].legend(loc="upper right")
ax[1].plot(xs, np.sin(2*xs), c="g", label="sin(2x)")
ax[1].legend(loc="upper right")
ax[2].plot(xs, np.sin(4*xs), c="r", label="sin(4x)")
ax[2].legend(loc="upper right")
plt.show()


# Faktoriális értékének közelítése

Mekkora $n!$, ha $n$ nagy?

Ötlet:
$$
    \log n! = \sum_{k=1}^n \log k \approx \int_1^{?} \log x dx = \left[ x(\log x-1)\right]_{x=1}^{x=?}
$$

In [None]:
import matplotlib.pyplot as plt
import math
import numpy as np

def subdivision(a, b, n):
    return np.linspace(a, b, n+1)

def add_function_curve(f, a, b, n=100):
    xs = subdivision(a, b, n)
    fxs = np.vectorize(f)(xs) 
    plt.plot(xs, fxs, "r-")

## Téglalap közelítés

In [None]:
k_values = range(1, 11)
for k in k_values:
    plt.fill_between([k+i for k in k_values for i in range(2)], 
                     [math.log(k) for k in k_values for i in range(2)], 
                     color='lightblue')
add_function_curve(math.log, 1, 11)

## A téglalap közelítéssel elkövetett hiba:

In [None]:
def primitive_function(x):
    return x*(math.log(x)-1)

def rectangle_error(k):
    return primitive_function(k+1)-primitive_function(k)-math.log(k)

def cummulative_error(n, error_fun=rectangle_error):
    return sum(error_fun(k) for k in range(1, n+1))

In [None]:
for n in [10, 100, 1000]:
    print(f"{n=}, {cummulative_error(n)=}")

### Javítás, trapéz összeg közelítés

Téglalapok helyett minden egység intervallumon a beírt trapézt  használjuk.

In [None]:
k_values = range(1, 11) 
for k in k_values:
    plt.fill_between(k_values, [math.log(k) for k in k_values], color='lightblue')
add_function_curve(math.log, 1, 10)

In [None]:
def error_fun(x):
    k, t = divmod(x, 1)
    return math.log(x) - ((1-t)*math.log(k) + t*math.log(k+1))

xs = subdivision(1, 10, 100)
plt.fill_between(xs, [error_fun(x) for x in xs], color='lightblue')
add_function_curve(error_fun, 1, 10, 500)

In [None]:
def modified_error_fun(x):
    k = x//1
    return k*k*error_fun(x)

def show_modified_error(a):
    b = a+10
    xs = subdivision(a, b, 1000)
    plt.fill_between(xs, [modified_error_fun(x) for x in xs], color='lightblue')
    add_function_curve(modified_error_fun, a, b, 1000)
    plt.show()

In [None]:
show_modified_error(1)

In [None]:
show_modified_error(10)

In [None]:
show_modified_error(100)

In [None]:
show_modified_error(10000)

In [None]:
def trapezoid_error(k):
    return primitive_function(k+1)-primitive_function(k)-0.5*(math.log(k)+math.log(k+1))


In [None]:
for n in [10, 100, 1000]:
    print(f"{n = :>4}, {cummulative_error(n, trapezoid_error) = :.8f}")

## Látszik, hogy a hiba lassan nő. Tudunk-e felső becslést adni rá?

$$
    \int_{k}^{k+1} \log x dx = \int_0^1 \log(k+x) dx
$$

A beírt trapéz területe integrállal

$$
    \int_0^1 x\log(k+1)+(1-x)\log(k) dx
$$

Tudjuk-e becsülni a két integrandus különbségét?

$$
    \log(k+x) - (x\log(k+1)+(1-x)\log(k)) 
    = \log\left(1+\frac xk\right) - x\log\left(1+\frac 1k\right)
$$


A logaritmus függvény konkáv, a derivált monoton fogy ($1/x$) és egy beírt húr mindig a végponthoz behúzott érintő egyenesek alatt van.

$$
    \log (1+x)\leq x
$$

ezért
$$
    0\leq \log\left(1+\frac xk\right) - x \log\left(1+\frac1k\right)\leq 
\frac xk + x\log\left(\frac{k}{k+1}\right) 
\leq x\left(\frac1k-\frac1{k+1}\right)
$$
<!-- 
de
$$
    \log(1+1/k) = \log\frac{k+1}{k} = -\log\frac{k}{k+1} = -\log(1-1/(k+1)) \geq \frac1{k+1}
$$
 
Így

$$
    \log(1+x/k) - x \log(1+1/k)\leq x\left(\frac1k-\frac1{k+1}\right)
$$
-->
és a $k$. intervallumon elkövetett hiba legfeljebb
$$
    \int_{0}^{1} \log(k+x) - ((1-x)\log(k)+x\log(k+1))dx = \int_0^1 x dx \left(\frac1k -\frac1{k+1}\right)
$$
A hibák összege legfeljebb:
$$
    \frac12 \sum_{k=1}^\infty \frac1k -\frac1{k+1} =\frac12
$$

**Összefoglalva**:

$$
    \log n! = \int_1^n \log x dx + \frac12 \log n + r_n =
    \log\left(\sqrt{n}\left(\frac{n}{e}\right)^n\right) + 1 + r_n
$$
ahol $r_n$ a közelítés hibája az első $n$ intervallumon
$$
    r_n = \sum_{k=1}^n \int_0^1 \log(1+x/k)-x\log(1+1/k)dx \leq 1/2
$$
$(r_n)$ monoton nő, ezért létezik limesze.

Visszaírva faktoriálisra:

$$
    n! = \sqrt{n}\left(\frac{n}{e}\right)^n c_n
$$
ahol $c_n=e^{1+r_n}\leq e^{3/2}$

Analízisben a **Wallis** formulaként szerepel a következő eredmény:
$$
    \lim_{n\to\infty} \sqrt{n}\frac{1}{2^{2n}} \binom{2n}{n} =\frac{1}{\sqrt{\pi}}
$$


**HF** Írjuk be a faktoriális fenti alakját, a Wallis formulába, használjuk ki, hogy $(c_n)$ konvergens és számítsuk ki, hogy
$$
\lim c_n = \sqrt{2\pi}
$$

Ez a nevezetes **Stirling** formula:
$$
 \frac{n!}{\sqrt{2\pi n}\left(\frac{n}{e}\right)^n} \to 1
$$

## Maximum eloszlása szimmetrikus bolyongásnál


Szimmetrikus bolyongás alatt olyan véletlen sorozatot értünk, ami a nullából indul és minden lépése (megváltozása 1 vagy −1, 1/2–1/2 valószínűséggel a többi lépéstől függetlenül.

**Cél**:

- Írjunk egy függvényt, ami a numpy könyvtár függvényei segítségével elkészíti $n$ hosszú bolyongásoknak egy $m$ elemű sorozatát! Azaz a függvény kimenete egy $m\times n$ mátrix, az egyes sorok az egyes bolyongásokat írják le.

- Rajzoljunk ki néhány bolyongást! 
- Készítsünk hisztogramot a bolyongások utolsó pozíciójából (ez a függvény által visszakapott mátrix utolsó oszlopa). 
- Készítsünk hisztogramot a bolyongások maximális értékéből is (ezek a mátrixunk soronkénti maximumai). 

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def random_walk(n, m=1):
    steps = np.where(np.random.binomial(1, 0.5, size=(m, n-1)), 1, -1)
    walk = np.zeros((m, n), dtype=np.int32)
    steps.cumsum(axis=1, out=walk[:,1:])
    return walk

In [None]:
random_walk(10)

In [None]:
import ipytest
ipytest.autoconfig()

In [None]:
%%ipytest

def test_random_walk():
    rw = random_walk(10)
    assert rw.shape == (1,10)

    rw = random_walk(100)
    assert set(np.diff(rw[0])) == {-1, 1}
  
    rw = random_walk(100, 1000)
    assert (rw[:, 0]==0).all()



In [None]:
rw = random_walk(10000, 4)
for i in range(4):
    plt.plot(rw[i], linewidth=0.5)
plt.grid()
plt.show()

In [None]:
rw = random_walk(101, 200000) # 100 lépés, 200_000 elemű minta

In [None]:
rw_last  =  rw[:, -1]
plt.hist(rw_last, density=True)
plt.grid()
plt.show()

In [None]:

bins = np.arange(rw_last.min()-1, rw_last.max()+2, 2)
plt.hist(rw_last, bins, density=True)
plt.grid()
plt.show()

In [None]:
rw_max = rw.max(axis=1)
# print(rw_max.shape)

In [None]:
plt.hist(rw_max, density=True)
plt.grid(); plt.show()

In [None]:
bins = np.arange(rw_max.max()+2)-0.5
plt.hist(rw_max, bins, density=True)
plt.grid(); plt.show()

In [None]:
bins = np.arange(rw_last.min()-1, rw_last.max()+2, 2)
plt.hist(rw_last, bins, alpha=0.5)
bins = np.arange(0,rw_max.max()+2, 1)-0.5
plt.hist(rw_max, bins, alpha=0.5)
plt.grid(); plt.show()

## Magyarázat

A két ábra nagyon hasonlít, a maximumok hisztogrammja olyan mint felső ábra pozitív fele.

A szimmetikus bolyongás egy véletlen sorozat, a szokásos jelölés $(S_k)_{0\leq k\leq n}$.

A maximum eloszlása pl. tükrözési elvvel számolható. $\ell\geq0$-ra:

$$
\mathbb{P}(\max_{k\leq n} S_k\geq x) =
\mathbb{P}(\max_{k\leq n} S_k\geq x,\, S_n\geq x) +
\mathbb{P}(\max_{k\leq n} S_k\geq x,\, S_n<x)
$$

A második taggal kell foglalkozni. Nézzük azt az esetet, amikor $S_n=y< x$.

Minden lehetséges út egyformán valószínű ($1/2^n$). Így az  a kérdés, hány olyan út van ami $(0,0)$-ból $(n,y)$-ba, aminek maximuma legalább $x$. Az ilyen utak a *jó* utak.

Egy jó út esetén legyen $t$ az első olyan index, amikor az $x$ szinten jár, és a $t$ utáni lépéseket fordítsuk az ellentettjükre.

In [None]:
rw_max = rw.max(axis=1)
x = 8
idx = np.where((rw_last<x) & (rw_max>=x))[0]

if len(idx)>0:
    idx = idx.min()
    rw0 = rw[idx]
    t = np.where(rw0==x)[0].min()
    rw1 = np.zeros_like(rw0)
    rw1[:t+1] = rw0[:t+1]
    rw1[t+1:] = 2*rw0[t]-rw0[t+1:]
else:
    print("nincs a feltételnek megfelelő bolyongás")

In [None]:
plt.plot(rw0, label="eredeti út", alpha=0.5)
plt.plot(rw1, label="tükrözött út", alpha=0.5)
plt.hlines([x], 0, len(rw0))
plt.plot(t, x, 'ro')
plt.grid(); plt.legend(); plt.show()

Ha $x\geq 0$ és $y<x$, akkor
a fenti hozzárendelés bijekció azon utak között, amik $(0,0)$-ból $(n,y)$-ba mennek és közben járnak $x$ magasságban és azon utak között, amik
$(0,0)$-ból $(n,2x-y)$ mennek. A tükrözött útból úgy kaphatjuk vissza az eredetit, hogy $t$ a tükrözött útból is megkapható, mint az első olyan index, amikor az $x$ szinten jár a bolyongás, és a $t$ utáni növekményeket $-1$-gyel szorozzuk.

$$
\begin{aligned}
\mathbb{P}(\max_{k\leq n} S_k\geq x) &=
\mathbb{P}(\max_{k\leq n} S_k\geq x,\, S_n\geq x) +
\mathbb{P}(\max_{k\leq n} S_k\geq x,\, S_n<x)\\
&= \mathbb{P}(S_n\geq x) +
\mathbb{P}(S_n>x)
\end{aligned}
$$

Ebből
$$
\mathbb{P}(\max_{k\leq n} S_k = x) = \mathbb{P}(S_n = x) + \mathbb{P}(S_n = x+1)
$$



A *tükrözési elvből* valójában az jött ki, hogy:

$$
\mathbb{P}(\max_{k\leq n} S_k\geq x,\, S_n\leq y)= \mathbb{P}(S_n\geq 2x-y),\quad\text{ha $x\geq 0$ és $y\leq x$}
$$

Ebből, ha $x\geq 0$ és $y\leq x$

$$
\begin{aligned}
\mathbb{P}(\max_{k\leq n} S_k = x,\, S_n\leq y) 
& = \mathbb{P}(S_n\geq 2x-y)- \mathbb{P}(S_n\geq 2x-y+2)\\
& = \mathbb{P}(S_n = 2x-y)+\mathbb{P}(S_n = 2x-y+1)\\
\mathbb{P}(\max_{k\leq n} S_k = x,\, S_n = y) &
= \mathbb{P}(S_n = 2x-y)+\mathbb{P}(S_n = 2x-y+1) \\
&\hphantom{{}={}} - (\mathbb{P}(S_n = 2x-(y-1))+\mathbb{P}(S_n = 2x-(y-1)+1))\\
& = \mathbb{P}(S_n = 2x-y)-\mathbb{P}(S_n = 2x-y+2)
\end{aligned}
$$




A `plt.hist` függvény használata helyett célszerű magunknak kigyűjteni a gyakoriságokat.

In [None]:
rw_last_values, rw_last_cnts = np.unique(rw_last, return_counts=True)
rw_last_probs = rw_last_cnts/rw_last_cnts.sum()

rw_max_values, rw_max_cnts = np.unique(rw_max, return_counts=True)
rw_max_probs = rw_max_cnts/rw_max_cnts.sum()

plt.bar(rw_last_values, rw_last_probs, width=2, alpha=0.5, label='last')
plt.bar(rw_max_values, rw_max_probs, width=1, alpha=0.5, label='max')
plt.legend()
plt.show()

Be tudjuk-e rajzolni a haranggörbét?

Ehhez egyrészt használhatjuk a `scipy.stats` `norm` objektumának `pdf` (probablity density function) metódusát. Vagy megírhatjuk magunk is.

Vegyük észre, hogy 100 lépés után az átlag 0  a szórás $10=\sqrt{100}$. Pl. a generált mintában ezek az értékek:

In [None]:
print(f"minta átlag = {rw_last.mean():.3f}, minta szórása={rw_last.std():.3f}")

In [None]:
from scipy.stats import norm as gauss

In [None]:
sigma = (rw.shape[1]-1)**0.5
plt.plot(rw_last_values, gauss.pdf(rw_last_values, 0, sigma))
plt.grid()
plt.show()

In [None]:
plt.bar(rw_last_values, rw_last_probs, width=2, alpha=0.5)
plt.bar(rw_max_values, rw_max_probs, width=1, alpha=0.5)
plt.plot(rw_last_values, 2*gauss.pdf(rw_last_values, 0, sigma))
plt.show()

## Utolsó nullhely.

Szimmetrikus bolyongás alatt olyan véletlen sorozatot értünk, ami a nullából indul és minden lépése (megváltozása) 1 vagy −1, 1/2–1/2
valószínűséggel a többi lépéstől függetlenül.

**Cél**:

- Minden bolyongásra számoljuk ki az utolsó nulla érték indexét és ezt osszuk el a bolyongás hosszával. 

- Készítsünk hisztogramot az így kapott értékekből.

- Van-e olyan szép függvény, ami illeszkedik a hisztogram alakjára.

In [None]:
np.nonzero?

In [None]:
np.where(rw[0]==0)[0]

A bolyongás legyártásában nincs különbség. Az utolsó nullhelyet nehézkesebb csak array műveletekkel számolni.

In [None]:
def last_zero(rw):
    return np.array([np.where(row==0)[0].max() for row in rw])

def last_zero_2(rw):
    return ((rw==0)*np.arange(0, rw.shape[1])).max(axis=1)

In [None]:
%%ipytest

def last_zero_row(row):
    idx = 0
    for i, x in enumerate(row):
        if x==0:
            idx = i
    return idx

def last_zero_with_for(rw):
    return np.array([last_zero_row(row) for row in rw])


def test_last_zero():
    rw = random_walk(100,1000)
    assert (last_zero(rw) == last_zero_with_for(rw)).all()
    assert (last_zero_2(rw) == last_zero_with_for(rw)).all()


In [None]:
print(f"{sum(rw[:,-2]==0)=}, {rw.shape=}")

In [None]:
rw_last_zero = last_zero(rw)/(rw.shape[1]-1)
print(f"{rw_last_zero.min()}, {rw_last_zero.max()}")
plt.hist(rw_last_zero)
plt.show()

In [None]:
rw_last_zero = last_zero_2(rw)
rw_last_zero_values, rw_last_zero_cnts = np.unique(rw_last_zero, return_counts=True)
rw_last_zero_probs = rw_last_zero_cnts/rw_last_zero_cnts.sum()
rw_last_zero_values  = rw_last_zero_values.astype(np.float64)/(rw.shape[1]-1)
width = np.diff(rw_last_zero_values).max()

In [None]:
plt.bar(rw_last_zero_values, rw_last_zero_probs, width=0.9*width)
plt.show()

## Magyarázat.

A korábbi számolásból

$$
  \begin{aligned}
    \mathbb{P}(S_{1}\geq 0, \dots S_n\geq 0) &= 
    \mathbb{P}(\min_{k\leq n} S_k\geq 0) = \mathbb{P}(\max_{k\leq n} S_k\leq 0) \\
    &= \mathbb{P}(\max_{k\leq n} S_k= 0) = \mathbb{P}(S_n=0)+\mathbb{P}(S_n=1)\\ 
    &= \mathbb{P}(S_n=0)+\mathbb{P}(S_{n+1}=0)
  \end{aligned}
$$

Innen

$$
    \mathbb{P}(S_{1}> 0, \dots S_n> 0) = \frac12\mathbb{P}(\min_{k\leq n} S_k-S_1\geq 0) = \frac12\left(\mathbb{P}(S_{n-1}=0)+\mathbb{P}(S_{n}=0)\right)
$$

és

$$
  \begin{aligned}
    \mathbb{P}(S_{1}\neq 0, \dots S_n\neq 0) &=
    \mathbb{P}(S_{1}> 0, \dots S_n> 0)+\mathbb{P}(S_{1}< 0, \dots S_n< 0) \\
    & = \mathbb{P}(S_{n-1}=0)+\mathbb{P}(S_{n}=0)
  \end{aligned}
$$

Legyen $n=2k$ páros és $T_n$ az utolsó nullhely az első $n$ lépés során.

Az előző számolásból:

$$
\mathbb{P}(S_{1}\neq 0, \dots S_{2k}\neq 0)= \mathbb{P}(S_{2k}=0)
$$


$$
  \begin{aligned}
    \mathbb{P}(T_n = 2\ell) & =
    \mathbb{P}(S_{2\ell}=0,\, S_{2\ell+i}-S_{2\ell}\neq 0,\, i=1,\dots,2k-2\ell) \\
    & = \mathbb{P}(S_{2\ell}=0)\mathbb{P}(S_{2(n-\ell)}=0)\\
    & = \frac{1}{2^{2\ell}}\binom{2\ell}{\ell}\frac{1}{2^{2(k-\ell)}}\binom{2(k-\ell)}{k-\ell}
  \end{aligned}
$$

HF középiskolából: rekurzió $I_k = \int_0^{\pi/2}\cos^k(\alpha)d\alpha$. Ha ezt felírjuk, kihasználjuk, hogy $I_0=\pi/2$, $I_1=1$, akkor azt kapjuk, hogy
$$
    \frac1{\sqrt{\pi(k+1/2)}}\leq \frac{1}{2^{2k}}\binom{2k}{k}\leq \frac{1}{\sqrt{\pi k}},
    \quad
    \frac1{\sqrt{\pi(k+1/4)}}\approx \frac{1}{2^{2k}}\binom{2k}{k}
$$

Azaz

$$
    \mathbb{P}(T_n=2\ell) \approx \frac{2}{n}\left.\frac{1}{\pi}\cdot\frac1{\sqrt{x(1-x)}}\right|_{x=\frac{2\ell}{n}}
$$

,,Ellenőrizzük'' a kapott formulát

In [None]:
def arcsin_probs(x):
    width = np.diff(rw_last_zero_values).max()
    d = np.zeros_like(x)
    y = (x+0.33*width)*(1-x+0.33*width)
    d[y>0] = width/(np.sqrt(y[y>0])*np.pi)
    return d

In [None]:
plt.bar(rw_last_zero_values, rw_last_zero_probs, width=0.9*width)
plt.plot(rw_last_zero_values, arcsin_probs(rw_last_zero_values), color='red')
plt.show()

## Variációk `numpy` függvényekre 

Tudunk-e cummulative maximumot számolni `numpy` segítségével?

Ilyen függvényt nem találunk, de teszőleges `ufunc`-ból lehet **accumulált** változatot készíteni.

## Kitérő: `np.ufunc` Univerzális tömb függvények

In [None]:
[method for method in dir(np.ufunc) if not method.startswith("_")]

In [None]:
def short_help(f):

    i = f.__doc__.find("Parameters")
    return f.__doc__ if i<0 else f.__doc__[:i]

In [None]:
print(short_help(np.ufunc.accumulate))

In [None]:
print(short_help(np.ufunc.at))

In [None]:
print(short_help(np.ufunc.outer))

In [None]:
print(short_help(np.ufunc.reduce))

In [None]:
print(short_help(np.ufunc.reduceat))

In [None]:
np.maximum.accumulate(rw, axis=1)

In [None]:
rw = random_walk(1000)[0]
running_min = np.minimum.accumulate(rw, axis=-1)
# rw.shape, running_min.shape
plt.plot(rw, label="$S$")
plt.plot(running_min, label="$S$\u0332")
plt.plot(rw-running_min, label="$S-S\u0332$")
# plt.plot(rw-2*running_min, label="$S-2S\u0332$")
plt.legend()
plt.grid()
plt.show()

# Öröklődés

Korábban szerepelt ehhez hasonló példa. Legyenek `Polygon`, `Rectangle`, `Square` osztályaink.
Minden négyzet téglalap és minden téglalap sokszög. Egy sokszöget a csúcsok felsorolásával adhatunk meg.
Ebből a kerület, terület kiszámolható és eldönthető, hogy a sokszög konvex-e. Ha akarjuk pl. a `Matplotlib` könyvtárral ki is rajzolhatjuk a sokszöget.

Menetközben síkvektorokkal akarunk számolni. Erre kényelmes a `numpy` könyvtárat használni.

In [None]:
import numpy as np
from itertools import pairwise
import matplotlib.pyplot as plt

In [None]:
class Point(np.ndarray):
    def __new__(cls, point):
        point = np.asarray(point)
        assert point.shape[-1] == 2
        return point.view(cls)

    def __repr__(self):
        if self.ndim > 1:
            return f"Array of Points"
        else:
            a, b =  self
        return f"Point{(a,b)}"
    
def rotate90(x):
    return np.flip(x, axis=-1)*np.array([1, -1])

In [None]:
Point((1,2))-Point((3,4))

In [None]:
class Polygon:

    def __init__(self, nodes):
        self.nodes = tuple((Point(node) for node in nodes))

    def area(self):
        nodes = np.array(self.nodes)
        area = sum(v1[0]*v2[1]-v1[1]*v2[0] for v1, v2 in pairwise(nodes-nodes[0]))
        return abs(area)/2

    def edges(self):
        nodes = np.array(self.nodes)
        return nodes-np.roll(nodes, 1, axis=0)
    
    def perimeter(self):
        return sum(np.linalg.norm(edge) for edge in self.edges())
    
    def is_convex(self):
        edges = self.edges()
        sgn = np.einsum('ij,ij->i', rotate90(edges), np.roll(edges, 1, axis=0))
        return (min(sgn)*max(sgn)>=0)

    def draw(self,  *args, fill=False, **kwargs):
        nodes = self.nodes + self.nodes[:1]
        x, y = np.array(nodes).T
        if fill:
            plt.fill(x, y, alpha=0.5)
        plt.plot(x, y, *args, **kwargs)
        plt.axis('equal')

    def __repr__(self):
        return f'{type(self).__name__}({[tuple(x) for x in self.nodes]})'

In [None]:
class Rectangle(Polygon):

    def __init__(self, P1, P2, r):
        """
        P1, P2 froms an edge and r is the ratio of edge lengths.

        Assuming that e is P1P2 rotated counterclockwise by 90 degree
        the vertices are:
        P1, P2, P2+r*e, P1+r*e
        """
        P1, P2 = Point(P1), Point(P2)
        v = rotate90(P2-P1)*r
        super(Rectangle, self).__init__([P1, P2, P2+v, P1+v])


class Square(Rectangle):

    def __init__(self, P1, P2):
        super(Square, self).__init__(P1, P2, 1)

In [None]:
rotate90(np.array([[0, 1], [1, 0]]))

In [None]:
points = np.array([[0,0], [1,1]])
s = Square(points[0], points[1])
t = Rectangle(points[0], points[1], 2)
p = Polygon(points)
for x in [s, t, p]:
    print(f"{x} kerület: {x.perimeter():.2f}, konvex: {x.is_convex()}, terület: {x.area():.2f}")


Vegyük észre, hogy az `__repr__` metódust csak egyszer implementáltuk, mégis minden egyednek a saját típusát írja ki!
Az előző kód blokkot futtassuk le azután is, hogy a `draw` metódust implementáltuk.

In [None]:
import matplotlib.pyplot as plt

In [None]:
points = np.array([[0,0], [2,0], [2,2], [1,1], [1,2], [0,2], [0.5,1]])
p = Polygon(list(points))
print(f"{p} konvex?: {p.is_convex()}, {p.area()=}")
p.draw('o-', fill=True)
plt.grid(); plt.show()


In [None]:
plt.plot(*np.array(s.nodes)[[0,1,2,3,0]].T)
plt.grid()
plt.axis('equal')
# plt.axis('off')


In [None]:
t.draw('o-', alpha=0.5)
s.draw('o:', markersize=10, alpha=0.5, fill=True)
p.draw('o-', mfc="r", mec='r', alpha=0.5)
plt.show()

In [None]:
p = Square([0,0], [1,0])
p.draw(fill=True)

# A `pandas` könyvtár

Nagyon sok adat táblázatos formátumú. 

Statisztikában, klasszikus gépi tanulási algoritmusoknál a táblázat sorai egy-egy adatpontot reprezentálnak. 

A sor elemei a megfigyelt tulajdonságok, ezek nem feltétlenül azonos típusúak.

Egy példa a `Kaggle`-ről: 

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("budincsevity/szeged-weather")

print("Path to dataset files:", path)

In [None]:
from pathlib import Path

path = Path(path)

print(*path.glob("*"), sep="\n")

In [None]:
import pandas as pd
csv_file = next(iter(path.glob("*.csv")))
df = pd.read_csv(csv_file, nrows=5)
df.head()

In [None]:
df = pd.read_csv(csv_file)
df.shape

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.isna().sum()

In [None]:
df["Precip Type"].value_counts()

In [None]:
df["date"] = pd.to_datetime(df["Formatted Date"], utc=True)

In [None]:
df[df["date"].dt.hour==12].shape


In [None]:
import matplotlib.pyplot as plt

ax = df[df.date.dt.hour==12].plot(x="date", y="Temperature (C)", figsize=(16, 4), kind="scatter", s=1)
ax.set_title("Hőmérséklet Szegeden 12 órakor (UTC)")
ax.set_xlabel("Év")
ax.grid()
plt.show()

In [None]:
ax = df.groupby(df.date.dt.hour)["Temperature (C)"].mean().plot(kind="bar", figsize=(8, 3))
ax.set_xlabel("óra")
ax.set_ylabel("átlag hőmérséklet (C)")
plt.show()

In [None]:
import seaborn as sns

df["hónap"] = df.date.dt.month_name(locale="hu_HU.utf8")
df["óra"]  = df.date.dt.hour
df["nap"] = df.date.dt.day_of_year
df["év"] = df.date.dt.year
    
plt.figure(figsize=(8, 3))
sns.lineplot(
    data=df[(df.date.dt.hour == 12)], 
    x="nap", 
    y="Temperature (C)", 
)
plt.show()

## `pandas.DataFrame` létrehozása, indexelés 

Néhány lehetőség:

In [None]:
data = [{'a': 1, 'b':2}, {'a': 3, 'b':4}]
pd.DataFrame(data)

In [None]:
pd.DataFrame({'a': [1, 3], 'b': [2, 4]})

In [None]:
pd.DataFrame([[1,2], [3,4]], columns=['a', 'b'])

## Indexelés, `loc` és `iloc` segítségével

In [None]:
if df.index.name is None:
    df.set_index("date", inplace=True)
if 'Formatted Date' in df.columns:
    df.drop(columns=["Formatted Date"], inplace=True)
df = df.sort_index()

`loc` esetén index értékeket és oszlopneveket használunk

In [None]:
df.loc["2007-01-01":"2007-12-31", ["Summary", "Humidity", "Precip Type"]]

`iloc` esetén numerikus indexeket.

In [None]:
df.iloc[:5, :5]

Egy data frame minden oszlopa egy `pandas.Series` objektum. Ezek indexelt numpy vectorok.

In [None]:
col = df["Summary"]
print(f"{type(col)=}, {col.dtype=}, {col.shape=}, {col.ndim=}, {col.name=}")
col.head()


In [None]:
df[["Summary"]].head()

In [None]:
df.iloc[:5,:5].values

In [None]:
df["Temperature (C)"].values

### Kiírás fileba

In [None]:
df.iloc[:5, :5].to_csv("/tmp/small.csv")

In [None]:
! cat /tmp/small.csv

## Néhány `DataFrame`-ekkel végezhető művelet

- `numpy`-ban látott aggregáló műveletek (`min`, `max` `sum`, `mean`, `std`, `corr`)

- `groupby`: Csoportosítás adott oszlop, vagy oszlopok értékei szerint. 

- `merge`: két `DataFrame`-ből egyet készít.

- `pivot_table`: Összefoglaló táblázat (EXCEL funkcióhoz hasonlít).

In [None]:
df.loc(1)[df.dtypes == np.float64].corr()

In [None]:
months = pd.date_range("2000-01-01", "2000-12-31", freq="ME").month_name(locale="hu_HU.utf8").values
months

In [None]:
mean_temp = df.groupby("hónap")[["Temperature (C)"]].mean()
mean_temp.columns = ["Havi átlaghőmérséklet"]
mean_temp = mean_temp.loc(0)[months]
mean_temp


In [None]:
# több szempont szerint is lehet csoportosítani.
mean_temp = df.groupby(["hónap", "Precip Type"])[["Temperature (C)"]].mean()
mean_temp.columns = ["Havi átlaghőmérséklet"]
mean_temp.loc(0)[months] 

In [None]:
# Merge variációi: how lehet inner, left, right, outer
a = pd.DataFrame([[1, 2], [3, 4]], columns=["a", "b"])
b = pd.DataFrame([[1, 3], [5, 6]], columns=["a", "b"])
a.merge(b, on="a", how="outer", suffixes=("_left", "_right"))

In [None]:
df["óra/4"] = df["óra"]//4
table = df.pivot_table(index="hónap", columns="óra/4", values="Temperature (C)", aggfunc="mean")
table = table.loc(0)[months]
table.columns = [f"{i*4}-{(i+1)*4}" for i in range(6)]
table.columns.name = "Idősáv"
table

In [None]:
df.pivot_table(index=["hónap", "Precip Type"], columns="óra/4", values="Temperature (C)", aggfunc="mean").loc(0)[months]

# Néhány algoritmus

Hogyan számolnánk ki ${}^3\sqrt{2}$-at, vagy $\sqrt{2}$-t 50 tizedesjegy pontossággal?

In [None]:
import math

def print_answer(answer):
    answer = str(answer)
    print(f"{answer[0]}.", end="")
    for i in range(1, len(answer), 50):
        for j in range(i, i+50, 5):
            print(answer[j:j+5], end=" ")
        print("\n  ", end="")
    print()
    
n = 126
answer = math.isqrt(2*(10**(2*n)))
print_answer(answer)


In [None]:
n = 100
answer = math.isqrt(2*(10**(2*n)))
print_answer(answer)


Mi a helyzet  ${}^3\sqrt{2}$-mal?

Az 
$$
f(x) = c-x^3
$$
függvény nullhelyét keressük. Pontosabban azt a legnagyobb $x$ egészet, amire $f(x)\geq 0$, ez a $^{3}\sqrt{c}$ egészrésze. 

Ha $c=2*10^{3*n}$, ekkor a megoldás  $[^{3}\sqrt{2}*10^n]$. Azaz az első $n$ tizedesjegy pontos lesz.

## Nullhely keresés

Ötlet, induljunk ki egy jó tippből és közelítsük a függvényünket lineáris függvénnyel.

$$
    f(x) \approx f(x_n)+(x-x_n) f'(x_n)
$$

és 

$$
    f(x_n) + (x-x_n) f'(x_n)=0 \quad\iff\quad  x = x_n - \frac{f(x_n)}{f'(x_n)}
$$

Rekurzió:
$$
x_{n+1} = x_n-\frac{f(x_n)}{f'(x_n)}
$$
Ha $f$ ,,szép'',  $f(t)=0$ és $x_n$ közel van $t$-hez, akkor

$$
    x_{n+1} -t = x_n-t -\frac{f(x_n)-f(t)}{f'(x_n)} 
    = (x_n-t)\left(1-\int_0^1 \frac{f'(t+u(x_n-t))}{f'(x_n)} du\right) 
    = (x_n-t)\int_0^1 \frac{f'(x_n) - f'(t+u(x_n-t))}{f'(x_n)} du
$$

és ha $x_n, x_{n+1}, t \in I$

$$
    |x_{n+1} -t|\leq \frac12|x_n-t|^2 \cdot \frac{\max_{u\in I}|f''(u)|}{\min_{u\in I} f'(u)}
$$

pl.

$f(x) = x^2-2$, $f'(x)=2x$,
  $f''(x)=2$ és ha $x_n, x_{n+1}, t \in [1,2]$, akkor $|x_{n+1}-t|\leq\frac12|x_n-t|^2$.

$f(x) = x^3-2$, $f'(x)=3x^2$, $f''(x)=6x$ és  $x_n, x_{n+1}, t \in [1,2]$, akkor $|x_{n+1}-t| \leq |x_n-t|^2$.


A rekurzió alakja $f(x) = x^3-c$-re.
$$
    x_{n+1} = x_n-\frac{f(x_n)}{f'(x_n)} = \frac{3x_n^3-(x_n^3-c)}{3 x_n^2}= \frac{2x_n}3 + \frac{c}{3x_n^2} 
$$

In [None]:
import sys 
sys.set_int_max_str_digits(50000)

In [None]:
def cube_root2(digits=1):
    x = 1
    c = 2
    delta = 1
    while digits > 0:
        delta = min(delta, digits)
        c *= 10**(3*delta)
        x *= 10**delta
        while True:
            x0 = x+1
            x = (2*x0+c//(x0**2))//3
            if x0 == x+1:
                break
            # print(delta)
        digits -= delta
        delta <<=  1

    return x


In [None]:
n = 85
a = cube_root2(n)
a_cube = a**3
k = len(str(a_cube))-1
a_cube <= 2*10**(k) < (a+1)**3


In [None]:
print_answer(a)

In [None]:
from tqdm.auto import tqdm
import time
timing = []
n_repeat = 10
for e in tqdm(range(1, 25)):
    n = int(1.5 ** e)
    start = time.perf_counter_ns()
    for _ in range(n_repeat):
        a = cube_root2(n)
    end = time.perf_counter_ns()

    timing.append({"run_time": (end-start)/n_repeat, "digits": len(str(a))-1})


In [None]:
df  = pd.DataFrame(timing)
df.plot(x="digits", y="run_time", logx=True, logy=True)

In [None]:
df