# Znanstveno računanje

Znanstveno računanje vključuje obdelavo različnih tipov in količin podatkov. Za Python je na voljo cel kup paketov za obdelavo raznih meritev ([SciPy](https://scipy.org/)), tabelaričnih podatkov ([Pandas](https://pandas.pydata.org/)), vizualizacijo podatkov ([Matplotlib](https://matplotlib.org/), [Seaborn](https://seaborn.pydata.org/)), strojno učenje ([Scikit-learn](https://scikit-learn.org/), [TensorFlow](https://www.tensorflow.org/)), delo s slikami ([OpenCV](https://pypi.org/project/opencv-python/)), analizo besedil ([NLTK](https://www.nltk.org/)) in še marsikaj drugega. Vsi našteti paketi temeljijo na paketu [NumPy](https://numpy.org/), ki si ga bomo podrobneje ogledali.

## NumPy

NumPy (https://numpy.org/) nam omogoča delo z večdimenzionalnimi tabelami podatkov (`ndarray`) s poudarkom na učinkovitosti. Pythonovi seznami (`list`) in zanke so hitri za pisanje, precej manj hitri pa so pri izvajanju. NumPy nam ponuja podatkovno strukturo za delo s tabelami in učinkovite operacije, ki so implementirane z optimizirano C-jevsko kodo.

Paket lahko enostavno namestimo z ukazom `pip install numpy` iz ukazne vrstice (https://pypi.org/project/numpy/).

In [1]:
import numpy as np
print(np.__version__)

1.19.3


NumPy tabelo lahko ustvarimo iz Pythonovih seznamov, ali pa uporabimo katero od pripravljenih oblik. Za razliko od Pythonovih seznamov morajo tabele vsebovati podatke istega tipa. Večinoma so namenjene delu s celimi in decimalnimi števili ter logičnimi vredostmi.

In [2]:
x = np.array([1,2,3,4,5])
y = np.array([[1.0, 2, 3], [4, 5, 6]])
z = np.zeros((3, 4))
f = np.full((2, 3), True)

print(x), print(y), print(z), print(f)
print(type(x))
print("tipi:", x.dtype, y.dtype, z.dtype, f.dtype)

[1 2 3 4 5]
[[1. 2. 3.]
 [4. 5. 6.]]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[ True  True  True]
 [ True  True  True]]
<class 'numpy.ndarray'>
tipi: int32 float64 float64 bool


Pri ustvarjanju tabele lahko definiramo tip z argumentom `dtype`. Podobno kot range nam knjižnica ponuja funkcijo `arange` za izgradnjo aritmetičnega zaporedja. Funkcija `linspace(start, stop, num)` nam z intervala [start, stop] vrne `num` enako razmaknjenih vrednosti, kar nam lahko pride prav pri vzorčenju. Na voljo pa imamo tudi več funkcij za generiranje naključnih tabel.

In [3]:
a = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.float64)
print(a)
r = np.arange(10)
print(r)
l = np.linspace(5, 10, 4)
print(l)
rnd = np.random.randint(3, 10, (2,8))
print(rnd)

[[1. 2. 3.]
 [4. 5. 6.]]
[0 1 2 3 4 5 6 7 8 9]
[ 5.          6.66666667  8.33333333 10.        ]
[[8 7 4 7 4 5 7 7]
 [6 9 4 3 5 3 5 9]]


Glavni lastnosti tabele sta tip (`dtype`) in oblika (`shape`). Iz oblike lahko enostavno izračunamo tudi število dimenzij (`ndim`) in velikosti (`size`).

In [4]:
print(a)
print("dtype:", a.dtype)
print("shape:", a.shape)
print("ndim:", a.ndim)
print("size:", a.size)

[[1. 2. 3.]
 [4. 5. 6.]]
dtype: float64
shape: (2, 3)
ndim: 2
size: 6


Zanimiva operacija je sprememba oblike tabele z metodo `reshape`, ki to doseže brez kopiranja podatkov. Metoda sprejme kot argument terko, ki definira novo obliko. 

Podatki v 2D tabeli so v pomnilniku tipično shranjeni po vrsticah en za drugim. Informacija o obliki tabele pa nam omogoča, da lahko dostopamo do pravih elementov. Če želimo dostopati do podatka v vrstici $y$ in stolpcu $x$, ga najdemo na mestu $y \cdot \text{širina} + x$. S spremembo širine tabele se spremeni izračun za dostop do elementov brez vsakršne reorganizacije podatkov. 

In [5]:
print(a.reshape(6))
print(a.reshape((1,6)))
print(a.reshape((3,2)))

[1. 2. 3. 4. 5. 6.]
[[1. 2. 3. 4. 5. 6.]]
[[1. 2.]
 [3. 4.]
 [5. 6.]]


### Operacije

Operacije, ki jih izvajamo nad tabelami, se izvedejo nad vsemi elementi tabele. Rečemo jim tudi **vektorske operacije**. S tem se izognemo zankam in jih preložimo na C-jevsko implementacijo, ki se skriva za knjižnico. Ker je izvajanje iste operacije na več podatkih pogosta operacija, so temu prilagojeni tudi današnji procesorji (https://en.wikipedia.org/wiki/SIMD) s posebnimi ukazi, ki jih izkorišča koda v ozadju.

In [6]:
print(a)
print(a-3)
print((a-3)*10)
print(((a-3)*10)**2)
print(((a-3)*10)**2 < 300)

[[1. 2. 3.]
 [4. 5. 6.]]
[[-2. -1.  0.]
 [ 1.  2.  3.]]
[[-20. -10.   0.]
 [ 10.  20.  30.]]
[[400. 100.   0.]
 [100. 400. 900.]]
[[False  True  True]
 [ True False False]]


Tudi operacije med tabelami delujejo podobno. Operacija se izvede med vsemi istoležnimi pari elementov.

In [7]:
b = np.arange(6).reshape((2,3))*2
print(a), print(b)
print(a + b)
print(a >= b)

[[1. 2. 3.]
 [4. 5. 6.]]
[[ 0  2  4]
 [ 6  8 10]]
[[ 1.  4.  7.]
 [10. 13. 16.]]
[[ True  True False]
 [False False False]]


V primeru operacije nad tabelami različnih dimenzij, lahko NumPy v določenih primerih ugotovi, s čim se strukturno ujema, in uspešno izvede operacijo.

In [8]:
print(a + np.array([0,10,0]))
print(a + np.array([[0], [10]]))
print(a + np.array([[0,10]]))  # ne deluje

[[ 1. 12.  3.]
 [ 4. 15.  6.]]
[[ 1.  2.  3.]
 [14. 15. 16.]]


ValueError: operands could not be broadcast together with shapes (2,3) (1,2) 

Na razpolago je tudi več funkcij za akumuliraje vrednosti. Najbolj očiten primer je vsota (`sum`). Povejmo še, da večina funkcij obstaja v dveh oblikah: kot metoda tabele (`a.sum()`) ali pa kot funkcija iz modula numpy, ki sprejme tabelo (`np.sum(a)`).

In [9]:
print(a)
print("sum:", a.sum(), np.sum(a))

[[1. 2. 3.]
 [4. 5. 6.]]
sum: 21.0 21.0


Pomemben argument funkcij za agregiranje je `axis`, s katerim lahko definiramo dimenzijo, po kateri izvajamo agregacijo. Če želimo seštevati vrednosti po stolpcih, podamo vrednost `axis=0`. Zanka, ki bo izvajala agregacijo, bo namreč tekla pa vrsticah, ki so prva dimenzija (z indeksom 0).

In [10]:
print("vsota stolpcev: ", a.sum(axis=0))
print("max po vrsticah:", a.max(axis=1))

vsota stolpcev:  [5. 7. 9.]
max po vrsticah: [3. 6.]


Za agregiranje logičnih vrednosti nam prideta prav `all` in `any`.

In [11]:
print("all:", np.all(a<4))
print("any:", np.any(a<2.5, axis=0))

all: False
any: [ True  True False]


### Hitrost

Primerjavo hitrosti računanja bomo izvedli na primeru izračuna standardne deviacije: $\sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}$, $\mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}$.

Računali jo bomo na vzorcu števil iz enakomerne porazdelitve na intervalu $[a, b]$. Vrednost, ki jo pričakujemo ob dovolj velikem vzorcu, je enaka korenu variance, torej $\sqrt{\frac{1}{12}(b-a)^{2}}$ (https://en.wikipedia.org/wiki/Continuous_uniform_distribution).

In [12]:
from random import uniform
from time import time

lo, hi = 100, 500
x = [uniform(lo,hi) for i in range(5*10**6)]
a = np.array(x)

print("pričakovana vrednost:", (1/12*(hi-lo)**2)**0.5)

pričakovana vrednost: 115.47005383792515


Standardno deviacijo bomo izračunali na štiri načine:
- s `for` zankami,
- z uporabo funkcije `sum` in generatorjev,
- z vektorskimi operacijami nad numpy tabelo,
- direkto s funkcijo `std`.

In [13]:
start = time()
avg = 0
for i in x:
    avg += i
avg /= len(x)
rez = 0
for i in x:
    rez += (i-avg)**2
std = (rez/len(x))**0.5
print("for", std, time()-start)

start = time()
avg = sum(x)/len(x)
std = (sum((i-avg)**2 for i in x)/len(x))**0.5
print("gen", std, time()-start)

start = time()
std = (np.sum((a-np.mean(a))**2)/a.size)**0.5
print("np ", std, time()-start)

start = time()
std = np.std(a)
print("std", std, time()-start)

for 115.45137537830561 1.2855761051177979
gen 115.45137537830561 0.8329365253448486
np  115.45137537830394 0.03961968421936035
std 115.45137537830394 0.03470802307128906


Vidimo, da sta rešitvi z uporabo NumPy knjižnice več kot 20-krat hitrejši!

### Indeksiranje

Tabele lahko indeksiramo na enak način kot gnezdene sezname v Pythonu (`a[y][x]`). Poleg tega pa imamo na voljo še indeksiranje s terkami `a[(y,x)]` oz. ekvivalenten zapis `a[y,x]`.

In [14]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(a)
print(a[1])
print(a[1][2], a[(1,2)], a[1,2])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[4 5 6]
6 6 6


Uporabljamo lahko tudi rezanje (slice).

In [15]:
print(a[1, 1:3])
print(a[:,2])

[5 6]
[3 6 9]


Numpy pa nam ponuja novost pri indeksiranju, in sicer indeksiranje s tabelami. Namesto enega indeksa ali rezine, lahko podamo seznam indeksov. V spodnjem primeru lahko izločimo samo prvo in zadnjo vrstico, ali pa dodatno še srednji stolpec.

In [16]:
ind = np.array([0,2])
print(a[ind])
print(a[ind,1])

[[1 2 3]
 [7 8 9]]
[2 8]


Sočasno indeksiranje s seznami po več dimenzijah deluje drugače od pričakovanj. Ker se pogosto ločeno shranjuje indekse po posameznih dimenzijah, nam sintaksa `a[r,c]`, kjer sta `r` in `c` tabeli indeksov, vrne `a[r[0], c[0]]`, `a[r[1], c[1]]`, ... Če želimo iz tabele izločiti vrstice iz seznama `r` in stolpce iz seznama `c`, to storimo v dveh korakih indeksiranja.

In [17]:
print(a)

rows = np.array([0, 2])
cols = np.array([1, 2])
print(a[rows,cols])

print(a[rows][:,cols])

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[2 9]
[[2 3]
 [8 9]]


Poseben način indeksiranja s tabelami je indeksiranje s tabelami logičnih vrednosti, ki označujejo, katere elemente želimo izbrati in katerih ne.

In [18]:
mask = [True, False, True]
print(a[:,mask])

[[1 3]
 [4 6]
 [7 9]]


### Linearna algebra

Poleg večdimenzionalnih tabel ponuja NumPy tudi podporo za osnovne statistične operacije, generiranje naključnih števil in operacije linearne algebre.

Pogosta operacija je izračun inverza matrike. Ker ne gre za trivialno operacijo, nam prav pride fukcija `np.linalg.inv`. Produkt matrike s svojim inverzom bi moral vrniti identiteto. Pri tem moramo biti pazljivi, da ne množimo matrik z operatorjem `*`, ki pomnoži zgolj istoležne elemente, temveč uporabimo funkcijo `np.matmul`.

In [19]:
A = np.array([[2,3],
              [2,1]])
Ai = np.linalg.inv(A)
print(A), print(Ai)
print(A*Ai)  # množenje po elementih
print(np.matmul(A, Ai))  # množenje matrik

[[2 3]
 [2 1]]
[[-0.25  0.75]
 [ 0.5  -0.5 ]]
[[-0.5   2.25]
 [ 1.   -0.5 ]]
[[1. 0.]
 [0. 1.]]


Druga pogosta tema so lastni vektorje in lastne vrednosti. Gre za vektorje, ki jih transformacija z matriko zgolj raztegne in sicer za pripadajočo lastno vrednost. Povedano bolj formalno — če je $x$ lastni vektor matrike $A$, velja $A x = \lambda x$, kjer je $\lambda$ pripadajoča lastna vrednost. Funkcija `np.linalg.eig` nam vrne seznam lastnih vrednosti in tabelo enotskih lastnih vektorjev, ki se nahajajo v stolpcih.

In [20]:
values, vectors = np.linalg.eig(A)
print(values)
print(vectors)
l1, l2 = values
v1, v2 = vectors[:,0], vectors[:,1]
print("dolžina:", np.linalg.norm(v1))
print(np.all(np.matmul(A, v1) == l1*v1))
print(np.all(np.matmul(A, v2) == l2*v2))

[ 4. -1.]
[[ 0.83205029 -0.70710678]
 [ 0.5547002   0.70710678]]
dolžina: 1.0
True
True


Preslikavo vektorja z matriko lahko torej izvedemo s transformacijo vektorja v nov koordinatni sistem z bazo lastnih vektorjev, komponente v novi bazi skaliramo s pripadajočimi lastnimi vrednostmi in izvedemo transformacijo nazaj v standardni koordinatni sistem. Gre za daljšo pot, ki pa je lahko v določenih primer bolj primerna, ker je v novi bazi siceršnja transformacija z matriko zgolj skaliranje vrednosti.

Izberimo si vektor, ki ga želimo transformirati, in si oglejmo rezultat, ki ga iščemo.

In [21]:
u = np.array([4,5])
print(np.matmul(A,u))

[23 13]


Za izvedbo pretvorbe v bazo lastnih vektorjev ($v_1$ in $v_2$) iščemo novi koorindati $a$ in $b$, da bo veljalo $a v_1 + b v_2 = u$. V matrični obliki bi to zapisali kot 

$$\begin{pmatrix}v_{1,x} & v_{2,x}\\v_{1,y} & v_{1,y}\end{pmatrix} \begin{pmatrix}a\\b\end{pmatrix} = \begin{pmatrix}u_{x}\\u_{y}\end{pmatrix}$$

Iščemo torej rešitev linearnega sistema enačb, kar lahko naredimo s funkcijo `np.linalg.solve`.

In [23]:
f = np.linalg.solve(vectors, u)
print(f)
print(np.matmul(vectors,f))

[6.4899923  1.97989899]
[4. 5.]


V novi bazi izvedemo transformacijo, ki je samo skaliranje z lastnimi vrednostmi.

In [24]:
g = f * values
print(g)

[25.95996918 -1.97989899]


Na koncu pa rezultat pretvorimo nazaj v osnovni koordinatni sistem. Če se nismo kje zmotili, bi morali dobiti iskani rezultat.

In [25]:
print(np.matmul(vectors, g))

[23. 13.]
