# Numpy -  večdimenzionalna polja in ostala ekipa

<h2>Uvod</h2>

Knjižnica `numpy` je pogosto uporabljana za numerično računanje v jeziku Python. Vsebuje učinkovite implementacije podatkovnih struktur kot so vektorji, matrike in polja. Večina računsko zahtevnih operacij je implementirana v nižje nivojskih jezikih (Fortran, C).

Začnimo z uvozom knjižnice:

In [None]:
from numpy import *

Vse podatkovne strukture izhajajo iz istega podatkovnega tipa, polje oz. `array`.


## Polja

Polja lahko ustvarimo na različne načine:
* s pretvorbo Pythonovih seznamov ali terk,
* z uporabo funkcij, ki ustvarijo polja kot so `arange`, `linspace`, itd.,
* z branjem podatkov iz datotek.

### Od seznamov do polj

Konstruktor uporabimo neposredno tako, da mu podamo seznam.

In [2]:
# vektor; eno-dimenzionalna podatkovna struktura
v = array([1, 2, 3, 4])

v

array([1, 2, 3, 4])

In [3]:
# matrika; dvo-dimenzionalna struktura, ustvarjena iz "seznama seznamov"
M = array([[1, 2], [3, 4]])

M

array([[1, 2],
       [3, 4]])

Ne glede na obliko sta `v` in `M` objekta tipa `ndarray`.

In [4]:
type(v), type(M)

(numpy.ndarray, numpy.ndarray)

Razlika je seveda v njunih dimenzijah. `v` je vektor s štirimi elementi, `M` pa `2 x 2` matrika.

In [5]:
v.shape

(4,)

In [6]:
M.shape

(2, 2)

Podobno lahko dobimo število elementov v celotnem seznamu.

In [7]:
M.size

4

<font color="green"><b>Naredi sam/-a.</b></font> Nič nas ne omejuje, da sestavimo polja poljubnih dimenzij. Poizkusi sestaviti seznam-seznamov-seznamov(-seznamov, ...)
in preveri, kakšne so njegove dimenzije!

In [8]:
# Sestavi poljubno-dimenzionalne strukture 
# X =

Struktura  `numpy.ndarray` še vedno izgleda kot seznam-seznamov(-seznamov, ...). V čem je razlika?

Nekaj hitrih dejstev:

* Pythonovi seznami lahko vsebujejo poljuben tip objektov, ki se znotraj seznama lahko tudi razlikujejo (dinamično tipiziranje). Ne podpirajo matematičnih operacij, kot so matrično množenje. Implementacija takih opracij nad seznamom bi bila zaradi dinamičnega tipiziranja zelo neučinkovita.
* Polja so **statično tipizirana** in **homogena**. Podatkovni tip elementov je določen ob nastanku.
* Posledično po polja pomnilniško učinkovita, saj zasedajo zvezen prostor v pomnilniku.

Ugotovimo, kakšnega tipa so elementi v trenutnem polju:

In [9]:
M.dtype

dtype('int32')

Vstavljanje podatkov poljubnih tipov v polje lahko vodi do težav. Poizkusi.

In [10]:
#M[0,0] = "hello"

Nastavimo tpodatkovni tip ob ustvarjanju polja, npr. kompleksna števila ...

In [11]:
M = array([[1, 2, 3], [1, 4, 9]], dtype=complex)

M

array([[ 1.+0.j,  2.+0.j,  3.+0.j],
       [ 1.+0.j,  4.+0.j,  9.+0.j]])

... ali pa med izvanjanjem spremenimo tip.

In [12]:
M = M.astype(float)
M

  if __name__ == '__main__':


array([[ 1.,  2.,  3.],
       [ 1.,  4.,  9.]])

Uporabni podatkovni tipi: `int`, `float`, `complex`, `bool`, `object`, 

ter eksplicitno podane velikosti v bitih: `int64`, `int16`, `float128`, `complex128`.

## Uporaba polj

<p>Preden si ogledamo ostale načine ustvarjanja polja, si oglejmo njihovo uporabo.</p>

### Naslavljanje

Elemente naslavljamo z uporabo oglatih oklepajev, podobno kot pri seznamih.

In [13]:
# v je vektor; naslavljamo ga po njegovi edini dimenziji
v[0]

1

In [14]:
# matriko M naslavljamo z dvema podatkoma - naslov je sedaj terka 
M[1,1]

4.0

Naslavljanje po eni dimenziji vrne najprej vrstice.

In [15]:
M[1]

array([ 1.,  4.,  9.])

Z uporabo `:` povemo, da bi radi vse elemente v pripadajoči dimenziji. Pomisli, kako bi dostop do celotnega prvega stolpca implementirali s seznami. Da, kar nekaj `for` zank. 

In [16]:
M[1,:] # Vrstica

array([ 1.,  4.,  9.])

In [17]:
M[:,1] #  Stolpec, precej enostavno.

array([ 2.,  4.])

Posamezne elemente spreminjamo s prireditvenimi stavki ...

In [18]:
M[0,0] = 9

In [19]:
M

array([[ 9.,  2.,  3.],
       [ 1.,  4.,  9.]])

In [20]:
# ... ali pa nastavimo elemente po celotni dimenziji.
M[1,:] = 0
M[:,2] = -1

In [21]:
M

array([[ 9.,  2., -1.],
       [ 0.,  0., -1.]])

### Rezanje

Rezanje naslovov je pogost koncept. Poljubno pod-polje dobimo na način `M[od:do:korak]`:

In [22]:
A = array([1,2,3,4,5])
A

array([1, 2, 3, 4, 5])

In [23]:
A[1:3]

array([2, 3])

... kar nam omogoča tudi spreminjanje pod-polj

In [24]:
A[1:3] = [-2,-3]

A

array([ 1, -2, -3,  4,  5])

Katerikoli od parametrov rezanja je lahko tudi izpuščen.

In [25]:
A[::] # Privzete vrednosti parametrov od:do:korak.

array([ 1, -2, -3,  4,  5])

In [26]:
A[::2] # korak velikosti 2

array([ 1, -3,  5])

In [27]:
A[:3] # prvi trije elementi

array([ 1, -2, -3])

In [28]:
A[3:] # elementi od tretjega naprej

array([4, 5])

Negativni naslovi se nanašajo na <i>konec</i> polja:

In [29]:
A = array([1,2,3,4,5])

In [30]:
A[-1]

5

In [31]:
A[-3:] # zadnji trije elementi

array([3, 4, 5])

Rezanje deluje tudi pri več dimenzionalnih poljih.

In [32]:
A = array([[n+m*10 for n in range(5)] for m in range(5)])

A

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [33]:
# pod-polje izvirnega polja A
A[1:4, 1:4]

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

In [34]:
# elemente lahko preskakujemo
A[::2, ::2]

array([[ 0,  2,  4],
       [20, 22, 24],
       [40, 42, 44]])

### Naslavljanje polja s pomočjo druge strukture

Polje naslavljamo tudi s pomočjo drugih polj ali seznamov (ang. <i>Fancy indexing</i>).

In [35]:
row_indices = [1, 2, 3]
A[row_indices]

array([[10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34]])

In [36]:
col_indices = [1, 2, -1]
A[row_indices, col_indices]

array([11, 22, 34])

Uporabljamo tudi <i>maske</i>. Le-te so strukture s podatki tipa `bool`, ki nakazujejo, ali bo element na pripadajočem mestu izbran ali ne.

In [37]:
B = array([n for n in range(5)])
B

array([0, 1, 2, 3, 4])

In [38]:
row_mask = array([True, False, True, False, False])
B[row_mask]

array([0, 2])

In [39]:
# se drugace
row_mask = array([1,0,1,0,0], dtype=bool)
B[row_mask]

array([0, 2])

Princip je uporaben za pogojno naslavljanje elementov glede na njihovo vsebino.

In [40]:
x = array([0, 4, 2, 2, 3, 7, 10, 12, 15, 28])
x

array([ 0,  4,  2,  2,  3,  7, 10, 12, 15, 28])

In [41]:
mask = (5 < x) * (x < 12.3)

mask

array([False, False, False, False, False,  True,  True,  True, False, False], dtype=bool)

In [42]:
x[mask]

array([ 7, 10, 12])

<font color="green"><b>Naredi sam/-a.</b></font> Sedaj združimo vse načine naslavljanja. Preizkusi kombinacije vseh do sedaj omenjenih načinov naslavlanja naenkrat. Hkrati naslavljaj npr. vrstice z rezanjem, stolpce pa s pogojnim naslavljanjem. Ustvari več kot dvo-dimenzionalne strukture. Preveri, ali razumeš rezultat vsakega od naslavljanj.

In [43]:
# Preizkusi več načinov naslavljnja hkrati.
A[A[:, 0]>10, 0:2 ]
# ...
# ...

array([[20, 21],
       [30, 31],
       [40, 41]])

### Funkcije za ustvarjanje polj

Numpy vsebuje funkcije za ustvarjanje pogostih tipov polj. Oglejmo si nekaj primerov.

#### Razpon `arange`

In [44]:
x = arange(0, 10, 1) # od, do, korak

x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [45]:
x = arange(-1, 1, 0.1)

x

array([ -1.00000000e+00,  -9.00000000e-01,  -8.00000000e-01,
        -7.00000000e-01,  -6.00000000e-01,  -5.00000000e-01,
        -4.00000000e-01,  -3.00000000e-01,  -2.00000000e-01,
        -1.00000000e-01,  -2.22044605e-16,   1.00000000e-01,
         2.00000000e-01,   3.00000000e-01,   4.00000000e-01,
         5.00000000e-01,   6.00000000e-01,   7.00000000e-01,
         8.00000000e-01,   9.00000000e-01])

#### Razpona `linspace` in `logspace`

In [46]:
# Pozor: zacetna in koncna tocka sta tudi vkljuceni
linspace(0, 10, 25) # od, do, stevilo med sabo enako oddaljenih tock

array([  0.        ,   0.41666667,   0.83333333,   1.25      ,
         1.66666667,   2.08333333,   2.5       ,   2.91666667,
         3.33333333,   3.75      ,   4.16666667,   4.58333333,
         5.        ,   5.41666667,   5.83333333,   6.25      ,
         6.66666667,   7.08333333,   7.5       ,   7.91666667,
         8.33333333,   8.75      ,   9.16666667,   9.58333333,  10.        ])

In [47]:
logspace(0, 10, 11, base=e) # Poiskusi tudi z drugo osnovo (bazo): 2, 3, 10

array([  1.00000000e+00,   2.71828183e+00,   7.38905610e+00,
         2.00855369e+01,   5.45981500e+01,   1.48413159e+02,
         4.03428793e+02,   1.09663316e+03,   2.98095799e+03,
         8.10308393e+03,   2.20264658e+04])

#### Naključni podatki, modul `numpy.random`

In [48]:
from numpy import random

In [49]:
# enakomerno (uniformno) porazdeljene vrednosti v intervalu [0,1]
random.rand(5,5)

array([[ 0.82744315,  0.25150097,  0.86760018,  0.6801605 ,  0.80455015],
       [ 0.85903709,  0.99084257,  0.23694244,  0.86588493,  0.54455515],
       [ 0.02439884,  0.83914393,  0.37497287,  0.27597162,  0.19391108],
       [ 0.28076134,  0.12248005,  0.79482775,  0.74103187,  0.99629329],
       [ 0.28880432,  0.9880214 ,  0.17945807,  0.76770899,  0.38637885]])

In [50]:
# normalno porazdeljene vrednosti s sredino 0 in odklonom 1.
random.randn(5,5)

array([[ 0.67945629,  1.80365646, -0.95297323, -0.77805903, -0.56714916],
       [ 1.0820385 , -0.59714639,  0.51935247,  0.61706615, -1.84333264],
       [ 0.96548331, -0.51244374, -0.21437817, -0.90486092,  0.71932721],
       [ 0.12682205, -1.2291777 , -1.72237657,  0.32035193, -0.55677842],
       [-2.0411133 ,  1.83600049,  0.11169489, -0.55869681, -0.53888308]])

#### Diagonalna matrika `diag`

In [51]:
diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [52]:
# diagonala je odmaknjena od glavne diagonale za k mest
diag([1,2,3], k=1)

array([[0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3],
       [0, 0, 0, 0]])

#### ničle in enice -  `zeros`, `ones`

In [53]:
zeros((3,3))

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [54]:
ones((3,3))

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

## Osnovne računske operacije

Ključno pri uporabi iterpretiranih jezikov je, da kar najbolj izkoriščamo vektorske operacije. Izogibajmo se odvečni uporabi zank. Karseda veliko operacij implementiramo kot operacije med matrikami in vektorji, npr. vektorsko ali matrično množenje.

### Operacije polja s skalarjem

Uporabimo običajne aritmetične operacije za množenje, seštevanje in deljenje s skalarjem.

In [55]:
v1 = arange(0, 5)

In [56]:
v1 * 2

array([0, 2, 4, 6, 8])

In [57]:
v1 + 2

array([2, 3, 4, 5, 6])

In [58]:
A * 2, A + 2

(array([[ 0,  2,  4,  6,  8],
        [20, 22, 24, 26, 28],
        [40, 42, 44, 46, 48],
        [60, 62, 64, 66, 68],
        [80, 82, 84, 86, 88]]), array([[ 2,  3,  4,  5,  6],
        [12, 13, 14, 15, 16],
        [22, 23, 24, 25, 26],
        [32, 33, 34, 35, 36],
        [42, 43, 44, 45, 46]]))

###  Operacije polje-polje (po elementih)

Operacije med več polji se privzeto obravnavajo po elementih.

In [59]:
A * A # mnozenje po elementih

array([[   0,    1,    4,    9,   16],
       [ 100,  121,  144,  169,  196],
       [ 400,  441,  484,  529,  576],
       [ 900,  961, 1024, 1089, 1156],
       [1600, 1681, 1764, 1849, 1936]])

In [60]:
v1 * v1

array([ 0,  1,  4,  9, 16])

Pozor; dimenzije polj se morajo ujemati.

In [61]:
A.shape, v1.shape

((5, 5), (5,))

In [62]:
A * v1

array([[  0,   1,   4,   9,  16],
       [  0,  11,  24,  39,  56],
       [  0,  21,  44,  69,  96],
       [  0,  31,  64,  99, 136],
       [  0,  41,  84, 129, 176]])

## Iteracija po elementih polja

Skušamo se držati načela, da se izogibamo uporabi zank preko elementov polja. Razlog je počasna implementacija zanki v intepretiranih jezikih, kot sta MATLAB in Python.
Včasih pa se zankam ne moremo izogniti. Zanka `for` je smiselna rešitev.  

In [63]:
v = array([1,2,3,4])

for element in v:
    print(element)

1
2
3
4


In [64]:
M = array([[1,2], [3,4]])

for row in M:
    print("row", row)
    
    for element in row:
        print(element)

row [1 2]
1
2
row [3 4]
3
4


Na mestu je tudi uporaba generatorja `enumerate` kadar želimo iteracijo po elementih in morebitno spreminjanje njihovih vrednosti.

In [65]:
for i, row in enumerate(M):
    print("row index", i, "row", row)
    
    for j, element in enumerate(row):
        print("col index", j, "element", element)
       
        # Kvadriramo vsakega od elementov 
        M[i, j] = element ** 2

row index 0 row [1 2]
col index 0 element 1
col index 1 element 2
row index 1 row [3 4]
col index 0 element 3
col index 1 element 4


In [66]:
# Vsak element smo kvadrirali
M

array([[ 1,  4],
       [ 9, 16]])

## Dodatni viri

* http://numpy.scipy.org
* http://scipy.org/Tentative_NumPy_Tutorial
* http://scipy.org/NumPy_for_Matlab_Users