# Numpy

Numpy je najkorištenija biblioteka za matematičke i naučne proračune u Pythonu. Omogućava rad sa vektorima i matricama, mogućnosti čitanja i pisanja različitih tipova fajlova, računanje diskretne Furijeove transformacije, operacije linearne algebre, statistike,... https://docs.scipy.org/doc/numpy-1.10.1/user/whatisnumpy.html.
Uobičajeno je da se numpy biblioteka importuje uz korištenje aliasa <code>np</code>.

In [2]:
import numpy as np

Za početak ćemo uporediti vrijeme koje je potrebno za računanje operacija na dva vektora po elementima za slučaj kada se koriste Python liste i numpy array.

In [2]:
%%time
a = list(range(100000))
b = list(range(100000))

Wall time: 5 ms


In [3]:
%%time
c = []
for i in range(len(a)):
    c.append(a[i] + 2 * b[i])

Wall time: 35 ms


In [4]:
%%time
a = np.arange(100000)
b = np.arange(100000)

Wall time: 5.99 ms


In [5]:
%%time
c = a + 2 * b

Wall time: 4 ms


Python kod je dosta sporiji od Numpy koda iz razloga što se vrši provjera tipa podataka, te se troši dodatno vrijeme koje je potrebno za interpretiranje Python koda, dok Numpy koristi predoptimizovani C kod za izvršavanje operacija.

<b>Vektorizacija</b> je proces koji podrazumjeva izvršavanje operacija nad kompletnim vektorima, a ne po elementima (bez korištenja petlji).

Vektorizacija je jedan od glavih razloga za moć Numpy-a. Vektorizacija omogućava:
1. brže izvršavanje koda (korištenje SIMD instrukcija procesora)
2. veću čitljivost i pisanje manje linija koda
3. sličnost sa matematičkom notacijom.

## ndarray 

Ndarray predstavlja n-dimenzioni niz podataka istog tipa i predstavlja osnovnu strukturu podataka koja se koristi u Numpy-u. Ovi nizovi (vektori) su manje fleksibilni od Python listi jer imaju fiksnu veličinu koja se definiše pri kreiranju i sadrže elemente istog tipa podataka, međutim to omogućava mnogo veću efikasnost sa stanovišta vremena izvršavanja i iskorišćenja memorije. (Python liste u stvari predstavljaju nizove pokazivača na objekte).

Broj dimenzija nekog niza (vektora) predstavlja rang niza, dok oblik (shape) niza vraća tuple integer-a koji predstavljaju veličinu niza za svaku dimenziju. Niz ranga 2 je matrica.

In [6]:
# Numpy niz je moguće kreirati korištenjem Python listi:
a = np.array([1, 2, 3])   # Kreiranje niza ranga 1
print(type(a))            
print(a.shape)            
print(a[0], a[1], a[2])   
a[0] = 5                  # Promjena prvog elementa niza
print(a)                  

b = np.array([[1, 2, 3],
              [4, 5, 6]])    # Kreiranje niza ranga 2 (niz čiji su elementi nizovi)
print(b.shape)                     
print(b[0, 0], b[0, 1], b[1, 0])   

<class 'numpy.ndarray'>
(3,)
1 2 3
[5 2 3]
(2, 3)
1 2 4


In [7]:
# Numpy takođe daje mogućnost kreiranja i nekih specifičnih nizova

a = np.zeros((2, 2))   # Niz nula
print(a)               

b = np.full((2, 2), 7)  # Konstantan niz
print(b)                

c = np.eye(2)         # Jedinična matrica
print(c)              

d = np.random.random((2, 2))  # Niz random vrijednosti
print(d)                      
    
a = np.ones((2, 2))    # Niz jedinica
print(a)

x = np.arange(0, 1, 0.1) # Prvi argument je početak niza, drugi kraj (nije uključen u niz), a treći korak
print(x)

y = np.arange(0, 10) # Podrazumijevani korak je 1
print(y)

z = np.arange(8) # Podrazumijevani početak je 0 i korak 1
print(z)

[[0. 0.]
 [0. 0.]]
[[7 7]
 [7 7]]
[[1. 0.]
 [0. 1.]]
[[0.81840229 0.43340031]
 [0.05199814 0.86560785]]
[[1. 1.]
 [1. 1.]]
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]
[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4 5 6 7]


Korisna stvar pri radu sa Numpy nizovima je da se vodi računa o obliku (shape) nizova radi lakšeg debagovanja koda.

In [8]:
nums = np.arange(8)    # Kreiranje niza sa vrijednostima od 0 do 8
print(nums)
print(nums.shape)

nums = nums.reshape((2, 4)) # Promjena oblika niza
print('Reshaped:\n', nums)
print(nums.shape)

# Korištenjem -1 unutar reshape govori numpy-u da samostalno odredi tu veličinu na osnovu zadatih i oblika niza.
# Moguće je specifikovati samo jednu nepoznatu (-1) dimenziju.
nums = nums.reshape((4, -1))
print('Reshaped with -1:\n', nums)
print(nums.shape)

[0 1 2 3 4 5 6 7]
(8,)
Reshaped:
 [[0 1 2 3]
 [4 5 6 7]]
(2, 4)
Reshaped with -1:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]]
(4, 2)


Numpy podržava objektnu-orijentisanu paradigmu, pa tako ndarray klasa ima veliki broj metoda i atributa koji mogu da vrše funkcije slične funkcijama iz numpy namespace-a.

In [9]:
nums = np.arange(8)
print(nums.min())     
print(np.min(nums))   

0
0


## Operacije sa nizovima

In [4]:
x = np.array([[1, 2],
              [3, 4]], dtype=np.float64)    # Definisanje niza sa specifikovanim tipom podataka
y = np.array([[5, 6],
              [7, 8]], dtype=np.float64)

# Suma po elementima
print(x + y)
print(np.add(x, y))

# Razlika po elementima
print(x - y)
print(np.subtract(x, y))

# Množenje po elementima (nije matrično množenje)
print(x * y)
print(np.multiply(x, y))

# Djeljenje po elementima
print(x / y)
print(np.divide(x, y))

# Kvadratni korijen po elementima
print(np.sqrt(x))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]
[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]
[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[1.         1.41421356]
 [1.73205081 2.        ]]


<b>Voditi računa o tome da * ne definiče matrično množenje nego množenje po elementima. Da bi se izvršilo matrično množenje koristi se dot() metoda/funkcija. Ova funkcija računa u stvari skalarni proizvod, pa treba obratiti pažnju kako se ona ponaša za nizove reda 1 i 2.</b>

In [11]:
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])

v = np.array([9, 10])
w = np.array([11, 12])

v_mat1 = np.array([[9, 10]])
w_mat1 = np.array([[11, 12]])

a = np.array([[1, 2, 3], [4, 5, 6]])

# Skalarni porizvod vektora
print(v.dot(w))
print(np.dot(v, w))
print(w.dot(v))
print(np.dot(w, v))

# Više nije vektorski proizvod jer su v_mat1 i w_mat1 nizovi reda 2 (matrice)
# Nije ga moguće izvršiti jer matrično množenje nije definisano za matrice dimenzija (1, 2) i (1, 2)
#print (v_mat1.dot(w_mat1))

# Sada odgovara vektorskom proizvodu, ali je rezultat matrica (niz reda 2, a ne skalar)
# I dalje je izvršeno matrično množenje ali pošto se vektorski proizvod A, B definiše kao AxB.T matrično
print(v_mat1.dot(w_mat1.T))    # .T vrši transponovanje

# Računanje proizvoda matrice i vektora, računa se skalarni proizvod svake vrste sa vektorom, rezultat je niz reda 1
print(x.dot(v))
print(np.dot(x, v))

#print(a.dot(v))   # Kako se računa vektorski proizvod vrsta i vektora ovo nije moguće uraditi

# Ukoliko je prvi argument vektor, a drugi matrica onda se računa skalarni proizvod svake kolone sa vektorom,
# rezultat je niz reda 1
print(v.dot(x))
print(np.dot(v, x))
print(v.dot(a))    # Kako se računa vektorski proizvod kolona i vektora sada je moguće izvršiti

# Matrično množenje, rezultat je niz reda 2
print(x.dot(y))
print(np.dot(x, y))

219
219
219
219
[[219]]
[29 67]
[29 67]
[39 58]
[39 58]
[49 68 87]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


U Numpy-u je definisan veliki broj funkcija sa različitim namjenama, ovim funkcijama je često moguće i proslijediti po kojoj osi da se izvršavaju.

In [20]:
x = np.array([[1, 2, 3], 
              [4, 5, 6]])

print(np.sum(x))          # Suma svih elemenata
print(np.sum(x, axis=0))  # Suma po kolonama
print(np.sum(x, axis=1))  # Suma po vrstama

print(np.max(x, axis=1))  # Računanje maksimuma za svaku vrstu
print(np.argmax(x, axis=1)) # Indeks maksimalnog elementa u svakoj vrsti

# Niz reda 3
x = np.array([[[1, 2, 3], 
               [4, 5, 6]],
              [[10, 23, 33], 
               [43, 52, 16]]
             ])

print(x)
print(x.shape)
print(x.max(axis=2))
print((x.max(axis=1)).shape) 

print((x.max(axis=(0, 2))))       
print((x.max(axis=(1, 2))).shape) 

# Korištenje axis u početku može biti zbunjujuće jer nula osa odgovara vrstama, a računa se funkcija po kolonama.
# Ono što axis u stvari definiše je koja osa će biti izbačena iz rezultata.
# Računanjem ovih funkcija dobija se izlaz koji ima onoliko dimenzija manje koliko je osa specifikovano.
# Nekada je korisno da izlaz ima isti broj dimenzija kao i ulaz, pa iz tog razloga u numpy-u postoji i parametar keepdims koji
# kada se postavi na True vraća rezultat sa istim brojem dimenzija.

print(np.sum(x, axis=0).shape)
print(np.sum(x, axis=0, keepdims = True).shape)

21
[5 7 9]
[ 6 15]
[3 6]
[2 2]
[[[ 1  2  3]
  [ 4  5  6]]

 [[10 23 33]
  [43 52 16]]]
(2, 2, 3)
[[ 3  6]
 [33 52]]
(2, 3)
[33 52]
(2,)
(2, 3)
(1, 2, 3)


## Indeksiranje 

Kao i Python, Numpy omogućava različite metode indeksiranja i slicing-a.

In [13]:
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9, 10, 11, 12]])
print('Original:\n', a)

# Pristup elementu kao u slučaju dvodimenzionalne Python liste ili C-u.
print('Element (0, 0) (a[0][0]):\n', a[0][0])   
# moguće je i sljedeće
print('Element (0, 0) (a[0, 0]) :\n', a[0, 0])  

# Korištenjem slicing-a pristup prva dva reda i kolonama sa indeksima 1 i 2
b = a[0:2, 1:3]
print('Sliced (a[0:2, 1:3]):\n', b)

# Ako je početni indeks 0 ili krajnji jednak dimenziji niza može se izostaviti
b = a[:2, 1:3]
print('Sliced (a[:2, 1:3]):\n', b)

# Pristup svakoj drugoj koloni
c = a[1:, 0:4:2]
print('Sliced (a[1:, 0:4:2]):\n', c)

# Pri indeksiranju je dozvoljeno koristiti i korak, pa sljedeći kod pristupa prvom redu u obrnutom redoslijedu
print('Reversing the first row (a[0, ::-1]) :\n', a[0, ::-1]) 

Original:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
Element (0, 0) (a[0][0]):
 1
Element (0, 0) (a[0, 0]) :
 1
Sliced (a[0:2, 1:3]):
 [[2 3]
 [6 7]]
Sliced (a[:2, 1:3]):
 [[2 3]
 [6 7]]
Sliced (a[1:, 0:4:2]):
 [[ 5  7]
 [ 9 11]]
Reversing the first row (a[0, ::-1]) :
 [4 3 2 1]


In [14]:
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9],
              [10, 11, 12]])

print(a)

# Moguće je pristupiti i po jednom elementu svakog reda
# Kreiranje niza indeksa unutar svakog reda
b = np.array([0, 2, 0, 1])

# Promjena elemanata sa indeksima iz b unutar svakog reda
a[np.arange(4), b] += 10

print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


In [15]:
# Moguće je i pristupanje korištenjem logičkih maski
# Ukoliko je sve elemente koji su veći od MAX potrebno postaviti na MAX onda je to moguće uraditi na sljedeći način
MAX = 5
nums = np.array([1, 4, 10, -1, 15, 0, 5])
print(nums > MAX)            

nums[nums > MAX] = MAX
print(nums)                  

[False False  True False  True False False]
[ 1  4  5 -1  5  0  5]


In [16]:
# Moguće je koristiti i isti indeks više puta
nums = np.array([1, 4, 10, -1, 15, 0, 5])
print(nums[[1, 2, 3, 1, 0]])

[ 4 10 -1  4  1]


## Broadcasting 

Većina prethodno spomentuih operacija se odnosila na rad sa nizovima istog ranga. Međutim, često postoji potreba da se korištenjem niza nižeg ranga promjene vrijednosti u nizu višeg ranga.

Pretpostavimo da je potrebno od vrijednosti matrice (niz ranga 2) oduzeti srednju vrijednost kolone u kojoj se taj element nalazi. Ovo je u Numpy-u moguće uraditi na sljedeći način.

In [17]:
x = np.array([[1, 2, 3],
              [3, 5, 7]])
print(x.shape)
print(x)

col_means = x.mean(axis=0)
print(col_means)         
print(col_means.shape)    

mean_shifted = x - col_means    #BROADCASTING, col_means ima manji rang (1) od x (2)
print('\n', mean_shifted)
print(mean_shifted.shape)

(2, 3)
[[1 2 3]
 [3 5 7]]
[2.  3.5 5. ]
(3,)

 [[-1.  -1.5 -2. ]
 [ 1.   1.5  2. ]]
(2, 3)


Broadcasting nizova se vrši na sljedeći način:
1. Ukoliko nizovi imaju različit rang proširiti niz manjeg ranga na rang višeg niza. Ovo se radi tako što se na postojeći oblik niza na početak dodaju jedinice dok se ne dobije potreban rang.
2. Za dva niza se kaže da su kompatibilna po dimenziji ako je veličina te dimezije ista ili je veličina jednaka 1 za jedan od nizova.
3. Za dva niza se može uraditi Broadcasting ako su kompatibilni po svim dimenzijama.
4. U toku broadcastinga nizovi se ponašaju kao da imaju oblik koji je jednak maksimumu po elementima za oblike oba niza.
5. Ako je jedan niz za neku dimenziju imao vrijednost jedan, a drugi neku drugu vrijednost za tu dimenziju. Prvi niz se ponaša kao da je bio kopiran po toj dimenziji.

Za dodatno objašnjenje pogledati http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

Ukoliko ova pravila primjenimo na prethodni primjer dobijamo sljedeće:
Imali smo nizovi oblika (2, 3) i (3,)
1. Kako nizovi nemaju isti rang onda se oblik (shape) drugog niza dopunjava jedinicama do potrebnog ranga. Tako da je oblik drugog niza sada (1, 3).
2. Oblici (2, 3) i (1, 3) su kompatibilni po dimenzijama.
3. Moguće je izvršiti broadcasting.
4. U toku broadcastinga nizovi oba niza se ponašaju kao da imaju oblik (2, 3).
5. Drugi niz će se ponašati kao da je kopiran po nultoj dimenziji.

In [18]:
# Pokušajmo oduzeti srednju vrijednost za svaki vrstu, umjesto za kolonu
x = np.array([[1, 2, 3],
              [3, 5, 7]])

print(x.shape)

row_means = x.mean(axis=1)
print(row_means)
print(row_means.shape)

mean_shifted = x - row_means

(2, 3)
[2. 5.]
(2,)


ValueError: operands could not be broadcast together with shapes (2,3) (2,) 

Razlog zašto sada nije moguće uraditi broadcasting možemo pronaći ukoliko pogledamo pravila. Kako nizovi nemaju isti rang onda se manji proširuje do potrebnog ranga, pa su oblici nizova sada (2, 3) i (1, 2). Ova dva niza nisu kompatibilni po prvoj dimenziji (3 i 2). Ovo je moguće riješiti na dva načina:
1. promjena oblika (reshape)
2. korištenje keepdims pri računanju srednje vrijednosti

In [19]:
# Promjena oblika
x = np.array([[1, 2, 3],
              [3, 5, 7]])
print(x.shape)

row_means = x.mean(axis=1).reshape((-1, 1))
print(row_means)        
print(row_means.shape)  

mean_shifted = x - row_means
print(mean_shifted)
print(mean_shifted.shape)  

(2, 3)
[[2.]
 [5.]]
(2, 1)
[[-1.  0.  1.]
 [-2.  0.  2.]]
(2, 3)


In [20]:
# Korištenje keepdims
x = np.array([[1, 2, 3],
              [3, 5, 7]])
print(x.shape)

row_means = x.mean(axis=1, keepdims = True)
print(row_means)        
print(row_means.shape)  

mean_shifted = x - row_means
print(mean_shifted)
print(mean_shifted.shape)

(2, 3)
[[2.]
 [5.]]
(2, 1)
[[-1.  0.  1.]
 [-2.  0.  2.]]
(2, 3)


Ukoliko znamo da ćemo koristiti broadcasting onda je jednostavnije koristiti keepdims parametar, nego ručno voditi računa o obliku niza.

## Pogled - Kopija (View - Copy) 

Pri indeksiranju elemenata niza moguće je kao rezultat dobiti pogled ili kopiju. U slučaju pogleda izmjena vrijednosti pogleda će rezultovati izmjenom vrijednosti u originalnom nizu. Pogled dobijamo kada koristimo slicing, dok se kopija dobija u slučajevima korištenja kompleksnog indeksiranja ili pristupa samo jednoj vrijednosti.

In [21]:
x = np.arange(5)
print('Original:\n', x)

# Promjena pogleda će rezultovati promjenom originala
view = x[1:3]
view[1] = -1
print('Array After Modified View:\n', x)

Original:
 [0 1 2 3 4]
Array After Modified View:
 [ 0  1 -1  3  4]


In [22]:
x = np.arange(5)
view = x[1:3]
view[1] = -1

# Takođe će i promjena originala rezultovati promjenom pogleda
print('View Before Array Modification:\n', view)
x[2] = 10
print('Array After Modifications:\n', x)        
print('View After Array Modification:\n', view)  

View Before Array Modification:
 [ 1 -1]
Array After Modifications:
 [ 0  1 10  3  4]
View After Array Modification:
 [ 1 10]


Ukoliko se želi dobiti kopija za slicing mogu se koristiti metoda i funkcija copy.

In [23]:
x = np.arange(5)
copy = x[1:3].copy()
copy[1] = -1

print('Array After Modifications:\n', x)

Array After Modifications:
 [0 1 2 3 4]


In [24]:
x = np.arange(5)
copy = np.copy(x[1:3])
copy[1] = -1

print('Array After Modifications:\n', x)

Array After Modifications:
 [0 1 2 3 4]


Pri korištenju kompleksnog indeksiranja i pristupa jednom elementu dobija se kopija.