În cadrul acestui tutorial o să învățăm despre cum putem utiliza operații aritmetice într-un array de NumPy și de asemenea o să aruncîm o privire peste câteva funcții generale și peste partea de statisctică.

In [1]:
import numpy as np

In [2]:
arr = np.arange(0, 10)

In [3]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Ce se întîmplă dacă la acea varibilă dorim să utilizăm operația '+ 5'. În acest caz, numpy o să ia toate elementele din cadrul acelui array și o să adune valoarea 5 cu fiecare element în parte

In [4]:
arr + 5

array([ 5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

În numpy, dacă avem două array-uri de aceeași dimensiune, atunci putem să facem anumite operații cu acestea. Operația înseamnă că ia fiecare elemente din array și realizează operația cu elementul de pe celălalt array care se găsește pe același index. Pentru o mai bună explicație, dacă se adună 2 array-uri atunci se ia primul element din primul array la care se adună primul element din al doilea array, pentru elementul doi din primul array se va aduna valoarea elementului doi din al doilea array și tot așa. Un lucru important este că aceste array-uri trebuie să fie de aceeași dimensiune

In [5]:
arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

Același comportament o să fie aplicat pentru orice operație aritmetică. Ce trebuie specificat aici este la împărțirea cu 0. În mod normal în Python, dacă se împarte un număr la 0, o să se returneze o eroare

In [6]:
1 / 0

ZeroDivisionError: division by zero

Eroarea respectivă poartă denumirea de 'ZeroDivisionError' și prin intermediul acestei erori ni se spune că un număr nu poate fi împărțit la 0 (ceea ce este corect). NumPy în schimb nu o să returneze o eraore, ci o să returneze un avertisment. Codul o să funcționeze pentru restul valorilor dintr-un array, iar pentru situația cu împărțit la 0 o să treavă nan, adică Not a number value

In [7]:
arr / arr

  arr / arr


array([nan,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

Pe lângă aceste operații artitmetice, în NumPy există și o serie de funcții care pot fi aplicate la un array, funcții precum scoaterea de sub radical, funcții trigonometrice pentru unghiuri, logaritmi și alte funcții specifice

In [8]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [9]:
np.cos(arr)

array([ 1.        ,  0.54030231, -0.41614684, -0.9899925 , -0.65364362,
        0.28366219,  0.96017029,  0.75390225, -0.14550003, -0.91113026])

In [10]:
np.log(arr)

  np.log(arr)


array([      -inf, 0.        , 0.69314718, 1.09861229, 1.38629436,
       1.60943791, 1.79175947, 1.94591015, 2.07944154, 2.19722458])

O listă cu toate funcțiile universale ce pot fi apelate în NumPy se poate găsi la link-ul https://docs.scipy.org/doc/numpy-1.3.x/reference/ufuncs.html. Fiind un număr așa de mare de funcții, nu o să trecem prin fiecare în parte. În cadrul acestui curs nu o să utilizăm extrem de mult aceste funcții universale, ce o să utilizăm mai des reprezintă funcțiile referitoare la statistic pentru un anumit array (sau pentru un anumit set de date). Printre aceste metode specifice putem aminti metode care ne calculează suma tuturor valorilor dintr-un array, metode care ne calculează valorea medie dintr-un array, care ne extrag maximul dintr-un array sau care calculează deviația standard. Toate acestea sunt deja implementate în NumPy, nu mai trebuie să le creem de la 0 sau să le calculăm noi. În ceea ce privește deviația standard, o să învățăm mai multe despre aceasta în momentul în care o să avem de a face cu seturi de date reale.

In [11]:
np.sum(arr)

45

In [12]:
np.mean(arr)

4.5

In [13]:
arr.std()

2.8722813232690143

Ce anume trebuie să specificăm este componenta care face legătură la axe. Până în acest moment am efectuat operații doar pentru un array uni-dimensional. Să creem un array bi-dimensional pentru a putea vedea cum anume ne influențează această componentă de axe. O să creem inițial un array uni-dimensional după care o să ne folosim de metoda 'reshape()' pentru a transforma acel array într-un array bi-dimensional

In [14]:
arr = np.arange(0, 25)

In [15]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [16]:
arr2d = arr.reshape(5, 5)

In [17]:
arr2d

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

În acest moment avem un array bi-dimensional. Să utilizăm metoda 'sum()' pe acest array pentru a vedea ce rezultat o să avem.

In [19]:
arr2d.sum()

300

Pentru codul de mai sus, outputul reprezintă suma tuturor elementelor din array. Să ne imaginăm că dorim să avem acea sumă calculată pe coloane sau pe rânduri. Metoda 'sum()' are un parametru care poartă denumirea 'axis', iar pentru acesta putem să specificăm pe ce axă să se aplice această metodă. Acest parametru ia ca și argument o valoare integer, care poate fi 0 sau 1. Cum ne dăm seama ce reprezintă aceste valori?

Atunci când utilizăm metoda 'reshape(5, 5)', primul număr reprezintă numărul de rânduri, iar al doilea reprezintă numărul de coloane. Prin urmare, valoare 0 pentru parametrul 'axis' reprezintă rândurile, iar valoarea 1 reprezintă coloanele.

In [21]:
arr2d.sum(axis=0)

array([50, 55, 60, 65, 70])

Când se utilizează parametrul 'axis=0', ceea ce reprezintă axa rândurilor, atunci NumPy o să ia fiecare element de pe fiecare rând dintr-o anumită coloană și o să le adune pe toate. De exemplu, rezultatul '50' de mai sus reprezintă elementele din coloana 0 adunate (0 + 5 + 10 + 15 + 20). Practic, se calculează valorile pe coloane atunci când se specifică axa pentru rânduri (ceea ce poate fi un pic confuz)

In [22]:
arr2d.sum(axis=1)

array([ 10,  35,  60,  85, 110])

# Recapitulare

În cadrul acestei părți am învățat următoarele lucruri:

    1. Cum funcționează operațiile aritmetice cu arrays în NumPy

        arr + 1 # adaugă valorea 1 la fiecare element în parte din array

        arr + arr # adună elementele aflate pe același index, de aceea cele 2 array-uri trebuie să fie identice ca și dimensiune
    
    2. Împărțirea la 0 returnează un avertisment, nu o eroare. Restul codului o să funcționeze pentru celelelate valori din array, acolo unde se întâlnește 0 o să se pună valoarea 'nan'

    3. Utilizarea funcțiilor universale din NumPy

        np.sum(arr)

        arr.std()

        # ambele variante sunt acceptate și funcționează la fel

    4. Utilizarea funcțiilor universale din NumPy pentru array-uri bi-dimensionale

        arr2d.sum() # ia fiecare element în parte din array și îl adună

        arr2d.sum(axis=0) # calculează suma elementelor pe coloane

        arr2d.sum(axis=1) # calculează suma elementelor pe rânduri