# Indexing and Selection

În cadrul acestei părți din NumPy o să discutăm de partea de indexare și selecție. O să începem prin a prelua dintr-un array un element după care o să preluăm o parte din array (un slice). O să mai aruncăm o privire și peste partea de selecție în cadrul unui array bi-dimensional, iar la final o să ne uităm cum anume putem utiliza condiții pentru a executa anumite selecții.

In [1]:
# importing the library
import numpy as np

In [2]:
# creating an array
arr = np.arange(0, 10)

In [4]:
# printing the array
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Pentru a selecta o singură valoare din cadrul unui array tot ce trebuie să facem este să specificăm între paranteze drepte index-ul de unde dorim să preluăm acel element. Acest procedeu este precum cel de selecție dint-o listă normală din Python

In [5]:
arr[8]

8

La fel se procedează și pentru partea de slicing, se utilizează precum slicing-ul normal la o listă

In [6]:
arr[1:5]

array([1, 2, 3, 4])

### Broadcasting (difuzare)

În continuare o să ne uităm la procedeul denumit 'broadcasting'. Un array diferă de o listă normală din Python pentru abilitatea lor de 'broadcasting'. În cadrul unei liste din Python putem reasigna părți dintr-o anumită listă cu o nouă parte care are același număr de elemente cu numărul de elemente ce dorim să îl modificăm. În cadrul unui array de NumPy putem să 'difuzăm' o singură valorea pentru un set de mai multe valori. Ca și exemplu o să luăm un 'slice' din acea listă și o să îi atribuim o singură valoare.

In [7]:
arr[:5] = 100

Ce anume face codul de mai sus, ia toate valorile din array de la prinul index până la indexul 5 (indexul 5 nu este inclus) și setează pentru fiecare elemente valoarea 100. Dacă afișăm acuma din nou array-ul o să observăm că elementele de la 0 la 5 au acuma valoarea 100

In [8]:
arr

array([100, 100, 100, 100, 100,   5,   6,   7,   8,   9])

Acest tip de reasignare nu este posibil cu o listă normală în Python

Un lucru care trebuie specificat este faptul că atunci când facem slicing la un array și setăm rezultatul la o nouă variabilă, atunci variabila respectivă o să funcționeze ca și un pointer către array-ul inițiatl. Pentru a înțelege mai bine acest concept o să trecem print-un exemplu.

In [9]:
# setting the array back to normal
arr = np.arange(0, 11)

In [10]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [11]:
slice_arr = arr[:5]

In [13]:
slice_arr

array([0, 1, 2, 3, 4])

Până acuma am preluat un slice din array-ul mare și l-am atribuit unei variabile. În continuare o să modificăm valorile elementelor din cadrul acelei variabile

In [14]:
slice_arr[:] = 99

In [15]:
slice_arr

array([99, 99, 99, 99, 99])

Am modificat toate valorile din cadrul acelei variabile și le-am setat valoarea la 99. Deși atribuirea am făcut-o la variabila nou creată, acum dacă afișăm array-ul inițial (la care nu am modificat nimic) o să avem parte de o surpriză

In [16]:
arr

array([99, 99, 99, 99, 99,  5,  6,  7,  8,  9, 10])

După cum se poate observa, deși nu am modificat nimic la array-ul inițial, primele valori din cadrul acestui array au fost modificate. Acest lucru se întâmplă deoarece după cum spuneam reasignarea unui slice la o nouă variabilă funcționează precum un pointer. Pentru a putea efectua modificări la un array și să nu se modifice array-ul inițial, atunci trebuie să creem o copie a acelui array utilizând metoda '.copy()'

In [17]:
# setting the array back to normal
arr = np.arange(0, 11)

In [18]:
arr_copy = arr.copy()

In [19]:
arr_copy[:] = 100

In [20]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [21]:
arr_copy

array([100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100])

În continuare o să discutăm despre metoda de a selecta anumite date dintr-un array bi-dimensional, Să creem un array bi-dimensional.

In [2]:
array_2d = np.array([[5, 10, 15], [20, 25, 30], [35, 40, 45]])

In [3]:
array_2d

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

Indexarea pentru un array bi-dimensioanl funcționează precum indexarea la o listă din Python, deoarece teoretic în cadrul unei liste exitsă mai multe liste (nested lists). De exemplu, dacă dorim să extragem un anumit rând din cadrul acestui array (primul rând, care se află pe index-ul 0), atunci este destul să specificăm un set de paranteze drepte în care să trecem index-ul pe care se găsește rândul pe care dorim să îl preluăm

In [4]:
array_2d[0]

array([ 5, 10, 15])

În acest moment avem reurnat un array uni dimesional, iar dacă dorim să extragem anumite elemente din cadrul acestui array atunci putem utiliza partea de indexare (cum se face normal) pentru acest array. Prin urmare, o să avem un set de paranteze drepte, unul pentru rândul de unde dorim să extragem informațiile, iar al doilea set de paranteze drepte pentru elementul de pe acel rând

In [5]:
array_2d[0][2]

15

Pentru un array din NumPy putem să modificăm modul prin care extragem aceste informații, nu este nevoie să utilizăm două seturi de paranteze drepte, este destul să utilizăm doar un set și să despărțim cele două valori printr-o virgulă

In [6]:
array_2d[0, 2]

15

Se poate utiliza și partea de slicing pentru a extrage valori dintr-un array bi-dimensional. Să presupunem că dorim să extragem doar din primele două rânduri, ultimele două valori. Pentru început să extragem primele două rânduri din cadrul acestui array

In [8]:
array_2d[:2]

array([[ 5, 10, 15],
       [20, 25, 30]])

În acest moment avem primele două rânduri din cadrul acestui array, am extras aceste rânduri utilizând partea de slicing. Putem utiliza tot slicing în continuare pentru a extrage doar ultimele două valori din cadrul acestui array ce a rezultat

In [9]:
array_2d[:2, 1:]

array([[10, 15],
       [25, 30]])

Cel mai des tip de selecție în cadrul unui set de date o să fie selecția pe bază de condiție. Să creem din nou un array nou pe care să îl utilizăm pentru acest tip de selecție pe bază de condiție

In [10]:
arr = np.arange(1, 11)

In [11]:
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Avem array-ul de mai sus. Să presupunem că dorim să selectăm din acel array doar anumite elemente care sunt mai mari decât valorea 4. Cum putem face acest lucru? Putem să utilizăm o condișție, iar condiția este următoarea:

In [12]:
arr > 4

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

Sintaxa 'arr > 4' retunrează un array cu valori de tip boolean unde valori cu True reprezintă valorile care îndeplinesc această condiție, iar cele cu False, valorile care nu îndeplinesc condiția. Prin urmare, unde este True înseamnă că există valori mai mari ca și 4, iar unde este False sunt valori mai mici sau egale cu 4. Putem să creem un filtru cu această condiție și să utilizăm după acest filtru pentru a extrage valorile care returnează True

In [13]:
filter_arr = arr > 4

In [14]:
arr[filter_arr]

array([ 5,  6,  7,  8,  9, 10])

# Recapitulare

În cadrul acestui tutorial am învățăt următoarele lucruri:

    1. Cum să selectăm elemente dintr-un array uni dimensional (utilizând partea de index și slicing)

        arr[5] # indexing

        arr[2:5] # slicing
    
    2. Cum funcționează partea de broadcasting (difuzare), concept care nu este disponibil pentru o listă normală din Python

        arr[2:5] = 99
    
    3. Partea de slicing, deși salvată într-o variabilă nouă are rolul doar de pointer, array-ul inițial o să fie modificat

        arr = np.arange(1, 11)

        slice_arr = arr[:5]

        slice_arr[:] = 100 # se modifică și array-ul 'arr' de la index-ul 5

    4. Pentru a face o copie de array se va utiliza metoda '.copy()'

        copy_arr = arr.copy()

    5. Cum putem utiliza partea de indexing și slicing pentru un array bi-dimensional

        arr[0] # returnează primul rând dintr=un array bi-dimenional

        arr[0][1] # returnează elementul de pe index-ul doi din primul rând de pe un array bi-dimensional

        arr[0, 1] # identic ca și sintaxa de mai sus, returnează elementul de pe index-ul doi din primul rând de pe un array bi-dimensional

        arr[:2] # retunrează primele două rânduri dintr-un array bi-dimensional (utilizând partea de slicing)

        arr[:2, 1:] # retunrează valorile de la index-ul unu până la final din primele două rânduri dintr-un array bi-dimensional (utlizează slicing atât pentru selectarea rândurilor, cât și pentru selectarea elementelor din rând)

    5. Cum putem utiliza condiții pentru a face o selecție

        arr > 4 # retunrează un array cu valori booleane care reprezintă o mască pentru array-ul unde se face comparația. Valorile cu False sunt cele care nu îndeplinesc condiția, iar cele cu True sunt cele care îndeplinesc condiția

        filter_arr = arr > 4 # salvarea condiției într-un filtru

        arr[filter_arr] # aplicarea filtrului pentru acel array

        arr[arr > 4] # rezultat indentic ca și sintaxa de mai sus