## Importació de la llibreria NumPy

Per treballar amb la llibreria NumPy és recomanable sempre usar la importació següent:




In [1]:
import numpy as np

Es podria fer també `import numpy as *`, però és perillós. La raó és que hi ha moltes funcions dins NumPy que tenen el mateix nom que les funcions predefinides en Python (com `min` i `max`).

## El tipus ndarray de NumPy

Una de les característiques clau de NumPy és el seu objecte array n-dimensional, **ndarray**, que és un contenidor ràpid i flexible per a grans conjunts de dades en Python. Els ndarrays permeten fer operacions matemàtiques en blocs sencers de dades, amb una sintaxi semblant a les operacions equivalents entre elements escalars.

La forma més fàcil de crear un ndarray és mitjançant la funció `array`. Aquesta funció accepta qualsevol objecte de seqüència (inclosos altres ndarrays) i produeix un nou array NumPy (ndarray) que conté les dades que s'hi han passat. Per exemple, una llista és un bon candidat per convertir.

In [2]:
data1 = [6, 7.5 , 9, 12]
arr1 = np.array(data1)
arr1

array([ 6. ,  7.5,  9. , 12. ])

També podem emprar seqüències niades, com per exemple una llista de llistes igual de llargues (que ja vàrem veure en el lliurament anterior que equivalen a una matriu), es convertiran a un ndarray multidimensional.

In [3]:
data2 = [ [1, 2, 3] , [5, 6, 7] ]
arr2 = np.array(data2)
arr2

array([[1, 2, 3],
       [5, 6, 7]])

Com que aquí data és una llista de llistes, el vector NumPy corresponent té dues dimensions, amb la forma deduïda de les dades. Ho podem confirmar inspeccionant els atributs `ndim` i `shape`.

In [4]:
arr2.ndim

2

In [5]:
arr2.shape

(2, 3)

Si no és que s'indica expressament (ho veurem llavors), np.array intenta trobar un bon tipus de dades per a l'array que crea. El tipus de dada es desa en un objecte de metadades especial, `dtype`. Per exemple, vegem els tipus dels exemples anteriors.

In [6]:
arr1.dtype

dtype('float64')

In [7]:
arr2.dtype

dtype('int64')

A més de np.array, hi ha diverses altres funcions que creen nous vectors. Per exemple, `zeros` i `ones` creen arrays de zeros i uns respectivament, d'una determinada longitud o forma. La funció `empty` crera un vector sense inicialitzar els seus valors a cap valor particular. Per crear un vector multidimensional amb aquests mètodes, es passa una tupla com a forma.

In [8]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [11]:
np.empty((2,3,2))

array([[[1.55040433e-316, 0.00000000e+000],
        [5.72880579e-317, 5.83329474e-317],
        [6.69005144e-310, 6.69005144e-310]],

       [[6.69005144e-310, 6.69005144e-310],
        [5.58749511e-317, 6.69005144e-310],
        [6.69005144e-310, 6.69005144e-310]]])

No podem suposar que `empty` donarà un array de zeros. Moltes vegades donarà valors indeterminats.

També podem crear un ndarray amb nombres aleatoris, mitjançant el mètode np.random.randn, passant-li per paràmetre la mida de cada dimensió.

In [12]:
import numpy as np

data = np.random.randn(2,3)

data

array([[-0.05318366,  0.92804613, -0.08767425],
       [ 0.95112259, -0.46821268, -0.38588498]])

La funció `arange` és una versió vectorial de la funció predefinida `range`.

In [13]:
np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Això crea un ndarray començant per 0 (inclòs) i fins al 10 (sense incloure'l):

`array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])`


A continuació tenim una taula de les funcions típiques de creació de vectors. Com que NumPy està centrat en la computació numèrica, el tipus de des, si no s'especifica el contrari, serà en molts de casos `float64` (coma flotant).

|Funció|Descripció|
|------|----------|
|array|Converteix les dades d'entrada a un ndarray, deduint el dtype. Per defecte copia les dades d'entrada|
|asarray|Converteix l'entrada a ndarray, però no la copia si l'entrada ja és un ndarray|
|arange|Com la funció range predefinida però retorna un ndarray en comptes d'una list|
|ones, ones_like|Produeix un vector tot d'uns amb la forma i dtype donats; ones_like pren un altre array i en produeix un d'uns amb la mateixa forma i dtype|
|zeros, zeros_like| Com ones i ones_like però amb zeros en lloc d'uns|
|empty, empty_like| Crea vectors nous reservant-hi memòria, però no els inicialitza ni amb zeros ni amb uns com zeros o ones|
|full, full_like| Produeix un vector de la forma i dtype donats amb tots els valors plens del valor de farciment indicat|
|eye, identity| Crea una matriu identitat NxN (1 a la diagonal i 0 fora)|

Per donar una idea de com NumPy permet les operacions en bloc amb una sintaxi semblant als valors escalars d'objectes Python, realitzem unes operacions matemàtiques, multiplicació per un escalar i suma.

## Tipus de dades en els ndarrays

El tipus de dades o `dtype` és un objecte especial que conté la informació (o metadades, dades sobre dades) que el ndarray necessita per interpretar un bocí de memòria com un tipus concret de dades.

In [14]:
arr = np.array([1.0, 2.0, 3.0])


In [15]:
arr.dtype

dtype('float64')

Els dtypes donen flexibilitat a NumPy per interactuar amb dades que venen d'altres sistemes. En la majoria de casos directament fan un mapejat a la representació de disc o memòria, cosa que facilita llegir i escriure fluxos de bits de dades al disc, i també connectar-se a codi llegit en un llenguatge de baix nivell com C o Fortran. Els dtypes numèrics s'anomenen de la mateixa forma, un nom de tipus, com `float` o `int`, seguir del nombre de bits per element. Un valor de coma flotant de doble precisió usa 8 bytes o 64 bits. Per tant, en Python se'n diu `float64`.

Podem convertir (fer un *cast*) d'un vector d'un dtype a un altre usant el mètode `astype` de `ndarray`.

In [19]:
import numpy as np

arr = np.array([1,2,3,4])
arr.dtype

dtype('int64')

In [17]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

En aquest exemple, els enters s'han convertit a nombres reals amb coma flotant. Si convertim nombres de coma flotant a enters, la part decimal es truncarà.

In [None]:
arr = np.array([1.2, 3.4, 5.6, 7.8])
arr

array([1.2, 3.4, 5.6, 7.8])

In [None]:
arr.astype(np.int32)

array([1, 3, 5, 7], dtype=int32)

I si tenim un vector de cadenes de caràcters que representen nombres, podem usar `astype` per convertir-los a nombres.

In [23]:
numeric_strings = np.array([1.25,-5.5,50], dtype=np.bytes_)
numeric_strings.dtype

dtype('S4')

In [24]:
ns=numeric_strings.astype(float)
print(ns)

[ 1.25 -5.5  50.  ]


In [None]:
ns.dtype

dtype('float64')

Si la conversió falla per qualque raó, saltarà un `ValueError`. Tot i que abans hàgim escrit `float`, NumPy fa la conversió del tipus Python `float` al seu `dtype` equivalent, `float64`.

També podem fer servir l'atribut `dtype` d'un altre vector.

In [None]:
int_array = np.arange(10)
calibres = np.array ([.22, .270, .357, .380, .44, .50], dtype=np.float64)

int_array.astype(calibres.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

També hi ha abreviatures que es poden usar per referir-nos a un `dtype`.

In [None]:
empty_uint32 = np.empty(8,dtype='u4')

empty_uint32

array([ 858993459, 1072902963,  858993459, 1074475827, 1717986918,
       1075209830,  858993459, 1075786547], dtype=uint32)

Quan s'invoca `astype` sempre es crea un nou vector, una còpia de les dades, fins i tot si el nou `dtype` és igual que l'antic.

## Aritmètica amb vectors NumPy

Els vectors o arrays són importants perquè permeten expressar operacions per lots (*batches*) sense escriure cap bucle `for`. En NumPy d'això se'n diu **vectorització**. Qualsevol operació aritmètica entre vectors de la mateixa mida aplica l'operació element a element. Vegem-ho amb un exemple.

Per ser un especialista en Python, cal dominar la programació i el pensament orientat als arrays de NumPy.

Vegem algunes operacions vectorials.

Podem multiplicar un array per un escalar (un número, per exemple 10). Això multiplicarà cada un dels valors per aquest número. El resultat serà un altre array.

In [None]:
data = [ [1, 2, 3] , [4, 5, 6] ]
arr1 = np.array(data)
arr2 = 10 * arr1
arr2

array([[10, 20, 30],
       [40, 50, 60]])

Tenim disponibles altres operacions amb escalars, com per exemple la divisió (/), elevar a un exponent (**), etc.

In [None]:
1/arr1

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [None]:
arr1 **2

array([[ 1,  4,  9],
       [16, 25, 36]])

A continuació, vegem com podem sumar dos arrays (dues matrius de dues dimensions en aquest cas), de la mateixa mida. Se sumarà el valor de cada posició, obtenint-se una nova matriu.

In [None]:
arr3 = arr1 + arr2
arr3

array([[11, 22, 33],
       [44, 55, 66]])

Igual que amb la suma, podem restar (-), multiplicar (*) o dividir (/) posició a posició dues matrius

In [None]:
arr4 = arr1 * arr2
arr4

array([[ 10,  40,  90],
       [160, 250, 360]])

In [None]:
arr5 = arr4 - arr3
arr5

array([[ -1,  18,  57],
       [116, 195, 294]])

La comparació de vectors de la mateixa mida dona com a resultat un vector booleà, també de la mateixa mida.

In [None]:
arr4 > arr3

array([[False,  True,  True],
       [ True,  True,  True]])

## Rendiment de les operacions vectoritzades

Ara farem una comparació del rendiment de NumPy respecte de la llista de Python equivalent, ambdues amb una dimensió i un milió de posicions.

In [26]:
my_array = np.arange(1000000)
my_list  = list(range(1000000))


Multipliquem cada llista per 2 i observem la diferència en els temps d'execució.

In [27]:
%time for _ in range(10): my_double_array= my_array * 2

CPU times: user 15.2 ms, sys: 17.1 ms, total: 32.4 ms
Wall time: 28.6 ms


In [28]:
%time for _ in range(10): my_double_list = [2*x for x in my_list]

CPU times: user 475 ms, sys: 209 ms, total: 685 ms
Wall time: 687 ms


Els algorismes basats en NumPy són entre 10 i 100 vegades més ràpids (o més) que els seus corresponents Python i a més fan servir més poca memòria.

## Funcions universals

Una funció universal (***unfunc***) és l'equivalent dels operadors vectoritzats que hem vist abans. Així doncs, una ufunc permet fer una operació de manera vectoritzada, element a element, sobre ndarrays . Això dona una solució més ràpida que programar uns bucles per recórrer i operar tots els elements dels ndarrays que volem operar.

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([[10, 20, 30], [40, 50, 60]])
c = np.add(a,b)
c

array([[11, 22, 33],
       [44, 55, 66]])

No totes les ufuncs son binàries, és a dir, que tenen dos ndarrays com a arguments. També n'hi ha d'unàries, amb un únic argument. Per exemple, la ufunc negative retorna el valor negatiu de tots els elements d'un ndarray.

In [None]:
d = np.array([[1, -2, 3], [-4, 5, -6]])
e = np.negative(d)
e

array([[-1,  2, -3],
       [ 4, -5,  6]])

Tenim diverses ufuncs per a operacions de comparació: greater, greater_equal, less, less_equal, not_equal i equal.

In [None]:
f = np.array([[1, 9, 5], [3, 8, 7]])
g = np.array([[6, 2, 4], [1, 9, 5]])
h = np.greater(f,g)
h

array([[False,  True,  True],
       [ True, False,  True]])

Vegem també la ufunc maximum (i minimum), que no hem de confondre amb la funció max (i min) de Python (amb llistes, no amb ndarrays).

In [None]:
h = np.maximum(f,g)
h

array([[6, 9, 5],
       [3, 9, 7]])

In [None]:
f = [[1, 9, 5], [3, 8, 7]]
g = [[6, 2, 4], [1, 9, 5]]
h = max(f,g)
h

[[6, 2, 4], [1, 9, 5]]

No hem de confondre les ufuncs maximum i minimum de NumPy amb les funcions max i min de Python, que no són vectoritzades. Ni tampoc amb les funcions max i min de Numpy, que retornen l'element màxim i mínim d'un ndarray.

In [None]:
f = [[1, 9, 5], [3, 8, 7]]
maxim = np.max(f)
maxim

9

Podem recuperar tota la fila (amb axis=0) o tota la columna (axis=1) del màxim.

In [None]:
filamaxim = np.max(f, axis=0)
filamaxim

array([3, 9, 7])

Vegem un exemple de multiplicació de dues matrius:

In [None]:
a = np.array([[1,2],[3,4]])
b = np.array([[5,6],[7,8]])
c = np.matmul(a,b)
c

array([[19, 22],
       [43, 50]])

Aquest seria l'algorisme no vectoritzat per a la multiplicació de matrius:

In [None]:
a = [[1,2],[3,4]]
b = [[5,6],[7,8]]
files_a = len(a)
files_b = len(b)
columnes_a = len(a[0])
columnes_b = len(b[0])
assert columnes_a == files_b, '''El número de columnes
 de la matriu a
 ha de ser igual que
 el número de columnes
 de la matriu b'''

# Omplim la matriu resultat (c) amb None
c = []
for i in range(files_b):
    c.append([])
    for j in range(columnes_b):
        c[i].append(None)

# Calculam els valors amb un triple bucle
for k in range(columnes_b):
    for i in range(files_a):
        suma = 0
        for j in range(columnes_a):
            suma += a[i][j]*b[j][k]
        c[i][k] = suma

c

[[19, 22], [43, 50]]

Des de Python 3.5 s'ha afegit l'operador @, que és l'equivalent de la ufunc matmul.

In [None]:
a = np.array([[1,2],[3,4]])
b = np.array([[5,6],[7,8]])
c = a @ b
c

array([[19, 22],
       [43, 50]])

## Generació de nombres aleatoris

El mòdul numpy.random complementa el mòdul random predefinit a Python integrat amb funcions per generar de manera eficient matrius senceres de valors de mostra, a partir de molts tipus de distribucions de probabilitat. Veurem més detalls sobre distribucions de probabilitat al lliurament 2 del mòdul de Sistemes de Big Data. De moment, simplement ens quedam és que determinen la manera en què es van generant les seqüències de nombres aleatoris.

Dues de les més habituals són la distribució uniforme (numpy.random.rand) i la distribució normal o gaussiana (numpy.random.randn). Qualsevol de les dues generarà un nombre real (amb decimals) aleatori entre -1 i +1.

Vegem un exemple que fa servir np.random.randn per generar un ndarray de dues dimensions, amb 2 files i 3 columnes:

In [None]:
arr = np.random.randn(2,3)
arr

array([[-2.40563113, -0.35874647, -0.72350123],
       [-0.21829633, -0.09097627,  1.09391126]])

## Indexació i selecció

La indexació en NumPy és un tema complex, ja que hi ha moltes formes en què podem voler triar un subconjunt de les nostres dades. Els vectors unidimensionals són senzills, s'assemblen a les llistes de Python.

In [None]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
arr[5]

5

In [None]:
arr[5:8]

array([5, 6, 7])

In [None]:
arr[5:8]=12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

Com veim, si assignam un valor escalar a una selecció, a una llesca, com quan escrivim `arr[5:8]=12`, el valor es propaga a tota la selecció. Una distinció important respecte de les llistes predefinides de Python és que les seleccions són vistes del vector original. Això significa que les dades no es copien, i qualsevol modificació de la vista quedarà reflectida en el vector original.

Per veure'n un exemple, primer cream una llesca d'un vector.

In [None]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

Ara, quan feim modificacions damunt `arr_slice`, els canvis afecten a l'original `arr`.

In [None]:
arr_slice[1]=123
arr

array([  0,   1,   2,   3,   4,  12, 123,  12,   8,   9])

La selecció *nua* `[:]` assignarà tots els valors del vector.


In [None]:
arr_slice[:] = 64
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

Aquest comportament pot ser sorprenent, sobretot comparat amb d'altres llenguatges que tendeixen més a copiar les dades. Però com que NumPy està orientat a treballar amb vectors molt grans, té molt de sentit no copiar les dades tan sovint.

Si en comptes d'una vista volem una còpia d'una secció, podem copiar explícitament el vector. Per exemple, podem fer `arr[5:8].copy()`.

Amb vectors de més dimensions, tenim moltes més opcions. En un vector bidimensional (una matriu), els elements en cada índex ja no són escalars sinó vectors unidimensionals.

In [None]:
arr2d = np.array ([[1, 2, 3],[4, 5, 6],[7, 8, 9]])
arr2d[2]

array([7, 8, 9])

D'aquesta forma, es pot accedir als elements de forma recursiva. Però això pot ser massa, de forma que també es pot passar una llista d'índexs separats per comes. Així, els dos fragments següents són equivalents.

In [None]:
arr2d[0][2]

3

És útil que pensem el primer índex com l'índex de filera i el segon índex com a índex de columna.

En els vectors multidimensionals, quan s'ometen els darrers índexs, l'objecte retornat serà un ndarray de menors dimensions que conté totes les dades al llarg de les dimensions més altes. Un exemple:

In [None]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

`arr3d[0]` és un vector 2x3. Vegem-lo.

In [None]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

A `arr3d[0]` tant s'hi poden assignar escalars com vectors.

In [None]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

D'una forma semblant, `arr3d[1,0]` dona tots els valors amb índexs que comencen amb `(1,0)`, formant un vector unidimensional.

In [None]:
arr3d[1, 0]

array([7, 8, 9])

Aquesta expressió és igual que si haguéssim indexat en dues passes.

In [None]:
x=arr3d[1]
x

array([[ 7,  8,  9],
       [10, 11, 12]])

In [None]:
x[0]

array([7, 8, 9])

### Indexació amb seleccions

Igual com els objectes unidimensionals com les llistes Python, els ndarrays es poden seleccionar amb la sintaxi habitual.

In [None]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [None]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

Tornem al vector bidimensional d'abans, arr2d. Seleccionar dins aquest vector és una mica diferent:

In [None]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

Veim que ha seleccionat al llarg de l'eix 0, el primer eix. És útil interpretar l'expressió `arr2d[:2]` com "seleccionar les primeres dues fileres d'`arr2d`".

Es poden passar múltiples seccions igual que es poden passar múltiples índexs.

In [None]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

Quan se selecciona així, sempre s'obtenen vistes del mateix nombre de dimensions. Quan es mesclen índexs i seleccions, s'obtenen seleccions de dimensió més petita.

In [None]:
arr2d[1, :2]

array([4, 5])

D'una forma semblant, podem seleccionar la tercera columna però només les primeres dues fileres així:

In [None]:
arr2d[:2, 2]

array([3, 6])

Quan es posen només els dos punts (:) significa l'eix sencer, de forma que podem seleccionar només eixos de dimensió més alta així:

In [None]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

L'exemple anterior pren qualsevol filera (:) de les columnes abans de la 1.

Naturalment, assignar a una expressió de selecció assigna a tota la selecció. El següent exemple assigna fins a la filera 2 des de la columna 1. Recordem que es comença a comptar des de 0.

In [None]:
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

## Indexació booleana

Considerem un exemple en què tenim unes dades en un vector i un vector de noms amb duplicats. Aquí farem servir la funció `randn` de `numpy.random` per generar dades que segueixen la distribució normal, gaussiana.

In [29]:
names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
data = np.random.randn(7,4) # 7 fileres, 4 columnes

names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [31]:
data

array([[ 0.14680824, -1.02550592,  0.13009768, -0.12074684],
       [ 1.2035884 ,  0.72739114,  0.41992154, -0.53143583],
       [-0.25151511, -0.9901162 , -1.21596652,  0.4273099 ],
       [-0.6022233 ,  0.49791957, -1.31792985,  0.03925397],
       [ 0.00257582, -0.59875316,  1.72803375, -1.26257809],
       [ 1.35866618,  0.64340454, -1.04910903,  0.9513003 ],
       [ 0.15086963,  0.0966097 , -1.00327747, -0.97887275]])

Suposem que cada nom correspon a una filera al vector de dades i volem seleccionar totes les fileres que corresponen al nom "Bob". Igual com les operacions aritmètiques, les comparacions, com per exemple `==`, són vectoritzades. Per tant, comparar `names` amb la cadena `'Bob'` dona un vector booleà.

In [32]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

A més, aquest vector booleà es pot passar com a paràmetre per indexar el vector.

In [33]:
data[names=='Bob']

array([[ 0.14680824, -1.02550592,  0.13009768, -0.12074684],
       [-0.6022233 ,  0.49791957, -1.31792985,  0.03925397]])

Això sí, el vector booleà ha de ser de la mateixa mida que el vector que indexa. Fins i tot es poden combinar vectors booleans amb enters o seleccions.

La selecció booleana no funciona si el vector booleà no és de la mida correcta.

En els exemples següents, seleccionam de les fileres on `names=='Bob'` i indexam també les columnes.

In [34]:
data[names=='Bob', 2:]

array([[ 0.13009768, -0.12074684],
       [-1.31792985,  0.03925397]])

In [35]:
data[names=='Bob',3]

array([-0.12074684,  0.03925397])

Per seleccionar-ho tot llevat de `'Bob'`, podem usar `!=` (és diferent de) o negar la condició amb `~` (no).
(Si no ho heu fet abans, aquest caràcter es pot obtenir al teclat amb AltGr + 4)

In [37]:
names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

In [38]:
data[~(names=='Bob')]

array([[ 1.2035884 ,  0.72739114,  0.41992154, -0.53143583],
       [-0.25151511, -0.9901162 , -1.21596652,  0.4273099 ],
       [ 0.00257582, -0.59875316,  1.72803375, -1.26257809],
       [ 1.35866618,  0.64340454, -1.04910903,  0.9513003 ],
       [ 0.15086963,  0.0966097 , -1.00327747, -0.97887275]])

Aquest operador de negació també pot ser útil quan es vol invertir una condició general.

In [39]:
cond = names == 'Bob'
data[~cond]

array([[ 1.2035884 ,  0.72739114,  0.41992154, -0.53143583],
       [-0.25151511, -0.9901162 , -1.21596652,  0.4273099 ],
       [ 0.00257582, -0.59875316,  1.72803375, -1.26257809],
       [ 1.35866618,  0.64340454, -1.04910903,  0.9513003 ],
       [ 0.15086963,  0.0966097 , -1.00327747, -0.97887275]])

Podem seleccionar dos o tres noms per combinar condicions booleanes múltiples, amb els operadors lògics `&` (and) i `|` (or).

In [40]:
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

In [41]:
data[mask]

array([[ 0.14680824, -1.02550592,  0.13009768, -0.12074684],
       [-0.25151511, -0.9901162 , -1.21596652,  0.4273099 ],
       [-0.6022233 ,  0.49791957, -1.31792985,  0.03925397],
       [ 0.00257582, -0.59875316,  1.72803375, -1.26257809]])

Quan se seleccionesn dades d'un vector amb indexació booleana sempre es copien les dades, fins i tot si el vector que es retorna és el mateix.

Les paraules reservades de Python `and` i `or` no funcionen amb vectors booleans. S'hi han de fer servir` &` i `|`.


Es poden assignar valors amb vectors booleans. Per exemple, fixem tots els valors negatius al vector `data` a zero.

In [44]:
data[data<0] = 0
data

array([[0.14680824, 0.        , 0.13009768, 0.        ],
       [1.2035884 , 0.72739114, 0.41992154, 0.        ],
       [0.        , 0.        , 0.        , 0.4273099 ],
       [0.        , 0.49791957, 0.        , 0.03925397],
       [0.00257582, 0.        , 1.72803375, 0.        ],
       [1.35866618, 0.64340454, 0.        , 0.9513003 ],
       [0.15086963, 0.0966097 , 0.        , 0.        ]])

També es poden assignar fileres i columnes completes amb un vector booleà unidimensional.


In [None]:
data[names!='Joe'] = 7

data

array([[7.00000000e+00, 7.00000000e+00, 7.00000000e+00, 7.00000000e+00],
       [6.75867593e-03, 4.19095828e-02, 0.00000000e+00, 9.64947026e-01],
       [7.00000000e+00, 7.00000000e+00, 7.00000000e+00, 7.00000000e+00],
       [7.00000000e+00, 7.00000000e+00, 7.00000000e+00, 7.00000000e+00],
       [7.00000000e+00, 7.00000000e+00, 7.00000000e+00, 7.00000000e+00],
       [8.80701567e-01, 0.00000000e+00, 0.00000000e+00, 2.11628128e+00],
       [5.87318470e-01, 8.27490935e-01, 0.00000000e+00, 0.00000000e+00]])

Aquest tipus d'operacions bidimensionals és convenient fer-les amb la llibreria **`pandas`**.