# Operaciones sobre ndarrays

NumPy pone a nuestra disposición un amplio conjunto de funciones optimizadas para aplicar sobre ndarrays de forma global evitando así la necesidad de utilizar bucles (mucho más costosos).

In [1]:
import numpy as np

### Generación de números aleatorios

Aunque el core de Pyhton incluye un modulo <b>random</b> para llevar a cabo la generación de números aleatorios, NumPy ofrece una mejora sobre el mismo permitiendo generar directamente ndarrays de valores aleatorios en base a diversas distribuciones. Todas estas funciones están disponibles a través del submódulo <b>random</b>.<br/>

In [2]:
import numpy as np
import numpy.random as random

Algunas de las más comunes son:
<ul>
<li><b>seed:</b> Establecimiento de semilla del generador de números aleatorios.</li>
<li><b>permutation:</b> Devuelve una permutación aleatoria de una secuencia de entrada (por copia).</li>
<li><b>shuffle:</b> Aplica una permutación aleatoria sobre los elementos de la secuencia de entrada (sin copia).</li>
<li><b>rand:</b> Genera una muestra de números aleatorios utilizando una distribución uniforme.</li>
<li><b>randint:</b> Genera una muestra de números aleatorios enteros dentro de un rango definido.</li>
<li><b>randn:</b> Genera una muestra de números aleatorios utilizando una distribución normal de media 0 y desviación 1.</li>
<li><b>binomial:</b> Genera una muestra de números aleatorios utilizando una distribución binomial.</li>
<li><b>normal:</b> Genera una muestra de números aleatorios utilizando una distribución normal.</li>
<li><b>beta:</b> Genera una muestra de números aleatorios utilizando una distribución beta.</li>
<li><b>chisquare:</b> Genera una muestra de números aleatorios utilizando una distribución chi cuadrado.</li>
<li><b>gamma:</b> Genera una muestra de números aleatorios utilizando una distribución gamma.</li>
<li><b>uniform:</b> Genera una muestra de números aleatorios utilizando una distribución uniforme [0, 1).</li>


</ul>

In [3]:
random.seed(42)

In [4]:
random.rand()

0.3745401188473625

In [5]:
random.randn(5)

array([-1.11188012,  0.31890218,  0.27904129,  1.01051528, -0.58087813])

In [6]:
random.binomial(1, 0.5, 10)

array([0, 0, 1, 0, 0, 1, 0, 0, 0, 0])

In [7]:
array_per = np.arange(9)
random.permutation(array_per)

array([1, 5, 4, 8, 0, 7, 6, 3, 2])

In [8]:
array_per

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [9]:
random.shuffle(array_per)

In [10]:
array_per

array([7, 2, 5, 8, 3, 1, 0, 4, 6])

### Operaciones elemento a elemento - Universal functions

El primero de los conjuntos de funciones ofrecido por NumPy son las llamadas "funciones universales" (o ufuncs) que permiten la realización de operaciones elemento a elemento de un array. En función del número de parámetros encontramos dos tipos de funciones universales.

#### Funciones unarias

Son aquellas funciones que reciben como parámetro un único ndarray.<br/>
<ul>
<li><b>abs, fabs:</b> Valor absoluto.</li>
<li><b>sqrt:</b> Raíz cuadrada (equivalente a array \*\* 0.5).</li>
<li><b>square:</b> Potencia al cuadrado (equivalente a array ** 2).</li>
<li><b>exp:</b> Potencia de e.</li>
<li><b>log, log10, log2, log1p:</b> Logaritmos en distintas bases.</li>
<li><b>sign:</b> Signo (+ = 1 / - = -1 / 0 = 0).</li>
<li><b>ceil:</b> Techo.</li>
<li><b>floor:</b> Suelo.</li>
<li><b>rint:</b> Redondeo al entero más cercano.</li>
<li><b>modf:</b> Devuelve dos arrays uno con la parte fraccionaria y otro con la parte entera.</li>
<li><b>isnan:</b> Devuelve un array booleano indicando si el valor es NaN o no.</li>
<li><b>isfinite, isinf:</b> Devuelve un array booleano indicando si el valor es finito o infinito.</li>
<li><b>cos, cosh, sin, sinh, tan, tanh:</b> Funciones trigonométricas.</li>
<li><b>arccos, arccosh, arcsin, arcsinh, arctan, arctanh:</b> Funciones trigonométricas inversas.</li>
<li><b>logical_not:</b> Inverso booleano de todos los valores del array (equivalente a ~(array)).</li>
</ul>

In [11]:
array = np.array([1,-2,3,-4,5])
np.abs(array)

array([1, 2, 3, 4, 5])

In [12]:
np.sign(array)

array([ 1, -1,  1, -1,  1])

In [13]:
array2 = np.array([1.5, 2.4, 0.5, -1.4])
np.ceil(array2)

array([ 2.,  3.,  1., -1.])

#### Funciones binarias

Son aquellas funciones que reciben como parámetro dos arrays.
<ul>
<li><b>add:</b> Adición de los elementos de los dos arrays (equivalente a array1 + array2).</li>
<li><b>subtract:</b> Resta de los elementos de los dos arrays (equivalente a array1 - array2).</li>
<li><b>multiply:</b> Multiplica los elementos de los dos arrays (equivalente a array1 \* array2).</li>
<li><b>divide, floor_divide:</b> Divide los elementos de los dos arrays (equivalente a array1 / (o //) array2).</li>
<li><b>power:</b> Eleva los elementos del primer array a las potencias del segundo (equivalente a array1 ** array2).</li>
<li><b>maximum, fmax:</b> Calcula el máximo de los dos arrays (elemento a elemento). fmax ignora NaN.</li>
<li><b>minimum, fmin:</b> Calcula el mínimo de los dos arrays (elemento a elemento). fmax ignora NaN.</li>
<li><b>mod:</b> Calcula el resto de la división de los dos arrays (equivalente a array1 % array2).</li>
<li><b>greater, greater_equal, less, less_equal, equal, not_equal:</b> Comparativas sobre los elementos de ambos ndarrays (elemento a elemento).</li>
<li><b>logical_and, logical_or, logical_xor:</b> Operaciones booleanas sobre los elementos de ambos ndarrays (elemento a elemento).</li>
</ul>

In [14]:
array1 = np.random.randn(5, 5)
array1

array([[-0.52516981, -0.1402185 , -0.0331934 , -0.74907652, -0.77838201],
       [ 0.94884286,  1.58085059, -0.36817094,  0.37556463, -1.19315823],
       [-0.4090519 , -0.44674147,  1.52424163,  0.3229998 , -1.39341694],
       [-2.17833425, -1.04389641,  0.17269371,  0.32419877,  0.74585954],
       [-1.83658324,  0.56446424,  0.02550067,  0.47319325,  0.6591906 ]])

In [15]:
array2 = np.random.randn(5, 5)
array2

array([[ 2.34074633,  1.07098519,  0.09641648,  0.41910211, -0.95302779],
       [-1.0478706 , -1.87567677, -1.36678214,  0.63630511, -0.90672067],
       [ 0.47604259,  1.30366127,  0.21158701,  0.59704465, -0.89633518],
       [-0.11198782,  1.46894129, -1.12389833,  0.9500054 ,  1.72651647],
       [ 0.45788508, -1.68428738,  0.32684522, -0.08111895,  0.46779475]])

In [16]:
np.minimum(array1, array2)

array([[-0.52516981, -0.1402185 , -0.0331934 , -0.74907652, -0.95302779],
       [-1.0478706 , -1.87567677, -1.36678214,  0.37556463, -1.19315823],
       [-0.4090519 , -0.44674147,  0.21158701,  0.3229998 , -1.39341694],
       [-2.17833425, -1.04389641, -1.12389833,  0.32419877,  0.74585954],
       [-1.83658324, -1.68428738,  0.02550067, -0.08111895,  0.46779475]])

In [17]:
np.divide(array1,array2)

array([[-0.22435998, -0.13092478, -0.34427103, -1.78733658,  0.81674639],
       [-0.90549621, -0.8428161 ,  0.26937061,  0.59022728,  1.31590496],
       [-0.85927586, -0.34268217,  7.20385252,  0.54099773,  1.55457129],
       [19.45152818, -0.71064543, -0.15365599,  0.34125992,  0.43200256],
       [-4.01101353, -0.33513535,  0.07802062, -5.83332532,  1.40914492]])

In [18]:
np.floor_divide(array1,array2)

array([[-1., -1., -1., -2.,  0.],
       [-1., -1.,  0.,  0.,  1.],
       [-1., -1.,  7.,  0.,  1.],
       [19., -1., -1.,  0.,  0.],
       [-5., -1.,  0., -6.,  1.]])

### Selección de elementos de ndarrays en función de una condición. `.where`

NumPy pone a nuestra disposición, a través de la función <b>np.where</b> la posibilidad de generar un array de salida a partir de dos de entrada, estableciendo una máscara booleana que indique si (elemento a elemento) debemos enviar a la salida el elemento del primer ndarray (valor True) o del segundo (valor False).

In [19]:
array1 = np.random.randn(5, 5)
array1

array([[ 0.73612235, -0.77970188, -0.84389636, -0.15053386, -0.96555767],
       [ 0.15048908, -0.11342125,  2.63352822, -1.02509089, -0.78204783],
       [ 0.42394307,  0.8727051 ,  2.28722598,  1.6229205 ,  0.82373308],
       [ 0.29305925,  0.89663038, -0.61032202, -0.3161659 , -1.48242425],
       [-0.22884752,  0.96264129, -0.20969244, -0.77404293, -0.35977815]])

In [20]:
array2 = np.random.randn(5, 5)
array2

array([[ 0.72408325, -0.25576464,  0.8499212 , -1.31132423, -0.87030495],
       [-0.50664322, -1.30995069,  2.94366342, -1.0962658 ,  0.91488432],
       [-0.66606062, -0.51378749,  0.3013228 , -1.45851692, -0.66273831],
       [-0.14647281, -0.84601702, -0.82248937,  1.08672702,  1.00498688],
       [-0.44176602, -0.08416509,  1.23701607, -1.42647888,  0.33802266]])

In [21]:
# Fusión condicional
np.where(array1 < array2, array1, array2)

array([[ 0.72408325, -0.77970188, -0.84389636, -1.31132423, -0.96555767],
       [-0.50664322, -1.30995069,  2.63352822, -1.0962658 , -0.78204783],
       [-0.66606062, -0.51378749,  0.3013228 , -1.45851692, -0.66273831],
       [-0.14647281, -0.84601702, -0.82248937, -0.3161659 , -1.48242425],
       [-0.44176602, -0.08416509, -0.20969244, -1.42647888, -0.35977815]])

In [22]:
# Anidación de condiciones
np.where(array1 < array2, np.where(array1 < 0, 0, array1), array2)

array([[ 0.72408325,  0.        ,  0.        , -1.31132423,  0.        ],
       [-0.50664322, -1.30995069,  2.63352822, -1.0962658 ,  0.        ],
       [-0.66606062, -0.51378749,  0.3013228 , -1.45851692, -0.66273831],
       [-0.14647281, -0.84601702, -0.82248937,  0.        ,  0.        ],
       [-0.44176602, -0.08416509,  0.        , -1.42647888,  0.        ]])

### Funciones matemáticas y estadísticas

NumPy ofrece un amplio conjunto de funciones matemáticas y estadísticas que se pueden aplicar sobre ndarrays. A continuación se pueden encontrar los ejemplos más típicos (hay algunas más que pueden consultarse en la documentación oficial de NumPy).<br/>
<ul>
<li><b>sum:</b> Suma de elementos.</li>
<li><b>mean:</b> Media aritmética de los elementos.</li>
<li><b>median:</b> Mediana de los elementos.</li>
<li><b>std:</b> Desviación estándar de los elementos.</li>
<li><b>var:</b> Varianza de los elementos.</li>
<li><b>min:</b> Valor mínimo de los elementos.</li>
<li><b>max:</b> Valor máximo de los elementos.</li>
<li><b>argmin:</b> Índice del valor mínimo.</li>
<li><b>argmax:</b> Índice del valor máximo.</li>
<li><b>cumsum:</b> Suma acumulada de los elementos.</li>
<li><b>cumprod:</b> Producto acumulado de los elementos.</li>
</ul>

Todas estas funciones pueden recibir, además del ndarray sobre el que se aplicarán, un segundo parámetro llamado <b>axis</b>. Si no se recibe este parámetro las funciones se aplicarán sobre el conjunto global de los elementos del ndarray, pero si se incluye, podrá tomar dos valores:
<ul>
<li>Valor 0: Aplicará la función por filas</li>
<li>Valor 1: Aplicará la función por columnas</li>

In [23]:
array = np.random.randn(5, 4)
array

array([[ 1.9745712 ,  1.96503476, -1.93991122, -0.76262696],
       [ 0.16865939, -1.32187695, -0.6682467 , -0.137291  ],
       [ 1.40132156, -0.04540266,  0.21693673,  0.51242373],
       [ 0.54348869,  0.02809946, -1.19708706,  0.7896728 ],
       [ 0.43148946, -1.0967523 , -0.68230156,  0.88751161]])

In [24]:
# Operación global
np.sum(array)

1.0677129909343195

In [25]:
# Operación por filas
np.sum(array, axis=0)

array([ 4.5195303 , -0.47089768, -4.27060982,  1.28969018])

In [26]:
# Operación por columnas
np.sum(array, axis=1)

array([ 1.23706778, -1.95875527,  2.08527937,  0.1641739 , -0.46005278])

Adicionalmente algunas de estas funciones pueden ser utilizadas como "métodos" de los ndarray y no sólo como funciones sobre los mismos. En este caso la sintáxis cambiará y se utilizará la notación "ndarray.funcion()"

In [27]:
array.sum()

1.0677129909343195

In [28]:
np.argmax(array)

0

In [29]:
np.argmin(array)

2

In [30]:
np.cumsum(array)

array([ 1.9745712 ,  3.93960596,  1.99969474,  1.23706778,  1.40572717,
        0.08385021, -0.58439648, -0.72168749,  0.67963408,  0.63423142,
        0.85116815,  1.36359188,  1.90708057,  1.93518003,  0.73809297,
        1.52776578,  1.95925524,  0.86250294,  0.18020138,  1.06771299])

In [31]:
np.cumprod(array)

array([ 1.97457120e+00,  3.88010105e+00, -7.52705155e+00,  5.74033247e+00,
        9.68160957e-01, -1.27978965e+00,  8.55215212e-01, -1.17413355e-01,
       -1.64533866e-01,  7.47027440e-03,  1.62057687e-03,  8.30422049e-04,
        4.51324993e-04,  1.26819901e-05, -1.51814463e-05, -1.19883753e-05,
       -5.17285761e-06,  5.67334347e-06, -3.87093112e-06, -3.43549633e-06])

### Operaciones sobre ndarrays booleanos

Dado que, internamente, Python trata los valores booleanos True como 1 y los False como 0, es muy sencillo realizar operaciones matemáticas sobre estos valores booleanos de forma que se puedan hacer diferentes chequeos. Por ejemplo...

In [32]:
array = np.random.randn(5, 5)
array

array([[ 0.60548313, -0.72029799, -0.26993377, -0.14346223,  0.61700378],
       [ 1.2489407 ,  0.06564916,  1.16920765,  0.87331697,  0.20565013],
       [-1.44348335, -1.02771086,  0.74124064, -1.71052958,  0.11897849],
       [ 1.00048561,  0.15242086, -0.60139725, -0.84661436,  0.81615272],
       [ 0.47170729, -0.2854893 ,  1.06529247,  0.85399779,  1.78859386]])

In [33]:
array > 0

array([[ True, False, False, False,  True],
       [ True,  True,  True,  True,  True],
       [False, False,  True, False,  True],
       [ True,  True, False, False,  True],
       [ True, False,  True,  True,  True]])

In [34]:
# Elementos mayores que 0
(array > 0).sum()

16

In [35]:
# Elementos menores que la media
(array < array.mean()).sum()

12

NumPy también pone a nuestra disposición dos funciones de chequeo predefinidas sobre ndarrays booleanos:<br/>
<ul>
<li><b>any:</b> Para comprobar si alguno de los elementos es True.</li>
<li><b>all:</b> Para comprobar si todos los elementos son True.</li>
</ul>

In [36]:
array[0][0] = 0
array

array([[ 0.        , -0.72029799, -0.26993377, -0.14346223,  0.61700378],
       [ 1.2489407 ,  0.06564916,  1.16920765,  0.87331697,  0.20565013],
       [-1.44348335, -1.02771086,  0.74124064, -1.71052958,  0.11897849],
       [ 1.00048561,  0.15242086, -0.60139725, -0.84661436,  0.81615272],
       [ 0.47170729, -0.2854893 ,  1.06529247,  0.85399779,  1.78859386]])

In [37]:
# Alguno de los elementos cumple la condición
(array == 0).any()

True

In [38]:
# Todos los elementos cumplen la condición
((array >= -2) & (array <= 2)).all()

True

### Ordenación de ndarrays

In [39]:
array = np.random.randn(5, 5)
array

array([[ 0.56689407, -0.16450043, -0.14299093, -1.9345702 ,  0.15065904],
       [-0.01571494, -1.33007407, -0.02528763,  1.34316821, -0.73454765],
       [-0.95989463,  1.10492822,  0.6342403 ,  3.06109521, -1.31857016],
       [ 0.72038724,  0.31589091,  0.05928128,  0.91051222, -0.02972536],
       [-1.93637621, -0.84735753,  1.36443345,  1.1720289 , -0.37311919]])

In [40]:
# Datos ordenados
np.sort(array)

array([[-1.9345702 , -0.16450043, -0.14299093,  0.15065904,  0.56689407],
       [-1.33007407, -0.73454765, -0.02528763, -0.01571494,  1.34316821],
       [-1.31857016, -0.95989463,  0.6342403 ,  1.10492822,  3.06109521],
       [-0.02972536,  0.05928128,  0.31589091,  0.72038724,  0.91051222],
       [-1.93637621, -0.84735753, -0.37311919,  1.1720289 ,  1.36443345]])

In [41]:
# Datos ordenados según el primer eje
np.sort(array, axis=0)

array([[-1.93637621, -1.33007407, -0.14299093, -1.9345702 , -1.31857016],
       [-0.95989463, -0.84735753, -0.02528763,  0.91051222, -0.73454765],
       [-0.01571494, -0.16450043,  0.05928128,  1.1720289 , -0.37311919],
       [ 0.56689407,  0.31589091,  0.6342403 ,  1.34316821, -0.02972536],
       [ 0.72038724,  1.10492822,  1.36443345,  3.06109521,  0.15065904]])

### Funciones de conjunto

NumPy permite realizar tratamientos sobre un ndarray asumiendo que el total de los elementos del mismo forman un conjunto.<br/>
<ul>
<li><b>unique:</b> Calcula el conjunto único de elementos sin duplicados.</li>
<li><b>intersect1d:</b> Calcula la intersección de los elementos de dos arrays.</li>
<li><b>union1d:</b> Calcula la unión de los elementos de dos arays.</li>
<li><b>in1d:</b> Calcula un array booleano que indica si cada elemento del primer array está contenido en el segundo.</li>
<li><b>setdiff1d:</b> Calcula la diferencia entre ambos conjuntos.</li>
<li><b>setxor1d:</b> Calcula la diferencia simétrica entre ambos conjuntos.</li>
</ul>

In [42]:
array1 = np.array([6, 0, 0, 0, 3, 2, 5, 6])
array1

array([6, 0, 0, 0, 3, 2, 5, 6])

In [43]:
array2 = np.array([7, 4, 3, 1, 2, 6, 5])
array2

array([7, 4, 3, 1, 2, 6, 5])

In [44]:
np.unique(array1)

array([0, 2, 3, 5, 6])

In [45]:
np.union1d(array1, array2)

array([0, 1, 2, 3, 4, 5, 6, 7])

In [46]:
np.in1d(array1, array2)

array([ True, False, False, False,  True,  True,  True,  True])