<div style="padding:10px;background-color: #FF4D4D; color:white;font-size:28px;"><strong>Numpy</strong></div>

Existen algunos paquetes especializados en aplicaciones específicas, algunos son tan populares que casi todos los programadores los usan.

Un paquete en particular, [**NumPy**](https://numpy.org/), se encuentra en el núcleo de la computación científica y de datos en Python (incluyendo el ecosistema [PyData](https://pydata.org/)). Muchos otros paquetes de ciencia de datos (como `scikit-learn`, `scipy`, `pandas`) están construidos sobre **NumPy**, por lo que es muy importante entender su función.

Contiene, entre otras cosas:

- Un poderoso objeto de **arreglo N-dimensional**
- Capacidades de álgebra lineal, transformada de Fourier.
- Funciones sofisticadas y generación de números aleatorios.
- Vectorización de funciones.
- Herramientas para integrar código en **C/C++** y **Fortran**

A menudo usamos **NumPy** para trabajar con datos.

## <a style="padding:3px;color: #FF4D4D; "><strong>Arreglos</strong></a>

Tradicionalmente, `numpy` se renombra como `np`. La razón por la que hacemos esto es que existe una convención en la comunidad **PyData** de importar los paquetes de datos con nombres más cortos.

In [6]:
import numpy as np
print(np.__version__)

1.26.4


In [7]:
np.arange(0,20)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

La función `arange` es análoga a la función `range` que estudiamos anteriormente. 

In [9]:
miArreglo = np.arange(10)

Pero en lugar de devolver un objeto de tipo `range`, el tipo de objeto que devuelve es un `numpy.ndarray`, algo que llamaremos un `arreglo`.

In [11]:
type(miArreglo)

numpy.ndarray

Los Arreglos son similares a las otras secuencias que vimos anteriormente. Por ejemplo, podemos acceder a sus elementos a través del índice.

In [13]:
miArreglo[2] = 12
miArreglo

array([ 0,  1, 12,  3,  4,  5,  6,  7,  8,  9])

Sin embargo, los arreglos también tienen características únicas. 

Para empezar, todos los objetos contenidos en el arreglo **deben ser del mismo tipo**. 

Aunque esto podría parecer una restricción molesta comparando los arreglos con otros objetos, permite que este nuevo tipo de secuencia trabaje de manera MUY eficiente en grandes volúmenes de datos.

In [15]:
# miArreglo[5] = "pluma"

Puede accederse al tipo de datos que contiene un arreglo utilizando la propiedad `dtype`. Eso quiere decir que, una vez creado, no puede cambiarse directamente el tipo de un arreglo.

In [17]:
miArreglo.dtype

dtype('int32')

Los tipos más comunes en NumPy son:

##### Tipo Entero y Booleanos:
- `bool_` : Booleano (Verdadero o Falso) almacenado como un byte
- `int_` : Tipo entero predeterminado (igual que long en C; normalmente int64 o int32)
- `intc` : Idéntico al tipo int en C (normalmente int32 o int64)
- `intp` : Entero usado para indexación (igual que ssize_t en C; normalmente int32 o int64)
- `int8` : Entero de 8 bits con signo (-128 a 127)
- `int16` : Entero de 16 bits con signo (-32,768 a 32,767)
- `int32` : Entero de 32 bits con signo (-2,147,483,648 a 2,147,483,647)
- `int64` : Entero de 64 bits con signo (-9,223,372,036,854,775,808 a 9,223,372,036,854,775,807)
- `uint8` : Entero sin signo de 8 bits (0 a 255)
- `uint16` : Entero sin signo de 16 bits (0 a 65,535)
- `uint32` : Entero sin signo de 32 bits (0 a 4,294,967,295)
- `uint64` : Entero sin signo de 64 bits (0 a 18,446,744,073,709,551,615)

##### Tipos de punto flotante
- `float_` : Abreviatura de float64
- `float16` : Punto flotante de media precisión: 1 bit de signo, 5 bits de exponente, 10 bits de mantisa
- `float32` : Punto flotante de precisión simple: 1 bit de signo, 8 bits de exponente, 23 bits de mantisa
- `float64` : Punto flotante de doble precisión: 1 bit de signo, 11 bits de exponente, 52 bits de mantisa

##### Tipos complejos
- `complex_` : Abreviatura de complex128
- `complex64` : Número complejo representado por dos float32 (parte real e imaginaria)
- `complex128` : Número complejo representado por dos float64 (parte real e imaginaria)

Además, una vez que el arreglo fue creado su tamaño es fijo, lo que les permite optimizarse para un alto desempeño.

Por lo tanto, funciones como `pop` o `append` no funcionarán en el arreglo.

In [20]:
# miArreglo.append(20)

In [21]:
# miArreglo.pop()

## <a style="padding:3px;color: #FF4D4D; "><strong>Construcción de Arreglos</strong></a>

Al igual que con un rango, podemos utilizar pasos en nuestra creación de arreglos por medio de la función `arange`

In [24]:
np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

También podemos llenar el espacio entre dos números, por ejemplo imaginemos que deseamos el rango entre 0 y 1 dividido en cinco números exactamente.

In [26]:
np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

Y podemos también convertir esto en un tipo diferente si lo necesitamos, aunque debemos ser cuidadosos con la posibilidad de perder información

In [28]:
np.linspace(0,1,5).astype('int')

array([0, 0, 0, 0, 1])

También existen varias maneras de generar arreglos al vuelo al pasar objetos en la función `array`

In [30]:
np.array(range(20))

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [31]:
np.array(range(20)).dtype

dtype('int32')

Como mencionamos, los arreglos de **NumPy** deben contener el mismo tipo, no podemos mezclar por ejemplo flotantes y enteros.

In [33]:
np.array([1.0,0,2,3])

array([1., 0., 2., 3.])

In [34]:
np.array([1.0,0,2,3]).dtype

dtype('float64')

Esto permite asignaciones consistentes en la memoria que optimizan los procesos en los arreglos.

Sin embargo, hay ocasiones en que obtendremos un arreglo de un tipo que no necesariamente es el deseado.

In [36]:
np.array([True,2,2.0])

array([1., 2., 2.])

In [37]:
np.array([True,2,2.0]).dtype

dtype('float64')

Afortunadamente, durante la creación de nuestro arreglo, podemos definir el tipo deseado.

In [39]:
## Booleanos
np.array([True, 1, 2.0], dtype='bool_')

array([ True,  True,  True])

In [40]:
## Flotantes
np.array([True, 1, 2.0], dtype='float_')

array([1., 1., 2.])

In [41]:
## Enteros
np.array([True, 1, 2.0], dtype='int_')

array([1, 1, 2])

In [42]:
## Enteros byte-8bits (del 0 al 255)
np.array([True, 1, 2.0], dtype='uint8')

array([1, 1, 2], dtype=uint8)

## <a style="padding:3px;color: #FF4D4D; "><strong>Vectorización</strong></a>

Los arreglos de **Numpy** nos permiten implementar muchos métodos como si fuesen listas de Python.

In [45]:
miArreglo

array([ 0,  1, 12,  3,  4,  5,  6,  7,  8,  9])

In [46]:
[x * x for x in miArreglo]

[0, 1, 144, 9, 16, 25, 36, 49, 64, 81]

Sin embargo, esto no siempre es la manera recomendada de utilizar los arreglos. Normalmente, buscaremos **vectorizar** al computar una función

In [48]:
miArreglo * miArreglo

array([  0,   1, 144,   9,  16,  25,  36,  49,  64,  81])

Midiendo los tiempos de cada uno de los métodos podemos ver que el segundo fue mucho más eficiente.

In [50]:
%timeit [x * x for x in miArreglo]

1.65 μs ± 117 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [51]:
%timeit miArreglo * miArreglo

468 ns ± 54.9 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


ms = milisegundos o $10^{-3} $ segundos

$\mu s$ = microsegundos o $10^{-6} $ segundos

ns = nanosegundos o $ 10 ^{-9} $ segundos

La vectorización, en términos simples, te permite aplicar una función a todo un arreglo en lugar de hacerlo valor por valor, similar a lo que hicimos con `map` en lecciones anteriores.

Esto normalmente hace que las cosas sean mucho más concisas, legibles y rápidas.

Esto permite que muchas operaciones que requieren bucles, podemos evitarlas con una operación vectorial con arreglos de NumPy. Esto debido a que los bucles además de que pueden introducir errores, suelen ser menos eficientes.

Evaluemos la sintaxis de algunas operaciones que pueden realizarse a un arreglo por medio de vectorización.

In [55]:
arrInt = np.random.randint(0,50,20)
arrInt

array([47, 35, 43, 41, 22, 27, 40,  3, 16, 22,  3, 20,  0, 47, 45, 42,  5,
       22, 35, 35])

In [56]:
# Sumar 10 a cada número
arrInt + 10

array([57, 45, 53, 51, 32, 37, 50, 13, 26, 32, 13, 30, 10, 57, 55, 52, 15,
       32, 45, 45])

In [57]:
# Duplicar cada elemento
arrInt * 2

array([94, 70, 86, 82, 44, 54, 80,  6, 32, 44,  6, 40,  0, 94, 90, 84, 10,
       44, 70, 70])

In [58]:
# Elevar cada elemento al cubo
arrInt ** 3

array([103823,  42875,  79507,  68921,  10648,  19683,  64000,     27,
         4096,  10648,     27,   8000,      0, 103823,  91125,  74088,
          125,  10648,  42875,  42875], dtype=int32)

Podemos llevar esto un paso más allá y definir nuestras propias funciones vectorizadas, las cuales funcionarán con una eficiencia extremadamente alta. Supongamos que necesitamos realizar una serie de transformaciones. Podemos incluirlas en una función para que sean un poco más legibles.

Simplemente podemos declarar exactamente lo que queremos que se haga con cada objeto.

In [60]:
def opera(obj):
    return ((obj * 2) - 1)

Esta función podríamos aplicarla a un entero.

In [62]:
opera(2)

3

Y podríamos también aplicarlo a un arreglo

In [64]:
opera(arrInt)

array([93, 69, 85, 81, 43, 53, 79,  5, 31, 43,  5, 39, -1, 93, 89, 83,  9,
       43, 69, 69])

Aunque esto funcionó, a veces no lo hará, como por ejemplo si incluimos filtros o tenemos transformaciones específicas para ciertos valores. En esos casos, necesitamos usar la función `vectorize` para poder pasarle un arreglo. Definamos por ejemplo la siguiente función:

In [66]:
def paridad(x):
    if x % 2 == 0:
        return "par"
    else:
        return "impar"

Si intentamos aplicarla directamente sobre un arreglo obtendremos un error porque `paridad` no está diseñada para manejar arreglos, solo escalares:

In [68]:
paridad(3)

'impar'

In [69]:
# paridad(arrInt)

Pero `np.vectorize` permite que una función que trabaja sobre escalares se aplique elemento por elemento sobre un arreglo, como si fuera una versión “universal” de la función.

In [71]:
paridadVec = np.vectorize(paridad)

In [72]:
paridadVec(3)

array('impar', dtype='<U5')

In [73]:
paridadVec(arrInt)

array(['impar', 'impar', 'impar', 'impar', 'par', 'impar', 'par', 'impar',
       'par', 'par', 'impar', 'par', 'par', 'impar', 'impar', 'par',
       'impar', 'par', 'impar', 'impar'], dtype='<U5')

## <a style="padding:3px;color: #FF4D4D; "><strong>Selección Booleana</strong></a>

La selección Booleana en los arreglos es útil porque nos permite pedirle a la computadora lo que queremos en lugar de decirle exactamente cómo hacerlo (pensamiento declarativo en lugar de imperativo).

Por lo que la computadora lo ejecutará de la forma más eficiente posible.

In [76]:
arr = np.arange(20)
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [77]:
# Forma imperativa
[x for x in arr if x % 2 == 0]

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [78]:
# Forma declarativa Python NumPy
arr[arr % 2 == 0]

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

Esto, además de que es más corto de escribir y más eficiente, introduce una nueva sintaxis así que desglosemos su significado. Observemos lo que tenemos dentro de los corchetes cuadrados

In [80]:
arr % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False,  True, False,  True, False,  True, False,  True, False,
        True, False])

Tenemos una lista de objetos booleanos que corresponde a aplicar la función a cada elemento del arreglo original y evaluar la condición propuesta.

Esto esencialmente es una operación de filtrado mucho más concisa conocida como **Selección Booleana**.

Al ingresar esta lista de booleanos como "índice" de nuestro arreglo, estamos pidiéndole que filtre en el arreglo original, los valores en que la selección booleana arrojaron un resultado `True`, es tan simple como eso.

¿Y qué tan importante es esta optimización?

In [82]:
arr2 = np.arange(20000)

In [83]:
%timeit [x for x in arr2 if x % 2 == 0]

2.62 ms ± 194 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [84]:
%timeit arr2[arr2 % 2 == 0]

137 μs ± 9.65 μs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Podemos ver que que es considerablemente más rápida la selección booleana pues está anclada en una librería de álgebra lineal optimizada que se encuentra en la computadora.

Adicionalmente, permite operaciones unidas de maneras mucho más fáciles de entender que intentándolo por otros medios menos legibles como un bucle o una comprensión.

In [86]:
# Mayores a 15 o menores a 5
arr[(arr > 15) | (arr < 5)]

array([ 0,  1,  2,  3,  4, 16, 17, 18, 19])

In [87]:
# Mayores a 5 y menores a 15
arr[(arr > 5) & (arr < 15)]

array([ 6,  7,  8,  9, 10, 11, 12, 13, 14])

En estos casos debemos usar paréntesis alrededor de las condiciones; de lo contrario, no funcionará, ya que Python no sabrá cómo combinar las distintas expresiones lógicas.

In [89]:
arr.size

20

Además la selección Booleana no necesariamente tiene que hacerse con el mismo arreglo.

Por ejemplo, imaginemos que el arreglo `arr` corresponde al número de cliente de un banco (del 1 al 20) y creamos otro arreglo que simula los saldos en sus cuentas.

In [91]:
saldos = np.random.randint(0,50000,20)
saldos

array([10569, 49587, 49995, 16168, 48284,  9919, 25213,  3538,  4209,
       12661, 48650,  4635, 15655, 26215, 26237, 48954, 36349, 45134,
       18020, 22245])

Podemos seleccionar los elementos del arreglo de números original con base en el de los saldos. Imaginemos que queremos saber qué clientes tienen un saldo mayor a $25,000

In [93]:
arr[saldos > 25000]

array([ 1,  2,  4,  6, 10, 13, 14, 15, 16, 17])

Únicamente debemos asegurar que estamos filtrando con un arreglo del mismo tamaño que el que estás tratando de filtrar; de lo contrario, NumPy no sabrá exactamente cómo aplicar el filtro.

## <a style="padding:3px;color: #FF4D4D; "><strong>Arreglos Multidimensionales</strong></a>

El tipo `numpy.ndarray` se refiere a un **arreglo de n-dimensiones** y `n` puede tomar el valor que nosotros quedamos.

Por ejemplo, podemos crear una matriz de dos dimensiones, que contenga números aleatorios distribuidos uniformemente entre 0 y 1.

In [97]:
np.random.rand(4,4)

array([[0.93644619, 0.4214693 , 0.30736838, 0.28692138],
       [0.22362169, 0.79562162, 0.78817034, 0.92182275],
       [0.57305706, 0.72811748, 0.02653336, 0.30172853],
       [0.46860169, 0.19218127, 0.44905171, 0.7753946 ]])

O podemos crear un cubo tridimensional de números aleatorios.

In [99]:
np.random.rand(4,4,4)

array([[[7.03204326e-01, 1.75610821e-01, 2.52271387e-01, 5.66411724e-01],
        [1.96070129e-02, 1.28388095e-01, 6.66946969e-01, 6.30426602e-02],
        [3.53899777e-01, 9.79132365e-01, 1.41724752e-01, 9.60047333e-01],
        [4.65224033e-01, 9.31306933e-01, 5.34657360e-01, 1.04999709e-01]],

       [[1.75801790e-02, 9.53389897e-01, 8.11764323e-01, 5.46370981e-01],
        [3.02887836e-01, 3.93622201e-01, 6.95084878e-02, 1.69480203e-01],
        [5.68638113e-01, 6.20590615e-01, 1.07945969e-02, 2.60907277e-04],
        [9.78062522e-01, 8.67533204e-01, 8.03039088e-01, 1.78863733e-01]],

       [[8.35222125e-01, 6.83151384e-01, 3.82373232e-01, 9.61496337e-01],
        [4.37040030e-01, 9.01958953e-01, 2.58635194e-01, 7.95718427e-01],
        [5.77513175e-01, 6.79245201e-02, 9.73558008e-01, 8.67032429e-01],
        [2.09753859e-01, 3.42712590e-02, 5.92622575e-01, 5.18493438e-01]],

       [[9.01745915e-02, 1.81202566e-01, 9.89804263e-02, 9.47419981e-01],
        [3.75831207e-01, 1.11152

Y podríamos continuar en espacios dimensionales más altos como puede verse en la documentación de la función.

In [101]:
?np.random.rand

[1;31mDocstring:[0m
rand(d0, d1, ..., dn)

Random values in a given shape.

.. note::
    This is a convenience function for users porting code from Matlab,
    and wraps `random_sample`. That function takes a
    tuple to specify the size of the output, which is consistent with
    other NumPy functions like `numpy.zeros` and `numpy.ones`.

Create an array of the given shape and populate it with
random samples from a uniform distribution
over ``[0, 1)``.

Parameters
----------
d0, d1, ..., dn : int, optional
    The dimensions of the returned array, must be non-negative.
    If no argument is given a single Python float is returned.

Returns
-------
out : ndarray, shape ``(d0, d1, ..., dn)``
    Random values.

See Also
--------
random

Examples
--------
>>> np.random.rand(3,2)
array([[ 0.14022471,  0.96360618],  #random
       [ 0.37601032,  0.25528411],  #random
       [ 0.49313049,  0.94909878]]) #random
[1;31mType:[0m      builtin_function_or_method

Los números que creamos se tomaron de una distribución uniforme, sin embargo **Numpy** ofrece muchas otras distribuciones con las que podemos trabajar.

In [103]:
?np.random

[1;31mType:[0m        module
[1;31mString form:[0m <module 'numpy.random' from 'C:\\Users\\emanu\\anaconda3\\Lib\\site-packages\\numpy\\random\\__init__.py'>
[1;31mFile:[0m        c:\users\emanu\anaconda3\lib\site-packages\numpy\random\__init__.py
[1;31mDocstring:[0m  
Random Number Generation

Use ``default_rng()`` to create a `Generator` and call its methods.

Generator
--------------- ---------------------------------------------------------
Generator       Class implementing all of the random number distributions
default_rng     Default constructor for ``Generator``

BitGenerator Streams that work with Generator
--------------------------------------------- ---
MT19937
PCG64
PCG64DXSM
Philox
SFC64

Getting entropy to initialize a BitGenerator
--------------------------------------------- ---
SeedSequence


Legacy
------

For backwards compatibility with previous versions of numpy before 1.17, the
various aliases to the global `RandomState` methods are left alone and do not


Viendo la documentación del módulo `np.random`, tenemos una gran variedad de funciones a nuestra disposición, por ejemplo podemos generar un arreglo de número generados bajo una normal estándar.

In [105]:
np.random.randn(12)

array([-1.06338916, -0.52543547,  0.10352236,  1.18143051,  1.69884901,
        0.70826935,  1.3708374 , -1.07292741, -2.59406488, -1.78566681,
       -0.80573383,  1.19773583])

Y este mismo arreglo podríamos reacomodarlo en una matriz 4x3 utilizando el método `reshape`.

In [107]:
ar = np.random.randn(12).reshape(4,3)
ar

array([[-0.47780641,  0.4054726 , -0.05267069],
       [ 0.13080776, -0.47667781,  1.09180015],
       [-0.19618195,  0.39270173, -1.04722697],
       [-0.01544438, -1.97421978, -0.25664123]])

Podemos también crear una matriz nula con el comando `zeros` que utiliza las dimensiones de la matriz como argumento

In [109]:
np.zeros((5,2))

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

Una gran ventaja con NumPy es que muchas veces un resultado puede ser utilizado como entrada de otra función. Por ejemplo la función devuelve una tupla como la que se necesita en la función `zeros`

In [111]:
ar.shape

(4, 3)

In [112]:
np.zeros(ar.shape)

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [113]:
# np.random.seed(10)

In [114]:
arr1 = np.random.randint(1,10,25).reshape(5,5).astype('uint')
arr1

array([[1, 6, 2, 5, 3],
       [7, 6, 5, 7, 4],
       [2, 5, 4, 9, 9],
       [7, 6, 8, 2, 9],
       [2, 7, 2, 4, 1]], dtype=uint32)

In [115]:
arr2 = np.random.randint(1,10,25).reshape(5,5).astype('uint')
arr2

array([[9, 1, 5, 5, 8],
       [4, 5, 2, 2, 2],
       [6, 9, 1, 4, 1],
       [8, 5, 7, 9, 9],
       [8, 1, 9, 4, 9]], dtype=uint32)

Nuevamente podemos operar de forma vectorial si deseamos por ejemplo duplicar los elementos del primer arreglo.

In [117]:
arr1 * 2

array([[ 2, 12,  4, 10,  6],
       [14, 12, 10, 14,  8],
       [ 4, 10,  8, 18, 18],
       [14, 12, 16,  4, 18],
       [ 4, 14,  4,  8,  2]], dtype=uint32)

Podemos multiplicar elementos rápidamente uno a uno

In [119]:
arr1 * arr2

array([[ 9,  6, 10, 25, 24],
       [28, 30, 10, 14,  8],
       [12, 45,  4, 36,  9],
       [56, 30, 56, 18, 81],
       [16,  7, 18, 16,  9]], dtype=uint32)

Digamos ahora que queremos comparar valores entre ambos arreglos

In [121]:
arr1 < arr2

array([[ True, False,  True, False,  True],
       [False, False, False, False, False],
       [ True,  True, False, False, False],
       [ True, False, False,  True, False],
       [ True, False,  True, False,  True]])

Esto se vuelve sorprendentemente fácil sin necesidad de hacer bucles complejos para lograr este mismo resultado.

Observemos que la salida fue un arreglo también

## <a style="padding:3px;color: #FF4D4D; "><strong>Funciones Básicas</strong></a>

Otra ventaja de los arreglos de Numpy es que tienen integradas muchas funciones comunes. Por ejemplo:

In [127]:
ar

array([[-0.47780641,  0.4054726 , -0.05267069],
       [ 0.13080776, -0.47667781,  1.09180015],
       [-0.19618195,  0.39270173, -1.04722697],
       [-0.01544438, -1.97421978, -0.25664123]])

In [128]:
# Tamaño del arreglo
ar.size

12

In [129]:
# Forma del arreglo
ar.shape

(4, 3)

In [130]:
# Suma de valores
ar.sum()

-2.476086955866845

In [131]:
# Valor máximo
ar.max()

1.0918001531277817

In [132]:
# Valor mínimo
ar.min()

-1.9742197808575133

In [133]:
# Ubicación del mínimo
ar.argmin()

10

In [134]:
# Ubicación del máximo
ar.argmax()

5

In [135]:
# Media
ar.mean()

-0.2063405796555704

In [136]:
# Varianza
ar.var()

0.5478297726802033

In [137]:
# Desviación estándar
ar.std()

0.740155235528469

In [None]:
# Mediana
np.median(ar)

Recordemos ahora los arreglos que estábamos comparando

Habrá veces en que queremos hacer estas operaciones por fila o por columna

In [140]:
arr1

array([[1, 6, 2, 5, 3],
       [7, 6, 5, 7, 4],
       [2, 5, 4, 9, 9],
       [7, 6, 8, 2, 9],
       [2, 7, 2, 4, 1]], dtype=uint32)

Por ejemplo aquí tenemos la suma por columnas `axis = 0`

In [142]:
arr1.sum(axis = 0)

array([19, 30, 21, 27, 26], dtype=uint32)

O la media por filas `axis = 1`

In [144]:
arr1.mean(axis = 1)

array([3.4, 5.8, 5.8, 6.4, 3.2])

El máximo de cada fila `axis = 1`

In [146]:
arr1.max(axis = 1)

array([6, 7, 9, 9, 7], dtype=uint32)

El mínimo de cada columna `axis = 0`

In [148]:
arr1.min(axis = 0)

array([1, 5, 2, 2, 1], dtype=uint32)

Tenemos también la posibilidad de calcular la transpuesta con las funciones `.T` o `.transpose()`

In [150]:
arr1.T

array([[1, 7, 2, 7, 2],
       [6, 6, 5, 6, 7],
       [2, 5, 4, 8, 2],
       [5, 7, 9, 2, 4],
       [3, 4, 9, 9, 1]], dtype=uint32)

In [151]:
arr1.transpose()

array([[1, 7, 2, 7, 2],
       [6, 6, 5, 6, 7],
       [2, 5, 4, 8, 2],
       [5, 7, 9, 2, 4],
       [3, 4, 9, 9, 1]], dtype=uint32)

También podemos aplanar el arreglo con la función `flatten()` que devuelve un nuevo arreglo, mientras que ravel apunta al arreglo original.

In [153]:
flat = arr1.flatten()
flat

array([1, 6, 2, 5, 3, 7, 6, 5, 7, 4, 2, 5, 4, 9, 9, 7, 6, 8, 2, 9, 2, 7,
       2, 4, 1], dtype=uint32)

In [154]:
flatF = arr1.flatten(order = 'F')
flatF

array([1, 7, 2, 7, 2, 6, 6, 5, 6, 7, 2, 5, 4, 8, 2, 5, 7, 9, 2, 4, 3, 4,
       9, 9, 1], dtype=uint32)

In [155]:
flat[0] = 11
flat

array([11,  6,  2,  5,  3,  7,  6,  5,  7,  4,  2,  5,  4,  9,  9,  7,  6,
        8,  2,  9,  2,  7,  2,  4,  1], dtype=uint32)

In [156]:
arr1

array([[1, 6, 2, 5, 3],
       [7, 6, 5, 7, 4],
       [2, 5, 4, 9, 9],
       [7, 6, 8, 2, 9],
       [2, 7, 2, 4, 1]], dtype=uint32)

O podemos también utilizar la función `ravel()`, sin embargo esta segunda apunta al arreglo original

In [158]:
rav = arr1.ravel()
rav

array([1, 6, 2, 5, 3, 7, 6, 5, 7, 4, 2, 5, 4, 9, 9, 7, 6, 8, 2, 9, 2, 7,
       2, 4, 1], dtype=uint32)

In [159]:
rav[0] = 11
rav

array([11,  6,  2,  5,  3,  7,  6,  5,  7,  4,  2,  5,  4,  9,  9,  7,  6,
        8,  2,  9,  2,  7,  2,  4,  1], dtype=uint32)

In [160]:
arr1

array([[11,  6,  2,  5,  3],
       [ 7,  6,  5,  7,  4],
       [ 2,  5,  4,  9,  9],
       [ 7,  6,  8,  2,  9],
       [ 2,  7,  2,  4,  1]], dtype=uint32)

Podemos usar otras funciones útiles como `cumsum` y `cumprod` para obtener las sumas y productos acumulativos. Esto funciona para arreglos de cualquier dimensión.

In [162]:
arr1.cumsum()

array([ 11,  17,  19,  24,  27,  34,  40,  45,  52,  56,  58,  63,  67,
        76,  85,  92,  98, 106, 108, 117, 119, 126, 128, 132, 133],
      dtype=uint32)

In [163]:
arr1.cumprod()

array([        11,         66,        132,        660,       1980,
            13860,      83160,     415800,    2910600,   11642400,
         23284800,  116424000,  465696000, 4191264000, 3361637632,
       2056626944, 3749827072, 4228812800, 4162658304, 3104186368,
       1913405440,  508936192, 1017872384, 4071489536, 4071489536],
      dtype=uint32)

Recordemos también que al comparar dos arreglos obtuvimos a su vez un arreglo (de Booleanos). Podemos también operar sobre este:

In [165]:
arr1 > arr2

array([[ True,  True, False, False, False],
       [ True,  True,  True,  True,  True],
       [False, False,  True,  True,  True],
       [False,  True,  True, False, False],
       [False,  True, False, False, False]])

Y calcular cuántas veces fueron mayores los valores del primer arreglo.

In [167]:
(arr1 > arr2).sum()

13

O cuántas veces contenían el mismo valor

In [169]:
(arr1 == arr2).sum()

3

## <a style="padding:3px;color: #FF4D4D; "><strong>NaN</strong></a>

Hay un tipo de objeto que aún no se ha mencionado y que es un poco difícil de describir: este es el valor `NaN` o "not a number" (no es un número).

Esto seguramente aparecerá y puede alterar nuestro análisis. Los NaN son técnicamente flotantes, pero surgen en ciertas operaciones. Una forma en la que esto puede ocurrir es debido a divisiones extrañas que no devuelven un número real.

In [172]:
problema = np.array([0.])/np.array([0.])

  problema = np.array([0.])/np.array([0.])


In [173]:
problema

array([nan])

También podemos obtener este valor de lo siguiente.

In [175]:
np.nan

nan

Puede que nos estemos preguntando por qué esto es importante. 

Podríamos encontrarnos con estos valores en nuestro trabajo y tener que manejarlos. Si están dentro de un arreglo, necesitaremos asegurarnos de que se manejen correctamente, ya que pueden alterar nuestros cálculos. 

In [177]:
ar = np.linspace(0,10,11).astype(np.float32)
ar

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.],
      dtype=float32)

In [178]:
ar[0] = np.nan
ar

array([nan,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.],
      dtype=float32)

In [179]:
ar.min()

nan

In [180]:
ar.max()

nan

In [181]:
ar.mean()

nan

Debemos estar al tanto de que existe una representación de valores faltantes o ilegales. En NumPy, estos valores no se manejan a menos que se sea explícito.

## <a style="padding:3px;color: #FF4D4D; "><strong>Consultas, Cortes y Combinación de Arreglos</strong></a>