# NumPy - Introducción.

NumPy es una de las librerías más importantes para el cálculo numérico en Python. La mayoría de las librerías computacionales que proporcionan funcionalidad científica usan los objetos `array` (matriz) de NumPy.

Algunas cosas que puedes encontrar en NumPy:
- *ndarray*, un eficiente `array` multidimensional que proporciona rápidas operaciones aritméticas orientadas a las matrices.
- Funciones matemáticas para operaciones rápidas sobre matrices de datos sin tener que escribir bucles.
- Herramientas para leer/escribir matrices de datos.
- Álgebra lineal, generación aleatoria de números y transoformaciones de Fourier.
- ¡Y muchas cosas más!

Pero, ¿por qué NumPy y no usar iterables (como listas)?

Veamos:

In [None]:
import numpy as np

# Creamos una matriz con el primer millón de números enteros
matriz = np.arange(1000000)

# Creamos una lista con el primer millón de números enteros
lista = list(range(1000000))

In [None]:
# Vamos a multiplicar la matriz por 2 diez veces y vamos a registrar lo que tarda en hacer las operaciones
# Para ello usamos %time

%time for _ in range(10): matriz2 = matriz * 2

CPU times: user 12 ms, sys: 8.03 ms, total: 20 ms
Wall time: 19.7 ms


In [None]:
# Ahora vamos a multiplicar la lista por 2 diez veces y vamos a registrar lo que tarda en hacer las operaciones

%time for _ in range(10): lista2 = [x * 2 for x in lista]

CPU times: user 753 ms, sys: 174 ms, total: 927 ms
Wall time: 933 ms


Como ves, la diferencia de tiempos es importante. Los algoritmos basados en NumPy son generalmente entre 10 y 100 (o más) veces más rápidos que sus equivalentes en Python puro.

Es por eso, por lo que en este bloque iremos viendo Numpy desde lo más básico a lo más avanzado.

# NumPy - ndarray

Una de las características clave de Numpy son los objetos de *arreglo (matriz) N-dimensional*, o ***ndarray***, las cuales son contenedores grandes y rápidos de conjuntos de datos en Python.

Para que te hagas una idea de cómo funcionan estos objetos, analiza el siguiente código:

In [None]:
import numpy as np

# Generamos algunos datos aleatorios
data = np.random.randn(2, 3)
data

array([[ 0.91854843, -1.24171052, -1.59029263],
       [ 0.42186692,  0.63516186,  0.59471742]])

In [None]:
# Ahora realizamos algunas operaciones matemáticas con ellos:
# Multiplicamos cada elemento por 10
data * 10

array([[  9.18548425, -12.41710516, -15.90292631],
       [  4.21866918,   6.35161862,   5.94717418]])

In [None]:
# Sumamos cada elemento consigo mismo
data + data

array([[ 1.83709685, -2.48342103, -3.18058526],
       [ 0.84373384,  1.27032372,  1.18943484]])

Un `ndarray` es un contenedor genérico multidimensional de datos homogéneos, es decir, todos los elementos deben de ser del mismo tipo.

Cada arreglo tiene una *forma* -`shape`-, una tupla indicando el tamaño de cada dimensión, y un *tipo* -`dtype`-, un objeto que describe el tipo de los datos del `array`.

In [None]:
# Forma
data.shape

(2, 3)

In [None]:
# Tipo
data.dtype

dtype('float64')

## Creando ndarrays

### `array()`

La forma más fácil de crear un arreglo es usando la función array(). Ésta acepta cualquuier secuencia de objetos (incliyendo otros arreglos) y genera un nuevo contenedor de matrices de NumPy con los datos pasados.

Por ejemplo:

In [None]:
data1 = [6, 7.5, 8, 0, 1]

arr1 = np.array(data1)

print("Forma:", arr1.shape)
print("Tipo:", arr1.dtype)
arr1

Forma: (5,)
Tipo: float64


array([6. , 7.5, 8. , 0. , 1. ])

**ATENCIÓN:** Aunque esta vez los datos no son del mismo tipo (hay `int` y hay `float`), la función transforma los enteros a números flotantes.

In [None]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)

print("Forma:", arr2.shape)
print("Tipo:", arr2.dtype)
arr2

Forma: (2, 4)
Tipo: int64


array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

En este ejemplo, vemos que le hemos pasado `data2` como una lista de dos listas de la misma longitud, por tanto nos devuelve un array de dos dimensiones. 

Para ver directamente el número de dimensiones de un arreglo, usamos `shape` (y contamos los elementos de la tupla) o, directamente usamos `ndim`:

In [None]:
arr2.ndim

2

### `zeros`, `ones` y `empty`

Además de `np.array`, hay varias funciones para crear nuevos arreglos. Como ejemplos, `zeros` y `ones` crean arrays de 0's y 1's, respectivamente, con una longitud y forma dados. 

`empty` crea un array sin inicializar sus valores a ningún valor particular (es un array vacío). No asumas que `np.empty` devolverá una matriz de ceros, podría devolver valores *basura* sin inicializar. Dependerá de lo que tenga en la memoria.

Para crear un array de mayores dimensiones con estos métodos, has de indicarlo en una tupla.

In [None]:
# Creamos un array de 10 'ceros' y una dimensión.
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
# Creamos un array de 6 'ceros' por elemento, 3 elementos y dos dimensiones.
np.zeros((3, 6))
# Recuerda que hay que indicarlo todo dentro de una tupla.

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [None]:
# Creamos un array vacío de 3 dimensiones: 
np.empty((2, 3, 2))

array([[[4.66890915e-310, 2.61854792e-322],
        [0.00000000e+000, 0.00000000e+000],
        [6.90242791e-310, 1.50008929e+248]],

       [[4.50620083e-144, 2.78225500e+296],
        [1.43267083e+161, 4.56317366e-144],
        [2.77618871e+184, 2.66090405e-312]]])

Como podrás ver, mi array vacío me ha dado esos valores porque son los que tenía en la memoria. Pero son valores *basura*, no están inicializados.

Ahora veremos como inicializar un array con un rango:
En Python, la función *built.in* es `range()` y en NumPy se usa `arange()`.

In [None]:
# Creamos un array de 15 elementos. Si no lo especificamos, empezará desde el 0 hasta el número que
# le indiquemos por parámetro -1
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [None]:
# Podemos crear un array de 6 elementos del 4 al 9 (ambos incluídos).
# Para ello le indicamos dónde queremos empezar (incluído) y dónde queremos parar +1
np.arange(4,10)

array([4, 5, 6, 7, 8, 9])

In [None]:
# Podemos usar el start, stop, step que vimos en los range de Python puro.
# Crea un array de 8 elementos consecutivos impares, desde el 7.
np.arange(7, 23, 2) #También valdría: np.arange(7, 22, 2)

array([ 7,  9, 11, 13, 15, 17, 19, 21])

Aquí puedes ver algunas de las funciones para crear arrays:

---

| Función   |  Descripción |
|:----------|:------|
|`array`| Convierte el dato introducido (lista, tupla, array, u otro tipo iterable) a un *ndarray*. |
|`asarray`| Convierte un `input` a *ndarray* pero no lo copia si el `input` ya es un *ndarray*. |
|`arange`| Como el `range` pero retorna un *ndarray* en vez de una lista. |
|`ones`, `ones_like`| Produce un array de 1's con un `shape` y un `dtype` dados. `ones_like` toma otro array y crea un array de 1's del mismo `shape` y `dtype`. |
|`zeros`, `zeros_like`| Hace lo mismo que los anteriores pero con 0's. |
|`empty`, `empty_like`| Hace lo mismo que los anteriores pero sin inicializar el *ndarray*. |
|`full`, `full_like`| Hace lo mismo que los anteriores pero con todos los valores establecidos en el "fill value" indicado. |
|`eye`, `identity`| Crea una matriz de identidad cuadrada de **N x N** (1's en la diagonal y 0's en todo lo demás). |

---

## Tipos de datos para ndarrays

Los **tipos de datos** o `dtype` es un objeto especial que contiene la información (o *metadatos*) que el ndarray necesita para interpretar un pedazo de memoria como un tipo particular de dato.

In [None]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)
arr1.dtype

dtype('float64')

In [None]:
arr2.dtype

dtype('int32')

Los tipos de datos numéricos se llaman de la misma forma: un nombre *type* (como `float`, `int`, etc), seguido de un número que indica el número de bits por elemento.
No es necesario saberlo de memoria, pero veamos una tabla con los tipos de datos:

---

| Tipo de Dato | Código del tipo | Descripción |
|:-------------|:----------------|:------------|
|`int8`, `uint8`|`i1`, `u1`|Tipo entero con signo (signed) y sin signo (unsigned) (respectivamente) de 8-bit (1 byte).|
|`int16`, `uint16`|`i2`, `u2`|Igual que el anterior pero de 16-bits (2 bytes).|
|`int32`, `uint32`|`i4`, `u4`|Igual que los anteriores pero de 32-bits (4 bytes).|
|`int64`, `uint64`|`i8`, `u8`|Igual que los anteriores pero de 64-bits (8 bytes).|
|`float16`|`f2`|Número decimal de media precisión.|
|`float32`|`f4` o `f`|Número decimal estándar de precisión simple. Compatible `float` de C.|
|`float64`|`f8` or `d`|Número decimal estándar de doble precisión. Compatible con `double` de C y objetos `float` de Python.|
|`float128`|`f16` o `g`|Número decimal de precisión extendida.|
|`complex64`, `complex128`, `complex256`|`c8`, `c16`, `c32`|Números complejos representados por dos 32, 64 o 128 `float`, respectivamente.|
|`bool`|?|Los tipos booleanos contienen valores `True` o `False`|
|`object`|`O`|Objetos de Python. Un valor puede ser cualquier objeto de Python.|
|`string_`|`S`|Un tipo `string` ASCII de longitud fija (1 byte por carácter). Por ejemplo, para crear un *string dtype* de longitud 10, usamos `S10`.|
|`unicode_`|`U`|Tipo *unicode* de longitud fija.|

---

Puedes convertir explícitamente un arreglo de un tipo a otro usando el método `astype`:

In [None]:
arr = np.array([1, 2, 3, 4, 5])
print(arr)
arr.dtype

[1 2 3 4 5]


dtype('int64')

In [None]:
# Transformamos el tipo 'int64' a 'float64'
float_arr = arr.astype(np.float64)
print(float_arr)
float_arr.dtype

[1. 2. 3. 4. 5.]


dtype('float64')

**¡OJO!** En este ejemplo, los enteros se transfomaron en flotantes. Si intentamos transformar números decimales a enteros, la parte decimal se truncará.

In [None]:
arr = np.array([2.3, -5.064, -3, 5, 24.98])
print("Tipo del array:", arr.dtype)
print("Array de flotantes:", arr)
print("----------------------------------------------------------------")
arr = arr.astype(np.int32)
print("Tipo del array transformado:", arr.dtype)
print("Array transformado a enteros:", arr)

Tipo del array: float64
Array de flotantes: [ 2.3   -5.064 -3.     5.    24.98 ]
----------------------------------------------------------------
Tipo del array transformado: int32
Array transformado a enteros: [ 2 -5 -3  5 24]


Si tenemos un array de strings que representan números, puedes transformarlos en números.

In [None]:
strings_numericos = np.array(["125.3", "65", "24.01", "-6.2"])
print("Tipo del array:", strings_numericos.dtype)
print("Array de strings:", strings_numericos)
print("----------------------------------------------------------------")
flotantes = strings_numericos.astype(float)
print("Tipo del array:", flotantes.dtype)
print("Array transformado de flotantes:", flotantes)

Tipo del array: <U5
Array de strings: ['125.3' '65' '24.01' '-6.2']
----------------------------------------------------------------
Tipo del array: float64
Array transformado de flotantes: [125.3   65.    24.01  -6.2 ]


También puedes usar otro atributo `dtype`:

In [None]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

Hay cadenas de código de tipo abreviado que también puede utilizar para hacer referencia a un tipo:

In [None]:
empty_uint32 = np.empty(8, dtype="u4")
empty_uint32

array([ 858993459, 1079989043,          0, 1079001088, 1546188227,
       1077412495, 3435973837, 1075367116], dtype=uint32)

Usar `astype` siempre crea un nuevo array (una copia de los datos), incluso si el tipo del nuevo array es del mismo tipo que el viejo.

## Aritmética con NumPy arrays

Los arrays son muy importantes porque te permiten las operaciones rápidas por lotes sin usar los loops. Los usuarios de NumPy llaman a esto *vectorización*. Cualquier operación aritmética entre arrays del **mismo tamaño** aplica la operación a cada elemento.

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [None]:
# Multiplicar el array por sí mismo:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [None]:
# Restar el array a sí mismo:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
# Dividir un escalar (un número) entre el array:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [None]:
# Elevar el array a un escalar:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

Comparar dos arrays del **mismo tamaño** nos retornará un booleano.

In [None]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [None]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

## Indexing y Slicing básicos

La indexación (indexing) de arrays en NumPy es un tema muy amplio. Hay muchas formas por las cuales tú puedes seleccionar un subconjunto de tus datos o elementos individuales.

Los arrays de una sola dimensión, son simples; en el fondo actuan de forma parecida a las listas de Python

In [None]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
arr[5]

5

In [None]:
arr[5:8]

array([5, 6, 7])

In [None]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

Como pudiste ver en el último ejemplo, si asignamos un escalar a una porción del array, el valor se propaga a toda la selección (**broadcasting**).

Una cosa importante que diferencia a los arrays de las listas de Python, es que los fragmentos de arrays son *vistas* del array original. Esto significa que los datos no son copiados, y cualquier modificación de un array será reflejada en el original.

In [None]:
# Ejemplo: Creamos un fragmento del array 'arr'
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [None]:
# Ahora cambiamos los valores de 'arr_slice'. La modificación será reflejada en el array original 'arr'
arr_slice[1] = 12345
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

**IMPORTANTE:** Si quieres haceer una copia de un fragmento de un *ndarray*, necesitas copiar explícitamente el array. Por ejemplo:

    arr[5:8].copy()



Con arrays de más dimensiones, tiene muchas opciones:

En arrays de **dos dimensiones**, los elementos en cada índice ya no son escalares sino arrays de una dimensión.

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
arr2d[2]

array([7, 8, 9])

Por lo tanto, puedes acceder a los elementos individuales recursivamente. Pero esto es mucho trabajo, así que puedes pasarlos como una lista de índices separados por una coma para seleccionar elementos individuales.

Los siguientes ejemplos son equivalentes:

In [None]:
arr2d[0][2]

3

In [None]:
arr2d[0, 2]

3

En la siguiente imagen podrás ver cómo serían los índices de un array de 2 dimensiones:

![Índices de 2D array](https://learning.oreilly.com/library/view/python-for-data/9781449323592/httpatomoreillycomsourceoreillyimages2172112.png "Elementos indexados en un array de 2D")

En arrays multidimensionales, si omites índices posteriores, el objeto retornado será un array de menos dimensiones con todos los datos a lo largo del array de más dimensiones.
Por ejemplo, en un array de 2 x 2 x 2 `arr3d`:

In [None]:
arr3d = np.array([[[1, 2, 3],[4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
arr3d[0] # Es un array de 2 x 3 (2D)

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# Tanto los escalares como los arrays pueden ser asignados a 'arr3d[0]'
old_values = arr3d[0].copy()

In [None]:
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [None]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

De forma similar, `arr3d[1, 0]` te dará todos los valores cuyos índices empiecen por `(1, 0)`, formando un array de 1 dimensión.

In [None]:
arr3d[1, 0]

array([7, 8, 9])

In [None]:
arr3d[1][0] # Es lo mismo que el anterior.

array([7, 8, 9])

### Indexando con slices

Como los arrays de una dimensión son objetos como las listas de Python, ndarrays pueden ser troceados con una sintaxis similar.

In [None]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [None]:
arr[1:6] # Recuerda que el primero es incluído y el segundo sin incluir.

array([ 1,  2,  3,  4, 12])

Considera el array de 2 dimensiones anterior `arr2d`. Trocear este array es un poco diferente:

In [None]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

Como pudiste ver, ha sido troceado el eje 1 a lo largo del eje 0. Por tanto, un *slice* selecciona un rango de elementos através de un eje.

Puedes hacer múltiples *slices* simplemente pasándole múltiples índices:

In [None]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [None]:
arr2d[1, :2]

array([4, 5])

In [None]:
arr2d[:2, 2]

array([3, 6])

In [None]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

In [None]:
arr2d[:2, 1:] = 0 # Por supuesto también puedes hacer asignaciones.
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

![Slicing 2d](https://learning.oreilly.com/library/view/python-for-data/9781449323592/httpatomoreillycomsourceoreillyimages2172114.png "Slicing en un array de 2 dimensiones")

### Indexación booleana

Considera un ejemplo donde tenemos algunos datos en un array y un array de nombres con duplicados. Voy a usar la función `randn` en `numpy.random` para generar algunos datos aleatorios.

In [None]:
names = np.array(["Nacho", "Nacho", "Kevin", "Bryan", "Nacho", "Kevin", "Bryan"])
data = np.random.randn(7, 4)

In [None]:
names

array(['Nacho', 'Nacho', 'Kevin', 'Bryan', 'Nacho', 'Kevin', 'Bryan'],
      dtype='<U5')

In [None]:
data

array([[ 0.71650333,  0.46845459, -1.10104683, -0.23260085],
       [-1.37694778,  1.10981284, -0.73324469,  0.21973853],
       [ 0.16599861,  0.2065221 ,  1.46391646, -2.07402039],
       [-0.81922203,  2.05187706,  1.34205509,  0.34808761],
       [-0.92085324, -0.27749465,  0.36121495,  0.60753307],
       [ 0.50322762,  1.18807861, -0.98394141, -0.31459248],
       [ 0.52991442,  1.57071226,  0.17050364,  1.1393948 ]])

Ahora supón que cada nombre corresponde a una fila del array `data` y queremos seleccionar todas las filas que correspondan con el nombre `"Nacho"`. Igual que con las operaciones aritméticas, los comparadores (como `==`) en los arrays también son vectorizados. Por tanto, comparar `names` con el string `"Nacho"` produce un array de booleanos. 

In [None]:
names == "Nacho"

array([ True,  True, False, False,  True, False, False])

Este array de boleanos puede ser pasado cuando indexamos el array:

In [None]:
data[names == "Nacho"]

array([[ 0.71650333,  0.46845459, -1.10104683, -0.23260085],
       [-1.37694778,  1.10981284, -0.73324469,  0.21973853],
       [-0.92085324, -0.27749465,  0.36121495,  0.60753307]])

Observa que tenemos el array de booleanos:

    array([ True,  True, False, False,  True, False, False])

Y tenemos el array `data`:

    array([[ 0.71650333,  0.46845459, -1.10104683, -0.23260085],
       [-1.37694778,  1.10981284, -0.73324469,  0.21973853],
       [ 0.16599861,  0.2065221 ,  1.46391646, -2.07402039],
       [-0.81922203,  2.05187706,  1.34205509,  0.34808761],
       [-0.92085324, -0.27749465,  0.36121495,  0.60753307],
       [ 0.50322762,  1.18807861, -0.98394141, -0.31459248],
       [ 0.52991442,  1.57071226,  0.17050364,  1.1393948 ]])

Hará una comparación:

    array([[ 0.71650333,  0.46845459, -1.10104683, -0.23260085],-----> True
       [-1.37694778,  1.10981284, -0.73324469,  0.21973853],---------> True
       [ 0.16599861,  0.2065221 ,  1.46391646, -2.07402039],---------> False
       [-0.81922203,  2.05187706,  1.34205509,  0.34808761],---------> False
       [-0.92085324, -0.27749465,  0.36121495,  0.60753307],---------> True
       [ 0.50322762,  1.18807861, -0.98394141, -0.31459248],---------> False
       [ 0.52991442,  1.57071226,  0.17050364,  1.1393948 ]])--------> False

Obteniendo un array basado en `data` que solo muestra los vectores que han sido asignados a `True` en el mismo orden:

    array([[ 0.71650333,  0.46845459, -1.10104683, -0.23260085],
       [-1.37694778,  1.10981284, -0.73324469,  0.21973853],
       [-0.92085324, -0.27749465,  0.36121495,  0.60753307]])

**NOTA:** La selección fallará si el array booleano no tiene la longitud adecuada. Así que hay que tener cuidado al usar esta característica.

En los siguientes ejemplos, selecciono de las filas dónde `names == "Nacho"` e indexo las columnas también.

*Tip:* Para seleccionar todo menos "Nacho", también puedes usar `!=` o negar la condición usando `~`.

In [None]:
names = np.array(["Nacho", "Nacho", "Kevin", "Bryan", "Nacho", "Kevin", "Bryan"])
data = np.random.randn(7, 4)

In [None]:
names

array(['Nacho', 'Nacho', 'Kevin', 'Bryan', 'Nacho', 'Kevin', 'Bryan'],
      dtype='<U5')

In [None]:
data

array([[-0.52144107,  0.03839004,  0.93997221, -0.56854462],
       [-0.52021028, -1.52999176,  0.52821054, -1.27504609],
       [-1.65758782, -1.2191264 ,  0.8282055 , -0.40801131],
       [-0.49982936, -1.16045709, -0.52878842,  0.3980774 ],
       [ 0.12918474,  0.1548132 ,  0.8039169 , -0.21740577],
       [-1.8057066 ,  1.50876817,  0.86583449, -1.59926366],
       [ 0.41722497, -0.01515078, -0.39101323, -1.04856882]])

In [None]:
names == "Nacho"

array([ True,  True, False, False,  True, False, False])

In [None]:
data[names == "Nacho"]

array([[-0.52144107,  0.03839004,  0.93997221, -0.56854462],
       [-0.52021028, -1.52999176,  0.52821054, -1.27504609],
       [ 0.12918474,  0.1548132 ,  0.8039169 , -0.21740577]])

In [None]:
data[names == "Nacho", 2:]

array([[ 0.93997221, -0.56854462],
       [ 0.52821054, -1.27504609],
       [ 0.8039169 , -0.21740577]])

In [None]:
data[names == "Nacho", 3]

array([-0.56854462, -1.27504609, -0.21740577])

In [None]:
names != "Nacho"

array([False, False,  True,  True, False,  True,  True])

In [None]:
data[~(names == "Nacho")]

array([[-1.65758782, -1.2191264 ,  0.8282055 , -0.40801131],
       [-0.49982936, -1.16045709, -0.52878842,  0.3980774 ],
       [-1.8057066 ,  1.50876817,  0.86583449, -1.59926366],
       [ 0.41722497, -0.01515078, -0.39101323, -1.04856882]])

In [None]:
condicion = names == "Nacho"

In [None]:
data[~condicion]

array([[-1.65758782, -1.2191264 ,  0.8282055 , -0.40801131],
       [-0.49982936, -1.16045709, -0.52878842,  0.3980774 ],
       [-1.8057066 ,  1.50876817,  0.86583449, -1.59926366],
       [ 0.41722497, -0.01515078, -0.39101323, -1.04856882]])

In [None]:
mask = (names == "Nacho") | (names == "Bryan") # '|' añade una condición 'or'
mask

array([ True,  True, False,  True,  True, False,  True])

In [None]:
data[mask]

array([[-0.52144107,  0.03839004,  0.93997221, -0.56854462],
       [-0.52021028, -1.52999176,  0.52821054, -1.27504609],
       [-0.49982936, -1.16045709, -0.52878842,  0.3980774 ],
       [ 0.12918474,  0.1548132 ,  0.8039169 , -0.21740577],
       [ 0.41722497, -0.01515078, -0.39101323, -1.04856882]])

**IMPORTANTE:** Las palabras clave `and` y `or` de Python no funcionan con arrays booleanos. Usamos `&` (en vez del `and`) y `|` (en vez del `or`).

**Ejemplo**

Para establecer valores en arrays booleanos usamos el sentido común. Por ejemplo, para transformar todos los valores negativos de `data` a '0' solo necesitamos:


In [None]:
data[data < 0] = 0
data

array([[0.        , 0.03839004, 0.93997221, 0.        ],
       [0.        , 0.        , 0.52821054, 0.        ],
       [0.        , 0.        , 0.8282055 , 0.        ],
       [0.        , 0.        , 0.        , 0.3980774 ],
       [0.12918474, 0.1548132 , 0.8039169 , 0.        ],
       [0.        , 1.50876817, 0.86583449, 0.        ],
       [0.41722497, 0.        , 0.        , 0.        ]])

Ajustar todas las filas o columnas usando un array booleano de una dimensión también es fácil:

In [None]:
data[names != "Bryan"] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 0.        , 0.3980774 ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.41722497, 0.        , 0.        , 0.        ]])

**NOTA:**

Más adelante veremos que hacer este tipo de operaciones en datos de dos dimensiones es más conveniente hacerlas con **Pandas**.

### Indexación elegante (fancy indexing)

*Fancy indexing* es un término adoptado por NumPy para describir el indexado usando arrays de enteros.

Supón que tenemos una matriz de 8 x 4:

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i

arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

Para seleccionar un subconjunto (subset) de todas las filas en un orden particular, puedes simplemente pasar una lista o un ndarray de enteros especificando el orden deseado:

In [None]:
arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [None]:
arr[[-3, -5, -7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

Si le pasamos varios múltiples arrays de índices, hace algo ligeramente diferente: selecciona un array unidimensional de elementos correspondientes a cada tupla de índices.

Por ejemplo:

In [None]:
arr = np.arange(32).reshape((8, 4)) # Veremos el método 'reshape' más adelante.
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [None]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

En el ejemplo anterior, los elementos `(1, 0), (5, 3), (7, 1) (2, 2)` son los seleccionados. Sin importar cuántas dimensiones tenga el array (en este caso, solo 2), el resultado de hacer un *fancy indexing* es siempre una matriz unidimensional.

El comportamiento del *fancy indexing* en este caso es un poco diferente del que muchas personas habrían esperado, el cual es la región rectangular formada al seleccionar un subconjunto de filas y columnas de la matriz.

Esta es una forma de hacer eso mismo:

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

Es decir: Cogeríamos los elementos de las posiciones 0, 3, 1, 2; para cada una de las filas (en este caso las filas 1, 5, 7, 2).

**IMPORTANTE:** Ten en cuenta que el *fancy indexing*, al contrario del *slicing*, siempre copia los datos en un nuevo array.

## Transposición de matrices e intercambio de ejes.

La transposición (transposing) es una forma especial de reorganización que devuelve de manera similar una visión de los datos subyacentes sin copiar nada. Los arrays tienen el método `transpose` y también el atributo especial `T`.

In [None]:
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

Cuando haces cálculos con matrices, harás esto muy a menudo. Por ejemplo, cuando calculas el producto de la matriz interna usando `np.dot`.

In [None]:
arr = np.random.randn(6, 3)
arr

array([[ 0.70431464,  0.24866411,  0.58671725],
       [-0.4551557 ,  0.70377098,  0.2073415 ],
       [ 0.065923  ,  0.60118095, -0.5376714 ],
       [ 1.83199065,  0.21197464,  0.68994011],
       [ 0.77791731,  1.81890245,  1.644619  ],
       [-0.24727836, -0.81898801, -0.12288491]])

In [None]:
np.dot(arr.T, arr)

array([[4.73006332, 1.90025333, 2.85714416],
       [1.90025333, 4.94262672, 3.20687127],
       [2.85714416, 3.20687127, 3.87220787]])

Para arrays de mayores dimensiones, `transpose` aceptará una tupla de número de ejes para permutar los ejes.

In [None]:
arr = np.arange(16).reshape((2, 2, 4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [None]:
arr.transpose((1, 0, 2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

Aquí, los ejes se han reordenado con el segundo eje en primer lugar, el primer eje en el segundo y el último eje sin cambios.

La transposición simple con `.T` es un caso especial de intercambio de ejes.

*ndarray* tiene el método `swapaxes`, el cual toma un par de números de eje y cambia los ejes indicados para reorganizar los datos.

In [None]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [None]:
arr.swapaxes(1, 2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

**¡OJO!** Igualmente, `swapaxes` devuelve la vista de los datos sin hacer una copia.