<img src="images/keepcoding.png" width=200 align="left">





# Operaciones con numpy

A veces necesitaremos unir datasets, modificar su forma o indexar usando `numpy`. La mayor parte de las operaciones realizadas sobre nuestros datos se pueden englobar en los siguientes bloques:

* **Atributos:** `size`, `shape`, `memory consumption` y `data types`
* **Indexing y slicing:** Obtener y modificar valores o subconjuntos del `array`
* **Reshaping:** Modificar la forma del `array`
* **Joining y splitting:** Combinar varios `arrays` en uno, o dividir uno en varios.

Si tenemos dudas, siempre podemos consultar la [documentación oficial de Numpy](https://numpy.org/doc/stable/index.html). Además, Numpy tiene una comunidad muy grande por lo que si tenemos una duda es muy facil que haya sido resuelta antes en [Stack Overflow](https://stackoverflow.com/questions/tagged/numpy). También podemos usar ChatGPT para preguntar nuestras dudas, pero en cualquiera de estos casos tenemos que tener en cuenta la versión de la librería que estamos usando, porque puede haber cambios.

Vamos a crear varios arrays de diferentes tamaños, con números enteros:

In [1]:
import numpy as np
np.random.seed(0)

x1 = np.random.randint(10, size=3)
x2 = np.random.randint(10, size=(3, 4))
x3 = np.random.randint(10, size=(4, 3, 5))

In [2]:
x1

array([5, 0, 3], dtype=int32)

In [3]:
x2

array([[3, 7, 9, 3],
       [5, 2, 4, 7],
       [6, 8, 8, 1]], dtype=int32)

In [4]:
x3

array([[[6, 7, 7, 8, 1],
        [5, 9, 8, 9, 4],
        [3, 0, 3, 5, 0]],

       [[2, 3, 8, 1, 3],
        [3, 3, 7, 0, 1],
        [9, 9, 0, 4, 7]],

       [[3, 2, 7, 2, 0],
        [0, 4, 5, 5, 6],
        [8, 4, 1, 4, 9]],

       [[8, 1, 1, 7, 9],
        [9, 3, 6, 7, 2],
        [0, 3, 5, 9, 4]]], dtype=int32)

### Atributos

Cada `array` tiene varios atributos:

* `ndim`: El número de dimensiones
* `shape`: El tamaño de cada dimensión
* `size`: El tamaño total del array

In [5]:
x1.ndim

1

In [6]:
x2.ndim

2

In [7]:
x3.ndim

3

In [8]:
x2.shape

(3, 4)

In [11]:
x3.size

60

También podemos saber el tipo de datos que tiene y el tamaño que ocupa:

In [12]:
x3.dtype

dtype('int64')

In [13]:
x3.itemsize

8

In [14]:
x3.nbytes

480

Cada elemento ocupa 8 bytes, así que el total ocupan 60*8=480.

### Indexing

Los `ndarrays` se pueden indexar con la sintaxis habitual de Python: x[obj], donde x es el array y obj la selección. Dependiendo del valor de este `obj` hay diferentes tipos de indexing. ¡Recordamos que se empieza a contar en el 0!

El más básico es el de acceder a un elemento, por ejemplo:

In [9]:
x1[2]

np.int32(3)

In [10]:
x1[-1]

np.int32(3)

In [11]:
x2

array([[3, 7, 9, 3],
       [5, 2, 4, 7],
       [6, 8, 8, 1]], dtype=int32)

In [12]:
x2[0]

array([3, 7, 9, 3], dtype=int32)

In [13]:
# Si tenemos más de una dimensión

x2[0,1]

np.int32(7)

In [14]:
x2[0][1] = 2344

In [15]:
x2[0][1] 

np.int32(2344)

In [16]:
x2

array([[   3, 2344,    9,    3],
       [   5,    2,    4,    7],
       [   6,    8,    8,    1]], dtype=int32)

In [17]:
x3[0,1,2]

np.int32(8)

También podemos acceder a varios elementos usando el objeto slice, que se construye como start:stop:step. Incluye el primer elemento pero no el último.

In [20]:
x2[0:2]

array([[   3, 2344,    9,    3],
       [   5,    2,    4,    7]], dtype=int32)

In [21]:
x3[0,1,0:5]

array([5, 9, 8, 9, 4], dtype=int32)

In [6]:
# Podemos omitir el start y stop si queremos todos los elementos de esa dimensión, y el step si quieremos un paso de 1
x3[0,1,::]

array([5, 9, 8, 9, 4])

In [5]:
x3[0,1,]

array([5, 9, 8, 9, 4])

In [22]:
import numpy as np
x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
x[1:7:2]

array([1, 3, 5])

In [38]:
x[-3:3:-1]

array([7, 6, 5, 4])

In [11]:
x[9:0:-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1])

In [12]:
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

Podemos usar la elipsis para acceder a todos los elementos de todas las dimensiones restantes.

In [24]:
x = np.random.randint(10, size=(4, 3, 5))
print(x)
x[:, :,0]

[[[8 8 2 3 2]
  [0 8 8 3 8]
  [2 8 4 3 0]]

 [[4 3 6 9 8]
  [0 8 5 9 0]
  [9 6 5 3 1]]

 [[8 0 4 9 6]
  [5 7 8 8 9]
  [2 8 6 6 9]]

 [[1 6 8 8 3]
  [2 3 6 3 6]
  [5 7 0 8 4]]]


array([[8, 0, 2],
       [4, 0, 9],
       [8, 5, 2],
       [1, 2, 5]], dtype=int32)

In [25]:
x[..., 0]

array([[8, 0, 2],
       [4, 0, 9],
       [8, 5, 2],
       [1, 2, 5]], dtype=int32)

#### Reshaping

Otra de las herramientas más usadas es `reshape`, que sirve para cambiar las dimensiones de un array sin transformar sus datos. Por ejemplo si queremos transformar:

$x = [1, 2, 3, 4, 5, 6, 7, 8, 9]$

A una matriz:

$x = \begin{bmatrix}
    1 & 2 & 3\\
    4 & 5 & 6\\
    7 & 8 & 9
\end{bmatrix}
$

In [15]:
grid = np.arange(1, 10)
grid.reshape(3, 3)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [24]:
v = np.arange(1, 11)

In [33]:
w = v.reshape(2, 5)
w

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [31]:
u = np.arange(6).reshape((3, 2))
u

array([[0, 1],
       [2, 3],
       [4, 5]])

### Joining and splitting

En ocasiones podemos necesitar unir o separar arrays, y `numpy`tiene funciones específicas para estas situaciones. Para unir arrays, usamos `concatenate` y para separarlos, usamos `split`.

In [16]:
np.concatenate([grid, grid])

array([1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Para `arrays` con distinta dimensiones, se suele usar `vstack` (vertical stack) o `hstack` (horizontal).

In [24]:
grid_reshape = grid.reshape(3, 3)
x = np.array([20, 20, 20])
np.vstack([grid_reshape, x])

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [20, 20, 20]])

In [28]:
a = np.array([1,2,3])
b = np.array([4,5,6])
np.vstack((a,b))

array([[1, 2, 3],
       [4, 5, 6]])

In [38]:
x = np.arange(1, 10)
x

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [39]:
x1, x2, x3 = np.split(x, [3, 5])
print(x1)
print(x2)
print(x3)

[1 2 3]
[4 5]
[6 7 8 9]


In [40]:
x1, x2, x3 = np.split(x, 3)
print(x1)
print(x2)
print(x3)

[1 2 3]
[4 5 6]
[7 8 9]
