# NumPy

## Introducción


**NumPy** es una librería de Python que proporciona funciones para trabajar con arrays de 1 (vectores), 2 (matrices) y n dimensiones.

NumPy tiene un funcionamiento parecido a las listas de Python, pero con la diferencia de que sus arrays son homogéneos (todos los elementos son del mismo tipo) y tienen un tamaño fijo (no se pueden modificar una vez creados).

Los arrays de NumPy son más eficientes que las listas de Python, ya que están implementados en C++ y se ejecutan más rápido. Utiliza mucha menos memoria y permite especificar el tipo de datos que contiene el array.

Es una de las librerías más utilizadas en el ámbito de la ciencia de datos y el machine learning. Muchas otras lo usan como base (es por tanto una **dependencia** de ellas): **pandas, Matplotlib, Seaborn, scikit-learn, TensorFlow, PyTorch, Keras**...

### Fuentes:

- [Documentación oficial de NumPy](https://numpy.org/doc/stable/index.html)
- [Tutorial para aprender NumPy desde cero](https://numpy.org/doc/stable/user/absolute_beginners.html) (la mayoría de imágenes referencian esta guía)

## Instalación e importación de NumPy

Para poder importar el modulo de NumPy es necesario primero tenerlo instalado en nuestro ***environment***.

Dependiendo de qué gestor de paquetes estemos utilizando se puede instalar con pip:

```bash
pip install numpy
```

o con Conda (Anaconda o Miniconda):

```bash
conda install numpy
```

El alias "**np**" es prácticamente un estándar *de facto*. No es necesario pero lo encontraremos en la mayoría de los ejemplos y documentación.

In [2]:
import numpy as np

## Creación de arrays partir de listas

In [3]:
# Creación de una lista de python
python_list_1D=[1, 2, 3, 4, 5, 6]
print(python_list_1D)
print(type(python_list_1D))

# Creación de un vector (ndarray de 1D) a partir de la lista
numpy_darray_1D = np.array(python_list_1D)
print(numpy_darray_1D)
print(type(numpy_darray_1D)) # El tipo de las variables de NumPy es numpy.ndarray

numpy_darray_1D # Los notebooks permiten mostrar el contenido de la variable sin necesidad de usar print

[1, 2, 3, 4, 5, 6]
<class 'list'>
[1 2 3 4 5 6]
<class 'numpy.ndarray'>


array([1, 2, 3, 4, 5, 6])

[<img src="https://numpy.org/doc/stable/_images/np_create_matrix.png" width="700">](https://numpy.org/doc/stable/user/absolute_beginners.html#creating-matrices)

In [4]:
python_list_2D=[[1, 2, 3], [4, 5, 6]] # Lista de listas (2D) de python
print(python_list_2D)
print(type(python_list_2D))

numpy_darray_2D = np.array(python_list_2D) # Creación de un ndarray de 2D
print(numpy_darray_2D)
print(type(numpy_darray_2D))
numpy_darray_2D

[[1, 2, 3], [4, 5, 6]]
<class 'list'>
[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>


array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
numpy_darray_2D = np.array([[1, 2, 3], [4, 5, 6]])

### Propiedades de variables de NumPy:
print(numpy_darray_2D.ndim) # dimensiones de la matriz
print(numpy_darray_2D.shape) # forma de la matriz (número de elementos por dimensión o eje (axis))
print(numpy_darray_2D.size) # número total de elementos
print(numpy_darray_2D.dtype) # tipo de los elementos de la matriz

2
(2, 3)
6
int32


## Tipos de datos para los elementos de un array

Los objectos de tipo array de NumPy son siempre de tipo ndarray ([*N-dimensional array*](https://numpy.org/doc/stable/reference/arrays.ndarray.html)). El tipo de sus elementos está especificado por su dtype ([*data type*](https://numpy.org/doc/stable/reference/arrays.dtypes.html#arrays-dtypes)).
Los ndarray son siempre homogéneos, es decir, todos sus elementos son del mismo tipo.

In [6]:
# Si no especificamos el tipo de los elementos, NumPy lo infiere del argumento
lista = [[1, 2, 3], [4, 5, 6]]
a = np.array(lista)
print(a)
print(a.dtype)

# Podemos crear un ndarray de NumPy con elementos de un tipo específico
b = np.array(lista, dtype=np.float64) # float de 64 bit
# Aunque pasamos una lista con ints, con el parámetro dtype podemos indicar que queremos que los elementos sean floats, así que los convierte. Podemos verlo al mostrarlo con print por el punto decimal.a
print(b)
print(b.dtype)

[[1 2 3]
 [4 5 6]]
int32
[[1. 2. 3.]
 [4. 5. 6.]]
float64


In [7]:
# Supongamos que utilizamos un array como el siguiente para almacenar las notas de 2 exámenes de un listado de clase:
alumnos_y_notas = np.array([['Antonio','Bea','Carlos','Diana'],
                            [65,78,90,81],
                            [71,82,79,92]]) # ¿Ves algo mejorable en esta estructura de datos?

# Los elementos dentro de un array de NumPy deben ser del mismo tipo. Si pasamos una lista con elementos de diferentes tipos, NumPy los convierte todos al mismo tipo. En este caso, al ser strings, los convierte todos a strings.
print(alumnos_y_notas)
print(alumnos_y_notas.dtype) # dtype='<U11' significa que son strings Unicode de hasta 11 caracteres


[['Antonio' 'Bea' 'Carlos' 'Diana']
 ['65' '78' '90' '81']
 ['71' '82' '79' '92']]
<U11


Al margen de que el ejemplo anterior nos sirva para ejemplificar el tipado en NumPy, esa estructura es mejorable. No solo no encaja en la filosofía de NumPy (relización eficiente de operaciones matemáticas); no cambiaría mucho de dejarlo como lista de listas:
    
```python
alumnos_y_notas = [['Antonio', 'Bea', 'Carlos', 'Diana'],
                     [65, 78, 90, 81],
                     [71, 82, 79, 92]]
```

sino que, en lugar de vincular varias listas por su índice (que puede ser una fuente de errores a la hora de eliminar o ordenar elementos de modo sincronizado en todas ellas), lo recomendable será primero encapsular cada alumno con sus notas (en una tupla o en un objeto) y mantener una lista de ellos:

```python
alumnos_y_notas = [('Antonio', [65, 71]), ('Bea', [78, 82]), ('Carlos', [90, 79]), ('Diana', [81, 92])]
```

Esto sería cuestionable en caso de que necesitemos hacer un procesado costoso de un gran número de notas de alumnos, pero en ese caso, lo recomendable sería utilizar una estructura de datos más compleja, como un **DataFrame de Pandas**, que nos permitiría realizar operaciones de modo eficiente.

### NaN

El tipo de dato **float** de NumPy permite el valor especial **NaN** (Not a Number), que se utiliza para representar valores numéricos que no son números reales manteniendo el tipo de dato float para poder realizar operaciones con ellos. Por ejemplo, el resultado de dividir 0 entre 0 es NaN.

Si utilizásemos el tipo None para representar valores numéricos que no son números reales, el tipo de dato resultante sería object, y no podríamos realizar operaciones matemáticas con él.

In [8]:
print(type(np.nan))
print(type(None))

<class 'float'>
<class 'NoneType'>


In [41]:
np.array([[1, 2, 3], [4, np.nan, 6]])

array([[ 1.,  2.,  3.],
       [ 4., nan,  6.]])

## Accediendo a elementos

[<img src="https://numpy.org/doc/stable/_images/np_indexing.png" width="800"/>](https://numpy.org/doc/stable/user/absolute_beginners.html#indexing-and-slicing)

In [9]:
numpy_darray_2D[1,1] # Acceso a un elemento del ndarray (fila 1, columna 1)

5

In [10]:
A = np.array([[11, 12, 13, 14], [21, 22, 23, 24], [31, 32, 33, 34]])
A

array([[11, 12, 13, 14],
       [21, 22, 23, 24],
       [31, 32, 33, 34]])

La celda anterior define con NumPy una matriz 3x2 (3 filas y 4 columnas) como la siguente:

$$
\begin{pmatrix}
    11 & 12 & 13 & 14\\
    21 & 22 & 23 & 24\\
    31 & 32 & 33 & 34
\end{pmatrix}
$$

Para acceder a sus valores en python se utiliza la sintaxis ``` A[fila, columna]```, recordando que los índices comienzan en 0, por lo que el primer elemento de la matriz se accede con ```A[0,0]``` y el último con ```A[2,3]```.

$$
\begin{array}{c c}
    & \color{red} \begin{matrix}
    col\ 0\  &\ \ col\ 1\  &\  \ col\ 2\  &\  \ col\ 3 \end{matrix}
    \\
    \color{red}
    \begin{matrix} fila\ 0 \\ fila\ 1 \\ fila\ 2 \end{matrix}
    &
    \begin{pmatrix}
        A[0,0] & A[0,1] & A[0,2] & A[0,3]\\
        A[1,0] & A[1,1] & A[1,2] & A[1,3]\\
        A[2,0] & A[2,1] & A[2,2] & A[2,3]
    \end{pmatrix}
\end{array}
$$

In [11]:
print(A[0,0]) # Elemento de la primera fila (fila 0) y primera columna (columna 0)
print(A[1,2]) # Elemento de la segunda fila (fila 1) y tercera columna (columna 2)
print(A[1]) # Segunda fila de A (índice 1)

11
23
[21 22 23 24]


## Funciones básicas para crear arrays

In [12]:
print(np.zeros(4)) # Crea un vector de NumPy con cuatro elementos a 0
print(np.ones(2)) # Crea un ndarray de NumPy con dos elementos a 1

[0. 0. 0. 0.]
[1. 1.]


In [13]:
# El parámetro shape nos permite especificar la forma de la matriz, recibe una tupla con sus dimensiones
np.zeros(shape=(2,3)) # Crea una matriz de 2x3 ceros. Dimensiones (tupla 2,3) con ceros

array([[0., 0., 0.],
       [0., 0., 0.]])

In [14]:
np.ones((2,2,2), dtype=int) # Crea un array tridimensional de 2x2x2 con unos de tipo int

array([[[1, 1],
        [1, 1]],

       [[1, 1],
        [1, 1]]])

In [15]:
# np.zeros, np.ones por defecto el tipo float64, pero podemos especificar el tipo con el parámetro dtype
print(np.zeros(4))
print(np.zeros(4, dtype=np.int64))

print(np.arange(254, 259, dtype=np.uint8)) # En este caso, el tipo es uint8 (unsigned int de 8 bits), así que el máximo valor que puede tomar es 255 y desborda

[0. 0. 0. 0.]
[0 0 0 0]
[254 255   0   1   2]


In [16]:
# np.empty no inicializa sus elementos, así que toman el valor que había en la posición de memoria
np.empty(2)

array([1., 1.])

In [17]:
print(np.full((3,3), True)) # Crea una matriz de 3x3 con todos los elementos a True
print(np.full(shape=(3,2), fill_value=5)) # Crea una matriz de 3x2 con todos los elementos a 5 (int)

# np.full tomará el tipo del argumento que le pasemos (como np.array con los elementos contenidos en la secuencia que se le pasa), así que si le pasamos un float, los elementos serán floats

print(np.full((3,2), 5.0)) # Crea una matriz de 3x2 con todos los elementos a 5.0
print(np.full((3,2), 5, dtype=np.float64)) # Crea una matriz de 3x2 con todos los elementos a 5.0

[[ True  True  True]
 [ True  True  True]
 [ True  True  True]]
[[5 5]
 [5 5]
 [5 5]]
[[5. 5.]
 [5. 5.]
 [5. 5.]]
[[5. 5.]
 [5. 5.]
 [5. 5.]]


## Generación de números aleatorios

In [18]:
rng = np.random.default_rng() # Creamos un generador de números aleatorios de NumPy
print(rng.random((3, 4))) # Crea una matriz de 3x4 con números aleatorios entre 0 y 1
print(rng.integers(5, size=(2, 4))) # Crea una matriz de 2x4 con números aleatorios entre 0 y 4

[[0.23589636 0.05013821 0.93024442 0.26769684]
 [0.79836421 0.16406673 0.23500046 0.13448886]
 [0.51991408 0.25611314 0.17404866 0.34935782]]
[[4 4 4 2]
 [4 1 4 4]]


## Funciones para crear vectores siguiendo secuencias

In [19]:
print(np.arange(2, 10, 2)) # Igual que la función range de python, pero devuelve un ndarray de NumPy
print(np.arange(10))
print(np.linspace(0, 10, num=5)) # Devuelve un ndarray de NumPy con 5 elementos equidistantes entre 0 y 10

[2 4 6 8]
[0 1 2 3 4 5 6 7 8 9]
[ 0.   2.5  5.   7.5 10. ]


## Reshape

In [20]:
# Un vector se puede convertir en una matriz con la función reshape
vector_base=np.arange(12)
print(vector_base.reshape(3, 4)) # Crea un vector 12 elementos y lo convierte en una matriz de 3x4
# En un shape de una matriz, el primer elemento es el número de filas (axis 0) y el segundo el número de columnas (axis 1)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [21]:
# El valor especial -1 en el parámetro shape indica que NumPy debe inferir el valor de esa dimensión
print(vector_base.reshape(3, -1)) # Crea un vector 12 elementos y lo convierte en una matriz de 3x4

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [40]:
np.array([1, 2, 3]).reshape(-1,1) # Convierte un vector en una matriz de una columna

array([[1],
       [2],
       [3]])

## Slicing

El slicing es una forma de recuperar una parte de la matriz. Funciona de modo análogo a las listas de Python.

```
a[start:stop]  # elementos desde start hasta stop-1 (stop es el primer elemento que no se incluye)
a[start:]      # elementos desde start hasta el final del array
a[:stop]       # elementos desde el inicio del array hasta stop-1
a[:]           # una copia del array completo
```

También existe un tercer valor, el incremento "step":
```
a[start:stop:step] # desde start hasta un valor menor que stop, con incremento "step"
```

Start y stop pueden ser números negativos. Eso significa que se cuenta desde el final de array:
```
a[-1]    # Último elemento del array
a[-2:]   # Últimos dos elementos del array
a[:-2]   # Todos los elementos del array menos los dos últimos
```

Step también puede ser negativo:
```
a[::-1]    # todos los elementos del array pero invertidos, empezando por el último (es equivalente a np.flip(a))
a[1::-1]   # los dos elementos, invertidos
a[:-3:-1]  # los últimos dos elementos, invertidos
a[-3::-1]  # todo excepto los dos últimos elementos, invertidos
```

[<img src="https://numpy.org/doc/stable/_images/np_matrix_indexing.png" width="800"/>](https://numpy.org/doc/stable/user/absolute_beginners.html#indexing-and-slicing)

In [23]:
print(f"{A}\n---")

print(f"Fila 1: {A[1,:]}") # La fila con índice 1 y todas las columnas. O sea: la 2ª fila
print(f"Fila 1: {A[1]}") # lo mismo que la anterior, simplificado

[[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]]
---
Fila 1: [21 22 23 24]
Fila 1: [21 22 23 24]


In [39]:
A[:,1] # Los elementos de todas las filas (:) y la columna 1. O sea: los de la 2ª columna
# Se devuelve un vector con esos valores (no una matriz con una sola columna)

array([12, 22, 32])

In [38]:
# Igual que el anterior, pero devuelve una matriz de una sola columna
A[:,1:2]
# print(f"Columna 1: {A[:,1].reshape(-1,1)}") # Equivalente

array([[12],
       [22],
       [32]])

In [26]:
print(f"{A}\n---")

print(f"Fila 1, columnas 0 y 1: {A[1,:2]}") # La fila 1 y las columnas 0 y 1 (todas hasta la 2)

[[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]]
---
Fila 1, columnas 0 y 1: [21 22]


In [27]:
print(f"{A}\n---")

print(A[1:3,1:3])  # Submatriz de A con las filas 1 y 2 y las columnas 1 y 2
print(A[1:,1:])  # Submatriz de A con las filas 1 y 2 y las columnas 1, 2 y 3

[[11 12 13 14]
 [21 22 23 24]
 [31 32 33 34]]
---
[[22 23]
 [32 33]]
[[22 23 24]
 [32 33 34]]


## Filtrado

In [28]:
arr = np.array([1, 2, 3, 4])
print(arr)
x = [True, False, True, False] 
array_filtrado = arr[x] # Filtramos los elementos de arr que están en las posiciones True de x
print(array_filtrado)

[1 2 3 4]
[1 3]


In [29]:

a = np.arange(11)**2
print(a)
print(a[a<10]) # Nos quedamos con los valores menores a 10
print(a[a==16]) # Nos quedamos con los valores iguales a 16
print(a[a!=16]) # Nos quedamos con los valores distintos a 16
print(a[(a>20) | (a<50)]) # Nos quedamos con los valores mayores a 20 o menores a 50
print(a[(a>20) & (a<50)]) # Nos quedamos con los valores mayores a 20 y menores a 50


[  0   1   4   9  16  25  36  49  64  81 100]
[0 1 4 9]
[16]
[  0   1   4   9  25  36  49  64  81 100]
[  0   1   4   9  16  25  36  49  64  81 100]
[25 36 49]


In [30]:
# Partiendo de filtros podemos hacer modificaciones sobre determinados elementos de un ndarray
a[a<10] = 0 # Ponemos a 0 los valores menores a 10
print(a)

b = np.arange(12).reshape(3,4)
print(b)
# Ponemos a 0 los valores impares de b
b[b%2==1] = 0
print(b)

[  0   0   0   0  16  25  36  49  64  81 100]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  0  2  0]
 [ 4  0  6  0]
 [ 8  0 10  0]]


## Operaciones matemáticas

[<img src="https://numpy.org/doc/stable/_images/np_aggregation.png" width="800"/>](https://numpy.org/doc/stable/user/absolute_beginners.html#more-useful-array-operations)

In [31]:
vector = np.array([9,10,1,2,2,3,3,3,4,5,6,7,8])

print(f"vector: {vector}")
print(f"Máximo: {vector.max()}")
print(f"Índice del máximo: {vector.argmax()}")
print(f"Mínimo: {vector.min()}")
print(f"Índice del mínimo: {vector.argmin()}")
print(f"Suma: {vector.sum()}")
print(f"Media: {vector.mean()}")
print(f"Suma acumulada: {vector.cumsum()}")

vector: [ 9 10  1  2  2  3  3  3  4  5  6  7  8]
Máximo: 10
Índice del máximo: 1
Mínimo: 1
Índice del mínimo: 2
Suma: 63
Media: 4.846153846153846
Suma acumulada: [ 9 19 20 22 24 27 30 33 37 42 48 55 63]


In [32]:
print(f"Desviación típica: {vector.std():.3f}")
print(f"Varianza: {vector.var():.3f}")

Desviación típica: 2.797
Varianza: 7.822


En matrices se definen ejes (axis) sobre los que se pueden realizar operaciones matemáticas. Por defecto, las operaciones se realizan sobre todos los elementos de la matriz, pero se puede especificar el eje sobre el que se quiere operar.


[<img src="https://numpy.org/doc/stable/_images/np_matrix_aggregation.png" width="800"/>](https://numpy.org/doc/stable/user/absolute_beginners.html#more-useful-array-operations)

[<img src="https://numpy.org/doc/stable/_images/np_matrix_aggregation_row.png" width="800"/>](https://numpy.org/doc/stable/user/absolute_beginners.html#more-useful-array-operations)

<img src="img/np-axis.png" width="500"/>

In [33]:
matriz = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9,10,11,12]])
print(matriz.sum()) # Suma de todos los elementos
print(matriz.sum(axis=0)) # Suma por columnas
print(matriz.sum(axis=1)) # Suma por filas

78
[15 18 21 24]
[10 26 42]


## Operaciones sobre matrices

### Ordenación

In [34]:
print(f"vector antes de sort:   {vector}")
print("--- Ordenando procedimentalmente ---")
# La función sort() recibe el vector como argumento y lo devuelve ordenado, pero no modifica el vector original
ordenado = np.sort(vector)
print(f"vector después de sort: {vector}")
print(f"ordenado:               {ordenado}")

print("--- Ordenando orientado a objetos ---")
# El método sort() del objeto ndarray modifica este objeto desde el que se llama, no devuelve nada
vector_copia = vector.copy() # copia del vector original
print(f"vector antes de sort:   {vector_copia}")
vector_copia.sort()
print(f"vector ordenado:        {vector_copia}")

vector antes de sort:   [ 9 10  1  2  2  3  3  3  4  5  6  7  8]
--- Ordenando procedimentalmente ---
vector después de sort: [ 9 10  1  2  2  3  3  3  4  5  6  7  8]
ordenado:               [ 1  2  2  3  3  3  4  5  6  7  8  9 10]
--- Ordenando orientado a objetos ---
vector antes de sort:   [ 9 10  1  2  2  3  3  3  4  5  6  7  8]
vector ordenado:        [ 1  2  2  3  3  3  4  5  6  7  8  9 10]


### Unique

In [35]:
# numpy.unique() devuelve los valores únicos de un vector
unicos, posiciones = np.unique(vector, return_index=True) # return_index=True devuelve los índices de los valores únicos
print(f"vector:     {vector}")
print(f"únicos:     {unicos}")
print(f"índices:    {posiciones}")

vector:     [ 9 10  1  2  2  3  3  3  4  5  6  7  8]
únicos:     [ 1  2  3  4  5  6  7  8  9 10]
índices:    [ 2  3  5  8  9 10 11 12  0  1]


In [36]:
unicos, frecuencias = np.unique(vector, return_counts=True) # return_counts=True devuelve las frecuencias de los valores únicos
print(f"vector:      {vector}")
print(f"únicos:       {unicos}")
print(f"frecuencias: {frecuencias}")
# Si por ejemplo queremos un diccionario con cada valor y su frecuencia, podemos usar zip:
print(dict(zip(unicos, frecuencias)))
# zip devuelve un iterador de tuplas combinando los elementos de los iterables que le pasemos uno a uno. En este caso, combinamos los elementos de unicos y frecuencias, que son dos arrays de NumPy, así que zip devuelve un iterador de tuplas de NumPy. Al pasarlo a dict, creamos un diccionario con las tuplas como pares clave-valor.

vector:      [ 9 10  1  2  2  3  3  3  4  5  6  7  8]
únicos:       [ 1  2  3  4  5  6  7  8  9 10]
frecuencias: [1 2 3 1 1 1 1 1 1 1]
{1: 1, 2: 2, 3: 3, 4: 1, 5: 1, 6: 1, 7: 1, 8: 1, 9: 1, 10: 1}


### Flip

In [37]:
print(f"vector:    {vector}")
print(f"reflejado: {np.flip(vector)}")

vector:    [ 9 10  1  2  2  3  3  3  4  5  6  7  8]
reflejado: [ 8  7  6  5  4  3  3  3  2  2  1 10  9]
