<font size=6>

<b>Curso de Análisis de Datos con Python</b>
</font>

<font size=4>
    
Curso de formación interna, CIEMAT. <br/>
Madrid, Junio de 2023

Antonio Delgado Peris (Cristina Labajo Villaverde)
</font>

https://github.com/andelpe/curso-python-analisis-datos

<br/>

# Tema 4 - Fundamentos de NumPy

## Objetivos

- Librería NumPy, fundamental para cálculo científico y técnico en Python.

- La estructura básica de NumPy: los _ndarrays_.

- Manipulación de arrays

- Indexado, selección y filtrado de arrays.

## Introducción

NumPy es una librería de Python que ofrece soporte para _arrays_ (vectores) multidimensionales, y operaciones sobre ellos, de manera eficiente (rápida). Además, proporciona funcionalidades matemáticas sobre esos arrays (manipulación, filtrado, transformaciones de Fourier, álgebra lineal, estadística básica, etc.).

La librería NumPy está escrita utilizando código compilado (C/C++), de manera que el rendimiento de sus funciones matemáticas es mucho mejor que el de programas escritos púramente en Python (usando las estructuras nativas de Python, como listas o diccionarios).

Eso hace que NumPy sea la base de gran parte del código científico en Python. Otras librerías científicas, como Pandas o SciPy, utilizan internamente NumPy. Aunque no siempre sea necesario manejar que explícitamente estructuras NumPy en nuestro código, es interesante conocer sus fundamentos y las funcionalidades que nos ofrece.

## ndarrays
La clave de NumPy es el objeto _ndarray_, que encapsula vectores multidimensionales de tipo homogéneo, con operaciones escritas, normalmente, en código compilado.

Características de los ndarray:

- Tipo homogéneo. A diferencia de las listas Python que pueden incluir cualquier tipo de elementos.
- Longitud fija. Si cambiamos el tamaño, se crea un nuevo objeto.
- Existen multitud de operaciones vectoriales implementadas de manera eficiente.

### Creación de ndarrays
Se pueden crear arrays desde tuplas/listas Python.

In [None]:
import numpy as np

In [None]:
def showArray(a, label):
    print(f"Array '{label}' con {a.ndim} dimensión/es y forma {a.shape}")
    print(a, '\n')

a = np.array([0, 1, 2])
showArray(a, 'a')

In [None]:
# np.array siempre recibe solo 1 argumento (lista de listas de listas...)
v1 = [1, 1, 1, 1]
v2 = [2, 2, 2, 2]
b = np.array([[v1, v1, v1], [v2, v2, v2]])
showArray(b, 'b')

O con funciones de inicialización de NumPy:

In [None]:
a = np.zeros([2, 3])
showArray(a, 'zeros')

a = np.ones([2, 3], dtype='complex')
showArray(a, 'ones')

a = np.arange(10)
showArray(a, 'arange')

a = np.arange(10, 31, 2)     # start, stop, step
showArray(a, 'arange')

a = np.linspace(10, 31, 10)  # start, stop, num
showArray(a, 'linspace')

También se puede leer un array directamente de un fichero, aunque otras librerías como Pandas ofrecen funcionalidades mucho más potentes.

In [None]:
!cat data/array.csv

In [None]:
a = np.loadtxt('data/array.csv', delimiter=',')
a

Existen otras muchas maneras de producir arrays. Por ejemplo, usando las funciones de números aleatorios.

In [None]:
randomGen = np.random.default_rng()
vals = randomGen.uniform(0, 100, size=10)
print("Showing 'vals' of type:", type(vals))
print(vals)

### Tipo de los elementos de un array (dtype)

NumPy ofrece muchos más tipos que Python, y en general es más preciso en cuanto a lo que significan (con o sin signo, con 16, 32 o 64 bits, etc.).

Se puede acceder al tipo de un objeto (p.ej. array) NumPy, con su propiedad `dtype`.

In [None]:
np.array([1, 2, 3]).dtype

Se puede p.ej. indicar el tipo que queremos para un nuevo array. Si no se hace, Numpy lo inferirá y asignará uno.

In [None]:
print(np.array([1, 2, 3]))

print(np.array([1, 2, 3], dtype=np.float64))

También se puede convertir el tipo de un array con el método `astype`.

In [None]:
a = np.array([1, 2, 3])
print(a.dtype)

b = a.astype(np.float64)
print(b.dtype)

Nota: Como los tipos de NumPy tiene un tamaño fijo (lo que los hace más eficientes), es posible que se produzcan errores por desbordamiento cuando se requiera más memoria de la disponible. Eso no ocurre con el tipo `int` estándar de Python, que tiene un tamaño variable (puede crecer para acomodarse a un tamaño mayor).

In [None]:
100**16

In [None]:
np.int64(100)**16

### Operaciones básicas con arrays

NumPy ofrece la posibilidad de realizar operaciones vectoriales ejecutando código compilado, en lugar de recurrir a bucles explícitos de código Python. Este es el caso tanto para operaciones _entre_ arrays, como operaciones sobre los elementos de un solo array.

Si escribimos nuestro código con operaciones vectoriales/matriciales conseguiremos mejores eficiencias y código más legible.

In [None]:
a = np.array([10, 100, 1000, 10000])
b = np.array([1, 2, 3, 4])

print(a+b)
print(a-b)
print(a*b)
print(a/b)
print(a%b)

In [None]:
print(b.sum())
print(b.prod())
print(b.mean())
print(b.max())
print(b.min())

Existen muchas otras utilidades ya implementadas en NumPy.

In [None]:
x = np.array([5, 0, 5, -3, 1, 10])
print(x)
print(np.sort(x))
print(np.unique(x))
print(np.count_nonzero(x))

<div style="background-color:powderblue;">

**EJERCICIO e4_1:** 
    
- Producir dos arrays 'a' y 'b' con 100 números aleatorios equiprobables (`random.uniform`) cada uno.
- A continuación, vamos a calcular el producto elemento a elemento. Hacerlo de dos maneras:
    
  - Operación vectorial: `a*b`. 
  - Operación en bucle: `for ... a[i]*b[i]`


- Modificar el código para usar la función magic `%timeit -n 100` (100 repeticiones), para comprobar que la operación vectorial es más rápida que el bucle.

- Crear una función para poder hacer la misma prueba con un número variable de elementos en los arrays, `N`. Probar las diferencias con los siguientes valores para `N`: 10, 100, 1000, 10000.

**NOTA**

Además de los arrays, NumPy también ofrece el tipo _matriz_ (`numpy.matrix`). Sin embargo, se desaconseja su uso, pues el tipo `ndarray` puede utilizarse para manejar matrices (arrays de 2 dimensiones), pero es mucho más versátil.

En particular, el operador `@` para ndarrays implementa (desde Python 3.5) la multiplicación matricial (o el producto escalar, si se trata de 2 arrays de una dimensión), en lugar de la multiplicación elemento a elemento, que produce (como ya hemos visto) el operador `*`.

In [None]:
m1 = np.array([(3, 2), (4, 5)])
print('m1:\n', m1)
print()
print('m1*m1:\n', m1*m1)
print()
print('m1@m1:\n', m1@m1)

In [None]:
v1 = np.array([3, 1, 4])
print('v1*v1:\n', v1*v1)
print()
print('v1@v1:\n', v1@v1)

## Forma y dimensiones de los arrays
Un ndarray (o _array_) puede tener varias dimensiones, y, correspondientemente, varios ejes.

Por ejemplo, el siguiente array tiene 2 ejes. El primer eje son las filas (tiene 2), y el segundo, las columnas (tiene 4).

In [None]:
a = np.array([(1, 2, 3, 4), (10, 20, 30, 40)])
a

Algunos atributos interesantes de los arrays:

- `ndim`: número de dimensiones
- `shape`: tupla de enteros con el tamaño de cada dimension (longitud: `ndim`)
- `size`: número total de elementos en el array (producto de los valores de `shape`)
- `dtype`: tipo de los elementos del array
- `itemsize`: tamaño en bytes de los elementos del array

In [None]:
for attr in 'ndim', 'shape', 'size', 'dtype', 'itemsize':
    print(f"a.{attr}: {getattr(a, attr)}")    # getattr(a, 'ndim') <-> a a.ndim

El método `reshape` permite redimensionar un array.

In [None]:
print("Original 'a':")
print(a)
a1 = a.reshape(4,2)
print("\nReshaped 'a1':")
print(a1)

Además de la forma, también se pueden cambiar las dimensiones

In [None]:
a2 = a.reshape(2,2,2)
a2

Pero solo se puede redimensionar si se mantiene el número de elementos.

In [None]:
a.reshape(4,3)

También se puede incrementar el número de dimensiones de un array con el método `expand_dims`.

In [None]:
org = np.array([1, 2, 3])
new1 = np.expand_dims(org, 0)
new2 = np.expand_dims(org, 1)

for x in org, new1, new2:
    print(f"\nArray with {x.ndim} dimensions and shape {x.shape}:\n{x}")

<br/>

<div style="background-color:powderblue;">

**EJERCICIO e4_2:** Diferencias entre arrays y matrices fila.
    
- Dado el array `a`, redimensionarlo para tener una sola dimensión (`a1`) o dos dimensiones (matriz), pero una de ellas con longitud 1 (la primera dimensión, `a2`, y, la segunda, `a3`).
    
- Observar los tres arrays. Después, producir la _transpuesta_ de `a2` (`a4`), y comprobar si `np.array_equal(a3, a4)`.

- Comprobar las diferencias en la multiplicación matricial `@` de algunos de los diferentes arrays consigo mismos, o con sus traspuestas.

In [None]:
a = np.array([(1, 2, 3, 4), (10, 20, 30, 40)])
a

### Operaciones en diferentes ejes de un array
Algunos operadores aceptan un argumento `axis` para especificar si deben aplicarse en alguno de los dos ejes.

In [None]:
arr = np.ones([2, 4])
print("Given this array...")
print(arr)

print("\nSum of each column (per row)")
print(arr.sum(axis=0))

print("\nSum of each row (per column)")
print(arr.sum(axis=1))

print("\nTotal sum")
print(arr.sum())

### Broadcasting

Además de operaciones entre arrays de las mismas dimensiones, también se pueden realizar operaciones entre arrays de diferentes dimensiones. Bajo ciertas condiciones, NumPy _extenderá_ (_broadcast_) el operando de menor tamaño para poder operar con el mayor.

El caso más simple es operaciones entre un escalar y un array.

In [None]:
a = np.ones([2, 4])
print("a\n", a)

print("\n2*a\n", 2*a)

print("\na+3\n", a+3)

En general, el  broadcasting compara el tamaño de cada dimensión, desde la última a la primera. Si las dimensiones de los dos operandos tiene el mismo tamaño, o la dimensión de uno de ellos es 1 (o no existe), la operación se puede realizar.

In [None]:
a = np.ones([2, 3])
print("a shape:", a.shape, "\n", a)

b = np.array([[1, 2, 3]])
print("\nb shape:", b.shape, "\n", b)

print("\na+b shape:", (a+b).shape, "\n", a+b)

In [None]:
a = np.ones([2, 2, 3])
print("a shape:", a.shape, "\n", a)

b = np.array([[1, 2, 3]])
print("\nb shape:", b.shape, "\n", b)

print("\na+b shape:", (a+b).shape, "\n", a+b)

In [None]:
a = np.ones([1, 3])
print("a shape:", a.shape, "\n", a)

b = np.ones([3, 1])
print("\nb shape:", b.shape, "\n", b)

print("\na+b shape:", (a+b).shape, "\n", a+b)

## Manipulación de arrays

### Concatenación
Podemos usar `concatenate` para unir en una dimensión (eje) existente.

In [None]:
v1 = np.array([1, 1, 1, 1])
v2 = np.array([8, 8, 8, 8])
print(v1)
print(v2)
print(v1.shape)

In [None]:
v3_h = np.concatenate([v1, v2])
print(v3_h)
print(v3_h.shape)

Podemos usar `stack` para unir en un nuevo eje (aumentando la dimensión en el resultado)

In [None]:
v3_v = np.stack([v1, v2])
print(v3_v)
print(v3_v.shape)

<br/>

En estos métodos, podemos usar el argumento `axis` para elegir la dimensión sobre la que operamos (por defecto, 0).

In [None]:
np.concatenate([v3_v, v3_v])

In [None]:
np.concatenate([v3_v, v3_v], axis=1)

<br/>

También podemos usar los métodos más específicos `hstack` y `vstack`, que hacen una concatenación horizontal y vertical respectivamente.

In [None]:
np.vstack([v1, v2])

In [None]:
np.vstack([v3_v, v3_v])

In [None]:
np.hstack([v1, v2])

In [None]:
np.hstack([v3_v, v3_v])

### División
Para dividir arrays, podemos usar `split`, `vsplit` y `hsplit`, entre otros.

In [None]:
print(f'Partimos de:\n{v3_v}\n')
print('Con dimensiones:', v3_v.shape)

In [None]:
a, b = np.vsplit(v3_v, 2)
print('a:', a)
print('b:', b)
print(a.shape)

In [None]:
a, b, c, d = np.hsplit(v3_v, 4)
print(a)
print(a.shape)

### Otros
Para eliminar elementos de un array se puede usar `numpy.delete`.

In [None]:
arr = np.arange(12).reshape(3,4)
arr

In [None]:
# Borrar segunda fila
np.delete(arr, 1, axis=0)

In [None]:
# Borrar primera y segunda columnas
np.delete(arr, [0,1], axis=1)

<br/>

Con `numpy.insert` se pueden añadir elementos a un array, indicando su posición, tanto en 1, como en varias dimensiones.

In [None]:
print(v1)
print(np.insert(v1, 2, [99, 99]))

In [None]:
print(arr)
print()
print(np.insert(arr, 2, [99, 99, 99, 99], axis=0))
print()
print(np.insert(arr, 2, [88, 88, 88], axis=1))

<br/>

Si no se especifica `axis`, el efecto es el de _aplanar_ el array (como si usara la función `flatten`).

In [None]:
print(arr.flatten())
print()
print(np.insert(arr, 3, (999, 999)))

<br/>

La función `append` funciona como `insert`, pero añade los elementos al final del array.

In [None]:
print(v1)
print(np.append(v1, [99, 99]))

<br/>

<div style="background-color:powderblue;">

**EJERCICIO e4_3:**

- Dados los arrays `a1` y `a2`, producir un array resultado de unir los anteriores, con forma 2x3. 
    
- Dados los arrays `a3` y `a4`, producir un array resultado de unir los anteriores, con forma 4x3.
    
- Dados los arrays `a3` y `a4`, producir un array resultado de unir los anteriores, con forma 2x6.    

In [None]:
a1 = np.array([1, 1, 1])
a2 = np.array([2, 2, 2])
a3 = np.array([[1, 1, 1], [2, 2, 2]])
a4 = np.array([[3, 3, 3], [4, 4, 4]])

## Vistas y copias
En NumPy una _vista_ (_view_) de un ndarray es un objeto que nos permite acceder a la información del array original de una manera diferente. De esta manera, ofrece un nuevo interfaz, pero los datos son los originales (no se replican).

La manera más habitual de crear una vista es con la operación de _slice_ sobre un array (ver más abajo), pero también se puede crear con el método `view`, por ejemplo para cambiar el _dtype_ de un array (algo quizás no muy recomendable).

In [None]:
org = np.arange(10, dtype='int16')
print(org)

In [None]:
# Reinterpretamos los bytes agrupándolos de 4 en 4
view = org.view('int32')
print(view)

In [None]:
# Realizamos una modificación, y afectamos al array original
view += 1
print(view)

In [None]:
print(org)

## Indexar, seleccionar y filtrar

Con los ndarrays se pueden utilizar las mismas operaciones de indexado y _slicing_ que con una lista Python normal, con el añadido de que se pueden combinar para varios ejes a la vez (usando `,`).

**Importante:** Al contrario que en el slice de listas Python, con los ndarrays esta operación devuelve _vistas_ del ndarray subyacente, no un nuevo objeto (copia).

In [None]:
a = np.array([(1, 2, 3, 4), (10, 20, 30, 40)])
a

In [None]:
# Seleccionar el primer elemento del eje 0 (primera fila)
print(a[0])

Veamos que la selección es una _view_

In [None]:
sub = a[0]
sub[1] = 99
sub

In [None]:
a

No ocurre lo mismo con listas Python, cuyo _slice_ devuelve un objeto nuevo (copia).

In [None]:
l1 = [1, 2, 3, 4]
print(l1)

In [None]:
sub = l1[:2]
sub[0] = 99
sub

In [None]:
l1

<br/>

Veamos otras formas de _slicing_ para ndarrays, con más posibilidades que en las listas Python.

In [None]:
# Seleccionar un subconjunto de elementos de la primera fila
print( a[0][:2] )   # notación estándar Python (listas de listas)
print( a[0, :2] )   # notación NumPy ndarrays

In [None]:
b = [[1, 2, 3, 4], [10, 20, 30, 40]]
print(b[0][:2])
print(b[0, :2])

In [None]:
a

In [None]:
# Seleccionar la primera columna (solo posible con ndarrays)
print(a[:,0])

In [None]:
[x[0] for x in b]

In [None]:
# Seleccionar una sub-matriz (todas las filas, primera y segunda columnas)
print(a[:,:2])

<br/>

Finalmente, veamos que también se pueden realizar asignaciones a selecciones por _slice_. Y también aquí se puede usar _broadcasting_.

In [None]:
a

In [None]:
a[0, :2]

In [None]:
a[0, :2] = 100, 500
a

In [None]:
a[:, :2]

In [None]:
a[:, :2] = 55
a

<br/>

<div style="background-color:powderblue;">

**EJERCICIO e4_4:**
    
Dado el array `in`, producir el array resultado `out` con solo dos instrucciones de transformación (asignaciones a selecciones de `in`).

In [None]:
ain = np.ones([5, 5])
a = [1, 1, 0, 1, 1]
aout = np.array([a, a, np.zeros(5), a, a])
print(ain)
print()
print(aout)

### Indexado avanzado
También se pueden pasar listas (o arrays) de índices, una para cada eje, y se devolverán los elementos que correspondan con esas coordenadas.

**IMPORTANTE:** en indexado avanzado, al contrario que antes, se devuelven _copias_ y no _vistas_.

In [None]:
a = np.array([(1, 2, 3, 4), (10, 20, 30, 40)])
print(a)

In [None]:
# Para recuperar los elementos (0,2) y (1,3), podemos usar:
rows = (0, 1)
cols = (2, 3)
sub = a[rows, cols]
# Igual a...
#   a[0, 2]
#   a[1, 3]

sub

En este caso, no se trata de una vista.

In [None]:
sub[0] = 99
print(sub)
print()
print(a)

<p/>

Sin embargo, si puede modificar si lo hago en una sola instrucción.

In [None]:
a[rows, cols] = [99, 99]
a

<br/>

También se puede usar la función `numpy.ix_` para recuperar los elementos en las combinaciones de cada coordenada con las de los otros ejes.

In [None]:
# Con las mismas 'rows', 'cols', recuperaríamos los elementos (0,2), (0,3), (1,2) y (1,3):
a[np.ix_(rows, cols)]

<br/>

<div style="background-color:powderblue;">

**EJERCICIO e4_5:**

Partiendo del mismo `ain` que en el ejercicio anterior, y con una sola operación de asignación, obtener un array resultado igual a `aout`.

In [None]:
ain = np.ones([5, 5])
a = np.array([1, 0, 0, 0, 1])
aout = np.array([np.ones(5), a, a, a, np.ones(5)])
print(ain)
print()
print(aout)

### Filtrado con arrays de máscara

Si se indexa un array con otro array de valores boolean, se devuelven solo los elementos para cuya posición hay un valor `True`. Esto se puede usar para fitrar arrays en base a condiciones.

**NOTA:** también en esto caso se devolverán _copias_ y no _vistas_.

In [None]:
a = np.array([(1, 2, 3, 4), (10, 20, 30, 40)])
a

In [None]:
a[[True, False]]
# a[0]

In [None]:
a[[True, False], [True, True, False, False]]
#a[0, :1]

In [None]:
mask = np.array([(True, True, True, False), (True, False, False, False)])
print(mask)

In [None]:
a[mask]

Podemos usar como máscara el resultado de una comparación booleana.

In [None]:
a%3 == 0

In [None]:
a[a%3==0]

In [None]:
# Example: return those elements that are divisible by 3 or by 4
mask = (a%3==0) | (a%4==0)
a[mask]

La función `numpy.nonzero` puede usarse para recuperar los índices (coordenadas) de los elementos que satisfacen una condición, en lugar de los elementos en sí.

In [None]:
# Los elementos divisbles entre 3 están en la columna 2 de las filas 0 y 1
b = np.nonzero(a%3==0)
print(b)

In [None]:
a

<br/>

<div style="background-color:powderblue;">

**EJERCICIO e4_6:**
    
Dado el array `a46` seleccionar los elementos que sean mayores que 10 de la segunda columna.

In [None]:
a46 = np.array([(1, 2, 3), (10, 20, 30), (100, 200, 300)])
a46