# NUMPY básico

---

**Autor:** César Husillos Rodríguez

**Email:** c.husillos@igme.es

---

Esta parte del curso explica la sintaxis básica de la creación y manejo de arrays en NumPy.

## 1. ¿Qué es NumPY?

NumPy es el acrónimo de **Numerical Python** y es la librería básica en el trabajo de computación numérica en Python.

El trabajo numérico se basa principalmente en operar sobre *arrays* de cualquier dimensión. NumPy define 

* vectores (1D), matrices (2D) y arrays de mayores dimensiones (ND) 
* métodos y operaciones que realizar sobre ellas. 

Estas funciones y operaciones están **vectorizadas**, es decir, que **se aplican elemento a elemento sin necesidad de bucles** para recorrer cada uno de ellos. 

La mayoría de **operaciones** están **escritas en lenguajes compilados como C y Fortran** lo que hace que su ejecución sea muy rápida y eficiente. El resultado de trabajar con estructuras de NumPy es decenas de veces más rápidas que con estructuras nativas de Python.

### Comparativa de rendimiento: estructuras Python vs. NumPy

A continuación veremos una demostración del rendimiento de una lista como estructura nativa de Python frente a un array como estructura básica de NumPy.

In [None]:
# trabajo con lista
mi_lista = list(range(1000000))
%time for _ in range(100): mi_lista2 = [x * 2 for x in mi_lista] # tiempo de trabajo con lista en bucle

In [None]:
import numpy as np

mi_array = np.array(mi_lista)
%time for _ in range(100): mi_array = mi_array * 2 # tiempo de operaciones con operaciones vectorizadas

¡Muchas veces más rápido trabajar con arrays de NumPy!

## 2. Estructura de NumPy

NumPy esta **compuesto por una gran cantidad de submódulos** (también llamados *espacios de nombres*).

El trabajo ordinario con NumPy implica

* la importación del espacio de nombres principal (*numpy*) y 
* la importación de un conjunto más pequeño de submódulos. Esto depende de la funcionalidad que se necesite.

A continuación, se muestra una tabla con algunos de los submódulos (espacios de nombre) de NumPy:

| Espacio de nombre | Uso recomendado | Descripción |
| :-- | :-- | :-- |
| numpy.exceptions | Si | Excepciones asociadas a NumPy |
| numpy.fft | Si | Para el trabajo con Transformadas Rápidas de Fourier. |
| **numpy.linalg** | Si | Para operaciones de álgebra lineal de arrays. |
| **numpy.polynomial** | Si | Para facilitar las tareas que implican el uso de polinomios. |
| **numpy.random** | Si | Para el trabajo con números aleatorios y distribuciones de probabilidad. |
| **numpy.char** | Si | Proporciona funciones para el trabajo con arrays de tipo *numpy.str_* (cadena de caracteres) o *numpy.bytes_* (cadenas de caracteres de bytes) |
| numpy.testing | Si | Que proporciona soporte para los scripts de testeo de NumPy. |
| numpy.typing | Si | Proporciona funcionalidad para objetos que pueden convertirse en arrays o en tipos de datos de NumPy (*dtypes*)  |

Más información sobre módulos de NumPy disponibles en la documentación oficial: https://numpy.org/devdocs/reference/module_structure.html

Por cuestiones de tiempo, en este curso no trabajaremos con todos estos submódulos.

## 3. Importación

In [None]:
import numpy as np
np.__version__

## 1. Arrays

Un array es la **estructura básica de datos** de NumPy.

Un array es una estructura de datos 

* que se almacena secuencialmente en la memoria del programa, 
* que está compuesta por **elementos del mismo tipo** (enteros, decimales, cadenas de caracteres...),
* a la que se hace referencia a través de una variable. 

Las dos primeras características mencionadas son la causa de su eficiencia. 

Como característica adicional, el tamaño de los arrays es constante, es decir, que no puedo eliminar o agregar elementos (como en el caso de las listas de Python).

El tipo de objeto generado cuando creamos un array es *numpy.ndarray* (donde el prefijo *'nd'* se refiere a n-dimensiones)

## 2. Propiedades de los arrays

Como todas las variables en Python, un **array es un objeto**. Tiene asignados 

* los atributos (o variables), y 
* los métodos (o funciones)

que se definen en la clase *ndarray*.

Entre los atributos más usados de un *array* NumPy están:

| Nombre de atributo | Tipo de dato devuelto | Descripción |
| :-------- | :-------: | :------ |
| dtype | *dtype* | Tipo de dato  |
| ndim | int | Número de dimensiones. |
| shape | tupla | Forma o dimensiones. |
| size | int| Número total de elementos. |
| nbytes | int | Número de bytes que el array ocupa en memoria. |

In [None]:
mi_array1 = np.array([1, 2, 3])
mi_array2 = np.array([[1.3, -3.24, 12], [3.8, 15.0, -3.7]]) # le estamos pasando una "lista de listas".

### 2.1. Tipo de dato

In [None]:
print(mi_array1.dtype)

In [None]:
print(mi_array2.dtype)

### 2.2. Número de dimensiones

In [None]:
print(f'Número de dimensiones de mi_array1 = {mi_array1.ndim}')
print('Número de dimensiones de mi_array2 = ', mi_array2.ndim)

Como vemos, en el caso de haber creado el array con una "lista de listas", el resultado ha sido un array 2D.


**PREGUNTA:** ¿Cuántas dimensiones tendría mi array si le paso a la función *np.array* una "lista de lista de listas"?

### 2.3. Forma o dimensiones

In [None]:
print('Dimensiones de mi_array1 =', mi_array1.shape)
print('Dimensiones de mi_array2 =', mi_array2.shape)

### 2.4. Número de elementos

In [None]:
print('Numero de elementos de mi_array1 =', mi_array1.size)
print('Numero de elementos de mi_array2 =', mi_array2.size)

### 2.5. Bytes que ocupa en memoria

In [None]:
print('Numero de bytes de memoria que ocupa mi_array1 =', mi_array1.nbytes)
print('Numero de bytes de memoria que ocupa mi_array2 =', mi_array2.nbytes)

## 3. Creación de arrays

Existen multitud de funciones (además del constructor de la clase) para generar arrays. Algunas 

1. se generan **a partir de estructuras de Python** (p.e. listas, tuplas...), 
2. generan arrays **a partir de funciones definidas en NumPy**, y 
3. otras lo hacen **a partir de la información contenida en un fichero**.

Independientemente de todas ellas, **la forma más básica de generar un array consiste en pasar al constructor de la clase un objeto iterable de Python**, como una lista o una tupla.

La siguiente tabla recoge algunas funciones de NumPy para generar arrays.

| Función | Definición (no exhaustiva) | Descripción|
| :-- | :-- | :-- |
| arange | *np.arange(limite_inferior, límite_superior, paso)* | Secuencia de números entre uno inicial y uno final (este último no se incluye) con incremento dado por un paso |
| linspace | *np.linspace(limite_inferior, limite_superior, numero_elementos, endpoint=False)* | Elementos equiespaciados entre un valor inicial y final en número preestablecido.|
| logspace | *np.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)* | Genera un array con valores logartímicamente espaciados entre un punto de inicio y uno de fin.|
| fromfunction | *np.fromfunction(func, forma, tipo)* | Crea un array de la *forma* dada y rellena sus valores a partir de las posiciones que ocupa. Esos valores los genera la función *func*. |
| fromfile | *np.fromfile(file, dtype=float, count=-1, sep='', offset=0)* | Crea un array a partir de los datos contenidos en un fichero en formato binario o texto. Con la función *np.tofile()* puede guardar un array en disco.|
| loadtxt | *np.loadtxt(ruta, separador,...)* |  Crea un array a partir de un fichero de texto (p.e. CSV).  |
| genfromtxt | *np.genfromtxt(ruta, separador,...)*|  Como *loadtxt*, pero soporta la gestión de datos perdidos (*missing data*).  |
| full | *np.full(numero_elementos, valor) o full((filas, columnas), valor)* | Array con valores iguales al dado en el parámetro *valor*. |
| zeros | *np.zeros(entero_o_tupla)* | Array de dimensiones dadas y con valores iguales a cero. |
| ones | *np.ones(entero_o_tupla)* | Array de dimensiones dadas y con valores iguales a uno. |
| eye | *np.eye(entero)* | Genera la matriz identidad de dimensiones (entero x entero). |
| diag | *np.diag(lista)* | Matriz de dimensiones len(lista) x len(lista) y cuyos valores de la diagonal principal vienen dados por *lista*. |
| randint | *np.random.randint(low, high, size)* | Genera *size* números aleatorios enteros entre un valor mínimo (*low*) y un valor máximo (*high*).|

### 3.1. Arrays generados a partir de objetos nativos de Python

In [None]:
array1 = np.array([1, 2, 3])
print(array1)

Consultamos el tipo de objeto que es *array1* usando la función *type(objeto)* de Python.

In [None]:
print(type(array1))

In [None]:
# esta forma de generar el array es equivalente a la anterior. En esta ocasión usamos un generador/iterador de Python.
array1 = np.array(range(1, 4))
print(array1)

In [None]:
# un objeto de tipo "range" es distinto a una lista
print(type(range(1, 4)))
range(1,4)

Ahora usaremos otro tipo de estructura iterable que le sirve a Numpy para crear un array. Probaremos con una tupla.

In [None]:
array1 = np.array((1, 2, 3))
print(array1)

### 3.2. Array con secuencia de números

Secuencia de números entre uno inicial y uno final (este último no se incluye) con incremento dado por un paso

In [None]:
# arange(limite_inferior, límite_superior, paso)
print(np.arange(10))
print(np.arange(2, 10))
print(np.arange(0, 10, 3.5))

In [None]:
# Equivalente en NumPY a lo que sabemos en Python para listas
print(list(range(10)))
print(list(range(1, 10)))
print(list(range(0, 10, 3)))

**ATENCIÓN** a la diferencia entre *np.arange* y *range* cuando se les pasan 3 parámetros.

Elementos equiespaciados entre un valor inicial y final en número preestablecido.

In [None]:
# linspace(limite_inferior, limite_superior, numero_elementos, endpoint=False)
print(np.linspace(0, 5.2, 10, endpoint=True)) # el valor por defecto de 'numero_elementos' es 50

### 3.3. Arrays generados a partir de valores constantes

In [None]:
print(np.full(5, 3)) # full(numero_elementos, valor)

In [None]:
print(np.full((5, 2), 3)) # o full((filas, columnas), valor)

In [None]:
print(np.zeros(10)) # zeros(numero_elementos)

In [None]:
print(np.zeros((2, 3))) # o zeros((filas, columnas))

In [None]:
print(np.zeros((2, 3, 4))) # o zeros(capas, filas, columnas)

In [None]:
print(np.ones(10)) # ones(numper_elementos)

In [None]:
print(np.ones((2, 3))) # o ones((filas, columnas))

In [None]:
print(np.ones((2, 3, 4))) # o ones(capas, filas, columnas)

### 3.4. Arrays que generan matrices especiales

In [None]:
# Matrices identidad
# eye(dimension)
print(np.eye(5))

In [None]:
# Matrices diagonales
# diag(secuencia_de_valores_de_la_diagonal_principal)
print(np.diag([-1, -2, -3]))

In [None]:
# matrices con valores por encima de la diagonal principal
print(np.eye(3, k=1))

In [None]:
# matrices con valores por debajo de la diagonal principal
print(np.eye(4, k=-2))

### 3.5. Arrays con valores dependientes de sus posiciones

In [None]:
# generación de matrices a partir de operaciones con sus índices
def fpos(fil, col):
    return fil + col

print(np.fromfunction(fpos, (4, 5), dtype=np.int32))

In [None]:
# este código podría sustituir al anterior. ¿Se acuerdan de las funciones lambda?
print(np.fromfunction(lambda m, n: m + n, (4, 5), dtype=np.int32))

### 3.6. Generar arrays a partir de otros arrays

Puedo generar un array **con las mismas dimensiones y el mismo tipo** de dato de otro array de forma más o menos manual.

¿Cómo?

Accediendo a las propiedades del array original y estableciéndolas en el array destino.

In [None]:
origen = np.zeros((3, 4))
print('origen =\n', origen)
print('tipo(origen) =', origen.dtype)

destino = np.zeros(origen.shape, dtype=origen.dtype)
print('destino =\n', destino)
print('tipo(destino) =', destino.dtype)

O también usando todas (o parte) de las propiedades de otro array en llamadas a los métodos siguientes:

| Función | Definición simplificada | Descripción |
| :-- | :-- | :---|
| empty_like | *np.empty_like(nombre_array)* | Genera un array de valores vacíos con las mismas propiedades que *nombre_array*. |
| zeros_like | *np.zeros_like(nombre_array)* | Genera un array de zeros con las mismas propiedades que *nombre_array*. |
| ones_like | *np.ones_like(nombre_array)* | Genera un array de unos con las mismas propiedades que *nombre_array*. |
| full_like | *np.full_like(nombre_array, valor)* | Genera un array de valores iguales a *valor* con las mismas propiedades que *nombre_array*. |

In [None]:
# Ejemplo con zeros_like 
print(np.zeros_like(origen))

Este ejemplo simplifica bastante el realizado anteriormente.

In [None]:
# Ejemplo con full_like
print(np.full_like(origen, 5.53))

Dado que 

In [None]:
origen.dtype

tiene tipo *int32*, aunque tratemos de asignarle un valor decimal, la función no permite dicha asignación.

Para conseguirlo tendría que pedirle que cambiara el tipo de esta forma:

In [None]:
# Ejemplo con full_like: 2nd round
print(np.full_like(origen, 5.53, dtype=np.float64))

Consulte la documentación para obtener más información.

In [None]:
# help(np.full_like)

### 3.7. Arrays obtenidos de la lectura de un fichero

In [None]:
# genero un fichero de texto que guarda dos filas de números separados por comas
with open('fichero.csv', 'w') as fichero:
    fichero.write(','.join(["1", "3", "5", "7", "9", "12", "33"]))
    fichero.write('\n')
    fichero.write(','.join(["-1", "-3", "-5", "0", "12", "34", "0"]))

In [None]:
# lectura del fichero
print(open('fichero.csv').read())

In [None]:
# ahora, vamos a cargar esos datos en un array
array_fichero = np.loadtxt('fichero.csv', delimiter=',')
print(array_fichero)

In [None]:
# Si tenemos dudas o la carga del fichero falla podemos consultar la documentación sobre cualquier función de NumPy
# help(np.loadtxt)

### 3.8. Arrays aleatorios

**NOTA:** Esta parte se desarrollará con más detalle al final de este tema. Se menciona ahora porque es una herramienta muy potente con la que realizar ejemplos y ejercicios.

NumPy dispone, a través del módulo *numpy.random* de funciones que permiten generar números aletarorios siguiendo las más conocidas distribuciones de probabilidad.

Trabajaremos con *np.random.randint* que genera  números aleatorios enteros (*size*) entre un valor inicial (*low*) y uno final (*high*). *size* puede ser un número entero o una tupla.

In [None]:
np.random.randint(0, 10, size=(2, 3))

In [None]:
# help(np.random.randint)

## 4. Asignación de tipo por defecto

Al generar un array pueden suceder dos cosas:

1. Que **todos los elementos** que le pasamos sean **del mismo tipo** de dato.
2. Que haya **mezcla de datos**.

En el caso 1, NumPy **ajusta su tipo al de los datos de entrada**.

In [None]:
mi_array3 = np.array([1.1, 2.2, 4.27])
print('Tipos de elementos pasados al array =', type(1.1), type(2.2), type(4.27))
print('Tipo de datos del array =', mi_array3.dtype)

En el caso 2, **ajusta su tipo al tipo de dato más genérico** que sea capaz de almacenar todos los que se le pasan. Veamos ejemplos:

In [None]:
mi_array3 = np.array([True, 1, 4.5])
print('Tipos de datos pasados al array =', type(True), type(1), type(4.5))

**PREGUNTA:** ¿Cuál es el tipo de dato del array que acabamos de crear?

In [None]:
# print(mi_array3.dtype)

In [None]:
mi_array3 = np.array([True, 1, 4.5, 2j])
print('Tipos de datos pasados al array =', type(True), type(1), type(4.5), type(2j))
print(mi_array3.dtype)

In [None]:
mi_array3 = np.array([True, 1, 4.5, 2j, '15'])
print('Tipos de datos pasados al array =', type(True), type(1), type(4.5), type(2j), type('15'))
print(mi_array3.dtype)

donde 'U' representa la codificación de cadena de texto Unicode y 64 el número máximo de caracteres.

(Puede obtener más información sobre los tipos de NumPy en la documentación oficial: https://numpy.org/doc/stable/reference/arrays.dtypes.html)

## 5. Conversiones de tipo

En muchas ocasiones generamos arrays a partir de datos y la asignación interna que NumPy realiza no es la deseada. Afortunadamente, **no hay problema en cambiar el tipo de dato de un array**. Esta especificación del tipo de array puede realizarse

* **cuando generamos** el array.
* una vez el array **se ha generado**.

Si vamos a generar el array a partir de una de las funciones mencionadas anteriormente, todas ellas admiten el **argumento *dtype***, al que puede asociarse el tipo de dato deseado para el array.

**Algunos tipos numéricos disponibles en NumPy:**

| Tipo de dato | Descripción |
| :---- | :---- |
| numpy.int8, numpy.int16, numpy.int32, numpy.int64 | entero de 8, 16, 32 y 64 bits, respectivamente. |
| numpy.unit8, numpy.int16, numpy.unit32, numpy.unit64 | entero sin signo de 16, 32 y 64 bits, respectivamente. |
| numpy.float16, numpy.float32, numpy.float64 | números decimales de 16, 32 y 64 bits, respectivamente. |
| numpy.complex64, numpy.complex128 | números complejos con precisión decimal de 64 y 128 bits, respectivamente. |

(Si quiere saber más sobre los tipos de datos soportados por NumPy, consulte la documentación: https://numpy.org/doc/stable/reference/arrays.scalars.html)

### 5.1. Establecer el tipo de dato en la generación de arrays

Podemos usar los tipos que proporciona NumPy (o los más genéricos *bool*, *int*, *float* o *complex*) para establecer el tipo de dato contenido en el array.

In [None]:
mi_array4_bool = np.ones(6, dtype=bool) # admite tipos de datos de Python y de NumPy
print(mi_array4_bool)
print(mi_array4_bool.dtype)

In [None]:
mi_array4_float = np.ones(6, dtype=float) # admite tipos de datos de Python y de NumPy
print(mi_array4_float)
print(mi_array4_float.dtype)

In [None]:
mi_array4_integer = np.ones(6, dtype=np.int32) # admite tipos de datos de Python y de NumPy
print(mi_array4_integer)
print(mi_array4_integer.dtype)

In [None]:
# array de números como cadena de caracteres
mi_array4_cadena = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], dtype=np.str_) # en dtype: 'U' de cadena de texto Unicode, '4' de bytes
print(mi_array4_cadena)
print(mi_array4_cadena.dtype)

donde 'U' se refiere a cadena de texto **Unicode** y el número indica la longitud máxima de la cadena de caracteres.

También podríamos usar esta codificación a la hora de generar el array en la forma:

In [None]:
mi_array4_cadena = np.array([1, 2, 3, 4, 5, 6, 7, 8], dtype='U4') # en dtype: 'U' de cadena de texto Unicode, '4' de bytes
print(mi_array4_cadena)
print(mi_array4_cadena.dtype)

Consultar el apartado "Array-protocol type strings" de esta URL https://numpy.org/doc/stable/reference/arrays.dtypes.html para conocer otra forma de establecer los tipos y precisiones que se pueden usar como valores para el parámetro *dtype* de los arrays o como parámetro para la función *astype()* que veremos en el siguiente apartado.

**PREGUNTA:** ¿Hasta qué valores "numéricos" podríamos almacenar en este última versión del array *mi_array4_cadena*?

### 5.2. Cambio de tipo de array ya generado

Supongamos que ya tengamos el array creado en la forma

In [None]:
mi_array4 = np.ones(6)
print('mi_array4 =', mi_array4)
print(mi_array4.dtype)

**PREGUNTA:** ¿Cuál es el tipo por defecto que asigna NumPy a los arrays?

**RESPUESTA:** Depende de cómo se hayan generado. Es decir, en algunos casos como con *np.array* intenta ajustar el tipo al más genérico de los datos introducidos.

**PREGUNTA:** Si uso la función *np.ones*, ¿cuál es el tipo de dato por defecto establecido para el array que devuelve?

In [None]:
#help(np.ones)

Podemos cambiar el tipo de dato asignado por defecto al array. Para ello haremos uso del método *astype()*. Recibe como parámetro el tipo al que queremos convertir el array.

In [None]:
array_booleano = mi_array4.astype(bool)  # tipo de dato Python
print(array_booleano)
print(array_booleano.dtype)

Cambiamos ahora a tipo *np.int16*

In [None]:
mi_array4 = np.ones(6)
print('mi_array4 (original) = ', mi_array4)

mi_array4.astype(np.int16)
print('mi_array4 (transformado) =', mi_array4)
print('tipo de mi_array4 =', mi_array4.dtype)

**Pregunta:** ¿Está todo bien?¿Ha fallado algo?Justifique su respuesta.

Para que funcione debe **reasignar el resultado** del cambio de tipo (método *astype*) a la misma o a otra variable.

A continuación se muestra la forma correcta de operar:

In [None]:
mi_array4 = np.ones(6)
print('mi_array4 (original) = ', mi_array4)

mi_array4 = mi_array4.astype(np.int16)
print('mi_array4 (transformado) =', mi_array4)
print('tipo de mi_array4 =', mi_array4.dtype)

**NOTA:** También recomiendo que si desea saber más sobre cualquier objeto, atributo o método, use la función *help()* de Python.

**PREGUNTA:** ¿Realmente es necesario reasignar el resultado de *astype()* al mismo array para cambiarlo de tipo?

In [None]:
# consultar la documentación sobre astype()
# help(mi_array4.astype)

**PREGUNTA:** ¿Qué sucede cuando queremos cambiar el tipo de un array de un tipo de dato más genérico a otro más sencillo (por ejemplo de *float* a *int*)?¿Podré hacerlo o resultará en un error?

In [None]:
array_prueba = np.array([1.5, 34.25, 12.66])
print('array_prueba =', array_prueba)
print('tipo de array_prueba =', array_prueba.dtype)

# cambio de tipo a entero
# array_prueba = array_prueba.astype(np.int32)
# print('array_prueba =', array_prueba)
# print('tipo de array_prueba =', array_prueba.dtype)

## 6. Valores especiales de NumPy

Además de los valores para tipos de datos básicos ya mencionados, hay otros especiales. Normalmente son el resultado de operaciones matemáticas.

| Tipo | Declaración | valor|
| :-- | :-- | :-- |
| Indeterminado | *np.nan* | Valor que falta o resultado de una operación imposible. |
| Infinito | *np.inf* | Valor mayor (o menor) que cualquier de los que puede registrarse con cualquier otro tipo numérico. |

Python no "digiere" bien algunas operaciones como

In [None]:
3 / 0

o

In [None]:
0 / 0

En el caso de NumPy

In [None]:
a = np.arange(3)
print(a)

En cambio NumPy no tiene problema. 

In [None]:
a / a

Bueno, genera un aviso por consola (*warning*) pero realiza la operación. Python directamente devuelve un error que cortaría la ejecución del código de un script.

In [None]:
a / 0

## 7. Cambio de forma de un array

**Se puede establecer la forma** de un array en dos momentos de la vida de un array

* cuando **se genera** (aunque depende de la función empleada), o
* una vez **se ha creado**.

### 7.1. Establer la forma en la generación del array

En el primer caso, **hay funciones y métodos** de NumPy que generan arrays y **que tienen algún parámetro** que permite establecer la forma del array desde su creación. He aquí algunos ejemplos:

In [None]:
mi_array5 = np.empty([2, 2]) # array de valores sin inicializar pero con dimensiones (2 x 2)
print(mi_array5)

**PREGUNTA:** ¿Cómo se llama el parámetro de *np.empty* que determina la "forma" del array resultante? Pista: consultar información sobre la función *np.empty*.

In [None]:
# Consultar información sobre la función np.empty
# help(np.empty)

In [None]:
mi_array5 = np.array([[1, 2], [3, 4]]) # pasamos una lista de listas (2 listas de 2 elementos cada una) => dimensiones (2 x 2)
mi_array5.shape

**PREGUNTA:** Si uso la función *np.arange* ¿puedo generar arrays con dimensiones mayores que 1?

In [None]:
# help(np.arange)

### 7.2. Modificación de la forma de un array

Si queremos cambiar la forma de un array existente, **podemos usar varias funciones**. Algunas de ellas se resumen en la siguiente tabla:

| Función o método<sup>1</sup>  | Definición simplificada | Descripción |
| :-- | :--- | :---|
| reshape | *np.reshape(tupla_o_lista_de_dimensiones)* | Devuelve una copia del array con las dimensiones (*shape*) especificadas. |
| resize | *np.resize(tupla_o_lista_de_dimensiones)*) | Modifica el propio objeto (no devuelve nada). Cambia sus dimensiones (*shape*) a las especificadas. |
| flatten | *np.flatten()* | Devuelve una copia del array en 1D (colapsa todas las dimensiones del array original en una sola dimensión). |
| ravel | *np.ravel()* | Devuelve una copia (o crea uno nuevo si no es posible) del array nD en forma de array 1D. |
| swapaxes | *np.swapaxes(índice_primer_eje, índice_segundo_eje)* | Devuelve una copia del array en la que los ejes se cambian según la secuencia solicitada. En un array 2D, el índice de filas es el 0, y el de columnas es el 1.|
| transpose | *np.transpose(axes)* | Si no se le pasan valores a *axes* devuelve una copia del array con el orden de los ejes cambiados. Posibles valores para *axes*: *None* (valor por defecto), *lista o tupla de enteros*|
| insert | *np.insert(array, posiciones, valores, axis)* | Inserta uno o varios nuevos elementos en la posición o posiciones dadas. De nuevo, genera y devuelve una copia del array original. <br />* *posiciones* puede ser un entero, un rango o una secuencia de enteros.<br />* *valores*, puede ser un valor atómico o una secuencia de valores.<br />* *axis* es un entero. Si no se da ningún valor, el array se pasa a 1D.|
| append | *np.appendarray, valores, axis)* | Agrega un elemento al final de un array. Crea una nueva copia del array. |
| delete | *np.delete(array, posiciones, axis)* | Borra el elemento del array que está en la posición dada. Crea y devuelve una copia con el array modificado.|

<sup>1</sup> El campo *Función o método* de la tabla se refiere a que, en algunos casos, esa operación está definida como una función del paquete NumPy y también como método de la clase *ndarray*. Algunos ejemplos son: *reshape*, *resize* y *transpose*.

Vemos estas funciones o métodos en acción mediante algunos ejemplos.

In [None]:
# metodo reshape
# Genero el array y cambio sus dimensiones con dos llamadas: a una función de NumPy y a un método de la clase np.ndarray
mi_array5 = np.arange(6, dtype=int).reshape((2, 3)) 
print(mi_array5)
print('forma de mi_array5 = ', mi_array5.shape)

In [None]:
# uso del método flatten para conseguir la versión 1D del array
mi_array6 = mi_array5.flatten()
print('Array modificado =', mi_array6, sep = '\n')
print('forma = ', mi_array6.shape)
print('Número de dimensiones =', mi_array6.ndim)

In [None]:
# uso del método resize
mi_array7 = mi_array6.resize((3, 2))
print('mi_array7 = ', mi_array7)

Como se aprecia en el ejemplo, la llamada al método *resize* no devuelve nada. Sí que cambia directamente las dimensiones del objeto que lo llama.

In [None]:
print('Array modificado =', mi_array6, sep = '\n')
print('forma = ', mi_array6.shape)
print('Número de dimensiones =', mi_array6.ndim)

In [None]:
# uso del método swapaxes
print('Array original =', mi_array6, sep='\n')
mi_array7 = mi_array6.swapaxes(1, 0)
print('Array modificado =', mi_array7, sep='\n') # las filas pasan a columnas y las columnas a filas.

Si lo que quiere es trasponer una matriz 2D, quizá le resulte más sencillo usar el método *transpose()*. Se hace de la siguiente forma:

In [None]:
mi_array6 = np.arange(6, dtype=int).reshape((2, 3))
mi_array7 = mi_array6.transpose()
print('Array original =', mi_array6, sep='\n')
print('Array traspuesto =', mi_array7, sep='\n')

### 7.2.1. Usar métodos o funciones de NumPy

Mencionamos que **los arrays son objetos** y, como tales, poseen unos **atributos** (variables) y unos **métodos** (funciones).

Muchas operaciones con arrays se pueden llevar a cabo con métodos, pero tienen su equivalencia con funciones de NumPy. El resultado de aplicar uno u otro es el mismo, pero difieren en la forma en la que se llaman.

* Los métodos se llaman de esta forma: 

* Para usar la función equivalente de NumPy (cuando exista), la llamada será de esta forma: 

Veamos el siguiente ejemplo:

In [None]:
mi_array5 = np.array([[1, 2], [3, 4]])
print('Array original = ', mi_array5, sep='\n')

mi_array6 = mi_array5.reshape((4,))  # ¿MÉTODO o FUNCIÓN?
print('Array modificado =', mi_array6, sep = '\n')

**Atención:** No es lo mismo trabajar con un array de dimensiones (n,) que con otro de dimensiones (n, 1).

* En el primer caso se trata de un array-1D. 
* En el segundo es un array-2D.

In [None]:
mi_array5 = np.array([[1, 2], [3, 4]])
print('Array original = ', mi_array5, sep='\n')

mi_array6 = np.reshape(mi_array5, (4,)) # MÉTODO o FUNCIÓN
print('Array modificado =', mi_array6, sep = '\n')
# print('forma = ', mi_array6.shape)
# print('Número de dimensiones =', mi_array6.ndim)

El resultado de usar métodos o funciones es exactamente el mismo.

Veamos, por último, un caso de especial relevancia para operaciones futuras. Cambio la forma una vez más, pero ahora en vez de pasar a reshape el parámetro (4,) le paso el parámetro (1, 4). 

In [None]:
mi_array5 = np.array([[1, 2], [3, 4]])
print('Array original = ', mi_array5, sep='\n')

mi_array6 = mi_array5.reshape((1, 4)) # devuelve una copia de mi_array5 con la forma (1 x 4).
print('Array modificado = ', mi_array6, sep='\n')
# print('forma = ', mi_array6.shape)
# print('Número de dimensiones =', mi_array6.ndim)

**PREGUNTA:** ¿Cuál es la diferencia con el resultado de la celda anterior?

## 8. Selección de elementos

Hemos definido un array como un conjunto ordenado y homogéneo en cuanto a tipo de valores a los que se hace referencia con el nombre de una única variable.

Dicho esto, de forma general **para seleccionar elementos de un array se hace referencia al nombre del mismo y seguido, entre corchetes, un valor numérico que representa su posición en el array**. 

**NOTA IMPORTANTÍSIMA:** el índice de un array siempre **empieza por 0**.

**Resumen de indexado con valores enteros en arrays NumPy 1D**

![Indexado 1D NumPy](imagenes/numpy/numpy-array-negative-index.webp)

(Fuente: https://www.programiz.com/python-programming/numpy/array-indexing)

Si hay **varias dimensiones**, dentro del corchete se da el valor de un índice para la primera dimensión, otro para la segunda... y así hasta el total de dimensiones, en la forma:

Los valores de **los índices pueden ser**:

* Sólo **un número entero** (que puede ser negativo). Eso implica que se empieza a contar desde el final del array en esa dimensión.
* También puede corresponder a **un rango** de valores numéricos consecutivos, que se define con la sintaxis: *indice_inicio:indice_fin*
* Puede ser **un conjunto de valores no consecutivos**, datos según la sintaxis de una lista: [*indice_a*, *índice_b*,..., *indice_X*]

Por supuesto que **se pueden realizar determinadas combinaciones de estos posibles modos de indexado** para seleccionar elementos de un array multidimensional en cada una de sus dimensiones.

 El **resultado de la selección** de elementos puede ser:

* un **único valor** (del tipo almacenado por el array).
* un **subarray** con las mismas o diferentes dimensiones que el inicial.

La siguiente tabla muestra un resumen de indexado en un array 1D

| Expresión | Descripción |
| :-- | :---| 
| *a[m]* | Selecciona el elemento de índice *m*, donde *m* es un entero (los índices empiezan en 0).  |
| *a[-m]* |  Selecciona el m-ésimo elemento contando desde el final del array. |
| *a[m:n]* |  Selecciona los elementos desde el índice *m* hasta el *n - 1*. |
| *a[:]* o *a[0:-1]* |  Selecciona todos los elementos de un array. |
| *a[:n]* | Selecciona todos los elementos desde el principio del array (índice 0) hasta el de índice *n - 1*.  |
| *a[m:]* o  o *a[m:-1]* |  Selecciona los elementos desde el índice *m* hasta el último elemento del array. |
| *a[m:n:p]* |  Selecciona elementos del índice *m* hasta *n* con salto de valor *p*. |
| *a[::-1]* |  Selecciona todos los elementos del array en orden inverso al original. |


Veamoslo con ejemplos.

### 8.1. Selección en arrays-1D (vectores)

Nuestro array de trabajo en este apartado será

In [None]:
mi_array7 = np.array([1, 4, -3, 5, 9, 23, 7, 19, -1], dtype=int)
mi_array7

#### 8.1.1. Un valor entero

In [None]:
print('Posición 2 =', mi_array7[2])

In [None]:
print('Posición -3 =', mi_array7[-3])

#### 8.1.2. Un rango o intervalo de valores enteros

In [None]:
print('Rango [0:3] =', mi_array7[0:3])

In [None]:
print('Rango [:3] =', mi_array7[:3]) # el cero es el valor por defecto

In [None]:
print('Rango [3:] =', mi_array7[3:]) # desde el elemento de índice 3 hasta el final de array

In [None]:
print('Rango [3:-1] =', mi_array7[3:-1]) # desde el elemento de índice 3 hasta el último (que no se incluye) 

#### 8.1.3. Con conjunto de índices enteros cualesquiera

In [None]:
# elementos de índice no consecutivo u ordenado
print('Elementos de índices [0, -1, 2] = ', mi_array7[[0, -1, 2]]) # aquí sí selecciona el último elemento

In [None]:
print('Elementos de índices pares =', mi_array7[::2])

In [None]:
print('Invierto el array =', mi_array7[::-1])

### 8.2. Selección en arrays-2D (Matrices)

Nuestro array de trabajo en esta sección será

In [None]:
mi_array7 = np.arange(10, dtype=int).reshape((2, 5))
print('mi_array7 =', mi_array7, sep='\n')
print('Número de dimensiones =', mi_array7.ndim)

#### 8.2.1. Índices únicos enteros

Ahora tenemos dos dimensiones. Necesitamos un índice para cada dimensión.

En el caso de matrices 2D
* **el primer índice** corresponde a las **filas**, y 
* **el segundo** a las **columnas**.

In [None]:
# Valores numéricos
print(mi_array7[0, 1])

In [None]:
print(mi_array7[-1, 2])

#### 8.2.2. Rangos o intervalos de enteros en una o las dos dimensiones

In [None]:
print('mi_array7 =', mi_array7, sep='\n')
# rangos
print('rango seleccionado =', mi_array7[0:2, 1:4], sep='\n')

#### 8.2.3. Conjunto de índices cualesquiera en las dos dimensiones

In [None]:
# Elementos cualesquiera en las dimensiones
mi_array7 = np.arange(10, dtype=int).reshape((2, 5))
print('Array original =', mi_array7, sep='\n')

seleccion = mi_array7[[1, 0], [2, 3]]
print('selección =', seleccion)
print('Forma de la selección =', seleccion.shape)

**¿Le sorprende el resultado?** Piense que los números elegidos no son rangos, y que éstos se combinan de la siguiente forma: [1, 2] y [0, 3]

Suponga que quiere seleccionar todos los elementos de la fila 1 y 0, y los valores de las columnas que tienen por índices 2, 3 y 4. 

In [None]:
print('mi_array7')
print(mi_array7)
# Este código no funcionaría porque no puede combinar índices numéricos de filas y columnas por pares
# Elementos cualesquiera en las dimensiones
seleccion = mi_array7[[1, 0], [2, 3, 4]]
print(seleccion)
print(seleccion.shape)

**PREGUNTA:** ¿Qué está fallando en la anterior instrucción?

**PREGUNTA:** ¿Sería capaz de obtener los valores solicitados del array 2D?

#### 8.2.4. Mezcla de selectores en filas y columnas

Podemos mezclar algunas formas de seleccionar de las vistas anteriormente en filas y columnas.

Veamos algunos ejemplos.

In [None]:
print('mi_array7 =', mi_array7, sep='\n')

In [None]:
# elementos sueltos en filas y numérico entero en columnas
seleccion = mi_array7[[1,0], -1] 
print(seleccion)
print('Forma de la selección =', seleccion.shape)

In [None]:
# numerico en filas y rango en columnas
seleccion = mi_array7[0, 2:] 
print(seleccion)
print('Forma de la selección =', seleccion.shape)

In [None]:
# rango en filas e índices cualesquiera en columnas
seleccion = mi_array7[0:2, [1,3]] 
print(seleccion)
print('Forma de la selección =', seleccion.shape)

#### 8.2.5. Selección de filas completas

In [None]:
print('mi_array7 =', mi_array7, sep='\n')

In [None]:
mi_array7[1,:]

#### 8.2.6. Selección de columnas completas

In [None]:
mi_array7[:,2]

Vemos que podemos usar el caracter ':' para seleccionar todos los elementos de la dimensión en la que lo escribamos.

**Ejemplos de indexado para arrays 2D de NumPy**

![Indexado 2d NumPy](imagenes/numpy/numpy_indexing.png)

(Fuente: https://scipy-lectures.org/intro/numpy/array_object.html)

### 8.3. Arrays multidimensionales o hipermatrices

Por simplificar, vamos a trabajar con **hipermatrices 3D**. 

Para visualizar este objeto pensemos en **matrices 2D apiladas una encima de otras formando capas**, como si se tratara de las hojas cuadriculadas de un cuaderno. Los datos se superponen unos sobre otros de forma que cada hoja tiene la misma *shape*.

Los índices se ordenan de la siguiente forma:

In [None]:
mi_array7 = np.arange(40).reshape(2, 5, 4)
print(mi_array7)
print('Dimensiones de la hipermatriz = ', mi_array7.shape)

#### 8.3.1. Selección de un único elemento

In [None]:
# Selección de un único elemento
print(mi_array7[0, 2, 2])

#### 8.3.2. Selección por rangos

In [None]:
# Selección de un rango en filas y columnas para la primera capa
print(mi_array7[0, 1:4, 0:3])

In [None]:
# Selección de un rango en filas y columnas para todas las capas
print(mi_array7[:, 1:4, 0:3])

#### 8.3.3. Selección por posiciones cualesquiera

In [None]:
print("mi_array7 =", mi_array7, sep='\n')
# Selección de posiciones cualesquiera
print('posiciones seleccionadas =', mi_array7[[1,0], [0, 3], [0, 1]], sep='\n') # selección de los elementos [1, 0, 0] y [0, 3, 1]

## 9. Modificación de valores de un array

Basta con 
* **acceder** al elemento, rango o elementos cualesquiera que deseemos modificar **mediante el indexado** que ya conocemos, 
* **y sobreescribir** un nuevo valor o subarray.

Veamos algunos ejemplos.

In [None]:
mi_array7 = np.arange(12, dtype=float).reshape((4, 3))
print(mi_array7)

### 9.1. Cambio de un elemento

In [None]:
# cambio de un elemento
mi_array7[0, 0] = -2
print(mi_array7)

### 9.2. Cambio de un rango

In [None]:
# cambio de un rango: cambio por un valor atómico (escalar) compatible con el tipo del array original
print('Rango a cambiar =', mi_array7[0:2, 0:2], sep='\n')

mi_array7[0:2, 0:2] = np.inf # valor especial NumPy para 'infinito' (que se codifica como float)
print('Primer cambio en el rango =',  mi_array7, sep='\n')

In [None]:
# segundo cambio para un rango: cambio por un subarray con las dimensiones exactas del rango
mi_array7 = np.arange(12, dtype=float).reshape((4, 3))
print('Array original =',  mi_array7, sep='\n')

mi_array7[0:2, 0:2] = np.array([[-4, -3],[-2, -1]])
print('Segundo cambio en el rango =',  mi_array7, sep='\n')

In [None]:
# tercer cambio en un rango: broadcasting
mi_array7 = np.arange(12, dtype=float).reshape((4, 3))
print('Array original =',  mi_array7, sep='\n')

mi_array7[0:2, 0:2] = np.array([[-4, -3]])
print('Segundo cambio en el rango =',  mi_array7, sep='\n')

### 9.3. Cambio de coordenadas cualesquiera

Puedo asignar un valor fijo a todas las coordenadas mencionadas.

In [None]:
# Cambio de coordenadas cualesquiera
mi_array7 = np.arange(12, dtype=float).reshape((4, 3))
print('Array original =',  mi_array7, sep='\n')

mi_array7[[0, 2], [1, 2]] = np.nan # pongo a nan las coordenadas (0, 1) y (2, 2) del array
print('Cambio en coordenadas cualquiera =',  mi_array7, sep='\n')

O puedo personalizar los cambios para asignar los valores de otro array o lista a las coordenadas dadas en el array original.

In [None]:
mi_array7[[0, 2], [1, 2]] = [10, 30] # personalizo los cambios de las coordenadas (0, 1) y (2, 2) del array asignando los valores  [10, 30]
print('Cambio en coordenadas cualquiera =',  mi_array7, sep='\n')

## 10. Copia de arrays

Supongamos que tenemos un array como este

In [2]:
import numpy as np
original = np.arange(3)
print(original)

[0 1 2]


En la implementación de mi programa, necesito hacer una copia de este array.

In [None]:
copia = original
print(copia)

Ahora, realizo operaciones sobre mi copia del array.

In [None]:
copia[1] = -3
print(copia)

Operación realizada con éxito. ¡Soy un crack!

Vuelvo a mi array original para hacer otras operaciones que son independientes de las realizadas en la copia porque, al fin y al cabo, para eso hice una copia para preservar el original.

No obtengo lo resultados esperados. Me rompo la cabeza unas horas/días. Al final, imprimo mi array original justo después de haber hecho los cambio en la copia. ¿Qué encuentro?

In [None]:
print(original)

Pues me encuentro que **¡se ha cambiado el array original!**

Es un problema muy común en ciertos lenguajes de programación como Python y tiene que ver con los términos *variable*, *etiqueta*, *referencia*...

### 10.1. Copia por referencia o etiquetado en Python

En Python todo son objetos. Un objeto es un tipo de dato complejo que viene definido por una clase.

Cuando defino un objeto en un código y lo ejecuto con el intérprete de Python, éste reserva un espacio en la memoria RAM y usa el nombre que le he dado a variable como etiqueta (o referencia) a ese espacio de memoria RAM.

![referencia a variable en Python](imagenes/numpy/reference-in-python-variable.webp)

Fuente: https://www.codingem.com/python-variables/

Cuando uso el nombre de otra variable (*copia*) para referenciar a la primera (*original*), que apunta al espacio de memoria RAM que almacena el objeto (array [0 1 2]). 

![Dos referencias a una variable en Python](imagenes/numpy/two-references-to-an-object-in-python.webp)

Fuente: https://www.codingem.com/python-variables/

En esta operación, no hemos generado un espacio extra en la RAM para almacenar la copia del objeto original, sino que **¡tenemos dos variables que apuntan al mismo espacio de memoria!**

### 10.2. Copia de valores

La solución a este problema es crear una copia física del primer array. Eso se hace con el método **copy()**. Veamos este mismo ejemplo pero con una copia real.

In [None]:
mi_array7 = np.arange(3)
print('Array original =', mi_array7)

copia = mi_array7.copy()
copia[1] = -3
print('Copia del array =', copia)

# ¿Habrá cambiado el array original?
print('Array original =', mi_array7)

Existen **otras formas de obtener copias de un array**:
1. cuando genero el array a partir de funciones o métodos que generan copias del array original.
2. cuando realizo una operación aritmética.

En el primer caso, pondremos como ejemplo el método *reshape*.

In [None]:
copia = mi_array7.reshape((3, 1))
print('Copia del array =', copia, sep='\n')
print('Array original =', mi_array7)

Por ejemplo, cuando realizo un operación aritmética, el resultado es una copia física del resultado.

In [None]:
mi_array7 = np.arange(3)
print('Array original =', mi_array7)

copia = mi_array7 + 0 # con esta operación no estoy modificando los valores del array
copia[1] = -3
print('Copia del array =', copia)
print('Array original =', mi_array7)

También obtenermos copias del array (modificadas o no) cuando llamamos a una función o método de NumPy que devuelva una copia. Hemos estado usando muchas funciones de este tipo en este Notebook.

## 10. Operaciones aritméticas

Por establecer una **comparativa** de nuestro uso de Python antes de saber de NumPy, vamos a poner el caso de una suma a los elementos de una lista y cómo se realiza esta operación con un array de NumPy.

Por ejemplo, vamos a sumar un entero a todos los elementos de una lista (repetimos dentro de un bucle para evaluar su rendimiento):

In [3]:
%%time
for j in range(100000):
    resultado = []
    for e in range(1000):
        resultado.append(e + 1)

CPU times: total: 3.08 s
Wall time: 7.1 s


In [4]:
%%time
# Podemos usar la estructura más eficiente de Python para tratar con listas: las "listas por comprensión"
for j in range(10000):
    resultado = [e + 1 for e in range(1000)] # listas por comprensión de Python

CPU times: total: 109 ms
Wall time: 471 ms


Con NumPy, esta y todas las operaciones se simplifican y optimizan al extremo.

In [5]:
%%time
for j in range(100000):
    mi_array = np.arange(1000) 
    resultado = mi_array + 1

CPU times: total: 156 ms
Wall time: 336 ms


Además de la simplificación en la sintaxis, los resultados de los tests son indiscutibles: los arrays de NumPy son los más eficientes.

**Tabla de operadores aritméticos de NumPy**

Los operadores aritméticos son los mismos que en Python.

| Operación | Operador |
|:---------- | :--------: |
| Suma | + |
| Resta | - |
| Multiplicación | * |
| División | / |
| División entera | // |
| Potencia | ** |
| Módulo | % |

**El resultado** de la operación aritmética es **siempre otro array**. 

Estas operaciones se realizan **elemento a elemento**, es decir que aunque se opere con arrays 2D o 3D, el resultado no tiene nada que ver con el álgebra matricial (dimensiones de los operandos).

Se pueden realizar operaciones aritméticas entre arrays o entre arrays y valores atómicos de tipo simple (enteros, decimales, booleanos, cadenas de caracteres...). Hay que tener **precaución con la dimensión de ambos operadores**, ya que **deben ser compatibles**.

En función de las dimensiones de los operandos de una operación aritmética, NumPy **expande** (por repetición) **uno o ambos** de forma que **"genera" versiones de la misma forma** de ambos y opera elemento a elemento. Es lo que se conoce como ***Broadcasting***. Las reglas se detallan en la documentación, disponible en este enlace:
https://numpy.org/doc/stable/user/basics.broadcasting.html#broadcasting 

Las siguientes figuras muestran ejemplos de *broadcasting*.

![Broadcast posible en NumPy](imagenes/numpy/broadcasting_1.png)


![Broadcast posible en NumPy](imagenes/numpy/broadcasting_2.png)

![Broadcast imposible en NumPy](imagenes/numpy/broadcasting_3.png)


![Broadcast posible en NumPy](imagenes/numpy/broadcasting_4.png)

Fuente: https://numpy.org/doc/stable/user/basics.broadcasting.html

Vamos con nuestro array de ejemplo:

In [6]:
mi_array7 = np.array(range(1, 7)).reshape((2, 3))
print(mi_array7)
mi_array7.dtype

[[1 2 3]
 [4 5 6]]


dtype('int32')

In [8]:
operando2 = np.full(3, 2)
print('operando2 = ', operando2, sep='\n')

operando2 = 
[2 2 2]


In [9]:
operando3 = operando2.reshape([3, 1])
print('operando3 = ', operando3, sep='\n')
print('operando3.shape =', operando3.shape)
print('operando3.ndim =', operando3.ndim)

operando3 = 
[[2]
 [2]
 [2]]
operando3.shape = (3, 1)
operando3.ndim = 2


In [None]:
print('Suma: ', mi_array7 + mi_array7, sep='\n')

In [None]:
print('Resta: ', mi_array7 - operando2, sep='\n') # broadcasting

In [None]:
print('Multiplicación: ', mi_array7 * mi_array7, sep='\n') # broadcasting

In [7]:
print('División: ', mi_array7 / operando2, sep='\n')

NameError: name 'operando2' is not defined

In [None]:
print('División entera: ', mi_array7 // mi_array7, sep='\n')

In [10]:
print('División entera: ', mi_array7 // operando3, sep='\n') # broadcasting fallido

ValueError: operands could not be broadcast together with shapes (2,3) (3,1) 

In [11]:
print('División entera: ', mi_array7 // np.transpose(operando3), sep='\n') # broadcasting exitoso

División entera: 
[[0 1 1]
 [2 2 3]]


In [None]:
# el exponente puede ser cualquier número (1/2 es una raíz cuadrada)
print('Potencia: ', mi_array7 ** 2, sep='\n') # broadcasting

In [None]:
print('Módulo: ', mi_array7 % mi_array7, sep='\n') # resto de la división entera

In [None]:
print('Módulo: ', mi_array7 % 6, sep='\n') # broadcasting

Fíjese en el resultado. Sólo *escala* de tipo en aquellas operaciones que lo merecen. 

**Pregunta:** ¿Por qué cambia el tipo del resultado en la división?

In [None]:
6 / 2

Seguiremos trabajando con este array en los siguientes ejemplos.

In [None]:
print(mi_array7)

Operaciones permitidas serían

In [None]:
operando2 = np.ones(3)
mi_array7 + operando2

donde

In [None]:
print(operando2.shape)

**Pregunta:** ¿Por qué el resultado de esta suma es de tipo *float*?

## 11. Operaciones algebraicas (vectoriales) con arrays 2D

Hemos hablado de que las operaciones aritméticas entre arrays se realizan elemento a elemento siguiendo las reglas de *broadcasting*. Es por esto que ni siquiera las operaciones entre arrays 2D algebraicamente posibles (por ejemplo: *(N x M) * (M x R))* resultan en otro array de dimensiones regladas (*(N x R)*). 

La razón es que no representan una operación algebraica matricial, sino una operación **elemento a elemento**.

**Algunas operaciones matriciales en NumPy**

| Función | Declaración simplificada | Descripción |
| :--- | :--- | :--- |
| dot | *np.dot(array1, array2)* | Producto algebraico de dos arrays.  |
| inner | *np.inner(array1, array2)* |  Producto escalar de dos arrays que representan vectores.  |
| cross | *np.cross(array1, array2)* |  Producto vectorial de dos arrays. |
| outer | *np.outer(array1, array2)* |  Producto externo de dos arrays. |    
| tensordot | *np.tensordot(array1, array2, axes=2)* |  Producto realizado a lo largo de los ejes especificados de arrays multidimensionales.  |

In [None]:
# help(np.tensordot)

El auténtico **producto escalar** viene dado por el método *dot* de arrays. **Preste atención a estos detalles.**

In [12]:
print('mi_array7.shape =', mi_array7.shape)
print('operando2.shape =', operando2.shape)
res = np.dot(mi_array7, operando2)
print('res.shape =', res.shape)
print('res = ', res, sep='\n')

mi_array7.shape = (2, 3)
operando2.shape = (3,)
res.shape = (2,)
res = 
[12 30]


Y el **producto vectorial** se genera a través de la función *np.cross*, en la forma:

In [13]:
a1 = np.array([1, 0, 0], dtype=int)
b1 = np.array([0, 1, 0], dtype=int)
print(np.cross(a1, b1))

[0 0 1]


A modo de recordatorio, por si lo necesita, se adjunta un enlace a la Wikipedia con información sobre el producto vectorial: https://es.wikipedia.org/wiki/Producto_vectorial

## 12. Funciones matemáticas

Además de operadores aritméticos, NumPy proporcina funciones vectorizadas que evalúan múltiples funciones matemáticas y operaciones.

Cada una de ellas recibe como parámetro un array y devuelve otro con la misma forma (*shape*). Operan elemento a elemento y el array de salida no tiene por qué ser del mismo tipo que el de la entrada.

La siguiente tabla muestra un resumen de estas funciones:

| Función | Declaración resumida | Descripción|
| :--- | :---  | :--- |
| cos, sin, tan | *np.cos(a)*, *np.sin(a)*, *np.tan(a)* | Funciones trigonométricas. El array de entrada está en radianes. |
| arccos, arcsin, arctan | *np.arccos(a)*, *np.arcsin(a)*, *np.arctan(a)* | Funciones trigonométricas inversas. |
| cosh, sinh, tanh | *np.cosh(a)*, *np.sinh(a)*, *np.tanh(a)* | Funciones trigonométricas hiperbólicas. |
| arccosh, arcsinh, arctanh | *np.arccosh(a)*, *np.arcsinh(a)*, *np.arctanh(a)* | Funciones trigonométricas hiperbólicas inversas. |
| sqrt | *np.sqrt(a)* | Raíz cuadrada. |
| exp | *np.exp(a)* | Función exponencial. |
| log, log2, log10 | *np.log(a)*, *np.log2(a)*, *np.log10(a)* | Logaritmo en base $e$, 2 y 10, respectivamente. |

In [None]:
# help(np.exp)

Igualmente, NumPy proporciona funciones para alguna operaciones matemáticas. La siguiente tabla muestra un resumen.

| Función | Declaración resumida | Descripción|
| :--- | :---  | :--- |
| add, substract  | *np.add(a, b)*, *np.substract(a, b)*  | Suma y resta de dos arrays de NumPy.  |
| multiply, divide  | *np.multiply(a, b)*, *np.divide(a, b)*   | Multiplicación y división de dos arrays de NumPy.  |
| power |  *np.power(a, b)*  | Eleva cada elemento del primer array (*a*) a la potencia dada por el segundo (*b*).  |
| remainder |  *np.remainder(a, b)*  | Devuelve el resto de la división entera del primer array entre el segundo.  |
| reciprocal  | *np.reciprocal(a)*   | Devuelve el inverso ($1/a$) de cada elemento del array de entrada.  |
| real, imag, conj  |  *np.real(a)*, *np.imag(a)*, *np.conj(a)*  | Devuelve la parte real, la parte imaginaria y el complejo conjugado de cada elemento del array de entrada.  |
| sign, abs  |  *np.sign(a)*, *np.abs(a)*  | Devuelve el signo y el valor absoluto de cada elemento del array de entrada.  |
| floor, ceil, rint  |  *np.floor(a)*, *np.ceil(a)*, *np.rint(a)* | Devuelven valores enteros: el valor inmediatamente más pequeño (*floor*), el valor inmediatamente superior (*ceil*) y el redondeo al entero más próximo por arriba o por debajo (*rint*).  |
| round  |  *np.round(a, decimals=0)   | Redondea cada elemento del array a un número con *decimal* decimales.  |

Algunas de estas funciones realizan las mismas operaciones que los operadores aritméticos ya vistos. Entonces, ¿para qué molestarse en implementar esta duplicidad? Pues porque las funciones son parametrizables y su comportamiento es más complejo y adaptable que el de esos operadores.

In [None]:
# help(np.round)

Y, finalmente, algunas constantes universales e uso en matemáticas

| Constante | Declaración | Descripción|
| :--- | :---  | :--- |
| e | *np.e* | Constante de Euler. |
| euler_gamma  | *np.euler_gamma*  |  Constante $\gamma$ de Euler.|
| pi  | *np.pi*  | Constante $\pi$.|

In [None]:
a = np.array([1 + 2j, -1 + 0.5j, 5j])
print(a.dtype)
a

In [None]:
# Parte real de los elementos de un array
np.real(a)

In [None]:
# Parte imaginaria de los elementos de un array
np.imag(a) 

In [None]:
# Complejo conjugado de un array de números complejos
np.conj(a)

In [None]:
# Signo de un array (>0 => 1,  <0 => -1 y ==0 => 0)
np.sign(np.real(a))

In [None]:
b = np.arange(1, 4)
b

In [None]:
# Potencia de un array
np.power(b, 2)

In [None]:
c = np.array([1.336, -1.954, 0.404, 2.000, 3.133])
c

In [None]:
# valor absoluto
np.abs(c)

In [None]:
# redondeo a 2 decimales
np.round(c, 2)

In [None]:
# redondeo al mayor entero más cercano
np.ceil(c)

In [None]:
# suma de arrays haciendo uso de np.add y sumando sólo las posiciones pares
resu = np.zeros(5)
resu

In [None]:
posiciones_pares = np.arange(c.size) % 2 == 0
np.add(c, 3, out=resu, where=posiciones_pares)
print('resu después de operar = ', resu, sep='\n')

In [None]:
# help(np.add)

# 13. Operaciones de conjuntos 

Un conjunto es una estructura que existe en Python bajo el nombre de *set*. Se encarga de gestionar colecciones no ordenadas de objetos únicos. Implementa operaciones como 
* la unión, 
* la intersección, 
* la diferencia,
* la inclusión...

de conjuntos.

NumPy implementa operaciones similares de forma que podemos saber si un array está incluido en otro, obtener todos los elementos que son únicos o establecer qué valores e un array no están en otro, por ejemplo.

La siguiente tabla muestra estas funciones. 

| Función | Declaración simplificada | Descripción |
| :---- | :---- | :---- |
| unique  | *np.unique(a)*    |  Devuelve un array con los valores únicos del array.   |
| in1d   | *np.in1d(a, b)*    |  Comprueba la existencia de los elementos de un array (*a*) en otro (*b*) (contenido). Devuelve un array 1D con el mismo número de elementos que *a*.  |
| intersect1d   | *np.intersect1d(a, b)*    |  Devuelve un array con los valores de un array que están en el otro (intersección).   |
| setdiff1d   | *np.setdiff1d(a, b)*    |  Devuelve los valores del array *a* que no están en el array *b*.   |
| union1d   | *np.union1d(a, b)*    |  Devuelve los elementos que están contenidos en los dos arrays o en uno de ellos (unión).   |

In [None]:
# help(np.in1d)

In [14]:
a = np.array([1, 2, 1, 0, 2, 3, 5, 4, 4])
a

array([1, 2, 1, 0, 2, 3, 5, 4, 4])

In [15]:
b = np.arange(3)
b

array([0, 1, 2])

In [None]:
c = np.array([[-1, 0], [0, 3]])
c

In [None]:
# Unicidad o elementos únicos
np.unique(c) # en un array de cualquier dimensión

In [None]:
# Pertenencia
np.in1d(a, c)

In [None]:
np.in1d(c, a)

In [17]:
# caso interesante de pertenencia
print('b incluido en a =', np.all(np.in1d(b, a))) # np.all(a) devuelve True si todos los elementos de "a" son True
print('Algunos elementos de b están en a =', np.any(np.in1d(b, a))) # np.any(a) develve True si alguno de los elementos de "a" es True

b incluido en a = True
Algunos elementos de b están en a = True


In [18]:
# Intersección
np.intersect1d(a, b)

array([0, 1, 2])

In [19]:
# Diferencia
np.setdiff1d(a, b)

array([3, 4, 5])

In [20]:
# Unión
np.union1d(a, b)

array([0, 1, 2, 3, 4, 5])

In [21]:
np.unique(a)

array([0, 1, 2, 3, 4, 5])

Como se ve en los resultados, **el resultado de una operación de conjuntos entre dos arrays devuelve valores únicos** de uno, otro o los dos conjuntos dependiendo de la operación realizada.

## 14. Operaciones de comparación (relacionales)

Son los mismos que maneja Python.

Estas operaciones se realizan **elemento a elemento**, de forma que ambos arrays que se comparar deben ser compatibles según las reglas de *broadcasting* de NumPy.

**Devuelven un array de tipo booleano** (con *True's* o *False's*) en función del resultado de la comparación entre cada elemento de un array y el otro. En general, las dimensiones de este array de resultados será el mismo que los arrays de entrada aunque como se ha comentado habrá que tener en cuenta el *broadcasting*.

| Operación | Operador | Función de NumPy | Descripción|
|:---------- | :--------: | :---- | :---|
| Igual a | == | *np.equal(array1, array2)* | *True* en caso que el elemento de *array1* sea igual al de *array2*. *False* en caso contrario.|
| Diferente a | != | *np.not_equal(array1, array2)* | *False* en caso que el elemento de *array1* sea igual al de *array2*. *True* en caso contrario.| 
| Mayor que | > | *np.greater(array1, array2)* | *True* en caso que el elemento de *array1* sea estrictamente mayor al de *array2*. *False* en caso contrario.| 
| Mayor o igual que | >= | *np.greater_equal(array1, array2)* | *True* en caso que el elemento de *array1* sea mayor o igual al de *array2*. *False* en caso contrario.| 
| Menor | < | *np.less(array1, array2)* | *True* en caso que el elemento de *array1* sea estrictamente menor al de *array2*. *False* en caso contrario.| 
| Menor o igual que | <= | *np.less_equal(array1, array2)* | *True* en caso que el elemento de *array1* sea menor o igual al de *array2*. *False* en caso contrario.| 

El resultado de una comparación con arrays de NumPy es otro array. La dimensión y forma del array booleano dependen de los arrays que se comparan.

Se pueden comparar 
* arrays con arrays, y
* arrays con valores atómicos de tipo simple (enteros, decimales, booleanos, cadenas de caracteres...).

Ha que tener precaución con la dimensión de ambos operadores, que deben ser compatibles. Aquí se aplican de nuevo las reglas de *broadcasting*.

Veamos algunos ejemplos:

In [22]:
mi_array8 = np.arange(8).reshape((4,2))
print(mi_array8)

[[0 1]
 [2 3]
 [4 5]
 [6 7]]


In [23]:
mi_array8 % 2 == 0 # buscamos los números ?????

array([[ True, False],
       [ True, False],
       [ True, False],
       [ True, False]])

Podemos realizar esta misma comparación usando la función de NumPy equivalente al operador.

In [25]:
np.equal(mi_array8 % 2, 0)

array([[ True, False],
       [ True, False],
       [ True, False],
       [ True, False]])

In [24]:
mi_array8 >= 4

array([[False, False],
       [False, False],
       [ True,  True],
       [ True,  True]])

Y, para terminar esta sección, unas comparativas entre arrays de NumPy.

In [26]:
mi_otro_array = np.array([[3, -1], [2, 3], [6, 4], [3, 3]])
print(mi_otro_array)

[[ 3 -1]
 [ 2  3]
 [ 6  4]
 [ 3  3]]


In [27]:
comparacion = np.greater_equal(mi_array8, mi_otro_array)
print(comparacion)
print('comparacion.shape = ', comparacion.shape)

[[False  True]
 [ True  True]
 [False  True]
 [ True  True]]
comparacion.shape =  (4, 2)


**Pregunta:** ¿Podría comparar mi_array8 con un array de dimensión (2x2)?

In [28]:
# recordatorio
print(mi_array8)

[[0 1]
 [2 3]
 [4 5]
 [6 7]]


In [29]:
array2x2 = np.arange(4).reshape((2,2))
print(array2x2)
print('array2x2.shape =', array2x2.shape)

[[0 1]
 [2 3]]
array2x2.shape = (2, 2)


In [30]:
comparacion = np.not_equal(mi_array8, array2x2)
# print(comparacion)

ValueError: operands could not be broadcast together with shapes (4,2) (2,2) 

**Pregunta 2:** ¿Podría comparar mi_array8 con un array de dimensión (4x1)?

In [None]:
# recordatorio
print(mi_array8)

In [31]:
array4x1 = np.arange(4).reshape((4,1))
print(array4x1)
print('array2x1.shape =', array4x1.shape)

[[0]
 [1]
 [2]
 [3]]
array2x1.shape = (4, 1)


In [33]:
comparacion = np.not_equal(mi_array8, array4x1)
print(comparacion) #en arrays con 1 dim , o dos dim pero una es de 1 y la otra es compatible, si se puede hacer broadcast

[[False  True]
 [ True  True]
 [ True  True]
 [ True  True]]


De nuevo, atención a las reglas de expansión de arrays en NumPy (*broadcasting*).

## 15. Operaciones lógicas con NumPy

Permiten **combinar el resultado de dos operaciones de relacionales (de comparación)**. Recordemos que el resultado de una operación de comparación es un array de tipo booleano (*True's* o *False's*).

Las posibles operaciones lógicas se resumen en la siguiente tabla:

| Función | Operador asociado | Definición simplificada | Descripción | 
| :-- | :--: | :-- | :-- |
| logical_and | & | *np.logical_and(x1, x2)* | Realiza la operación lógica *AND*. True si ambos operadores son True. False en caso contrario. |
| logical_or | \| | *np.logical_or(x1, x2)* | Realiza la operación lógica *OR*. True si uno o ambos operadores son True. False si ambos son False. |
| logical_xor |  | *np.logical_xor(x1, x2)* | Realiza la operación lógica *XOR*. True si ambos operadores son diferentes. False si ambos son iguales. |
| logical_not | ! | *np.logical_not(x1)* | Realiza la operación lógica *NOT*. Sólo tiene un argumento (**operador unario**). Cambia True a False y False a True. |

Rigen las normas de *broadcasting* vistas anteriormente.

Veamos algunos ejemplos:

In [38]:
mi_array9 = np.arange(6)
mi_array9.resize((2, 3))
print(mi_array9)

[[0 1 2]
 [3 4 5]]


In [39]:
pares = mi_array9 % 2 == 0
pares

array([[ True, False,  True],
       [False,  True, False]])

In [None]:
np.logical_not(pares) # esta operación me da los elementos impares.

In [None]:
np.logical_and(pares, True) # Esta operación no cambia nada.

In [41]:
np.logical_or(pares, True) # esta operación devuelve siempre True.

array([[ True,  True,  True],
       [ True,  True,  True]])

In [40]:
np.logical_xor(pares, True) # esta operación también me proporciona los elementos impares

array([[False,  True, False],
       [ True, False,  True]])

Otras funciones lógicas en NumPy: https://numpy.org/doc/stable/reference/routines.logic.html

## 16. Filtrado de elementos por valor

En muchas ocasiones nos interesa recuperar los **elementos** de un array **que verifiquen cierta condición en cuanto a sus valores**. Para realizar este tipo de selección por valor usaremos los operadores y funciones de comparación y, cuando la condición sea más compleja, operadores y funciones lógicas.

En el fondo, este tipo de filtrado no deja de ser otra forma de selección de elementos de un array ligeramente diferente. En lo visto hasta ahora usábamos los índices de los ejes de los arrays para seleccionar su elementos. Ahora tenemos en cuenta su valor y **usaremos operaciones relacionales y lógicas** para extraer los que interesen.

In [42]:
# empezamos con este array
mi_array10 = np.arange(10, dtype=float)
mi_array10.resize((5, 2))
print(mi_array10)

[[0. 1.]
 [2. 3.]
 [4. 5.]
 [6. 7.]
 [8. 9.]]


In [43]:
# selecciono los elementos mayores o iguales que 3
condicion = mi_array10 >= 3 # operación relacional
print(condicion)

[[False False]
 [False  True]
 [ True  True]
 [ True  True]
 [ True  True]]


In [44]:
# Como último paso, filtro mi array original para obtener aquellos valores mayores que 3
seleccion = mi_array10[condicion]
print(seleccion)

[3. 4. 5. 6. 7. 8. 9.]


Como vemos, el resultado es correcto, pero **hemos perdido la "forma" del array original**. Esto tiene sentido, a menos que decidamos que queremos una copia de nuestro array original que mantenga esa "forma". Pero en ese caso, deberíamos asignar un valor especial a esas posiciones que no cumplan nuestra condición y no estaríamos filtrando, sino asignando.

**PREGUNTA:** ¿Cómo cambiaríamos esos valores que no cumplen la condición por otros? Dado nuestro ejemplo, pondremos los valores no deseados a *np.nan*.

In [45]:
mi_array10[np.logical_not(condicion)] = np.nan
print(mi_array10)

[[nan nan]
 [nan  3.]
 [ 4.  5.]
 [ 6.  7.]
 [ 8.  9.]]


## 17. Funciones de búsqueda y selección en NumPy

Son funciones que toman un array como parámetro y devuelven otro en función de una condición establecida en la propia función o pasada como parámetro.

A continuación, se resume una tabla con las más utilizadas:

| Función/Método | Definición simplificada | Descripción|
| :-- | :-- | :-- |
| argwhere| *np.argwhere(array)* | Devuelve en forma de un único array los índices de las posiciones del array que contienen valores distintos de cero. |
| nonzero | *np.nonzero(array)* | Devuelve en forma de tupla de arrays (X, Y) las posiciones de los los elementos del array que contienen valores distintos de cero. |
| flatnonzero | *np.flatnonzero(array)* | Funciona como *np.nonzero*, pero devuelve el array de valores en 1D.|
| where | *np.where(condicion, x, y)* | Devuelve los elementos de *x* si se cumple la condición) o *y* en caso contrario|
| searchsorted | *np.searchsorted(array, v)* | Devuelve los índices de los elementos *v* en *array* de forma que al insertarlos en esas posiciones *array* esté ordenado.|
| extract | *np.extract(condicion, array)* | Devuelve los elementos del *array* que cumplen la condición. Es una versión simplificada de *where*^. |


Consulte la documentación oficial de NumPy en este enlace: https://numpy.org/devdocs/reference/routines.sort.html#sorting

También puede usar la función *help()* de Python.

Veamos estas funciones en acción.

In [46]:
un_array = np.array([[8.0, -3.9, 7.0], [0.0, 12.0, 39]])
un_array

array([[ 8. , -3.9,  7. ],
       [ 0. , 12. , 39. ]])

In [47]:
np.argwhere(un_array)

array([[0, 0],
       [0, 1],
       [0, 2],
       [1, 1],
       [1, 2]], dtype=int64)

In [None]:
# Posiciones de valores no nulos en el array
np.nonzero(un_array)

In [None]:
# otra forma de interpretar el resultado anterior
index_fila, index_columna = np.nonzero(un_array)
print(f'Índices de filas con valores no nulos = {index_fila}')
print(f'Índices de columnas con valores no nulos = {index_columna}')

Otras funciones en acción...

In [48]:
otro_array = np.arange(12).reshape((4, 3))
print('otro_array =', otro_array, sep='\n')

otro_array =
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [49]:
# mantenemos la dimensionalidad con np.where
condicion1 = np.greater(otro_array, 0)
print('condicion1 =', condicion1, sep='\n')

condicion1 =
[[False  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]]


In [50]:
condicion2 = np.less(otro_array, 10)
print('condicion2 =', condicion2, sep='\n')

condicion2 =
[[ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True False False]]


In [51]:
condicion_final = np.logical_and(condicion1, condicion2)
print('condicion_final =', condicion_final, sep='\n')

condicion_final =
[[False  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True False False]]


In [52]:
# Aplico la función where
print('Resultado where con condición compleja =', np.where(condicion_final, otro_array, np.nan), sep='\n')      

Resultado where con condición compleja =
[[nan  1.  2.]
 [ 3.  4.  5.]
 [ 6.  7.  8.]
 [ 9. nan nan]]


In [53]:
# Podemos generar nuevos arrays en función de condiciones dadas
print('Otro uso de where = ', np.where([[True, False], [True, True]], [[1, 2], [3, 4]], [[9, 8], [7, 6]]), sep='\n')
# primero esta la condicion con un arary de bool. Si se cumple pon el elemento del primer array de nums, si no pon el otro

Otro uso de where = 
[[1 8]
 [3 4]]


In [54]:
# searchsorted
otro_array = np.array([1, 3, 5, 9])
otro_array_mas = np.array([9, 1, 6, 2])
#  devuelve los indices donde tendria que insertar el otro array para que en conjunto quedaran ordenados. Devuekve indices ordenados
indices_ordenados = np.searchsorted(otro_array, otro_array_mas)

print(indices_ordenados)

[3 0 3 1]


In [55]:
# extract
mi_array11 = np.arange(12).reshape((4, 3))
print('Array original =', mi_array11, sep='\n')

Array original =
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [56]:
# mantenemos la dimensionalidad con np.where
condicion1 = np.greater(mi_array11, 0)
print('condicion1 =', condicion1, sep='\n')

condicion1 =
[[False  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]]


In [57]:
condicion2 = np.less(mi_array11, 10)
print('condicion2 =', condicion2, sep='\n')


condicion2 =
[[ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True False False]]


In [58]:
condicion_final = np.logical_and(condicion1, condicion2)
print('condicion_final =', condicion_final, sep='\n')

condicion_final =
[[False  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True False False]]


In [59]:
# Aplico la función extract
res = np.extract(condicion_final, mi_array11)
print('Resultado extract con condición compleja =', res, sep='\n')
print(f'Dimensiones del resultado = {res.shape}')

Resultado extract con condición compleja =
[1 2 3 4 5 6 7 8 9]
Dimensiones del resultado = (9,)


Con toda lógica, aplicar un método que elimina los valores que definen la dimensionalidad de un array implica que dará por resultado un array 1D.

**NOTA IMPORTANTE:** Podemos obtener un array de booleanos a partir de los valores de un array y aplicarlo a cualquier otro, siempre y cuando tengas las mismas dimensiones.

In [None]:
print('condicion_final.shape =', condicion_final.shape)

In [None]:
tercer_array = np.arange(12, dtype=float).reshape(condicion_final.shape)
print('tercer_array =', tercer_array, sep='\n')

In [None]:
np.extract(condicion_final, tercer_array) # aplico la condición generada a partir de los valores de otro array

## 18. Ordenación de un array

No es extraño querer ordenar los elementos de una lista o un array. Hay varias porsibilidades en NumPy. Para hacerlo sencillo, sólo consideraremos dos de ellas:

| Función/Método | Definición simplificada | Descripción|
| :-- | :-- | :-- |
| argsort | *argsort(array)* | Devuelve un array con los índices que ordenan el array de menor a mayor.|
| sort | *sort(array)* | Devuelve una copia ordenada de menor a mayor. |


In [60]:
mi_array12 = np.array([2, 4, 3, 1])
mi_array12

array([2, 4, 3, 1])

In [61]:
indices_ordenados = np.argsort(mi_array12) # estoy usando una selección a partir de un array de posiciones cualesquiera
print('Índices ordenados = ', indices_ordenados)

Índices ordenados =  [3 0 2 1]


In [62]:
array_ordenado = mi_array12[indices_ordenados]
print('Array ordenado usando los índices =', array_ordenado)

Array ordenado usando los índices = [1 2 3 4]


In [63]:
print('Array original =', mi_array12)

Array original = [2 4 3 1]


In [65]:
# Ahora ordeno mediante la función
ordenado2 = np.sort(mi_array12)
print('Array ordenado usando "np.sort" =', ordenado2)
print('Array original =', mi_array12)

Array ordenado usando "np.sort" = [1 2 3 4]
Array original = [2 4 3 1]


También trabajar con arrays 2D para ordenar las filas o las columnas.

Consulte la documentación oficial de NumPy. La forma rápida de hacerlo es a través de la función *help()* de Python.

In [None]:
# help(np.sort)

## 19. Identificación de valores perdidos en un array y otros valores especiales

En cualquier circunstancia nos vamos a encontrar con datos con algunos de los valores perdidos. Porque se ha interrumpido la alimentación del sensor, porque se ha roto, porque el operario no apuntó la medida, porque no se tiene constancia de esa medición, porque hemos realizado alguna operación dudosa...

El conjunto completo de datos se mostrará en una tabla o array que contendrá esas medidas y otras. Pueden estar unas más completas que otras y, en esas circunstancias, hay que reflejar la falta de datos con valores perdidos.

Esta circunstancia es un fastidio puesto que los valores perdidos distorsionan cuando menos nuestras estadísticas. Se hace necesario preprocesar los datos para identificar esos valores perdidos y obviarlos o sustituirlos a fin de procesar el conjunto de forma satisfactoria.

![Missing values en tabla Excel](./imagenes/numpy/valores_perdidos.png)

(Fuente: https://learn.microsoft.com/en-us/power-query/fill-values-column)

### 19.1. NaN (Not a Number)

Podemos intentar localizar valores nulos con las herramientas que ya conocemos para otros tipos de datos.

El primer ensayo podría ser algo así.

In [66]:
# testeo de elementos nulos
mi_nan = np.nan
mi_nan == np.nan # esta comparación no sirve

False

Vemos que no ha resultado satisfactorio este intento. ¿Cómo identificamos entonces si un valor almacenado en una variable es de tipo *np.nan*?

In [67]:
mi_nan is np.nan # esta es la forma preguntar por valores nulos

True

Y generalizando ahora a arrays de NumPy, ¿cómo buscamos valores *np.nan* en un array?

In [68]:
mi_array13 = np.array([np.nan, 2, 3, 4, np.nan, 5, 6])
mi_array13

array([nan,  2.,  3.,  4., nan,  5.,  6.])

In [69]:
# preguntamos por valores np.nan en el array
mi_array13 is np.nan

False

Esa forma no funciona, porque **no está consultando elemento por elemento** del array, sino al propio objeto array.

Como ya sabemos, siempre cabe la posibilidad de encontrar valores perdidos en una serie de datos. Bien porque no se haya capturado esa información por fallo experimental o porque el resultado de una operación produzca valores indeterminados, hay estarán.

NumPy está muy bien preparado para tratar con ese tipo de valores. Pone a nuestra disposición funciones y métodos que nos permiten procesarlos o eliminarlos. En el caso de valores *np.nan* sería

| Función | Definición simplificada | Descripción |
| :--- | :--- | :--- |
| isnan | *np.isnan(array)* | Devuelve un array con *True* para las posiciones en las que el valor es *np.nan* y *False* en caso contrario.|

que se usa en la forma que se muestra a continuación

In [70]:
mi_array13 = np.arange(4, dtype=float).reshape((2, 2))
mi_array13[0, 1] = np.nan
print(mi_array13)

[[ 0. nan]
 [ 2.  3.]]


In [71]:
np.isnan(mi_array13)

array([[False,  True],
       [False, False]])

Ahora si, podemos usar el array de booleanos devuelto para cambiar todos los *np.nan* por otro valor o simplemente eliminarlos.

### 19.2. Otros valores especiales

*np.nan* no es el único valor especial que NumPy es capaz de gestionar. Otro ejemplo es $\infty$, tanto en su versión positiva como negativa. 

A continuación, se muestra una tabla con las funciones de NumPy que permiten su localización y procesamiento. Cada una de ellas retorna un array booleano de las mismas dimensiones que el array que se evalúa.


| Función | Definición simplificada | Descripción |
| :--- | :--- | :--- |
| isinf | *np.isinf()* | Devuelve un array con *True* para las posiciones en las que el valor es *+np.inf* o *-np.inf*. *False* en caso contrario.|
| isneginf | *np.isneginf(array)* | Devuelve un array con *True* para las posiciones en las que el valor es *-np.inf*. *False* en caso contrario.|
| isposinf | *np.isposinf(array)* | Devuelve un array con *True* para las posiciones en las que el valor es *+np.inf*, y *False* en caso contrario.|
| isfinite | *np.isfinite(array)* | Devuelve un array con *True* para las posiciones en las que el valor es distinto de *np.nan*, *+np.inf* o *-np.inf*, y *False* en caso contrario.|

Veamos ejemplos, que siempre aclaran acerca del uso.

In [72]:
mi_array13 = np.array([0, np.nan, -4, -np.inf, np.nan, np.inf, 22])
mi_array13

array([  0.,  nan,  -4., -inf,  nan,  inf,  22.])

In [None]:
np.isinf(mi_array13)

In [None]:
np.isneginf(mi_array13)

In [None]:
np.isposinf(mi_array13)

y, por último, la que puede resultar dudosa al respecto de qué valores considera finitos.

In [73]:
np.isfinite(mi_array13)

array([ True, False,  True, False, False, False,  True])

Como dice la descripción de la función, los *np.nan* no son valores finitos.

## 20. Persistencia de arrays (en ficheros)

El término persistencia se refiere a la **posibilidad de almacenar y recuperar** información en un fichero.

En el caso de NumPy, estas operaciones se realizan de forma extremadamente simples. Dispone de funciones con un formato propio, rápidas y eficientes, para escribir y leer arrays de/en ficheros. Pero, dado que lo que buscamos es que nuestra información sea compatible con el máximo número de aplicaciones de escritorio, usaremos **formatos estándar**.

| Función/Método | Definición simplificada | Descripción|
| :-- | :-- | :-- |
| loadtxt | *np.loadtxt(ruta_fichero)* | Carga datos desde un fichero de texto dado por *ruta_fichero*.|
| savetxt | *np.savetxt(ruta_fichero, array)* | Guarda el array en un fichero de texto dado por *ruta_fichero*. El *array* será 1D o 2D. |
| genfromtxt | *np.genfromtxt(ruta_fichero)* |  Es la versión de *loadtxt* que permite especificar parámetros concretos del fichero de texto. |
| tolist | array.tolist() | Como curiosidad: todo array de NumPy puede transformarse en una lista usando este método. |

In [74]:
mi_array14 = np.arange(20, dtype=int).reshape(4, 5)
mi_array14

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

Supongamos que queremos almacenar este array porque corresponde a un resultado que cargaremos en otra aplicación. Se hace de asi:

In [75]:
np.savetxt('mi_array14.txt', mi_array14)

Ahora leemos es fichero tal y como está escrito:

In [76]:
with open('mi_array14.txt') as entrada:
    print(entrada.read())

0.000000000000000000e+00 1.000000000000000000e+00 2.000000000000000000e+00 3.000000000000000000e+00 4.000000000000000000e+00
5.000000000000000000e+00 6.000000000000000000e+00 7.000000000000000000e+00 8.000000000000000000e+00 9.000000000000000000e+00
1.000000000000000000e+01 1.100000000000000000e+01 1.200000000000000000e+01 1.300000000000000000e+01 1.400000000000000000e+01
1.500000000000000000e+01 1.600000000000000000e+01 1.700000000000000000e+01 1.800000000000000000e+01 1.900000000000000000e+01



Finalmente, lo cargamos dentro de un array de nombre diferente en nuestro programa para verificar la correcta recuperación.

In [77]:
array_recuperado = np.loadtxt('mi_array14.txt')
array_recuperado

array([[ 0.,  1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.,  9.],
       [10., 11., 12., 13., 14.],
       [15., 16., 17., 18., 19.]])

Vemos que, por la forma en la que almacena los datos cuando se usa la función *np.savetxt* con los valores de los argumentos por defecto, lo que se recupera es de tipo *float*. Los valores de los elementos y la dimensión del array se mantienen en la recuperación.

Para nosotros no supone gran problema, puesto que ya sabemos cambiar el tipo de dato de un array.

In [78]:
array_recuperado = array_recuperado.astype('int')
print(array_recuperado)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]


**Vuelta de tuerca:** La forma por defecto en la que *savetxt* almacena un array es en formato de datos decimales. Como me parece poco eficiente a nivel de espacio ocupado por el fichero de texto, vamos a intentarlo usando los parámetros opcionales de la función *savetxt*.

Se recomienda consultar la documentación de la función.

In [None]:
# help(np.savetxt)

Ahora, modifico parámetro de formato para que almacene el valor como entero y separador de campos para que sea un carácter ',' el que deilimte un campo de otro.

In [79]:
np.savetxt('mi_array14.csv', mi_array14, fmt='%d', delimiter=',') # modifico parámetro de formato y separador de campos

Con estos simples cambios acabo de generar un precioso fichero de texto en formato CSV, que puede ser importado sin problema por multitud de aplicaciones de escritorio en varios sistemas operativos (Windows, Linux, Mac).

In [80]:
# Lectura del fichero en bruto
with open('mi_array14.csv') as entrada:
    print(entrada.read())

0,1,2,3,4
5,6,7,8,9
10,11,12,13,14
15,16,17,18,19



Intento recuperarlo con la función *np.loadtxt*.

In [81]:
array_recuperado = np.loadtxt('mi_array14.csv')
array_recuperado

ValueError: could not convert string '0,1,2,3,4' to float64 at row 0, column 1.

No se ha podido recuperar el fichero. Es probable que algo en la forma en la que se guardó en el fichero no sea interpretable adecuadamente por la función *np.loadtxt*. 

Se recomienda leer la documentación.

In [None]:
# help(np.loadtxt)

Si quiero recuperarlo con la función *np.loadtxt*, tengo que retocar los parámetros opcionales para que coincidan con el formato en el que se escribieron. (También podría usar la función *np.genfromtxt* que es mucho más parametrizable.)

In [82]:
# segundo intento de lectura del fichero
array_recuperado = np.loadtxt('mi_array14.csv', dtype='int', delimiter=',')
array_recuperado

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

¡Perfecto! He recuperado mi array original.

### 20.1. Función de lectura todoterreno

Si el fichero de texto que queremos leer tiene un formato que supera todas las posibilidades de lectura tenidas en cuenta a través de los parámetros de *loadtxt* y, además, contiene o puede contener valores perdidos (*missing values*), disponemos de otra función más generalista y parametrizable llamada *genfromtxt*.

Esta función genera un array como salida.

Una explicación más detallada de los parámetros se encuentra en la siguiente tabla:

| Parámetro | Tipo | Descripción|
| :--- | :---- | :---- |
| fname | cadena de caracteres | Ruta en disco al fichero de texto que se quiere leer.|
| dtype | número decimal | Tipo de datos a leer. Si se da el valor None, la función elige el tipo que mejor se ajuste a cada columna.|
| comments | cadena de caracteres | Carácter usado como comentario. Todo lo que venga detrás en la línea del fichero se ignora.|
| delimiter | cadena de caracteres | Cadena usada para separar campos |
| skip_header | entero | Número de líneas a ignorar al principio del fichero. |
| skip_footer | entero | Número de líneas a ignorar al final del fichero.|
| missing_values| lista o tupla <br />(cadena de caracteres) | Conjunto de cadenas que corresponden a valores perdidos. |
| filling_values | lista o tupla <br />(cadena de caracteres) | Conjunto de valores usados para sustituir a los valores perdidos. |
| usecols | lista o tupla (entero) | Indices de las columnas que se van a usar (empiezan en 0). |
| names | None, True, cadena de caracteres o lista | Nombres con los que identificar las columnas. Si es *True*, lee la primera columna tras *skip_header* y toma los nombre de allí. Si es una cadena de caracteres que separa los nombres, éstos han de estar separados por comas.|
| excludelist | lista o tupla (cadena de caracteres) | Lista de nombres a excluir. Ya se excluyen 'return', 'file' y 'print'.|
| deletechars | cadena con caracteres | Caracteres a eliminar de los nombres.|
| autostrip | booleano | Indica si se quitan espacios al principio y al final de las cadenas de texto que se leen como variables.|

Más información en la documentación oficial: https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html#numpy-genfromtxt

In [None]:
help(np.genfromtxt)

In [None]:
array_recuperado_2 = np.genfromtxt('mi_array14.csv', dtype=int, delimiter=',')
array_recuperado_2

---

Ánimo, que ya finalizamos esta parte.

---

En ocasiones, desearíamos que nuestro array fuera una lista. Quizá porque queremos combinar los datos del array con otros en nuestro programa que sean de tipo lista. Eso es fácil usando el método *tolist()*.

In [None]:
nueva_lista = array_recuperado.tolist()
print(type(nueva_lista))
print(nueva_lista)

## 21. Concatenación y división de arrays

Este apartado se refiere a dos operaciones básicas que consisten en:
* agregar un array a otro array.
* fragmentar un array en varios arrays.

Las funciones que concatenan podrían haberse mostrado en el apartado de "Cambio de forma" de un array, pero debido a su uso extensivo se ha considerado que merecían un apartado exclusivo en el temario.

A continuación, sólo una pequeña muestra de lo que NumPy pone a nuestra disposición para el caso de arrays 2D.

| Función/Método | Definición simplificada | Descripción|
| :-- | :-- | :-- |
| hstack | *np.hstack(tupla_de_arrays)* | Agrupa los arrays contenidos en la tupla uno al lado de otro (agrega columnas).|
| vstack | *np.vstack(tupla_de_arrays)* | Agrupa los arrays contenidos en la tupla uno encima de otro (agrega filas).|
| hsplit | *np.numpy.hsplit(array, indices_or_sections)* | Corta el *array* en la/s columna/s de *indices* dados.|
| vsplit | *np.numpy.hsplit(array, indices_or_sections)* | Corta el *array* en la/s fila/s de *indices* dados.|

Existen las versión generalizadas a n-dimensiones de las funciones anteriores:

| Función/Método | Definición simplificada | Descripción|
| :-- | :-- | :-- |
| stack | *np.stack(arrays, axis=0, out=None, *, dtype=None, casting='same_kind')* | Agrupa los arrays uno al lado de otro según el valor del *axis* establecido.|
|  split | *np.split(ary, indices_or_sections, axis=0)*   |  Para cortar el array *ary* en las posiciones establecidas en *indices_or_sections* a lo largo del eje *axis*. <br />El valor de con *indices_or_sections* puede ser:<br />* Un número entero, N. La matriz se dividirá en N matrices iguales a lo largo del eje. Si dicha división no es posible, se genera un error.<br />* Un array unidimensional de enteros ordenados. Las entradas indican en qué parte del eje se divide la matriz. Por ejemplo, [2, 3], para eje = 0, daría como resultado: *ario[:2]*, *ary[2:3]*, *ary[3:]*. <br />Si un índice excede la dimensión de la matriz a lo largo del eje, se devuelve una submatriz vacía en consecuencia. |

En ambas funciones, el parámetro *axis* establece la dirección de apilamiento o corte en arrays. *axis=0* para la primera dimensión del array, *axis=1* para la segunda... y *axis=-1* para la última dimensión de un array multidimensional.

Veamos unos ejemplos sencillos extraidos en parte de la documentación oficial de NumPy.

In [85]:
# agregando columnas
a = np.array((1,2,3))
b = np.array((4,5,6))
np.hstack((a,b))

array([1, 2, 3, 4, 5, 6])

In [86]:
# agregando filas
a = np.array([[1],[2],[3]])
b = np.array([[4],[5],[6]])
np.hstack((a,b))

array([[1, 4],
       [2, 5],
       [3, 6]])

In [87]:
# separando array por columnas
a = np.arange(24).reshape((3, 8))
print(a)

print(np.hsplit(a, [3, 6])) # rompemos el array por dos puntos dados por los índices de las columnas

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]]
[array([[ 0,  1,  2],
       [ 8,  9, 10],
       [16, 17, 18]]), array([[ 3,  4,  5],
       [11, 12, 13],
       [19, 20, 21]]), array([[ 6,  7],
       [14, 15],
       [22, 23]])]


In [88]:
# separando array por filas
a = np.arange(25).reshape((5, 5))
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [89]:
print(np.vsplit(a, [2])) # rompemos el array por el índice de fila 2

[array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]]), array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])]


In [90]:
# agregando matrices 2D en hipermatriz 3D

a = np.zeros((2, 4))
print(a)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [91]:
b = np.ones((2, 4))
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [92]:
c = np.zeros((2, 4)) + 2
print(c)

[[2. 2. 2. 2.]
 [2. 2. 2. 2.]]


In [93]:
# apilo las tres anteriores matrices, una matriz 3d es un tensor
res = np.stack([a, b, c], axis = 0) #eje 0 capa, eje 1 fila, eje 2 columna
print(res)
print(res.shape)

[[[0. 0. 0. 0.]
  [0. 0. 0. 0.]]

 [[1. 1. 1. 1.]
  [1. 1. 1. 1.]]

 [[2. 2. 2. 2.]
  [2. 2. 2. 2.]]]
(3, 2, 4)


Ahora, voy a "romper" la anterior hipermatriz en otras dos hipermatrices.

In [94]:
hipermatriz1, hipermatriz2 = np.split(res, 2, axis=2)
print('hipermatriz1')
print('-' * 40)
print('Dimensiones =', hipermatriz1.shape)
print(hipermatriz1)

print('\nhipermatriz2')
print('-' * 40)
print('Dimensiones =', hipermatriz2.shape)
print(hipermatriz2)

hipermatriz1
----------------------------------------
Dimensiones = (3, 2, 2)
[[[0. 0.]
  [0. 0.]]

 [[1. 1.]
  [1. 1.]]

 [[2. 2.]
  [2. 2.]]]

hipermatriz2
----------------------------------------
Dimensiones = (3, 2, 2)
[[[0. 0.]
  [0. 0.]]

 [[1. 1.]
  [1. 1.]]

 [[2. 2.]
  [2. 2.]]]


## 22. Estadística básica en arrays

NumPy contiene funciones para la generación de estadística descriptiva básica.

La siguiente tabla muestra alguna de ellas.

| Función | Definición simplificada | Descripción |
| :--- | :--- | :--- |
| amin |numpy.amin(a, axis=None) | Devuelve un array (o escalar) con el valor mínimo del array a lo largo del eje dado por "axis".|
|amax | numpy.amax(a, axis=None) | Devuelve un array (o escalar) con el valor máximo del array a lo largo del eje dado por "axis". |
| nanmin | numpy.nanmin(a, axis=None) | Devuelve un array (o escalar) con el valor mínimo del array a lo largo del eje dado por \axis".  Ignora los valores NaN.|
| nanmax| numpy.nanmax(a, axis=None) | Devuelve un array (o escalar) con el valor máximo del array a lo largo del eje dado por \axis". Ignora los valores NaN. |
| ptp | numpy.ptp(a, axis=None) | Devuelve el rango de valores (máximo - mínimo) en el \axis" dado. El nombre de esta función viene del acrónimo *"peak to peak"*. |
| percentile | numpy.percentile(a, q, axis=None) | Calcula y devuelve el percentil q-ésimo del array a en el eje \axis" especificado. *q* es un escalar que toma valores en el intervalo $[0,100]$.|
| average | numpy.average(a, axis=None, weights=None)|Devuelve un escalar o array con la media "pesada" del array a por los valores "weights" en el eje "axis" seleccionado. Los pesos pueden ser arrays 1-D, en cuyo caso ha de tener la misma longitud que a en el eje seleccionado. Si weights=None se asume el mismo peso (valor=1) para todos los elementos.|
| mean | numpy.mean(a, axis=None, dtype=None) | Devuelve un escalar o array con la media aritmética del array sobre el "axis" dado. "dtype" establece el tipo de datos de entrada sobre el que promediar. El valor asignado por defecto es el del tipo del array.|
| median | numpy.median(a, axis=None) | Devuelve un escalar o array con la mediana del array para el eje seleccionado.|
| std | numpy.std(a, axis=None) | Devuelve un escalar o array con la desviación estándar en  el eje seleccionado.|
| var | numpy.var(a, axis=None) | Devuelve un escalar o array con la varianza de los elementos del array en el eje seleccionado. |
| sum | numpy.sum(a, axis=None, where=None) |  Suma todos los elementos del array *a* en el eje *axis* dado. Si es *None* se opera sobre todo el array. Admite un array de booleanos en *where* para establecer qué elementos sumar. |
| cumsum | numpy.cumsum(a, axis=None) | Devuelve un array con la misma forma que el original en el que cada celda corresponde a la suma de todas las anteriores a lo largo del eje *axis*. |
| prod | numpy.prod(a, axis=None, where=None) | Producto de todos los elementos del array a lo largo del eje *axis*. Si es *None* se opera sobre todo el array. Admite un array de booleanos en *where* para establecer qué elementos multiplicar. |
| cumprod |  numpy.cumprod(a, axis=None) | Devuelve un array con la misma forma que el original en el que cada celda corresponde al producto* de todas las anteriores a lo largo del eje *axis*. |

**NOTA:** Si *axis=None*, se trabaja sobre la versión transformada a 1D del array, devolviendo un único valor (escalar) para todo el array.

In [None]:
# help(np.prod)

Veamos en acción algunas de ellas.

In [95]:
import numpy as np

a = np.array([[5 , 6, 1], [2, 3, 8]])
print('a:')
print(a)

a:
[[5 6 1]
 [2 3 8]]


In [96]:
print('Suma total =', np.sum(a))

Suma total = 25


In [97]:
print('Suma por columnas =', np.sum(a, axis=0))

Suma por columnas = [7 9 9]


In [None]:
print('Suma por filas de algunos valores =', np.sum(a, axis=1, where=np.array([True, False, True])))

In [98]:
print('Suma acumulativa por filas =', np.cumsum(a, axis=1))

Suma acumulativa por filas = [[ 5 11 12]
 [ 2  5 13]]


In [99]:
print(f'\nMáximo de a = {np.amax(a)}')


Máximo de a = 8


In [None]:
print(f'\nMáximo de todas las filas de a (busca y compara en columnas) = {np.amax(a, axis=0)}')

In [None]:
print(f'\nMáximo de todas las columnas de a (busca y compara en filas) = {np.amax(a, axis=1)}')

In [None]:
print(f'\nPercentil 25 de a = {np.percentile(a, 25)}') 

In [None]:
print(f'\nPercentil 25 por filas de a = {np.percentile(a, 25, axis=0)}') 

In [None]:
print(f'\nPercentil 25 por columnas de a = {np.percentile(a, 25, axis=1)}') 

In [None]:
print(f'amplitud de valores de a = {np.ptp(a)}')

In [None]:
print(f'amplitud de valores por columnas de a = {np.ptp(a, axis=1)}')

**Trabajo con valores np.nan**

In [100]:
# Atención que vienen las curvas
b = np.array([[5 , np.nan , 1], [2, 3, np.nan ]])
print('b')
print(b)

b
[[ 5. nan  1.]
 [ 2.  3. nan]]


In [101]:
print(f'\nMínimo de b = {np.amin(b)}')


Mínimo de b = nan


In [102]:
print(f'\nMáximo de b = {np.amax(b)}')


Máximo de b = nan


In [103]:
print(f'\nMínimo de todas las columnas de b (busca y compara en filas) = {np.amin(b, axis=0)}')


Mínimo de todas las columnas de b (busca y compara en filas) = [ 2. nan nan]


In [104]:
print(f'\nMínimo de todas las filas de a (busca y compara en columnas) = {np.amin(b, axis=1)}')


Mínimo de todas las filas de a (busca y compara en columnas) = [nan nan]


In [105]:
print(f"\nMínimo de b (obviando nan's) = {np.nanmin(b)}")


Mínimo de b (obviando nan's) = 1.0


In [106]:
print(f"\nMáximo de b (obviando nan's)= {np.nanmax(b)}")


Máximo de b (obviando nan's)= 5.0


In [None]:
print(f'amplitud de valores de b = {np.ptp(b)}') 

In [None]:
print(f'amplitud de valores por filas de b = {np.ptp(b, axis=0)}')

In [None]:
print(f'amplitud de valores por columnas de b = {np.ptp(b, axis=1)}')

**Pregunta:** ¿Cómo obviar el problema de los *nan*?

Posibles soluciones:
    
1. Seleccionar el sub-array de elementos que no son *nan*.
2. Sustituir los valores *nan* por otros valores numéricos convenientes.
3. Usar arrays con máscara (masked arrays). Accesibles a través del módulo *numpy.ma*.

### 20.1. Coordenadas de valores extremos en un array multidimensional

Extendemos un poco más la parte teórica vista planteando una cuestión: en un array 2D, por ejemplo, podemos determinar su valor máximo y la posición de ese máximo mediante estas instrucciones.

In [107]:
import numpy as np

a = np.array([[5 , 6, 1], [2, 3, 8]])
print('a:')
print(a)

print(f'Valor máximo de a = {a.max()}')
print(f'Posición del valor máximo = {a.argmax()}')

a:
[[5 6 1]
 [2 3 8]]
Valor máximo de a = 8
Posición del valor máximo = 5


Pero la posición 5 no me sirve para referenciar en un array 2D.

In [108]:
a[5]

IndexError: index 5 is out of bounds for axis 0 with size 2

¿Cómo me hago con los índices de fila y columna?

Mediante el uso de las función *np.unravel_index* en la forma siguiente:

In [None]:
coordenadas_maximo = np.unravel_index(a.argmax(), a.shape)
print(f'Coordenadbas 2D del máximo = {coordenadas_maximo}')

**Pregunta:** En este caso en concreto, ¿qué significa el valor 5 para la posición del máximo en el array 2D llamado *a*?

## 23. Operaciones con arrays de caracteres

Ahora que ya sabemos caragar datos de un fichero, vamos a abrir la información de un fichero de datos abiertos (https://www.ine.es/jaxiT3/files/t/csv_bdsc/48254.csv) que continene información sobre "Población por comunidades autónomas y provincias".

Lo he descargado y renombrado a *poblaciones.csv*.

In [None]:
# help(np.genfromtxt)

In [None]:
data = np.genfromtxt('documentos/poblaciones.csv', dtype=None, \
                     delimiter=';', encoding='utf8', skip_header=1) # names=True, autostrip=True, 

print(data.shape)
np.unique(data[:, 2])

In [None]:
provincias = np.array(['Albacete', 'Alicante', 'Almería', 'Álava', \
                       'Asturias', 'Badajoz', 'Balears, Illes', 'Barcelona', 'Bizkaia', \
                       'Burgos', 'Cantabria', 'Castellón/Castelló', 'Ceuta', \
                       'Ciudad Real', 'Coruña, A', 'Cuenca', 'Cáceres', 'Cádiz', \
                       'Córdoba', 'Gipuzkoa', 'Girona', 'Granada', 'Guadalajara', \
                       'Huelva', 'Huesca', 'Jaén', 'León', 'Lleida', 'Lugo', 'Madrid', \
                       'Melilla', 'Murcia', 'Málaga', 'Navarra', 'Ourense', 'Palencia', \
                       'Palmas, Las', 'Pontevedra', 'Rioja, La', 'Salamanca', \
                       'Santa Cruz de Tenerife', 'Segovia', 'Sevilla', 'Soria', \
                       'Tarragona', 'Teruel', 'Toledo', 'Valencia', 'Valladolid', \
                       'Zamora', 'Zaragoza', 'Ávila'])

In [None]:
provincias.dtype

Provincias es in array de tipo 'U22', que se traduce como cadena de texto Unicode de longitud 22 caracteres.

Supongamos que quiero modificar cada elemento para ponerlo en Mayúsculas o en minúsculas. O que quiero saber el número de caracteres de cada elemento de mi array. Podría hacerlo procesando elemento a elemento en un bucle, pero ya hay operaciones vectorizadas implementadas en NumPy para tratar con este tipo de datos de forma sencilla y eficiente.

A continuación, se muestra una tabla con el resumen de las operaciones disponibles.

**Operaciones de arrays de cadenas de caracteres**

| Función | Descripción |
| :-- | :-- |
| add(x1, x2)  |  Devuelve una concatenación de cadenas por elementos para dos matrices de str o unicode.  |
| multiply(a, i) |  Devuelve (a * i), es decir, concatenación múltiple de cadenas, por elementos.  |
| capitalize(a) | Capitaliza los elementos del array (primer carácter en mayúsculas).   |
| center(a, width[, fillchar])  |  Genera una cadena de *width* caracteres con el texto centrado. Rellena a derecha e izquierda con *fillchar*.  |
| join(sep, seq)  |  Devuelve una cadena que es la concatenación de las cadenas en la secuencia *seq*, separadas por *sep*.  |
| ljust(a, width[, fillchar]) |  Devuelve una array con los elementos justificados a la izquierda en una cadena de largo *width* y rellena a la derecha con caracteres *fillchar*. |
| lower(a)  |  Devuelve el array con los elementos convertidos a minúsculas.  |
| lstrip(a[, chars])  |  Para cada elemento de a, devuelve una copia sin caracteres *chars* a la izquierda.  |
| partition(a, sep)  |  Divide cada elemento en varios por el carácter *sep*.  |
| replace(a, old, new[, count])   |  Para cada elemento de a, devuelve una copia de la cadena con todas las apariciones de la subcadena antigua *old* reemplazadas por nuevas *new*.  Puede darse un número máximo de reemplazos *count*. |
| rjust(a, width[, fillchar])  |  Devuelve una matriz con los elementos justificados a la derecha en una cadena de longitud *width*. Agrega a la izquierda caracteres *fillchar* si fuera necesario.  |
| rpartition(a, sep)  | Divida cada elemento de a según el separador *sep* situado más a la derecha.   |
| rsplit(a[, sep, maxsplit])  |  Para cada elemento de a, devuelve una lista de las palabras de la cadena, utilizando *sep* como cadena delimitadora. Puede establecerse el número máximo de separaciones empezando por la derecha de dicha cadena. |
| rstrip(a[, chars])  |  Para cada elemento de a, devuelve una copia sin caracteres *chars* a la derecha.  |
| split(a[, sep, maxsplit])  | Para cada elemento de a, devuelve una lista de las palabras de la cadena, utilizando *sep* como cadena delimitadora.   |
| splitlines(a[, keepends])  |  Para cada elemento de a, devuelve una lista de las líneas del elemento, rompiendo en los límites de las líneas.  |
| strip(a[, chars]) |  Para cada elemento de a, devuelva una copia sin los caracteres *chars* iniciales y finales.  |
| swapcase(a)  |  Devuelve por elementos una copia de la cadena con caracteres en mayúscula convertidos a minúsculas y viceversa.  |
| title(a)  |   Devuelve la versión en mayúsculas y minúsculas del título de la cadena o Unicode. |
| translate(a, table[, deletechars])  |  Para cada elemento de a, devuelva una copia de la cadena donde se eliminan todos los caracteres que aparecen en el argumento opcional *deletechars* y los caracteres restantes se han asignado a través de la tabla  *table* de traducción proporcionada.  |
| upper(a)  |  Devuelve un array con los elementos convertidos a mayúsculas.  |
| zfill(a, width)  |  Devuelve la cadena numérica rellenada con ceros a la izquierda hasta conseguir la anchura *width* establecida.  |



**Para realizar comparaciones**

A diferencia de los operadores de comparación numpy estándar, los del módulo *char* eliminan los espacios en blanco finales antes de realizar la comparación.


| Función   |  Descripción  |
| :--  | :---   |
| equal(x1, x2)  |  Devuelve (x1 == x2) elemento a elemento.  |
| not_equal(x1, x2)  |  Devuelve (x1 != x2) elemento a elemento.  |
| greater_equal(x1, x2)  |  Devuelve (x1 >= x2) elemento a elemento.  |
| less_equal(x1, x2)  |   Devuelve (x1 <= x2) elemento a elemento. |
| greater(x1, x2) |  Devuelve (x1 > x2) elemento a elemento.  |
| less(x1, x2)  |  Devuelve (x1 < x2) elemento a elemento.  |
| compare_chararrays(a1, a2, cmp, rstrip) | Realiza una comparación por elementos de dos matrices de cadenas utilizando el operador de comparación especificado por *cmp*.  Es la generalización de todas las anteriores de este grupo. |


Y para obtener **información sobre el array** de cadenas de caracteres

|  Función |  Descripción  |
| :-- | :-- |
| count(a, sub[, start, end])  |  Devuelve una array con el número de apariciones no superpuestas de la subcadena *sub* en el rango [start, end].  |
| endswith(a, suffix[, start, end])  | Devuelve una matriz booleana que es *True* si el elemento de cadena del array a termina con el *suffix*; de lo contrario, *False*.   |
| find(a, sub[, start, end])  |  Para cada elemento, devuelve el índice más bajo de la cadena donde se encuentra la subcadena *sub* o -1 si no encuentra la subcadena *sub*. Puede restringirse la búsqueda a caracteres en el intervalo [start, end]. |
| index(a, sub[, start, end])  |  Como *find*, pero genera *ValueError* cuando no se encuentra la subcadena *sub*.  |
| isalpha(a)  |  Devuelve verdadero para cada elemento si todos los caracteres de la cadena son alfabéticos y hay al menos un carácter; en caso contrario, devuelve *False*.  |
| isalnum(a)  |  Devuelve verdadero para cada elemento si todos los caracteres de la cadena son alfanuméricos y hay al menos un carácter; en caso contrario, devuelve *False*.  |
| isdecimal(a)  |  Para cada elemento, devuelve *True* si solo hay caracteres decimales en el elemento. ; en caso contrario, devuelve *False*. |
| isdigit(a)  |  Devuelve *True* para cada elemento si todos los caracteres de la cadena son dígitos y hay al menos un carácter; en caso contrario, devuelve *False*.  |
| islower(a)  |  Devuelve *True* para cada elemento si todos los caracteres en mayúsculas de la cadena están en minúsculas y hay al menos un carácter en mayúsculas; en caso contrario, devuelve *False*.  |
| isnumeric(a)  | Para cada elemento, devuelve *True* si solo hay caracteres numéricos en el elemento.   |
| isspace(a)  |  Devuelve *True* para cada elemento si solo hay espacios en blanco en la cadena y hay al menos un carácter; en caso contrario, devuelve *False*.  |
| istitle(a)  |  Devuelve *True* para cada elemento si el elemento es una cadena con título y hay al menos un carácter; en caso contrario, devuelve *False*.  |
| isupper(a)  |  Devuelve *True* para cada elemento si todos los caracteres en mayúsculas de la cadena están en mayúsculas y hay al menos un carácter; en caso contrario, *False*.  |
| rfind(a, sub[, start, end])  |  Para cada elemento en a, devuelve el índice más alto en la cadena donde se encuentra la subcadena *sub*, estando *sub* contenida dentro de [start, end].  |
| rindex(a, sub[, start, end])  |  Como *rfind*, pero genera *ValueError* cuando no se encuentra la subcadena *sub*.  |
| startswith(a, prefix[, start, end])  |  Devuelve un array de booleanos que es *True* donde el elemento de cadena comienza con el prefijo *prefix*; de lo contrario, *False*.  |
| str_len(a)  |  Devuelve *len(a)* para cada uno de los elementos del array a.  |


Todas estas operaciones están detalladas en la documentación oficial de NumPy: https://numpy.org/doc/stable/reference/routines.char.html#

¿Cómo se aplican estas funciones a mi array de caracteres?

Lo vemos con ejemplos.

In [None]:
np.char.add(provincias, provincias)

In [None]:
np.char.lower(provincias)

In [None]:
np.char.count(provincias, 'a')

In [None]:
np.char.str_len(provincias)

In [None]:
np.char.equal(provincias, provincias)

In [None]:
np.char.find(provincias, 'l')

In [None]:
np.char.split(provincias, 'a')

## 24. Generación de números aleatorios

El módulo 

implementa (entre otras muchas funcionalidades) **generadores de números pseudoaleatorios** (*pseudo-random number generators*, PRNG o RNG, para abreviar) con la **capacidad de extraer muestras de una variedad de distribuciones de probabilidad**. 

En general, los usuarios crearán una instancia de Generador con *default_rng*

y llamarán a varios métodos para obtener muestras de diferentes distribuciones.

Toda la información está disponible en la documentación oficial de NumPy: https://numpy.org/doc/stable/reference/random/index.html

**Crear un generador** es tan sencillo como ejecutar las instrucciones siguientes:

In [109]:
import numpy as np
rng = np.random.default_rng()

Ahora, vamos a producir una secuencia de 10 números enteros entre 0 y 20.

In [110]:
rng.integers(0, 20, 10)

array([ 0,  2,  1, 19,  4,  5, 17, 13, 14, 11], dtype=int64)

Volvemos a generar otra secuencia de 5 elementos en el mismo rango.

In [111]:
rng.integers(0, 20, 5)

array([ 6, 12, 16, 11,  7], dtype=int64)

La secuencia es diferente de la anterior. ¡Es perfecto!

**Pregunta:** ¿Qué pasa si vuelvo a ejecutar las dos secuencias anteriores?

### 24.1. Secuencia de números pseudo-aleatoria

El **parámetro *seed*** de la deficinción del generador que hemos pasado por alto es muy importante. 

Si establecemos un valor en concreto, toda la secuencia siguiente de números pseudo-aleatorios será la misma que las anteriores. Es decir, **cada vez que establezco una semilla**, da igual el número de veces que ejecute todo el notebook porque **la serie aleatoria numérica generada será la misma**. Eso garantiza **reproducibilidad** de resultados entre una ejecución y la siguiente.

Por ejemplo: enteros tras establecer una semilla.

In [112]:
rng2 = np.random.default_rng(seed = 123456)

In [114]:
rng2.integers(0, 20, 10) # Primera secuencia de 10 enteros

array([ 7,  9, 11,  5,  8, 12,  1, 19,  9, 16], dtype=int64)

In [None]:
rng2.integers(0, 20, 5) # segunda secuencia de 5 enteros

Establezco la misma semilla en otro generador y vuelvo a ejecutar las mismas instrucciones que para el primero (con la misma semilla).

In [None]:
rng2 = np.random.default_rng(seed = 123456) # creo de nuevo el generador y le asigno el mismo valor de semilla

In [None]:
rng2.integers(0, 20, 10) # vuelvo a generar la primera secuencia de 10 enteros

¡Salen idénticos resultados a la anterior secuencia!. **A esto nos referimos con números pseudo-aleatorios**.

### Algunos tipos de distribuciones disponibles

La siguiente tabla muestra algunas de las distribuciones más comunes disponibles para nuestros generadores.

| Tipo de distribución | Función | Descripción |
| :--- | :--- | :--- |
|Discreta; enteros | random.Generator.integers(low, high=None, size=None, dtype=np.int64, endpoint=False) | Devuelve números enteros aleatorios desde *low* (inclusivo) a *high* (exclusivo), o si el $endpoint = True$, de bajo (inclusivo) a alto (inclusivo). <br />Devuelve números enteros aleatorios de la distribución "uniforme discreta" del tipo *dtype* especificado. Si no se pasa un valor *high* (valor predeterminado), los resultados van de 0 a *low*.|
| Continua; decimales | random.Generator.random(size=None, dtype=np.float64, out=None) | Devuelve decimales aleatorios en el intervalo medio abierto $[0.0, 1.0)$. <br />Los resultados provienen de la distribución “uniforme continua” en el intervalo indicado. Para muestrear en $[a, b), a \lt b$, realice esta operación sobre el aleatorio $(b - a) * aleatorio() + a$. (también puede usar *uniform*).|
| Continua; decimales | random.Generator.normal(loc=0.0, scale=1.0, size=None) | Extrae muestras aleatorias de *size* elementos de una distribución normal (gaussiana) centrada en *loc*, y con deviación estándar *scale*. |
| Continua; decimales | random.Generator.power(a, size=None) | Extrae muestras en $[0, 1]$ de una distribución de potencia con exponente positivo $a - 1$. También conocida como distribución de funciones de potencia.|
| Continua; decimales | random.Generator.uniform(low=0.0, high=1.0, size=None) | Extraer muestras de una distribución uniforme. Las muestras se distribuyen uniformemente en el intervalo medio abierto $[low, high)$ (incluye el *low*, pero excluye el *high*). En otras palabras, cualquier valor dentro del intervalo dado tiene la misma probabilidad de ser obtenido.|
| Discreta; enteros | random.Generator.binomial(n, p, size=None)  | Extraer muestras de una distribución binomial.<br /> Las muestras se extraen de una distribución binomial con parámetros específicos, *n* ensayos y *p* probabilidad de éxito, donde $n \in Z, n\ge 0$ y $p \in [0,1]$. (*n* puede ingresarse como un valor flotante, pero se trunca a un número entero en uso).|

Puede consultar el listado completo de distribuciones ofrecidas por los generadores de NumPy en: https://numpy.org/doc/stable/reference/random/generator.html

Otras operaciones reseñables con generadores son:

| Operación | Función | Descripción |
| :--- | :--- | :---- |
| Submuestreo | random.Generator.choice(a, size=None, replace=True, p=None, axis=0, shuffle=True) | Genera una muestra aleatoria a partir de un array *a* dado. <br />*p* representa las probabilidades asociadas con cada entrada en *a*. Si no se da, la muestra asume una distribución uniforme sobre todas las entradas en a. <br />*axis* Determina el eje a lo largo del cual se realiza la selección .El valor por defecto es 0 (selecciona por filas).|
| Selección aleatoria | random.Generator.shuffle(x, axis=0) | Modifica una matriz o secuencia in situ mezclando su contenido. El orden de las submatrices cambia pero su contenido sigue siendo el mismo. |
| Permutación | random.Generator.permutation(x, axis=0) | Permuta aleatoriamente una secuencia o devuelve un rango permutado. Si *x* es un número entero, permuta aleatoriamente *np.arange(x)*. Si *x* es una matriz, hace una copia y mezcla los elementos al azar. |

Veamos con ejemplos esto que acabamos de mencionar.

In [None]:
#help(print)

In [None]:
import numpy as np
rng = np.random.default_rng()

In [None]:
a = rng.uniform(1, 20, size=10)
print('10 números aleatorios en distribución uniforme entre 1 y 20')
print(a, end='\n\n')

In [None]:
b = rng.normal(1, 2, 10)
print('Muestra de 10 números aleatorios de media 1 y desviación estándar 2')
print(b, end='\n\n')

In [None]:
c = rng.integers(0, 11, size = (2 , 3))
print('Generación de matriz 2x3 de enteros entre 0 y 10')
print(c, end='\n\n')

In [None]:
d = np.arange(5)
print('Array original:')
print(d)

In [None]:
e = rng.choice(d, size =4)
print('Submuestreo con repetición (4 elementos):')
print(e, end='\n\n')

In [None]:
print('Array original:')
print(d)
f = rng.choice(d, size = 3, replace = False)
print('Submuestreo sin repetición (3 elementos):')
print(f, end='\n\n')

In [None]:
print('Array original:')
print(a)
rng.shuffle(a)
print('Reordenamiento aleatorio (array original modificado):')
print(a, end='\n\n')

In [None]:
h = np.arange(12).reshape((4, 3))
print('Array original:')
print(h)
i = rng.permutation(h)
print('Permutación de filas de una matriz:')
print(i, end='\n\n')

In [None]:
print('Array original:')
print(h)
j = rng.permutation(h, axis=1)
print('Permutación de columnas de una matriz:')
print(j, end='\n\n')