# **NumPy**


In [3]:
import numpy as np

NumPy es el paquete fundamental necesario para la computación científica con Python.

Proporciona:

+ Un poderoso **objeto array N-dimensional** `ndarray`
+ Funciones sofisticadas (broadcasting)
+ Herramientas para integrar código C/C++ y Fortran
+ Útiles capacidades de álgebra lineal, transformada de Fourier y números aleatorios

+ **Operaciones vectorizadas**

In [None]:
[x**2 for x in range(10)]

In [None]:
np.arange(10)**2

+ Velocidad:

In [None]:
%timeit [x**2 for x in list(range(int(10e6)))]

In [None]:
%timeit np.arange(10e6)**2

Esto es gracias a su estructura de datos.

## **El `ndarray`**

El objeto principal de NumPy es el array multidimensional homogéneo. Es una tabla de elementos (normalmente números), todos del mismo tipo, indexados por una tupla de enteros positivos. En NumPy las dimensiones se llaman ejes (_axes_).

Cada eje representa una dimensión del array, y el número total de ejes se denomina orden (rank) del array. Los arrays pueden tener una o más dimensiones, lo que permite representar estructuras de datos como vectores, matrices o incluso tensores de mayor orden


In [None]:
import numpy as np

### Rutinas de creación de arrays

In [None]:
# de un objeto python (ejemplo: lista)
a = np.array([1,2,3,4,5,6])
a

In [None]:
type(a)

O usando marcadores de posición Numpy:

In [None]:
np.zeros(5)

In [None]:
np.ones(5)

In [None]:
np.empty(10, dtype=int)  #  Array de datos no inicializados (arbitrarios) de la forma dada, dtype

O con `range`

In [None]:
np.arange(10, dtype=np.float64)

También hacer matrices de listas de listas:

In [None]:
a = np.array([[1,2,3,4],[5,6,7,8]])
a


O inicializar arrays con la forma de otro array:

In [None]:
np.zeros_like(a)

O matrices útiles como la identidad:

In [None]:
np.eye(3)

In [None]:
np.identity(3)

### **Atributos del `ndarray`**

In [None]:
# devuelve la forma de la matriz (filas, columnas)
# si la matriz es 1d devuelve (n,)
a.shape

In [None]:
# devuelve el tipo de datos
a.dtype

In [None]:
# número de dimensiones
a.ndim

In [None]:
a.size #devuelve el tamaño total del array

Veamos un array de dos dimensiones



In [None]:
aa = np.arange(12).reshape(3,4)
aa

In [None]:
aa.shape

In [None]:
aa.ndim

## **Funciones Numpy**

Una [función universal](https://docs.scipy.org/doc/numpy/reference/ufuncs.html) (o ufunc para abreviar) es una función que opera en ndarrays elemento por elemento, que admite la transmisión de matrices, la conversión de tipos y varias otras características estándar.

| Function Name | Versión NaN-segura | Descripción                                      |
|---------------|--------------------|--------------------------------------------------|
| np.sum        | np.nansum          | Calcular la suma de los elementos                |
| np.prod       | np.nanprod         | Calcular el producto de los elementos             |
| np.mean       | np.nanmean         | Calcular la media de los elementos               |
| np.std        | np.nanstd          | Calcular la desviación estándar de los elementos |
| np.var        | np.nanvar          | Calcular la varianza de los elementos            |
| np.min        | np.nanmin          | Encontrar el valor mínimo                         |
| np.max        | np.nanmax          | Encontrar el valor máximo                         |
| np.argmin     | np.nanargmin       | Encontrar el índice del valor mínimo              |
| np.argmax     | np.nanargmax       | Encontrar el índice del valor máximo              |
| np.median     | np.nanmedian       | Calcular la mediana de los elementos              |
| np.percentile | np.nanpercentile   | Calcular estadísticas basadas en el rango         |
| np.any        | N/A                | Evaluar si algún elemento es verdadero            |
| np.all        | N/A                | Evaluar si todos los elementos son verdaderos     |


Normalmente todas esas funciones están disponibles como método del objeto `ndarray`.

In [4]:
a = np.arange(10)

In [None]:
np.sum(a) #suma

In [None]:
np.cumsum(a)  # suma acumulativa

In [None]:
np.mean(a) #media

In [None]:
a.argmax() # devuelve el índice del valor máximo

Las funciones Numpy normalmente aceptan un argumento de eje (_axis_) cuando el array tiene más de una dimensión

In [5]:
a = a.reshape(2,5)
a

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [6]:
a.sum(axis=0) # array con la suma de los elementos de cada columna

array([ 5,  7,  9, 11, 13])

In [8]:
a.sum(axis=1) # array con la suma de los elementos de cada fila

array([10, 35])

## Aritmética de arrays

Numpy permite hacer aritmética básica si los arrays tienen la misma forma

In [None]:
a = np.arange(10)
a

In [None]:
b = a[::-1]  # ¡Cuidado con la definición de nuevas matrices a partir de segmentos!
b

In [None]:
np.may_share_memory(a, b)  # Si b es una vista de a -> True

In [None]:
a + b

In [None]:
a - b

En NumPy, es fundamental entender la diferencia entre "view" (vista) y "copy" (copia) al manipular arrays. Estas diferencias afectan cómo se comportan los datos y pueden tener un impacto significativo en el rendimiento y en la gestión de la memoria. Aquí está un resumen conciso de las diferencias entre "view" y "copy" en NumPy:

##  **Vista ("View"):**
* Una vista en NumPy es una nueva vista (o vista) de los mismos datos subyacentes.
* Una vista no crea una nueva copia de los datos; simplemente proporciona una vista diferente de los mismos datos.
* Las operaciones en una vista afectarán a los datos subyacentes y viceversa.
* Se crea una vista utilizando métodos como slicing (array[start:end]), transposición (array.T), y reshape (array.reshape(shape)), entre otros.
* Las vistas son útiles para manipular datos sin hacer copias innecesarias, lo que ahorra memoria y tiempo de ejecución.

##  **Copia ("Copy"):**
* Una copia en NumPy crea una nueva instancia de los datos con una nueva ubicación en memoria.
* Los cambios en una copia no afectarán a los datos originales y viceversa.
* Se realiza una copia explícitamente utilizando el método array.copy().
* Las copias son útiles cuando necesitas modificar los datos de forma independiente sin afectar a los datos originales.
* Ten en cuenta que realizar copias puede ser costoso en términos de memoria y tiempo de ejecución, especialmente para grandes conjuntos de datos.

Revisar [view vs copy](https://scipy-cookbook.readthedocs.io/items/ViewsVsCopies.html)


In [None]:
import numpy as np

# Crear un array original
original_array = np.array([1, 2, 3, 4, 5])

# Crear una vista del array original (mismo conjunto de datos)
view_array = original_array[1:4]

# Modificar la vista (afecta al array original)
view_array[0] = 10
print(original_array)  # Output: [ 1 10  3  4  5]

# Crear una copia del array original
copy_array = original_array.copy()

# Modificar la copia (no afecta al array original)
copy_array[2] = 30
print(original_array)  # Output: [ 1 10  3  4  5]
print(copy_array)      # Output: [ 1 10 30  4  5]


## **Slicing `ndarray`**

`ndarrays` utiliza un método de corte similar a las listas o tuplas de Python simple:

    [start:stop:stride]

Dado que los arrays pueden tener un número arbitrario de dimensiones, el slicing de cada eje está separado por comas:

    [axis 0, axis 1, ...axis n]

In [None]:
arr = np.arange(9).reshape(3,3)
arr

In [None]:
arr[0]  # 1º fila

In [None]:
arr[:,0] # todas las filas, columna 0

In [None]:
arr[0,0]

In [None]:
arr[::-1]  # filas invertidas

In [None]:
arr[::-1, ::-1]  # columnas invertidas

In [None]:
arr[::2, ::2]

### Se puede modificar la forma de los `nparrays`




In [None]:
arr = np.arange(15).reshape(3,5)
arr

In [None]:
arr.T #traspuesta

In [None]:
arr.ravel()

Numpy ofrece una gran cantidad de **[rutinas de manipulación de arrays](https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html)**

## **Concatenación y división de arrays**

### **Concatenación**

La concatenación o unión de dos arrays en NumPy se realiza principalmente utilizando las funciones `np.concatenate`, `np.vstack` y `np.hstack`.

La función np.concatenate toma una tupla o lista de arrays como su primer argumento. Aquí te muestro cómo usarla:



#### **Uso de np.concatenate:**

La función np.concatenate se utiliza para concatenar arrays a lo largo de un eje existente.

In [None]:
# Crear dos arrays
arr1 = np.array([[1, 2, 3],
                 [4, 5, 6]])

arr2 = np.array([[7, 8, 9],
                 [10, 11, 12]])

In [None]:
# Concatenar a lo largo del eje 0 (por filas)
result_concat = np.concatenate((arr1, arr2), axis=0)
print("Concatenación a lo largo del eje 0:")
print(result_concat)
# Output:
# [[ 1  2  3]
#  [ 4  5  6]
#  [ 7  8  9]
#  [10 11 12]]

In [None]:
# Concatenar a lo largo del eje 1 (por columnas)
result_concat_axis1 = np.concatenate((arr1, arr2), axis=1)
print("\nConcatenación a lo largo del eje 1:")
print(result_concat_axis1)
# Output:
# [[ 1  2  3  7  8  9]
#  [ 4  5  6 10 11 12]]

Cuando trabajas con arrays multidimensionales, como matrices (que son arrays bidimensionales), los ejes son numerados de la siguiente manera:

* **Eje 0 (axis=0):** Se refiere a las filas, ya que es el primer índice en la estructura del array. Por ejemplo, en una matriz de m x n (m filas y n columnas), el primer índice corresponde a las filas.

* **Eje 1 (axis=1):** Se refiere a las columnas, ya que es el segundo índice en la estructura del array.

Cuando haces np.concatenate((arr1, arr2), axis=0), estás diciendo a NumPy que concatene las matrices arr1 y arr2 **a lo largo del eje de las filas**. Es decir, apilar los arrays de arriba hacia abajo (uno debajo del otro).

#### **Uso de np.vstack y np.hstack:**
Estas funciones proporcionan una forma más específica y explícita de concatenar arrays verticalmente (vstack) u horizontalmente (hstack).

In [None]:
# Usando np.vstack para concatenar verticalmente
result_vstack = np.vstack((arr1, arr2))
print("Concatenación vertical:")
print(result_vstack)
# Output:
# [[ 1  2  3]
#  [ 4  5  6]
#  [ 7  8  9]
#  [10 11 12]]

In [None]:
# Usando np.hstack para concatenar horizontalmente
result_hstack = np.hstack((arr1, arr2))
print("\nConcatenación horizontal:")
print(result_hstack)
# Output:
# [[ 1  2  3  7  8  9]
#  [ 4  5  6 10 11 12]]


### **Splitting (división)**


La operación opuesta a la concatenación es la división, que se implementa mediante las funciones np.split, np.hsplit y np.vsplit. En cada una de estas funciones, podemos pasar una lista de índices que indican los puntos de división:

#### **Uso de np.split:**
La función np.split divide un array en múltiples subarrays a lo largo de un eje especificado.

In [None]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dividir el array en tres partes en los índices 2 y 5
result_split = np.split(arr, [2, 5])
print("División del array en partes:")
print(result_split)
# Output:
# [array([1, 2]), array([3, 4, 5]), array([6, 7, 8, 9])]


#### **Uso de np.hsplit y np.vsplit:**
Estas funciones se utilizan para dividir arrays horizontalmente (hsplit) o verticalmente (vsplit).

In [None]:
# Crear un array bidimensional de ejemplo
arr_2d = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Dividir el array 2D en dos partes a lo largo del eje horizontal (columnas)
result_hsplit = np.hsplit(arr_2d, [2])
print("\nDivisión horizontal del array:")
print(result_hsplit)
# Output:
# [array([[1, 2],
#         [4, 5],
#         [7, 8]]),
#  array([[3],
#         [6],
#         [9]])]

In [None]:
# Dividir el array 2D en dos partes a lo largo del eje vertical (filas)
result_vsplit = np.vsplit(arr_2d, [2])
print("\nDivisión vertical del array:")
print(result_vsplit)
# Output:
# [array([[1, 2, 3],
#         [4, 5, 6]]),
#  array([[7, 8, 9]])]

## **Indexado**

La indexación numpy es bastante sencilla. Ya hemos usado el operador `[idx]`


In [9]:
arr = np.arange(10) ** 2
arr[4]

np.int64(16)

Pero numpy también admite formas más complejas de acceder a los elementos por su índice.

### Indexación booleana

La indexación booleana utiliza un array de elementos booleanos para recuperar los elementos del array que coinciden con un `True`

In [10]:
arr % 2 == 0

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [11]:
arr[arr % 2 == 0]  # tener en cuenta que ambos arrays deben tener la misma longitud

array([ 0,  4, 16, 36, 64])

### **Fancy indexing (Indexación sofisticada)**

La indexación sofisticada o fancy indexing en NumPy te permite indexar un array utilizando otros arrays de enteros (o listas). Esto te da mucha flexibilidad para acceder a elementos específicos de un array o para crear subarrays más complejos.

En lugar de usar índices simples como array[2] o array[1, 3], puedes pasar un array de enteros o una lista de índices y acceder a múltiples elementos a la vez. Esto es útil cuando necesitas seleccionar varias posiciones o cuando la selección no sigue un patrón regular.

In [None]:
arr = np.array([10, 20, 30, 40, 50, 60, 70])

# Usar fancy indexing con un array de índices
indices = np.array([0, 2, 4])  # Los índices que quiero seleccionar
result = arr[indices]  # Selecciono los elementos en las posiciones 0, 2 y 4

print(result)

In [None]:
arr_2d = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Selección de elementos de diferentes filas y columnas
rows = np.array([0, 1])  # Filas 0 y 1
cols = np.array([1, 2])  # Columnas 1 y 2
result = arr_2d[rows, cols]

print(result)

Devuelve una copia de los elementos seleccionados, no una vista. Esto significa que si modificas el array resultante, no se verá reflejado en el array original.

## Iterando sobre arrays

No es la mejor idea usar un bucle `for` sobre un array numpy. Pero si eres perezoso para vectorizar tu algoritmo...

o para llenar arrays vacíos con datos:

In [None]:
arr = np.arange(12).reshape(3,4)  # define un 3x4 array

for row in arr:
    print(row)

In [None]:
for e in arr.flat:
    print(e)

In [None]:
a = np.empty(10)

for i in range(len(a)):
    a[i] = np.pi/(i+1)

print(a)

## **Números aleatorios y muestreo**

### **Generadores de números pseudoaleatorios**

Muestra de distribución uniforme con `rand`

In [None]:
np.random.rand(5)

Muestra de la distribución normal estándar con `randn` o `standard_normal`. Usa `normal` para especificar los parámetros

In [None]:
np.random.standard_normal(4)

Enteros aleatorios con `randint`

In [None]:
np.random.randint(low=-5, high=5, size=(3,3))

### Muestreo



In [None]:
a = np.arange(10)
np.random.choice(a, 3)

## **Producto escalar (punto) en Python puro vs Numpy**

El producto escalar de dos vectores **a** = [a1, a2, ..., an] y **b** = [b1, b2, ..., bn] se define como:
$$ \mathbf{a} \cdot \mathbf {b} =\sum _{i=1}^{n}a_{i}b_{i}=a_{1}b_{1}+a_{2}b_{2}+\cdots +a_{n}b_{n} $$

In [None]:
# definimos vectores [0,1,2...n]
n = 100000

# vectores como listas
vec1 = list(range(n))
vec2 = list(range(n))

# vectores como arrays de numpy
arr1 = np.arange(n, dtype='int32')
arr2 = np.arange(n, dtype='int32')

assert arr1.tolist() == vec1
assert arr2.tolist() == vec2

In [None]:
# Implementación con Python puro
def dot_product(v1, v2):

    assert len(v1) == len(v2)
    result = 0
    for i in  range(len(v1)):
        result += v1[i] * v2[i]

    return result

In [None]:
dot_product(vec1, vec2) == np.dot(arr1, arr2)

!Nos da que no es lo mismo! ¿Qué pasa?

In [None]:
dot_product(vec1, vec2) == np.dot(arr1, arr2)

Sin embargo, el producto escalar está implementado correctamente. ¿Por qué da resultados diferentes?

In [None]:
python_result = dot_product(vec1, vec2)
python_result

In [None]:
numpy_result = np.dot(arr1, arr2)
numpy_result

El problema es que los elementos de `arr1` y `arr2` son [`int32`, enteros de 32 bits](https://docs.scipy.org/doc/numpy/user/basics.types.html)!

In [None]:
arr1.dtype

In [None]:
print('min machine limit for int32: {:.4e}'.format(np.iinfo(np.int32).min))
print('max machine limit for int32: {:.4e}'.format(np.iinfo(np.int32).max))

In [None]:
int64_min = float(np.iinfo(np.int64).min)
int64_max = float(np.iinfo(np.int64).max)

print('min machine limit for int64: {:.4e}'.format(int64_min, 20))
print('max machine limit for int64: {:.4e}'.format(int64_max, 1))

Las rutinas numpy están tipeadas, por lo que tenemos que cambiar el dtype de nuestros arrays numpy para evitar el desbordamiento (overflow), ocurre cuando el resultado de una operación aritmética excede el rango numérico que puede ser representado por el tipo de dato utilizado para almacenar el resultado..

In [None]:
arr1 = np.arange(n, dtype=np.int64)
arr2 = np.arange(n, dtype=np.int64)

dot_product(vec1, vec2) == np.dot(arr1, arr2)

In [None]:
%timeit dot_product(vec1, vec2)

In [None]:
%timeit np.dot(arr1, arr2)

El desbordamiento puede causar problemas realmente grandes:
> Un **desbordamiento aritmético** no controlado en el software de dirección del motor fue la **causa principal del accidente del vuelo inaugural de 1996 del cohete Ariane 5**. El software se había considerado libre de errores ya que se había utilizado en muchos vuelos anteriores, pero estos usaban cohetes más pequeños que generaban una aceleración más baja que el Ariane 5.

[Fuente](https://en.wikipedia.org/wiki/Integer_overflow#cite_note-24)

In [None]:
np.matmul(arr1, arr2)

## **Broadcasting**

El broadcasting en NumPy es una poderosa característica que permite realizar operaciones matemáticas entre arrays de diferentes tamaños y formas (shapes), haciendo que se adapten (o "se transmitan") de manera eficiente sin necesidad de hacer copias de los datos. Esto mejora el rendimiento de las operaciones, evitando el uso de bucles en Python y realizando las operaciones en el nivel de C, mucho más rápido.

### **¿Cómo funciona el Broadcasting?**
El broadcasting permite que arrays de diferentes formas sean operados juntos de manera "automática", siempre que cumplan ciertas reglas para que sus dimensiones sean compatibles. El array más pequeño se "expande" para coincidir con las dimensiones del array más grande, permitiendo la operación entre ellos.

<img src="https://i.stack.imgur.com/JcKv1.png"  style="width: 700px;"/>



**Sin** broadcasting:

In [15]:
a = np.tile([0,10,20], (3,1))
a.shape

(3, 3)

In [16]:
a

array([[ 0, 10, 20],
       [ 0, 10, 20],
       [ 0, 10, 20]])

In [17]:
b = np.tile([0,1,2],(3,1)).T
b.shape

(3, 3)

In [18]:
b

array([[0, 0, 0],
       [1, 1, 1],
       [2, 2, 2]])

In [19]:
res1 = a + b

In [20]:
res1


array([[ 0, 10, 20],
       [ 1, 11, 21],
       [ 2, 12, 22]])

**Broadcasting `b`**

In [None]:
b = np.array([0,1,2])[:, np.newaxis]
b.shape

In [None]:
b

In [None]:
res2 = a + b

In [None]:
res2

**Broadcasting `a` and `b`**

In [None]:
a = np.array([0,10,20])
a.shape

In [None]:
a

In [None]:
b.shape

In [None]:
res3 = a + b

In [None]:
assert np.array_equal(res1, res2) and np.array_equal(res2, res3)

## **Multiplicación de matrices**

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/eb/Matrix_multiplication_diagram_2.svg/313px-Matrix_multiplication_diagram_2.svg.png" alt="Drawing" style="width: 300px;"/>


#### Multiplicación de Matrices sin Broadcasting:

En la multiplicación de matrices convencional (sin broadcasting), las dimensiones de las matrices deben ser compatibles según las reglas algebraicas. Específicamente, el número de columnas en la primera matriz debe ser igual al número de filas en la segunda matriz.

Por ejemplo, si tenemos dos matrices A y B y queremos multiplicarlas sin broadcasting, podemos hacerlo de la siguiente manera en NumPy:

In [21]:
import numpy as np

# Definir dos matrices
A = np.array([[1, 2],
              [3, 4]])

B = np.array([[5, 6],
              [7, 8]])

# Multiplicar matrices sin broadcasting
C = np.dot(A, B)

print(C)


[[19 22]
 [43 50]]


#### **Multiplicación de Matrices con Broadcasting:**

El broadcasting en NumPy permite realizar operaciones entre matrices con diferentes formas de manera automática, extendiendo las dimensiones de los arrays más pequeños para que coincidan con las dimensiones de los arrays más grandes según las reglas de broadcasting mencionadas anteriormente.

Para realizar la multiplicación de matrices con broadcasting en NumPy, podemos utilizar el concepto de multiplicación elemento por elemento (*) en lugar de np.dot():

In [None]:
import numpy as np

# Definir dos matrices
A = np.array([[1, 2],
              [3, 4]])

B = np.array([[5],
              [6]])

# Multiplicar matrices con broadcasting
C = A * B

print(C)


En este ejemplo, A es una matriz 2x2 y B es una matriz 2x1. NumPy aplicará broadcasting para expandir B a una matriz 2x2 para que coincida con A, y luego realizará la multiplicación elemento por elemento entre A y B:

En resumen, la multiplicación de matrices sin broadcasting (np.dot()) sigue las reglas estándar de álgebra lineal, mientras que la multiplicación de matrices con broadcasting (*) en NumPy extiende automáticamente las dimensiones de los arrays más pequeños para realizar operaciones eficientes entre arrays de diferentes formas. El broadcasting es una característica poderosa en NumPy que simplifica y acelera el código para operaciones vectorizadas en arrays multidimensionales.