<a href="https://colab.research.google.com/github/JoaquinJustelP/Python_UB/blob/main/Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NumPy


Autor: Biel Stela

In [None]:
import numpy as np

NumPy es el paquete fundamental necesario para la computación científica con Python. 

Proporciona:

+ Un poderoso **objeto array N-dimensional** `ndarray` 
+ Funciones sofisticadas (broadcasting) 
+ Herramientas para integrar código C/C++ y Fortran 
+ Útiles capacidades de álgebra lineal, transformada de Fourier y números aleatorios

+ **Operaciones vetorizadas**

In [2]:
[x**2 for x in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [3]:
np.arange(10)**2

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

+ Velocidad:

In [None]:
%timeit [x**2 for x in list(range(int(10e6)))]

In [None]:
%timeit np.arange(10e6)**2

Esto es gracias a su estructura de datos.

## El `ndarray` 

El objeto principal de NumPy es el array multidimensional homogéneo. Es una tabla de elementos (normalmente números), todos del mismo tipo, indexados por una tupla de enteros positivos. En NumPy las dimensiones se llaman ejes (_axes_).



In [None]:
import numpy as np

### Rutinas de creación de arrays

In [4]:
# de un objeto python (ejemplo: lista)
a = np.array([1,2,3,4,5,6])
a

array([1, 2, 3, 4, 5, 6])

In [5]:
type(a)

numpy.ndarray

O usando marcadores de posición Numpy:

In [6]:
np.zeros(5)

array([0., 0., 0., 0., 0.])

In [7]:
np.ones(5)

array([1., 1., 1., 1., 1.])

In [14]:
np.empty(10, dtype=int)  #  Array de datos no inicializados (arbitrarios) de la forma dada, dtype

array([                  0,                   0,                   0,
                         0,                   0, 7363723160739394616,
       7292503613655561261, 3258694506344441188, 3847822516561392944,
                 892679990])

O con `range`

In [8]:
np.arange(10, dtype=np.float64)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

También hacer matrices de listas de listas:

In [None]:
a = np.array([[1,2,3,4],[5,6,7,8]])
a


O inicializar arrays con la forma de otro array:

In [None]:
np.zeros_like(a)  

O matrices útiles como la identidad:

In [16]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [15]:
np.identity(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

### Atributos del `ndarray`

In [17]:
# devuelve la forma de la matriz (filas, columnas)
# si la matriz es 1d devuelve (n,)
a.shape

(6,)

In [None]:
# devuelve el tipo de datos
a.dtype

In [None]:
# número de dimensiones
a.ndim

Veamos un array de dos dimensiones



In [None]:
aa = np.arange(12).reshape(3,4)
aa

In [None]:
aa.shape

In [None]:
aa.ndim

## Funciones Numpy 

Una [función universal](https://docs.scipy.org/doc/numpy/reference/ufuncs.html) (o ufunc para abreviar) es una función que opera en ndarrays elemento por elemento, que admite la transmisión de matrices, la conversión de tipos y varias otras características estándar.

```python
np.sum()
np.min()
np.max()
np.cumsum()
np.mean()
np.median()
np.corrcoef()
np.std()
...
```

Normalmente todas esas funciones están disponibles como método del objeto `ndarray`.

In [None]:
a = np.arange(10)

In [None]:
np.sum(a) #suma

In [None]:
np.cumsum(a)  # suma acumulativa

In [None]:
np.mean(a) #media

In [None]:
a.argmax() # devuelve el índice del valor máximo

Las funciones Numpy normalmente aceptan un argumento de eje (_axis_) cuando el array tiene más de una dimensión

In [None]:
a = a.reshape(2,5)
a

In [None]:
a.sum(axis=0) # row wise

In [None]:
a.sum(1) # column wise

## Aritmética de arrays

Numpy permite hacer aritmética básica si los arrays tienen la misma forma

In [25]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [27]:
b = a[::-1]  # ¡Cuidado con la definición de nuevas matrices a partir de segmentos!
b

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [21]:
np.may_share_memory(a, b)  # Si b es una vista de a -> True

True

Revisa [view vs copy](https://scipy-cookbook.readthedocs.io/items/ViewsVsCopies.html)


In [22]:
a + b

array([9, 9, 9, 9, 9, 9, 9, 9, 9, 9])

In [23]:
a - b

array([-9, -7, -5, -3, -1,  1,  3,  5,  7,  9])

## Slicing `ndarray`

`ndarrays` utiliza un método de corte similar a las listas o tuplas de Python simple:

    [start:stop:stride]

Dado que los arrays pueden tener un número arbitrario de dimensiones, el slicing de cada eje está separado por comas:

    [axis 0, axis 1, ...axis n]

In [None]:
arr = np.arange(9).reshape(3,3)
arr

In [None]:
arr[0]  # 1º fila

In [None]:
arr[:,0] # todas las filas, columna 0

In [None]:
arr[0,0]

In [None]:
arr[::-1]  # filas invertidas

In [None]:
arr[::-1, ::-1]  # columnas invertidas

In [None]:
arr[::2, ::2]

### Se puede modificar la forma de los `nparrays` 




In [28]:
arr = np.arange(15).reshape(3,5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [29]:
arr.T #traspuesta

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [30]:
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Numpy ofrece una gran cantidad de **[rutinas de manipulación de arrays](https://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html)**

## Indexado

La indexación numpy es bastante sencilla. Ya hemos usado el operador `[idx]`
 

In [34]:
arr = np.arange(10) ** 2
arr[4]

16

Pero numpy también admite formas más complejas de acceder a los elementos por su índice.

### Indexación booleana

La indexación booleana utiliza un array de elementos booleanos para recuperar los elementos del array que coinciden con un `True`

In [None]:
arr % 2 == 0

In [32]:
arr[arr % 2 == 0]  # tener en cuenta que ambos arrays deben tener la misma longitud

array([ 0,  2,  4,  6,  8, 10, 12, 14])

### Fancy indexing (Indexación sofisticada)

Los arrays Numpy también se pueden indexar mediante arrays de enteros. Se comportan como si fueran arrays de indexes.

In [36]:
arr

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [37]:
np.where(arr % 3 == 0)

(array([0, 3, 6, 9]),)

In [38]:
arr[np.where(arr % 3 == 0)]

array([ 0,  9, 36, 81])

## Iterando sobre arrays

No es la mejor idea usar un bucle `for` sobre un array numpy. Pero si eres perezoso para vectorizar tu algoritmo...

o para llenar arrays vacíos con datos:

In [39]:
arr = np.arange(12).reshape(3,4)  # define un 3x4 array

for row in arr:
    print(row)

[0 1 2 3]
[4 5 6 7]
[ 8  9 10 11]


In [40]:
for e in arr.flat:
    print(e)

0
1
2
3
4
5
6
7
8
9
10
11


In [41]:
a = np.empty(10)

for i in range(len(a)):
    a[i] = np.pi/(i+1)

print(a)

[3.14159265 1.57079633 1.04719755 0.78539816 0.62831853 0.52359878
 0.44879895 0.39269908 0.34906585 0.31415927]


## Números aleatorios y muestreo

### Generadores de números pseudoaleatorios

Muestra de distribución uniforme con `rand`

In [None]:
np.random.rand(5)

Muestra de la distribución normal estándar con `randn` o `standard_normal`. Usa `normal` para especificar los parámetros

In [None]:
np.random.standard_normal(4)

Enteros aleatorios con `randint`

In [None]:
np.random.randint(low=-5, high=5, size=(3,3))

### Muestreo



In [None]:
a = np.arange(10)
np.random.choice(a, 3)

## Producto escalar (punto) en Python puro vs Numpy 

El producto escalar de dos vectores **a** = [a1, a2, ..., an] y **b** = [b1, b2, ..., bn] se define como:
$$ \mathbf{a} \cdot \mathbf {b} =\sum _{i=1}^{n}a_{i}b_{i}=a_{1}b_{1}+a_{2}b_{2}+\cdots +a_{n}b_{n} $$

In [42]:
# definimos vectores [0,1,2...n]
n = 100000

# vectores como listas
vec1 = list(range(n))
vec2 = list(range(n))

# vectores como arrays de numpy
arr1 = np.arange(n, dtype='int32')
arr2 = np.arange(n, dtype='int32')

assert arr1.tolist() == vec1
assert arr2.tolist() == vec2

In [43]:
# Implementación con Python puro
def dot_product(v1, v2):
    
    assert len(v1) == len(v2)
    result = 0
    for i in  range(len(v1)):
        result += v1[i] * v2[i]
        
    return result

In [44]:
dot_product(vec1, vec2) == np.dot(arr1, arr2)

False

!Nos da que no es lo mismo! ¿Qué pasa?

In [45]:
dot_product(vec1, vec2) == np.dot(arr1, arr2)

False

Sin embargo, el producto escalar está implementado correctamente. ¿Por qué da resultados diferentes?

In [46]:
python_result = dot_product(vec1, vec2)
python_result

333328333350000

In [47]:
numpy_result = np.dot(arr1, arr2)
numpy_result

216474736

El problema es que los elementos de `arr1` y `arr2` son [`int32`, enteros de 32 bits](https://docs.scipy.org/doc/numpy/user/basics.types.html)!

In [48]:
arr1.dtype

dtype('int32')

In [49]:
print('min machine limit for int32: {:.4e}'.format(np.iinfo(np.int32).min))
print('max machine limit for int32: {:.4e}'.format(np.iinfo(np.int32).max))

min machine limit for int32: -2.1475e+09
max machine limit for int32: 2.1475e+09


In [51]:
int64_min = float(np.iinfo(np.int64).min)
int64_max = float(np.iinfo(np.int64).max)

print('min machine limit for int64: {:.4e}'.format(int64_min, 20))
print('max machine limit for int64: {:.4e}'.format(int64_max, 1))

min machine limit for int64: -9.2234e+18
max machine limit for int64: 9.2234e+18


Recuerde que las rutinas numpy están tipeadas, por lo que tenemos que cambiar el dtype de nuestros arrays numpy para evitar el desbordamiento (overflow).

In [52]:
arr1 = np.arange(n, dtype=np.int64)
arr2 = np.arange(n, dtype=np.int64)

dot_product(vec1, vec2) == np.dot(arr1, arr2)

True

In [55]:
%timeit dot_product(vec1, vec2)

18 ms ± 5.38 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [56]:
%timeit np.dot(arr1, arr2)

126 µs ± 31.1 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


El desbordamiento puede causar problemas realmente grandes:
> Un **desbordamiento aritmético** no controlado en el software de dirección del motor fue la **causa principal del accidente del vuelo inaugural de 1996 del cohete Ariane 5**. El software se había considerado libre de errores ya que se había utilizado en muchos vuelos anteriores, pero estos usaban cohetes más pequeños que generaban una aceleración más baja que el Ariane 5.

[Fuente](https://en.wikipedia.org/wiki/Integer_overflow#cite_note-24)

In [None]:
np.matmul(arr1, arr2)

## Broadcasting

Broadcasting es la terminología de Numpy para realizar operaciones matemáticas entre arrays con diferentes formas.
El array más pequeño se "transmite" a través del array más grande para que tengan formas compatibles. Broadcasting proporciona un medio para vectorizar las operaciones de matriz para que el bucle se produzca en C en lugar de en Python. Lo hace sin hacer copias innecesarias de datos y, por lo general, conduce a implementaciones de algoritmos eficientes.

<img src="https://i.stack.imgur.com/JcKv1.png"  style="width: 700px;"/>



**Sin** broadcasting:

In [57]:
a = np.tile([0,10,20], (3,1))
a.shape
a

array([[ 0, 10, 20],
       [ 0, 10, 20],
       [ 0, 10, 20]])

In [58]:
b = np.tile([0,1,2],(3,1)).T
b.shape
b

array([[0, 0, 0],
       [1, 1, 1],
       [2, 2, 2]])

In [59]:
res1 = a + b

In [60]:
res1

array([[ 0, 10, 20],
       [ 1, 11, 21],
       [ 2, 12, 22]])

**Broadcasting `b`**

In [None]:
b = np.array([0,1,2])[:, np.newaxis]
b.shape

In [62]:
b

array([[0],
       [1],
       [2]])

In [63]:
res2 = a + b

In [64]:
res2

array([[ 0, 10, 20],
       [ 1, 11, 21],
       [ 2, 12, 22]])

**Broadcasting `a` and `b`**

In [None]:
a = np.array([0,10,20])
a.shape

In [None]:
a

In [None]:
b.shape

In [None]:
res3 = a + b

In [None]:
assert np.array_equal(res1, res2) and np.array_equal(res2, res3)

## Multiplicación de matrices

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/eb/Matrix_multiplication_diagram_2.svg/313px-Matrix_multiplication_diagram_2.svg.png" alt="Drawing" style="width: 300px;"/>


Con broadcasting:

In [65]:
arr1 = np.arange(5).reshape(5,1) # define como una matriz agregando el reshape (1 columna)

In [67]:
arr1

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [68]:
arr1.T  # observe los [ ] dobles. Esto funciona como una matriz

array([[0, 1, 2, 3, 4]])

In [69]:
np.dot(arr1, arr1.T)

array([[ 0,  0,  0,  0,  0],
       [ 0,  1,  2,  3,  4],
       [ 0,  2,  4,  6,  8],
       [ 0,  3,  6,  9, 12],
       [ 0,  4,  8, 12, 16]])

In [70]:
arr1 * arr1.T

array([[ 0,  0,  0,  0,  0],
       [ 0,  1,  2,  3,  4],
       [ 0,  2,  4,  6,  8],
       [ 0,  3,  6,  9, 12],
       [ 0,  4,  8, 12, 16]])

O normal:

In [71]:
a = np.arange(6).reshape(3,2)
a

array([[0, 1],
       [2, 3],
       [4, 5]])

In [72]:
b = np.arange(6).reshape(2,3)
b

array([[0, 1, 2],
       [3, 4, 5]])

In [73]:
np.dot(a, b)

array([[ 3,  4,  5],
       [ 9, 14, 19],
       [15, 24, 33]])