# NumPy I

- NumPy es una librería eficiente para cálculo numérico
- Creada en 2005 a partir de otras librerías (Numeric y Numarray)
- NumPy crea contenedores de arrays N-dimensionales. Es decir, puedo tener matrices pero de una forma eficiente.
- [Documentación oficial](https://numpy.org/)

### Instalación de NumPy
- Si ejecutamos el siguiente código y se queda pensando es que no está instalada la librería.
```python
import numpy as np
```
- Para instalarla, abrimos una nueva ventana del PowerShell y escribimos:
```python
conda install numpy
```

### Ejecución de NumPy

In [1]:
import numpy as np

## Numpy Arrays

- Es rápido para operaciones vectorizadas
- En el ejemplo de debajo se creará una lista de 1.000.000 de números y se multiplicará por 2 cada número.
    - En el primer ejemplo se usarán las funcionalidades básicas de Python
    - En el segundo ejemplo se utilizará una función `map`
    - En el tercer ejemplo se utilizará un NumPy array

In [7]:
%%timeit
lista = list(range(int(1e6)))
lista_2 = [x * 2 for x in lista]

201 ms ± 3.98 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [10]:
%%timeit
lista = list(range(int(1e6)))
lista_2 = map(lambda x: x * 2, lista)

52.2 ms ± 402 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [8]:
%%timeit
array = np.arange(int(1e6))
array_2 = array * 2

7.04 ms ± 54.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Hay tres funciones básicas para conocer nuestros arrays:
   - **`dtype`** ---> Nos dice el tipo del array, como se verá más adelante
   - **`astype`** ---> Convierte el array a un tipo determinado (información más adelante)
   - **`ndim`** ---> Nos dice las dimesiones del array
   - **`size`** ---> Nos dice el número de elementos del array 

In [24]:
array = np.array([[5, 15, 10], 
                  [0.1, 7, 27]])
array

array([[ 5. , 15. , 10. ],
       [ 0.1,  7. , 27. ]])

In [19]:
type(array)

numpy.ndarray

- Con `ndim` podemos ver las dimensiones del array

In [15]:
array.ndim

2

- Con `size` podemos saber el número de elementos

In [25]:
array.size

6

- Con `shape` podemos ver sus dimensiones. En el siguiente ejemplo podmeos ver que es un array de 2x3.

In [21]:
array.shape

(2, 3)

- Para saber el tipo de los elementos almacenados usamos `dtype`

In [22]:
array.dtype

dtype('float64')

- NumPy les otorga tipo *float64* por cuestiones de eficiencia.
- Hay que tener en cuenta que estos tipos de datos (`dtype('float64')`, `dtype('int64')`, ...) no son los mismos tipos que los tipos built-in de Python (`float`, `int`, ...).

### Modficiación de dimensiones

- El tamaño de los ndarray se define al crearlo y no puede modificarse
- Pero sus dimensiones sí pueden modificarse, siempre y cuando no añadamos más elementos
    - `reshape` -> No es **inplace**
    - `resize` -> Es **inplace**

- **Ejemplo con `reshape`**

In [23]:
array.reshape(3, 2)

array([[ 5. , 15. ],
       [10. ,  0.1],
       [ 7. , 27. ]])

In [16]:
array.reshape(1,6)

array([[ 5. , 15. , 10. ,  0.1,  7. , 27. ]])

In [24]:
array

array([[ 5. , 15. , 10. ],
       [ 0.1,  7. , 27. ]])

- **Ejemplo con `resize`**

In [25]:
array.resize(3,2)

In [26]:
array

array([[ 5. , 15. ],
       [10. ,  0.1],
       [ 7. , 27. ]])

## Creación de NumPy arrays

Se pueden crear Numpy arrays de diferentes formas:
1. Directamente (`nparray`)
2. Convirtiendo listas de Python (`np.array`)
3. A través de rangos (`np.arange`) ---> Ojo, solo lleva una R al ser "a(array) range"
4. Matriz de ceros (`np.zeros`)
5. Matriz de unos (`np.ones`)
6. Matriz vacía (`np.empty`)  ---> Apenas se usa. Se suele crear una matriz de ceros en su lugar.
7. Matriz de valores equiespaciados (`np.linspace`)

### 1. Directamente (`np.array`)

***IMPORTANTE***: *Observar cómo aumenta el número de corchetes al hacerlo de dos dimesiones*.

In [22]:
array_one_dimension = np.array([1,2,10,9,8])
array_two_dim = np.array([[2,7,19], 
                          [5,9,5]])

### 2. Convirtiendo listas de Python (`np.array`)

In [28]:
lista = [
    [2.15, 0, -1.3],
    [-82.45, 41, -0.86],
    [85, 15.2, 23.5],
    [0.12, 7.91, -4.68]
]
array = np.array(lista)
array

array([[  2.15,   0.  ,  -1.3 ],
       [-82.45,  41.  ,  -0.86],
       [ 85.  ,  15.2 ,  23.5 ],
       [  0.12,   7.91,  -4.68]])

### 3. A través de rangos (`np.arange`)

In [28]:
array = np.arange(10)
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [37]:
array = np.arange(12).reshape(4,3)
array

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

### 4. Matriz de ceros (`np.zeros`)
***IMPORTANTE***: *Ojo con  el número de paréntesis si se le quiere dar una dimensión determinada*

In [34]:
np.zeros((5, 8))

array([[0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0.]])

In [35]:
np.zeros(15, dtype='int')

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

### 5. Matriz de unos (`np.ones`)
***IMPORTANTE***: *Ojo con  el número de paréntesis si se le quiere dar una dimensión determinada*

In [36]:
np.ones((7,10))

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

### 6. Matriz vacía (`np.empty`)
***IMPORTANTE***: *Ojo con  el número de paréntesis si se le quiere dar una dimensión determinada*

- El array vacío significa que coge un espacio de memoria y lo reserva para el array., pero no borra lo existente en memoria. Aparece con unos números aleatorios muy pequeños (indicando los bytes reservados), por eso devuelve números.
- Sin embargo, en cuestiones de tiempo la diferencia es mínima con una matriz de ceros (`np.zeros`)

In [37]:
np.empty((2, 8))

array([[4.67296746e-307, 1.69121096e-306, 1.78020983e-306,
        1.37959808e-306, 1.37962049e-306, 1.42418987e-306,
        1.37961641e-306, 1.60220528e-306],
       [1.24611266e-306, 9.34598925e-307, 1.24612081e-306,
        1.11260755e-306, 1.60220393e-306, 1.51320640e-306,
        9.34609790e-307, 1.24610723e-306]])

In [40]:
%%timeit
np.zeros((10**4, 10**4))

18.3 ms ± 1.13 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [39]:
%%timeit
np.empty((10**4, 10**4))

18.8 ms ± 1.15 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


### 7. Matriz unidad (`np.eye`)

In [41]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

### 8. Matriz de valores equiespaciados (`np.linspace`)

In [46]:
array = np.linspace(2.15, 3.8, 20)
array

array([2.15      , 2.23684211, 2.32368421, 2.41052632, 2.49736842,
       2.58421053, 2.67105263, 2.75789474, 2.84473684, 2.93157895,
       3.01842105, 3.10526316, 3.19210526, 3.27894737, 3.36578947,
       3.45263158, 3.53947368, 3.62631579, 3.71315789, 3.8       ])

In [47]:
array.size

20

- Fórmula para intervalos equiespaciados en $\Delta x$ elementos

$$N = \frac{(x_\text{max} - x_\text{min})}{\Delta x} \, + \, 1$$

donde $N$ es el número de elementos que podemos pasarle a `np.linspace`, $x_{max}$ y $x_{min}$ son los extremos del intervalo que estamos considerando.

In [51]:
array = np.linspace(2.0, 3.8, round((3.8-2.0)/0.1+1))
array

array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2,
       3.3, 3.4, 3.5, 3.6, 3.7, 3.8])

In [52]:
array.size

19

## Tipos de datos en numpy arrays

| Tipo | Código | Descripción |
|-|-|-|
|`int8`|`i1`|Entero de 8 bits con signo|
|`int16`|`i2`|Entero de 16 bits con signo|
|`int32`|`i4`|Entero de 32 bits con signo|
|`int64`|`i8`|Entero de 64 bits con signo|
|`uint8`|`u1`|Entero sin signo de 8 bits con signo|
|`uint16`|`u2`|Entero sin signo de 16 bits con signo|
|`uint32`|`u4`|Entero sin signo de 32 bits con signo|
|`uint64`|`u8`|Entero sin signo de 64 bits con signo|
|`float16`|`f2`|Coma flotante de 16 bits (baja precisión)|
|`float32`|`f4`|Coma flotante de 32 bits|
|`float64`|`f8`|Coma flotante de 64 bits (doble precisión)|
|`float128`|`f16` o `g`|Coma flotante de 128 bits (precisión extendida)|
|`complex64`|`c8`|Número complejo en coma flotante de 32 bits|
|`complex128`|`c16`|Número complejo en coma flotante de 64 bits|
|`complex256`|`c32`|Número complejo en coma flotante de 128 bits|
|`bool`|`?`|Valor booleano: True or False|
|`string_`|`S`|String de longitud fija|
|`unicode_`|`U`|String unicode de longitud fija|
|`object`|`O`| Objeto de Python|

- Podemos consultar los valores máximo y mínimos (precisión) que podemos almacenar en tipos con los siguientes comandos, respectivamente:
    - *int* ---> `np.iinfo` (viene de integer info)
    - *float* ---> `np.finfo` (viene de float info)
- Por ejemplo, `np.finfo(np.float8)` devuelve que sus números solo pueden ir de -128 hasta 127. Esto quiere decir que, por ejemplo, es buen tipo de array para guardar edades, que jamás superarán 127.

In [66]:
np.finfo(np.float64)

finfo(resolution=1e-15, min=-1.7976931348623157e+308, max=1.7976931348623157e+308, dtype=float64)

In [65]:
np.iinfo(np.int8)

iinfo(min=-128, max=127, dtype=int8)

In [46]:
tipos_int = [np.int8, np.int16, np.int32, np.int64]
for tipo in tipos_int:
    print(np.iinfo(tipo))

Machine parameters for int8
---------------------------------------------------------------
min = -128
max = 127
---------------------------------------------------------------

Machine parameters for int16
---------------------------------------------------------------
min = -32768
max = 32767
---------------------------------------------------------------

Machine parameters for int32
---------------------------------------------------------------
min = -2147483648
max = 2147483647
---------------------------------------------------------------

Machine parameters for int64
---------------------------------------------------------------
min = -9223372036854775808
max = 9223372036854775807
---------------------------------------------------------------



In [47]:
np.finfo(np.float16)

finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)

In [48]:
tipos_float = [np.float16, np.float32, np.float64]
for tipo in tipos_float:
    print(np.finfo(tipo))

Machine parameters for float16
---------------------------------------------------------------
precision =   3   resolution = 1.00040e-03
machep =    -10   eps =        9.76562e-04
negep =     -11   epsneg =     4.88281e-04
minexp =    -14   tiny =       6.10352e-05
maxexp =     16   max =        6.55040e+04
nexp =        5   min =        -max
---------------------------------------------------------------

Machine parameters for float32
---------------------------------------------------------------
precision =   6   resolution = 1.0000000e-06
machep =    -23   eps =        1.1920929e-07
negep =     -24   epsneg =     5.9604645e-08
minexp =   -126   tiny =       1.1754944e-38
maxexp =    128   max =        3.4028235e+38
nexp =        8   min =        -max
---------------------------------------------------------------

Machine parameters for float64
---------------------------------------------------------------
precision =  15   resolution = 1.0000000000000001e-15
machep =    -52   e

- Al crear un numpy array, se asigna un tipo por defecto en función de los elementos que contiene.
- Nosotros podemos forzar a que le otorgue un tipo determinado con la opción `dtype=`. Los tipos se pueden otorgar:
    - **Mediante su nombre en tipo NumPy**. *Ejemplo `dtype = np.int64`*
    - **Mediante su nombre en tipo string**. *Ejemplo `dtype = "int64"`*
    - **Mediante su código**. *Ejemplo `dtype = i8`*
- Si el array tiene un tipo por defecto, no se myestra en pantalla.

In [51]:
array = np.array([2, 3], dtype='int32')
array

array([2, 3])

- En caso contrario, sí se muestra

In [67]:
array = np.array([2, 3], dtype=np.int16)
array

array([2, 3], dtype=int16)

In [53]:
array2 = np.array([2, 3, 152], dtype='S5')
array2

array([b'2', b'3', b'152'], dtype='|S5')

In [55]:
np.array([2, 3], dtype='U5')

array(['2', '3'], dtype='<U5')

- **IMPORTANTE**. Recordar que los elementos de los arrays tienen que ser del mismo tipo.
- Por lo tanto, si junta números y strings debemos indicar que es de tipo "objeto"
- Y si solo son strings, debemos indicar que es de tipo string para ganar eficiencia.

In [75]:
a = np.array([2, 3, 'buenos días'])
a * 2

TypeError: ufunc 'multiply' did not contain a loop with signature matching types dtype('<U11') dtype('<U11') dtype('<U11')

In [76]:
b = np.array([2, 3, 'buenos días'], dtype='object')
b * 2

array([4, 6, 'buenos díasbuenos días'], dtype=object)

- Podemos cambiar el tipo de un numpy array ya creado con la función `astype()`

In [89]:
rango = np.arange(100)
print(f"El tipo del array 'rango' es {rango.dtype}")
rango_obj = rango.astype('object')
print(f"El tipo del array 'rango_obj' es {rango_obj.dtype}")

El tipo del array 'rango' es int32
El tipo del array 'rango_obj' es object


- Como se ha explicado, al hacerlo de tipo object (`dtype="object`) lo hace ineficiente y se tarda más en operar con ello.

In [62]:
%%timeit
rango * 2

1.03 µs ± 128 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [63]:
%%timeit
rango_obj * 2

4.51 µs ± 1.1 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## Métodos de los arrays

- Los numpy array poseen multitud de métodos que se van descubriendo a medida que se van necesitando

In [93]:
def my_dir(x):
    return [k for k in dir(x) if not k.startswith("__")]

In [94]:
my_dir(array)

['T',
 'all',
 'any',
 'argmax',
 'argmin',
 'argpartition',
 'argsort',
 'astype',
 'base',
 'byteswap',
 'choose',
 'clip',
 'compress',
 'conj',
 'conjugate',
 'copy',
 'ctypes',
 'cumprod',
 'cumsum',
 'data',
 'diagonal',
 'dot',
 'dtype',
 'dump',
 'dumps',
 'fill',
 'flags',
 'flat',
 'flatten',
 'getfield',
 'imag',
 'item',
 'itemset',
 'itemsize',
 'max',
 'mean',
 'min',
 'nbytes',
 'ndim',
 'newbyteorder',
 'nonzero',
 'partition',
 'prod',
 'ptp',
 'put',
 'ravel',
 'real',
 'repeat',
 'reshape',
 'resize',
 'round',
 'searchsorted',
 'setfield',
 'setflags',
 'shape',
 'size',
 'sort',
 'squeeze',
 'std',
 'strides',
 'sum',
 'swapaxes',
 'take',
 'tobytes',
 'tofile',
 'tolist',
 'tostring',
 'trace',
 'transpose',
 'var',
 'view']

### Veamos algunas de  las más utilizadas
- **`tolist()`** ---> Para pasar a una lista de Python
- **`.T`** ---> Para transponer un array
- **`cumsum()`** ---> Para hacer la suma acumulada del array
- **`cumprod()`** ---> Para hacer el producto acumulado del array
- **`any()`** ---> Para ver si alguno de los elementos es True
- **`all()`** ---> Para ver si todos los elementos son true

In [97]:
array = np.arange(12).reshape(3,4)
array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [98]:
array.tolist()

[[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]]

In [99]:
array.T

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

In [100]:
array.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45, 55, 66], dtype=int32)

In [101]:
array[1:].cumprod()

array([      4,      20,     120,     840,    6720,   60480,  604800,
       6652800], dtype=int32)

In [102]:
bool_array = np.array([True, True, False, False])

In [103]:
bool_array.any()

True

In [104]:
bool_array.all()

False

## Operaciones aritméticas y lógicas

- Los numpy arrays se basan en la vectorización de operaciones
- ***Point-wise*** / ***Element-wise operations***. Si los numpy arrays tienen la misma dimensión y estrucutra las operaciones aritméticas se realizan elemento a elemento.
    - **Ojo**. Esto implica que las multplicaciones se realizan uno-a-uno, no como la multipicación de matrices.

In [106]:
array_1 = np.array([
    [1, 2, 3],
    [4, 5, 6.]
])

array_2 = np.array([
    [2, 6, 12],
    [15, 3, 8.]
])

In [107]:
array_1 + 2

array([[3., 4., 5.],
       [6., 7., 8.]])

In [83]:
array_1 + array_2

array([[ 3.,  8., 15.],
       [19.,  8., 14.]])

In [84]:
array_1 - array_2

array([[ -1.,  -4.,  -9.],
       [-11.,   2.,  -2.]])

In [85]:
array_1 * array_2

array([[ 2., 12., 36.],
       [60., 15., 48.]])

In [86]:
array_1 / array_2

array([[0.5       , 0.33333333, 0.25      ],
       [0.26666667, 1.66666667, 0.75      ]])

In [87]:
1 / array_1

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [88]:
array_1 ** 2

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [89]:
array_1 > array_2

array([[False, False, False],
       [False,  True, False]])

- Si los arrays no tienen la misma dimensión, numpy realiza lo que se conoce como **broadcasting**.
    - **Broascasting** ---> se repite el array más pequeño hasta obtener un numpy array de las misma dimensiones que el otro.
- Las dimensiones tienes que encajar.

In [90]:
array_1

array([[1., 2., 3.],
       [4., 5., 6.]])

In [91]:
array_3 = np.array([2, 3, 4])
array_3

array([2, 3, 4])

In [92]:
array_1 + array_3

array([[ 3.,  5.,  7.],
       [ 6.,  8., 10.]])

In [93]:
array_1 * array_3

array([[ 2.,  6., 12.],
       [ 8., 15., 24.]])

- Si no puede hacer **broadcasting** por un problema de dimesiones, me devolverá un error.

In [122]:
array_4 = np.array([2, 3])

In [114]:
print(f"El array 1 es: {array_1}")
print("\n")
print(f"El array 4 es: {array_4}")

El array 1 es: [[1. 2. 3.]
 [4. 5. 6.]]


El array 4 es: [2 3]


- Me dará error porque las operaciones no son compatibles.
- **¿Por qué no son compatibles?**
    - El array 4 está mal construido, ya que es de una dimesión en vez de dos (Faltan corchetes para darle dos dimensiones).
    - La manera correcta de crearlo era así:
    ```python
        array_4 = np.array([[2, 3]])
    ```
    

In [98]:
array_1 + array_4

ValueError: operands could not be broadcast together with shapes (2,3) (2,) 

In [115]:
array_1 * array_4.T

ValueError: operands could not be broadcast together with shapes (2,3) (2,) 

**¿Cómo solucionarlo?**

A. Lo construyo de nuevo añadiendo los corchetes necesarios.

B. Aplico una serie de operaciones sobre él
    1. Le hago un `reshape` o `resize`(not inplace vs inplace) indicando filas y columnas para que numpy lo entienda así.
    2. Realizo una transposición para que se pueda operar con ellos.

In [116]:
array_4 = array_4.reshape(1, 2). T
array_4 

array([[2],
       [3]])

In [117]:
array_1 + array_4

array([[3., 4., 5.],
       [7., 8., 9.]])

In [118]:
array_1 * array_4

array([[ 2.,  4.,  6.],
       [12., 15., 18.]])

## Indexación de arrays

- En arrays unidimensionales la indexación funciona igual que en las listas de Python

In [107]:
array = np.arange(10)
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [108]:
array[0]

0

In [109]:
len(array)

10

In [110]:
array[10]

IndexError: index 10 is out of bounds for axis 0 with size 10

In [111]:
array[1:3]

array([1, 2])

In [112]:
array[1::2]

array([1, 3, 5, 7, 9])

- Podemos modificar parte de los arrays mediante indexación

In [113]:
array[5:] = 0

In [114]:
array

array([0, 1, 2, 3, 4, 0, 0, 0, 0, 0])

- En numpy arrays multidimensionales podemos indexar de dos formas
    - **Indexación recursiva**
    - **Indexación con comas** (más usado)

In [127]:
array_2d = np.arange(9).reshape(3,3)
array_2d

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [128]:
array_2d[1,0]

3

In [134]:
array_2d[1][0]

3

In [136]:
array_2d[-1]

array([6, 7, 8])

In [135]:
array_2d[-1][-1]

8

## Indexación lógica o booleana (máscaras)

- El slicing con operaciones lógicas es muy usado y muy útil.
- A estos arrays de booleanos con la misma dimensión que el array original se denominan **máscaras** (**mask**)

In [143]:
data = np.random.randn(3,4)
data

array([[-0.59552236,  0.0862562 , -0.27961367,  0.25974035],
       [ 0.34269481, -1.39987082, -0.5545483 ,  1.01710458],
       [-0.74810634,  0.37075175, -1.10921796, -0.94397019]])

In [144]:
data > 0

array([[False,  True, False,  True],
       [ True, False, False,  True],
       [False,  True, False, False]])

In [145]:
data[data>0]

array([0.0862562 , 0.25974035, 0.34269481, 1.01710458, 0.37075175])

- Podemos negar el índice con `~`.
- **Ojo**, es necesario indicar con un paréntesis todo lo que se está negando, ya que si no puede dar errores y no saber de dónde viene, como en el segundo caso:
- Además, los operadores perezosos no sirven y se debe usar **&** en vez de **and** y **|** en vez de **or**.

In [146]:
data[~(data>0)]

array([-0.59552236, -0.27961367, -1.39987082, -0.5545483 , -0.74810634,
       -1.10921796, -0.94397019])

In [147]:
data[~data>0]

TypeError: ufunc 'invert' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

In [148]:
data.round() == 1

array([[False, False, False, False],
       [False, False, False,  True],
       [False, False, False, False]])

- Esto está mal...

In [131]:
mask = data > 0 and data.round() == 1

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

- Y esto...

In [132]:
mask = (data > 0) and (data.round() == 1)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

- Y esto...

In [133]:
mask = data > 0 & data.round() == 1

TypeError: ufunc 'bitwise_and' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

- Pero esto es correcto al usar el apersan (**&**)

In [150]:
mask = (data > 0) & (data.round() == 1)
data[mask]

array([1.01710458])

- También podemos operar e indexar secuencias de más de dos dimensiones, pero apenas se utilizan.

In [137]:
array = np.arange(27).reshape(3,3,3)
array

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

In [138]:
array[[1, 2]]

array([[[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

In [139]:
array[[1, 2], [0,1]]

array([[ 9, 10, 11],
       [21, 22, 23]])

In [140]:
array[[1, 2], [0,1], [1]]

array([10, 22])

## Random numbers con Numpy

- Aunque podemos generar números aleatorios con el paquete core de Python `random`, Numpy trae su propio generador de números aleatorios `np.random`
- Estos generadores devuelven numpy arrays

|Función|Descripcción|
|----|---|
|`seed`| Semilla del generador de números aleatorios.|
|`permutation`| Permutación aleatoria de una secuencia de entrada.|
|`shuffle`| Permutación aleatoria de la secuencia de entrada (inplace).|
|`rand`|  Muestra de números aleatorios utilizando una **distribución uniforme** entre 0 y 1.|
|`randint`|  Muestra de números aleatorios enteros dentro de un rango definido.|
|`randn`|  Muestra de números aleatorios utilizando una distribución **normal** de media 0 y desviación 1.|
|`binomial`| Muestra de números aleatorios utilizando una distribución **binomial**.|
|`normal`| Muestra de números aleatorios utilizando una distribución **normal**.|
|`beta`| Muestra de números aleatorios utilizando una distribución **beta**.|
|`chisquare`| Muestra de números aleatorios utilizando una distribución **chi cuadrado**.|
|`gamma`|  Muestra de números aleatorios utilizando una distribución **gamma**.|
|`uniform`| Muestra de números aleatorios utilizando una distribución **uniforme** [0, 1). |

In [151]:
array = np.arange(10)
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

`permutation` vs `shuffle`
- La diferencia entre permutation y shuffle es que uno hace la permutación *inplace* (`shuffle`) y otro no (`permutation`).
- En cuestiones de eficiencia, siempre es más rápido un inplace que algo que no es inplace.

In [139]:
np.random.permutation(array)

array([3, 2, 4, 6, 8, 7, 5, 9, 0, 1])

In [140]:
array

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [141]:
np.random.shuffle(array)

In [142]:
array

array([9, 5, 1, 6, 2, 8, 4, 0, 3, 7])

In [143]:
%%timeit
np.random.permutation(array)

9.4 µs ± 441 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [144]:
%%timeit
np.random.shuffle(array)

6.69 µs ± 195 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


### `np.random.seed`
- Podemos fijar una semilla para obtener siempre los mismos números aleatorios
- Establecer una semilla sirve para que los números no sean realmente aleatorios, sino pseudolateatorios, es decir, una misma semilla generará los mismos números.
- Es muy útil para comparar resultados

- Con semilla da los mismos resultados.

In [153]:
np.random.seed(1000)
np.random.normal(loc=4, scale=2, size=(5,2))

array([[2.39108339, 4.64186309],
       [3.94903424, 5.28864766],
       [3.39840665, 4.77894911],
       [3.7851254 , 3.04003385],
       [5.190071  , 3.07066495]])

In [154]:
np.random.seed(1000)
np.random.normal(loc=4, scale=2, size=(5,2))

array([[2.39108339, 4.64186309],
       [3.94903424, 5.28864766],
       [3.39840665, 4.77894911],
       [3.7851254 , 3.04003385],
       [5.190071  , 3.07066495]])

- Sin semilla, varía cada vez

In [155]:
np.random.normal(loc=4, scale=2, size=(5,2))

array([[5.33456261, 2.38776878],
       [1.60786033, 3.18807968],
       [3.63524532, 4.20638579],
       [3.72315602, 5.41138475],
       [6.54359055, 2.02650534]])

### `np.random.normal`
- Es una de las funciones de arrays más usadas en estadística. Sus elementos son:
    - `loc` es la media de la distribución
    - `scale` es la desviación típica de la distribución.
    - `size` son las dimensiones o el número de elementos:
        - `size=(5,2)` devolverá un array de 5 filas y 2 columnas
        - `size=5` devolverá un array de 5 elementos.

In [161]:
np.random.seed(1023)
np.random.normal(loc=5.7,scale=10,size=(5,2))

array([[ 7.95482044, 12.87801423],
       [-0.98058851,  5.83347979],
       [14.93407263, 10.12872961],
       [10.18230159, -2.49662146],
       [13.02794495,  8.39748654]])

In [163]:
np.random.seed(1023)
np.random.normal(loc=5.7,scale=10,size=10)

array([ 7.95482044, 12.87801423, -0.98058851,  5.83347979, 14.93407263,
       10.12872961, 10.18230159, -2.49662146, 13.02794495,  8.39748654])

### `np.random.randint`
- Es otra de las funciones de arrays más usadas. Sus opciones son:
    - `low`. Es el número aleatorio más bajo que puede devolver
    - `max`. Es el número aleatorio más grande que puede devolver
    - `size`. Son las dimensiones del array.

In [160]:
np.random.randint(1, 50, size=(3,2), dtype="int8")

array([[25, 48],
       [19, 34],
       [ 7,  2]], dtype=int8)