# Librería Numpy

**04/10/2021**

- NumPy (__Num__ erical __Py__ thon) librería estándar para análisis numérico en Python
- Estructura de datos multidimensional eficiente (escrita en C): ndarray
- Colección de funciones para álgebra lineal, estadística descriptiva
- Ayuda al procesamiento de datos (np.where)

In [2]:
#importar libreria
import numpy as np

## 1. Ndarrays

In [None]:
lista = [1,2,3,4]
print(type(lista))

array = np.array(lista)
print(type(array))
print(array)

In [None]:
print(len(array)) #  Length of array
print(array.ndim) # Number of array dimensions
print(array.size) # Number of array elements
print(array.dtype) # Data type of array elements
print(array.dtype.name) # Name of data type
print(array.astype(int)) # Convert an array to a different type

In [None]:
array1 = np.array([1,2,3,4])
array2 = np.array([5,6,7,8])

### Crear ndarrays

In [5]:
print(np.array([100,10,1])) # a partir de una lista
print(np.arange(1,20,2))    
print(np.arange(100,20,-5)) 
print(np.random.randint(0,50,7)) # 7 números aleatorios entre 0 y 50

[100  10   1]
[ 1  3  5  7  9 11 13 15 17 19]
[100  95  90  85  80  75  70  65  60  55  50  45  40  35  30  25]
[27  2 44 12 47  7 41]


In [None]:
np.linspace(0,10,5)

In [None]:
print(array1)
array1[:2] += 1
print(array1)

In [None]:
print(np.random.randint(0,50,9).reshape(3,3))

In [None]:
# Generar arrays con valores fijos
print(np.zeros(5))       # 1D
print(np.zeros_like(array) )
print(np.ones((2,2)))    # matrix 2x2
print(np.empty((2,2,2))) # matrix 2x2x2, no inicializados
print(np.full((3,3),7))  # matrix 5x2
print(np.eye(3))         # matrix identity

In [12]:
# Generar array de float
f1 = np.random.uniform(5,10, size=(10))
f1

array([8.28133045, 9.38642479, 7.66633865, 6.96652081, 5.05482757,
       6.62578396, 9.16161668, 6.35227552, 7.04712393, 8.26250395])

### Información del ndarray

In [None]:
my_ndarray = np.array([1,2,3,4])
print(my_ndarray)
print(my_ndarray.argmax())    # índice del valor más alto
print(my_ndarray.argmin())    # índice del valor más bajo
print(my_ndarray.nonzero())   # retorna los índices de los elementos distintos a 0
np.unravel_index(np.random.randint(0,25,25).reshape(5,5).argmax(),(5,5))

In [None]:
my_ndarray = np.full((5,2),-3) # matrix 5x2
print(my_ndarray)
print(my_ndarray.size)        # número de elementos == len(my_ndarray) (atributo)
print(my_ndarray.shape)       # dimensiones
print(my_ndarray.ndim)        # número de dimensiones

### Operaciones

In [None]:
# Unir dos arrays
a1 = np.array([0,0,0,0,0,0])
a2 = np.array([1,1,1,1,1,1])
print(np.hstack((a1,a2))) # una al lado de la otra
print(np.vstack((a1,a2))) # una encima de la otra

In [None]:
# Ejercicio

# Obtener el resultado de la celda anterior utilizando concatenate
print(np.concatenate((a1, a2)))
print(np.concatenate((a1, a2), axis = 0).reshape(2,6))

In [None]:
np.array([1,2,3]).reshape(-1,1)


In [None]:
# dividir un array
array = np.arange(9).reshape(3,3)
print(array)
# print(np.array_split(array,2)) 
# print(np.array_split(array,9)) 
for i, e in np.ndenumerate(array):
    print(i , ' - ', e)

In [None]:
# dividir un array
array = np.arange(16).reshape(4,4)
print(array)
print(np.array_split(array,[3], axis = 0)) 

### Índices y slicing

In [None]:
array = np.arange(10, 16)
print(array)
print(array[-1])    
print(array[:-1])  
print(array[::-1])

In [None]:
array = np.random.randint(0,50,9)
print(array)
print(array[2:5])

array1 = array.reshape(3,3)
print(array1)
print(array1[0,1]) # fila, columna

In [None]:
# Obtener fila
print("Fila")
print(array1[1])

# Obtener columna
print("Columna")
print(array1[:,0])

In [None]:
array = np.random.randint(0,40,8)
array

In [None]:
# Reverse
print(array[::-1])
print(np.flip(array))

In [None]:
# Reverse por filas y columanas

array2 = np.random.randint(0,20,9).reshape(3,3)
print(array2)

In [None]:
# Reverse rows
array2[::-1,]

In [None]:
# Reverse columns
array2[:,::-1]

In [None]:
# Reverse both ???

### Slicing condicional

In [13]:
array = np.arange(-3,4)
print(array)

mask = array%2 == 0
print(mask)

print(array[mask])

array[mask] = 0
print(array)

[-3 -2 -1  0  1  2  3]
[False  True False  True False  True False]
[-2  0  2]
[-3  0 -1  0  1  0  3]


In [None]:
array = np.arange(-3,4)
print(array)
mask = array > 0

array_positive = array[mask]  # devuelve una copia
print(array_positive)

array_positive[0] = -10
print(array)
print(array_positive)

### Operaciones con arrays

In [None]:
array_1 = np.ones(3) * 2
array_2 = np.arange(3) + 1

print(array_1)
print(array_2)

print(array_1 + array_2)
print(array_1 - array_2)
print(array_1 * array_2)
print(array_1 / array_2)

**Operadores unarios y binarios**

| Tipo | Operación | Descripción |
|:---------|:-----|:-----|
| Unario | *abs* | Valor absoluto de cada elemento |
| | *sqrt* | Raíz cuadrada de cada elemento |
| | *exp* | e^x, siendo x cad elemento |
| | *log, log10, log2* | Logaritmos en distintas bases de cada elemento |
| | *sign* | Retorna el signo de cada elemento (-1 para negativo, 0 o 1 para positivo) |
| | *ceil* | Redondea cada elemento por arriba |
| | *floor* | Redondea cada elemento por abajo |
| | *isnan* | Retorna si cada elemento es Nan |
| | *cos, sin, tan* | Operaciones trigonométricas en cada elemento |
| | *arccos, arcsin, arctan* | Inversas de operaciones trigonométricas en cada elemento |
| Binario | *add* | Suma de dos arrays |
| | *substract* | Resta de dos arrays |
| | *multiply* | Multiplicación de dos arrays |
| | *divide* | División de dos arrays |
| | *maximum, minimum* | Retorna el valor máximo/mínimo de cada pareja de elementos |
| | *equal, not_equal* | Retorna la comparación (igual o no igual) de cada pareja de elementos |
| | *greater, greater_equal, less, less_equal* | Retorna la comparación (>, >=, <, <= respectivamente) de cada pareja de elementos |

**Más funciones**

| Función | Descripción |
|:---------|:-----|
| *sum(arr)* | Suma de todos los elementos de *arr* |
| *mean(arr)* | Media aritmética de los elementos de *arr* |
| *std(arr)* | Desviación estándar de los elementos de *arr* |
| *cumsum(arr)* | Devuelve array con la suma acumulada de cada elementos con todos los anteriores |
| *cumprod(arr)* | Devuelve array con el producto acumulado de cada elementos con todos los anteriores |
| *min(arr), max(arr)* | Mínimo y máximo de *arr* |
| *any(arr)* | En array de tipo *bool*, retorna *True* si algún elemento es *True* |
| *all(arr)* | En array de tipo *bool*, retorna *True* si todos los elementos son *True* (o >0 en valores numéricos) |
| *unique(arr)* | Devuelve un array con valores únicos |
| *in1d(arr1, arr2)* | Devuelve un array con bool indicando si cada elemento de *arr1* está en *arr2* |
| *union1d(arr1, arr2)* | Devuelve la unión de ambos arrays |
| *intersect1d(arr1, arr2)* | Devuelve la intersección de ambos arrays |
| *setdiff1d(arr1,arr2)* | Elimina de arr1 los elementos comunes de los dos arrays|

In [None]:
# sum != cumsum
array1 = np.arange(6)
array2 = np.arange(5,11,1)
print(array1)
print(array2)
print(array1.sum())
print(array1.cumsum())

In [None]:
np.mean(array1)

In [None]:
np.union1d(array1,array2)

In [None]:
np.intersect1d(array1,array2)

## 2. Filtrado de datos y búsqueda elementos

In [4]:
precios = np.array([0.99, 14.49, 19.99, 20.99, 0.49])
# mask con los elementos menores de 1
mask = np.where(precios < 1, True, False)
print(mask)
print(precios[mask])

print(np.where(precios < 1, 1.0, precios))

[ True False False False  True]
[0.99 0.49]
[ 1.   14.49 19.99 20.99  1.  ]


In [5]:
datos = [1,2,3,np.nan,4,5,np.nan]
datos

[1, 2, 3, nan, 4, 5, nan]

In [6]:
datos2 =np.where(np.isnan(datos),7,datos)
datos2

array([1., 2., 3., 7., 4., 5., 7.])

In [7]:
type(datos[3])

float

In [9]:
a = np.array([10,20,30,40,50,60,70])
b = np.array([10,20,30,40,10,10,70,80,70,90])

In [10]:
# Comprobar si 11 y 20 están en a
np.isin(a, [11,20])

array([False,  True, False, False, False, False, False])

In [None]:
# Mostrar elementos comunes a la búsqueda
a[np.isin(a,20)]

In [None]:
# Mostrar los índices donde coinciden
np.where(np.isin(b, [10,70]))

## 3. Números aleatorios

https://docs.python.org/3/library/random.html

In [None]:
import random
print(random.random()) # número entre 0 y 1
print(random.randint(5,10))
print(random.uniform(0,5)) # real entre dos valores

In [None]:
array = np.random.randint(0,50,9)
array

In [None]:
np.random.choice(array)

In [None]:
# Random seed

# Using random.seed we can generate same number of Random numbers
np.random.seed(123)


In [None]:
i = 7
for _ in range(5):
    np.random.seed(i) # misma semilla
    print(np.random.rand())

print()    
    
for i in range(5):
    np.random.seed(i) # diferentes semillas
    print(np.random.rand())

## 4. Otros

In [None]:
# Convert Integer Array to FLOAT
array1 = np.array([1,2,3,4])
print(array1.dtype)
array1.astype(float)


**Valores frecuentes**

In [None]:
array2 = np.array([10,10,10,20,30,20,30,30,20,10])
np.unique(array2)

In [None]:
val , count = np.unique(array2,return_counts=True)
val,count

In [None]:
np.bincount(array2)

In [None]:
np.bincount(b).argmax()

In [None]:
A = np.array([[1,2,3] , [3,4,5] ,[5,6,7]])
A

In [None]:
A.diagonal(), A.T

In [None]:
array2 = np.random.randint(0,10,9)
array2

In [None]:
array2.sort()
print(array2)


## 5. Broadcasting

Cuando hablamos de broadcasting a lo que nos referimos es a cómo numpy realiza operaciones aritméticas con arrays de diferentes tamaños, replicando el tamaño del menor hasta que alcance el del mayor. Si no fuera por el broadcasting, para hacer este tipo de operaciones los arrayas deberían ser del mismo tamaño.

Un ejemplo sencillo al respecto sería:
a = [1,1,1]
b = [[1,1,1],
     [1,2,3],
     [4,5,6]]

a + b =[[2,2,2],
        [2,3,4],
        [5,6,6]]

Pero esta funcionalidad, tiene una limitación y es que Numpy, lo que hace en realidad es comparar las formas element-wise, empezando con las dimensiones finales y avanzando. Éstas deben ser compatibles, esto es, iguales, o una de ellas es 1, sino no permitirá hacer la operación.

Luego, repite los valores del vector más pequeño tantas veces como sea necesario hasta tener la dimensión del array de mayor tamaño y operar.

La gran ventaja es que Numpy no hace "copias" del valor, por lo que las operaciones de broadcasting están optimizan el consumo de recursos de memoria y computación. La razón es que en broadcasting, cada elemento es extraído del vector, por lo que cuando se está procesando la última fila, el caché que consumía el procesamiento de la primera ha sido liberado. Así, en cada paso las partes del caché, se van liberando. En cambio, si operamos con un bucle, cada fila se procesa al completo.


In [14]:
a = np.random.randint(0,10,9).reshape(3,3)
b = np.random.randint(0,10,3).reshape(1,3)
b_broadcast = np.vstack([b,b])
b_broadcast = np.vstack([b_broadcast,b])
c = np.random.randint(0,10,4).reshape(4,1)
display(a)
display(b)
display(b_broadcast)
display(c)

array([[2, 6, 8],
       [9, 5, 9],
       [3, 7, 7]])

array([[6, 2, 1]])

array([[6, 2, 1],
       [6, 2, 1],
       [6, 2, 1]])

array([[6],
       [8],
       [1],
       [9]])

In [None]:
display(a+b)
display(a+b_broadcast)
display(a+c)

Además del tamaño, otra de las "limitaciones" es el broadcasting no está pensado para operaciones entre arrays de una y dos dimensiones

In [None]:
a = np.random.randint(0,10,4).reshape(2,2)
b = np.random.randint(0,10,2).reshape(1,2)
a,b

## 6. Lectura y Escritura de ndarrays a archivos

In [None]:
# escribir a archivo
import numpy as np
import os
ruta = os.path.join("datasets" ,"o_values_array.npy")
values = np.random.randint(9, size=(3,3))
np.save(ruta, values)
print(values)

In [None]:
# leer de archivo
old_values = np.load(ruta)
print(old_values)

In [None]:
# escribir y cargar múltiples arrays
ruta = os.path.join("datasets" ,"o_array_group.npz")
values1 = np.random.randint(9,size=(3,3))
values2 = np.random.randint(4,size=(2,2))
values3 = np.random.randint(16,size=(4,4))
np.savez(ruta,values1,values2,values3) # añade la extensión .npz   

In [None]:
# leer los archivos (devuelve un diccionario con las arrays)
npzfile = np.load(ruta)
print(type(npzfile.files))
for key in npzfile.files: # array.files contiene el nombre de las arrays (arr_0, arr_1...)
    print(npzfile[key])

# Ejercicios

Ejercicios para practicar NumPy: https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises.ipynb

In [None]:
A = np.arange(1,5)
A

In [None]:
A.diag