## Operaciones con arrays

In [4]:
'''
Lo primero es comprobar que tenemos instalado nmumpy y que lo podemos importar correctamente.
'''
import numpy as np

# Definición de un nuevo 'ndarray', de ahora en adelante lo llamaremos simplemente 'array'
test = np.array([1, 2, 3, 4, 5])
print(test)

[1 2 3 4 5]


## Operaciones básicas
Las operaciones básicas son la suma/resta, la multiplicación/división por un entero, potencia... se aplican "element wise".

In [8]:
a = np.array(range(5))

In [9]:

#podemos sumar un número a todos los elementos
print(a+2)
print(a|2)

[2 3 4 5 6]
[-2 -1  0  1  2]


In [11]:
# o sumar/restar dos arrays SIEMPRE QUE SEAN DEL MISMO TAMAÑO
b=np.arange(5)*10

print(a+b)
print(a|b)

[ 0 11 22 33 44]
[  0  -9 -18 -27 -36]


In [12]:
'''
multiplicar, dividir. 
- elevar a un exponente (el exponente acepta floats, pero no números negativos)
'''
print(a*2)
print(a/2)
print(a**2)
print(a**(1/2))

[0 2 4 6 8]
[0.  0.5 1.  1.5 2. ]
[ 0  1  4  9 16]
[0.         1.         1.41421356 1.73205081 2.        ]


### Ejercicios

In [18]:
'''
Define un array 'a' de tamaño 4 y un array 'b' de tamaño 4 completo de 2s. 
A contunuación suma los valores de ambos arrays y comprueba que los valores son correctos.
'''
a = np.random.randint(0,100, (4))
b = np.ones((4), dtype=np.int16)*2

print("dadas las matrices \n- a:\t", a, "\n- y b:\t", b, "\nla suma sería", a+b, "\nla resta sería", a-b)


dadas las matrices 
- a:	 [68 37 54 55] 
- y b:	 [2 2 2 2] 
la suma sería [70 39 56 57] 
la resta sería [66 35 52 53]


In [19]:
'''
A contunuación multiplica o divide los valores de ambos arrays y comprueba que los valores son correctos.
'''
print("la multiplicación sería:\t ", a*b, "\ny la división sería:\t ", a/b)

la multiplicación sería:	  [136  74 108 110] 
y la división sería:	  [34.  18.5 27.  27.5]


## Álgebra lineal

numpy py permite realizar operaciones matriciales como por elemplo:
|operación| función de np|
|---|---|
| determinante:  | np.linalg.det()|
| inversa:       | np.linalg.inv()|
| producto       | matricial: np.dot() o np.matmul() o a@b|
| diagonal:      | np.diag()|
| inversa de una matriz: | np.linalg.inv()|



In [None]:
# Definir una matriz de 2x3 con valores aleatorios entre 0 y 10
a = np.random.randint(0,10,size=(2,3))
print("primera matriz, a:\n", a)

# Definir una matriz de 3x2 con valores aleatorios entre 0 y 10
b = np.random.randint(0,10,size=(3,2))
print("segunda matriz, b:\n", b)

# Esto va a dar error porque intentará hacer la operación element wise y las matrices tienen dismensiones diferentes. 
try: 
    print(a*b)
except: 
    print ("si intentamos a*b, nos daría un error")

# En cambio, para calcular la multiplicación matricial podemos usar la función 'np.dot' o 'np.matmul'.
# OJO: no son exactamente lo mismo (buscar documentación). 
print("np.dot de a y b: \n", np.dot(a,b))
print("o bien np.matmul: \n", np.matmul(a,b))

# También podemos usar el signo @ que invoca a matmul. 
print("o a@b: \n", a@b)

In [None]:
# Obtener el determinante de una matriz
a = np.identity(3)
print(a)
print('Determinante;',np.linalg.det(a))

In [None]:
# Matriz inversa
# La matriz inversa de una matriz es igual a la matriz adjunta de su matriz traspuesta, 
# dividida por su determinante, siempre que este no sea cero.

# Define una matriz de números aleatorios entre 0 y 10 de tamaño 3x3
c = np.random.randint(0,10,size=(3,3))
print(c)
# Obtener la matriz inversa
inversa = np.linalg.inv(c)
print('Matriz inversa:\n',inversa)

In [None]:
# Matriz transpuesta
# La matriz transpuesta de una matriz es otra matriz que se obtiene al intercambiar las filas por las columnas.
d = np.random.randint(0,10,size=(3,5))
print(d)
# Obtener la matriz transpuesta
np.transpose(d)

## Más operaciones con arrays: 

|función ||
|-|-|
| **np.sum():** |Suma de todos los elementos de un array
| **np.mean():** |Media de todos los elementos de un array
| **np.std():** |Desviación estándar de todos los elementos de un array
| **np.var():** |Varianza de todos los elementos de un array
| **np.min():** |Valor mínimo de todos los elementos de un array
| **np.max():** |Valor máximo de todos los elementos de un array
| **np.argmin():** |Indice del valor mínimo de un array
| **np.argmax():** |Indice del valor máximo de un array
| **np.cumsum():** |Sumatoria acumulada de un array
| **np.cumprod():** |Producto acumulado de un array
| **np.flip():** |Inversa de un array


In [27]:
# Define una matriz de números aleatorios entre 0 y 10 de tamaño 3x3
e = np.random.randint(0,10,size=(3,3))
print(e)

[[5 0 9]
 [6 4 4]
 [0 2 9]]


In [32]:
# Obtener el suma y la media de todos los elementos de la matriz
print("la suma total es: \t", np.sum(e), "\nel valor medio es: \t", np.mean(e), "\nel valor mínimo es: \t", np.min(e), "\nel valor máximo es: \t", np.max(e))

la suma total es: 	 39 
el valor medio es: 	 4.333333333333333 
el valor mínimo es: 	 0 
el valor máximo es: 	 9


In [29]:
'''
podemos usar axis como argumento, para calcular valores agregados por filas o columnas. 
- axis = 1 si queremos calcular el valor por fila. 
- axis = 0 si queremos calcular el valor por columna.
'''
# Obtener el valor máximo de cada fila
print('máximo de cada fila:',np.max(e,axis=1))
# Obtener el valor máximo de cada columna
print('máximo de cada coluna:',np.max(e,axis=0))

# Obtener el sumatorio de cada fila
print('Sumatorio de cada fila:',np.sum(e,axis=1))
# Obtener el sumatorio de cada columna
print('Sumatorio de cada coluna:',np.sum(e,axis=0))

máximo de cada fila: [9 6 9]
máximo de cada coluna: [6 4 9]


In [None]:
# Obtener el valor máximo de una porción de la matriz, como e[1:3,1:3]
print(e[1:3,1:3])
print(np.max(e[1:3,1:3]))

### Ejercicios

In [34]:
'''
Calcula la mediana de un array
'''
print(e, "\nsu mediana es:", np.median(e))

[[5 0 9]
 [6 4 4]
 [0 2 9]] 
su mediana es: 4.0


## Máscaras Booleanas

In [40]:
# Creamos una matriz
data = np.random.randint(0,100,size=(8,9), dtype=np.int32)

print(data)

[[13  5 64 48 52 39 59 75 26]
 [82 45 88 36 71 29 39 63  6]
 [67  1 69 31 83 18  6 79 66]
 [92 82  5 92 95  1 90 43 94]
 [11 34 73  5 62 99 75 98 27]
 [18 71 20 65 42 15  5 14 72]
 [82  8  9 66 80  0 50 43 49]
 [39 88  3 32 15 34  4 69 50]]


In [43]:
# Podemos generar una máscara booleana para filtrar los datos mediante un booleano como:
mascara = data > 75

print(mascara)

[[False False False False False False False False False]
 [ True False  True False False False False False False]
 [False False False False  True False False  True False]
 [ True  True False  True  True False  True False  True]
 [False False False False False  True False  True False]
 [False False False False False False False False False]
 [ True False False False  True False False False False]
 [False  True False False False False False False False]]


In [42]:
# Esta máscara después se puede aplicar a cualquier array. 
# funciona como un rango (se indica entre corchetes)

# la podemos guardar en una variable (como mascara)
print(data[mascara])

# o aplicarla de forma directa. 
data_75 = data[data > 75]
print(data_75)

[82 88 83 79 92 82 92 95 90 94 99 98 82 80 88]
[82 88 83 79 92 82 92 95 90 94 99 98 82 80 88]


In [None]:
# Mediante np.any podemos ver si alguno de los elementos cumple una condición
print(data)
print(np.any(data > 75))

In [None]:
# Any indicando el axis = 0 (en las columnas)
# Devuleve un booleano de tamaño igual al número de columnas.
column_mayor_que_80 = np.any(data > 80, axis=0)
column_mayor_que_90 = np.any(data > 90, axis=0)

data[:,column_mayor_que_90]

# si usamos axis = 1, lo calculará en las filas

### Ejercicios

In [44]:
# Generar una lista de edades aleatorias
edades = np.array([25,48,4,15,24,52])

# Personas
personas = np.array(['Juan', 'Ana', 'Pedro', 'Luis', 'María', 'Pablo'])

print(edades)
print(personas)

# mayores de 18 añosn
mayores_18 = edades > 18
print(mayores_18)

# Aplicar la máscara a la lista de personas
personas_mayores_18 = personas[mayores_18]
print(personas_mayores_18)

[25 48  4 15 24 52]
['Juan' 'Ana' 'Pedro' 'Luis' 'María' 'Pablo']
[ True  True False False  True  True]
['Juan' 'Ana' 'María' 'Pablo']


In [48]:
print(data)

# Filtrar los datos de las filas que tengan valores mayores que 80
# Como primer índice (el que indica las filas) usamos una máscara. 
# En el segundo índice (el que indica las columnas) usamos ":" para seleccionar todos los elementos. 
data_f1 = data[np.any(data > 80, axis = 1), :]

print("\nmatriz filtrada: \n", data_f1)

[[13  5 64 48 52 39 59 75 26]
 [82 45 88 36 71 29 39 63  6]
 [67  1 69 31 83 18  6 79 66]
 [92 82  5 92 95  1 90 43 94]
 [11 34 73  5 62 99 75 98 27]
 [18 71 20 65 42 15  5 14 72]
 [82  8  9 66 80  0 50 43 49]
 [39 88  3 32 15 34  4 69 50]]

matriz filtrada: 
 [[82 45 88 36 71 29 39 63  6]
 [67  1 69 31 83 18  6 79 66]
 [92 82  5 92 95  1 90 43 94]
 [11 34 73  5 62 99 75 98 27]
 [82  8  9 66 80  0 50 43 49]
 [39 88  3 32 15 34  4 69 50]]


In [49]:
# sobre ese resultado flitrar las columnas que tengan valores mayores que 90
data_f2=data_f1[:, np.any(data_f1>90, axis=0)]
print(data_f2)

[[82 36 71 29 63  6]
 [67 31 83 18 79 66]
 [92 92 95  1 43 94]
 [11  5 62 99 98 27]
 [82 66 80  0 43 49]
 [39 32 15 34 69 50]]


In [52]:
# Se pueden anidar estas funciones para acotar un dato por ejemplo
# recuerda -> axis=1 filtra por filas. 
print(data)
mascara = np.any((data > 40) & (data < 60), axis=1)
print("\nesta es la máscara:\n", mascara)

# así que luego esa máscara se mete en el hueco de las filas. 
# Seleccionar los datos que cumplen la condición
print("\ny este es el resultado enmascarado: \n", data[mascara,:])

[[13  5 64 48 52 39 59 75 26]
 [82 45 88 36 71 29 39 63  6]
 [67  1 69 31 83 18  6 79 66]
 [92 82  5 92 95  1 90 43 94]
 [11 34 73  5 62 99 75 98 27]
 [18 71 20 65 42 15  5 14 72]
 [82  8  9 66 80  0 50 43 49]
 [39 88  3 32 15 34  4 69 50]]

esta es la máscara:
 [ True  True False  True False  True  True  True]

y este es el resultado enmascarado: 
 [[13  5 64 48 52 39 59 75 26]
 [82 45 88 36 71 29 39 63  6]
 [92 82  5 92 95  1 90 43 94]
 [18 71 20 65 42 15  5 14 72]
 [82  8  9 66 80  0 50 43 49]
 [39 88  3 32 15 34  4 69 50]]


In [53]:
# Definimos una matriz en el que cada columna es un mes del año 
# y cada fila es un departamento de mi empresa

departamentos = np.array(['Ventas', 'Marketing', 'RRHH', 'Compras', 'Producción'])

gastos = np.random.randint(0,10000,size=(5,12), dtype=np.int32)

print(gastos)

# Conocer que departamentos gastan más de 5000€ en el mes de enero
gastos[:,0] > 5000
print(departamentos[gastos[:,0] > 5000])

[[7320  317 8511 2869 9594 7614 9831 8904   13 2101 8329 3286]
 [ 915 4892 6895 8478 7243 1483 3536  349 2683 9704 7481  571]
 [7820 8009 9730 8631 9009 4300 5679 8522 2780 6793 2891 2199]
 [8193 1922 1016 4264 1621  145 5353 7047 2377 2614 9029  860]
 [3089 9278 6004 8649  241 9718 4441 1975 4738   38 1629 7010]]
['Ventas' 'RRHH' 'Compras']
