
<img src="img/viu_logo.png" width="200">

## 01MIAR - NumPy

![logo](img/python_logo.png)

*Ivan Fuertes*

# Sumario
- ndarray
- creacion y modificacion de ndarrays
- indexacion y slicing
- estadistica descriptiva
- filtrado de datos con where
- algebra lineal
- Valores aleatorios
- Leer y escribir NumPy ndarrays

# NumPy ndarray
- NumPy (__Num__ erical __Py__ thon) es la de facto librería estándar para análisis numérico en Python
- Estructura de datos multidimensional eficiente (escrita en C): ndarray
- Colección de funciones para álgebra lineal, estadística descriptiva
- Ayuda al procesamiento de datos (np.where)

In [2]:
#importar libreria
import numpy as np

In [4]:
shopping_list = [ ['onions','carrots','celery'], ['apples','oranges','grapes'] ] # 2D
array = np.array(shopping_list) # convertir una lista en una ndarray
print(array)
print(type(array))

[['onions' 'carrots' 'celery']
 ['apples' 'oranges' 'grapes']]
<class 'numpy.ndarray'>


## Formas de crear ndarrays

In [10]:
print(np.array([100,10,1])) # array a partir de una lista
print(np.arange(2,10,2))    # array a partir de una secuencia(range) 1D

[100  10   1]
[2 4 6 8]


In [8]:
# Generar arrays con valores fijos
print(np.zeros(5))       # 1D
print(np.ones((2,2)))    # matrix 2x2
print(np.empty((2,2,2))) # matrix 2x2x2, no inicializados
print(np.full((5,2),-3)) # matrix 5x2
print(np.eye(3)) 
print(np.eye(3).shape) # matrix identity

[0. 0. 0. 0. 0.]
[[1. 1.]
 [1. 1.]]
[[[6.23042070e-307 4.67296746e-307]
  [1.69121096e-306 1.24610723e-306]]

 [[1.89146896e-307 7.56571288e-307]
  [3.11525958e-307 1.24610723e-306]]]
[[-3 -3]
 [-3 -3]
 [-3 -3]
 [-3 -3]
 [-3 -3]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
(3, 3)


## Obtener información sobre ndarray

In [2]:
my_ndarray = np.array([2,71,0,19,71])
print(my_ndarray)

print(my_ndarray.argmax())    # índice del valor más alto, el primero en posición en este ejemplo es el index 1
print(my_ndarray.argmin())    # índice del valor más bajo
print(my_ndarray.nonzero())   # retorna los índices de los elementos distintos a 0

[ 2 71  0 19 71]
1
2
(array([0, 1, 3, 4], dtype=int64),)


In [3]:
my_ndarray = np.full((5,2),-3) # matrix 5x2, con valore de -3 en cada posición
print(my_ndarray)

print(my_ndarray.size)        # número de elementos
print(my_ndarray.shape)       # dimensiones
#NumPy Arrays provides the ndim attribute that returns an integer that tells us how many dimensions the array have.
print(my_ndarray.ndim)        # número de dimensiones

[[-3 -3]
 [-3 -3]
 [-3 -3]
 [-3 -3]
 [-3 -3]]
10
(5, 2)
2


#### Redimensionar los datos

In [3]:
#no es lo mismo una matrix de 0x8 a 1x8, ya que la 1x8 es bidimensional
#la 0x8 es de una dimension, ejemplo [10, 71, 21, 19, 213, 412, 111, 98], sin más []
my_ndarray = np.array([[10, 71, 21, 19, 213, 412, 111, 98]])  # matrix 1x8
print(my_ndarray.shape)

# cambiar las dimensiones a 4x2
#siempre debe ser compatibles con la matriz inicial
new_dims = my_ndarray.reshape(4, 2)
print(new_dims)

# cambiar las dimensiones a 2x4
new_dims = my_ndarray.reshape(2, 4) # qué sucede si utilizamos otros valores?
print(new_dims)

(1, 8)
[[ 10  71]
 [ 21  19]
 [213 412]
 [111  98]]
[[ 10  71  21  19]
 [213 412 111  98]]


In [10]:
# Cambiar ejes
new_dims = np.arange(16).reshape(4,4)

print(new_dims)
#numpy.swapaxes(a, source, destination)
print(new_dims.swapaxes(0,1))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  4  8 12]
 [ 1  5  9 13]
 [ 2  6 10 14]
 [ 3  7 11 15]]


In [8]:
# reducir a 1D
new_dims = np.arange(9).reshape(3,3)

print(new_dims)
#The flatten() function is used to get a copy of an given array collapsed into one dimension.
print(new_dims.flatten())

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2 3 4 5 6 7 8]


## Manipulación de ndarrays

In [16]:
# ordenar
array1 = np.array([10,2,9,17])
array2=array1.reshape(2,2)
print(array2)
array1.sort()
print(array1)
#El sort tambien funciona cuando el array es mayor a 1D
array2.sort()
print(array2)


[[10  2]
 [ 9 17]]
[ 2  9 10 17]
[[ 2  9]
 [10 17]]


In [17]:
# Juntar dos arrays
a1 = [0,0,0,0,0,0]
a2 = [1,1,1,1,1,1]
#Uno los array horizontalmente
print(np.hstack((a1,a2))) # una al lado de la otra
##Uno los array verticalmente
print(np.vstack((a1,a2))) # una encima de la otra

[0 0 0 0 0 0 1 1 1 1 1 1]
[[0 0 0 0 0 0]
 [1 1 1 1 1 1]]


In [18]:
# dividir un array
array = np.arange(16).reshape(4,4)

print(array)
print(np.array_split(array,2)) # divide array en 2 partes iguales
print(np.array_split(array,3)) # divide array en 3 partes "iguales"

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11]]), array([[12, 13, 14, 15]])]


In [20]:
# dividir un array
array = np.arange(16).reshape(4,4)

print(array)
#El axios si no se especifica es default 0, pero hace referencia sobre al eje donde se aplica esa operación
#el [3] hace referencia a la tercer fila del array, el array tiene 4 filas
print(np.array_split(array,[3], axis = 0)) # divide array, por la fila 3
#numpy.array_split(ary, indices_or_sections, axis=0)
print(np.array_split(array,3, axis = 0)) 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]]), array([[12, 13, 14, 15]])]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11]]), array([[12, 13, 14, 15]])]


In [23]:
array = np.arange(64).reshape(8,8)
print(array)
print('Divide array por la fila 1 y 3 y 6')
print(np.array_split(array, [1, 3, 6], axis = 0))  # divide array por la fila 1 y 3 y 6
print('-----------------------------------------------')
print('Divide array por la columna 1 y 3')
print(np.array_split(array, [1, 3], axis = 1))  # divide array por la columna 1 y 3
# axis = n_dimensions - 1

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47]
 [48 49 50 51 52 53 54 55]
 [56 57 58 59 60 61 62 63]]
Divide array por la fila 1 y 3 y 6
[array([[0, 1, 2, 3, 4, 5, 6, 7]]), array([[ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23]]), array([[24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47]]), array([[48, 49, 50, 51, 52, 53, 54, 55],
       [56, 57, 58, 59, 60, 61, 62, 63]])]
-----------------------------------------------
Divide array por la columna 1 y 3
[array([[ 0],
       [ 8],
       [16],
       [24],
       [32],
       [40],
       [48],
       [56]]), array([[ 1,  2],
       [ 9, 10],
       [17, 18],
       [25, 26],
       [33, 34],
       [41, 42],
       [49, 50],
       [57, 58]]), array([[ 3,  4,  5,  6,  7],
       [11, 12, 13, 14, 15],
       [19, 20, 21, 22, 23],
     

# Índices y slicing
- De manera análoga a índices y slicing para listas

In [24]:
#La función de arange es como la de range de python, pero arange si acepta float numbers
array = np.arange(10, 16)
print(array)
#accediendo con valores negativos de atrás para adelante
print(array[-1])    # acceso unidimensional
#acordemos quee el último elemento en el slicee es no inclusivo
print(array[0:-1])  # slice

[10 11 12 13 14 15]
15
[10 11 12 13 14]


In [7]:
# slicing en array bidimensional
array = np.arange(16).reshape(4,4)
print(array)
print(array[0, 1]) # fila, columna
# los elementos 0:2 se refieren al eje x, y los elementos 1:3 se refieren al eje y, 
#pero recorda que no son inclusivo los valores de los parámetro
print(array[0:2, 1:3])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
1
[[1 2]
 [5 6]]


In [11]:
# multidimensional
array = np.arange(36).reshape(2,3,6)
print(array)
print(array[1, 2, 4])

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]]

 [[18 19 20 21 22 23]
  [24 25 26 27 28 29]
  [30 31 32 33 34 35]]]
34


#### NumPy es row major

In [25]:
#Leer más de esto en caso amerite
row_major = np.array([1, 2, 3, 4, 5, 6])
row_major = row_major.reshape(2,3,order='C')  # by default, row major
print(row_major)

col_major = np.array([1, 2, 3, 4, 5, 6])
col_major = col_major.reshape(2,3,order='F')  # col major
print(col_major)

[[1 2 3]
 [4 5 6]]
[[1 3 5]
 [2 4 6]]


#### Slice

In [26]:
# se puede hacer slice por fila o columna
array = np.arange(9).reshape(3,3)
print(array)
#slice por columna
print(array[:,0])

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 3 6]


In [27]:
# se puede hacer slice por fila o columna
array = np.arange(9).reshape(3,3)
print(array)
#slice por fila
print(array[0,:])

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2]


#### Diferencias entre índices y slicing en listas y ndarrays:
- ¡Retornan una referencia, no una copia!

In [28]:
# uso de slice en listas, retorna copia
lista = [0,1,2,3,4,5,6,7,8,9]
my_copy = lista[0:2]  # devuelve una copia
my_copy[0] = 222
print(lista)
print(my_copy)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[222, 1]


In [29]:
# slicing retorna una referencia en ndarrays
array = np.arange(10)
my_copy = array[2:5]  # devuelve una referencia
print(array)
print(my_copy)

my_copy[0] = 222
print(array)
print(my_copy)

[0 1 2 3 4 5 6 7 8 9]
[2 3 4]
[  0   1 222   3   4   5   6   7   8   9]
[222   3   4]


In [30]:
# copiar ndarrays
array = np.arange(10)
my_copy = array[2:5].copy()  # hay que hacer la copia explicitamente
my_copy[0] = 222
print(array)
print(my_copy)

[0 1 2 3 4 5 6 7 8 9]
[222   3   4]


- Permite asignar valores a un corte

In [31]:
array = np.arange(10).reshape(5,2)
print(array)
#asigna -1 a todos los elementos de la columna 0
#array[:, 0] = -1
#print(array)

#asigna -1 a las filas 0 hasta 2 lo valores de la columna 0
#array[0:3, 0] = -1
#print(array)

#asigna -1 a las filas 0 hasta 2 lo valores de la columna 1
array[0:3, 1] = -1
print(array)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[[ 0 -1]
 [ 2 -1]
 [ 4 -1]
 [ 6  7]
 [ 8  9]]


print(array)- Slicing condicionales (mask)

In [32]:
# slicing condicional
array = np.arange(-3,4)
print(array)

mask = array < 0

# mask = (array < 0) | (array > 0)
print(mask)

print(array[mask])
#asignación de valore a un determinado grupo de valores
array[mask] = 0
print(array)

[-3 -2 -1  0  1  2  3]
[ True  True  True False False False False]
[-3 -2 -1]
[0 0 0 0 1 2 3]


In [33]:
# slicing condicional
array = np.arange(-3,4)
print(array)
mask = array % 2 == 0
print(mask)

array_positive = array[mask]  # devuelve una copia
print(array_positive)

array_positive[0] = -10
print(array)
print(array_positive)

[-3 -2 -1  0  1  2  3]
[False  True False  True False  True False]
[-2  0  2]
[-3 -2 -1  0  1  2  3]
[-10   0   2]


In [34]:
# slicing condicional
array = np.arange(-3,4)
mask = array % 2 == 0
print(mask)
print(array)
#Muestra unicamente los valores que cumplen la condición
print(array[mask])
# a todos los que cumplan la primer condición se les asigna 10
array[mask] = 10 # ??
print(array)

mask = array == 10
array[mask] = 0 # ??
print(array)

[False  True False  True False  True False]
[-3 -2 -1  0  1  2  3]
[-2  0  2]
[-3 10 -1 10  1 10  3]
[-3  0 -1  0  1  0  3]


# Funciones matemáticas
- Aplicar operaciones entre escalares y arrays o entre arrays

In [35]:
# listas y escalares
lista = [0,1,2,3]
#multiplica la lista por x2, significa tener 2 veces los mismo valores
lista *= 2
print(lista)

[0, 1, 2, 3, 0, 1, 2, 3]


In [36]:
# ndarray hace las operaciones sobre los elementos
array = np.ones(4) * 2
print(array)

array += 10
print(array)

[2. 2. 2. 2.]
[12. 12. 12. 12.]


In [43]:
# operaciones entre arrays es como operaciones entre matrices
array_1 = np.arange(1,17).reshape(4,4)
array_2 = np.arange(2,18).reshape(4,4)

print(f"primer array: \n {array_1}\n")
print(f"segundo array: \n {array_2}\n")


print(array_1 + array_2)
print(array_1 - array_2)
print(array_1 * array_2)
print(array_1 / array_2)

primer array: 
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]

segundo array: 
 [[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]
 [14 15 16 17]]

[[ 3  5  7  9]
 [11 13 15 17]
 [19 21 23 25]
 [27 29 31 33]]
[[-1 -1 -1 -1]
 [-1 -1 -1 -1]
 [-1 -1 -1 -1]
 [-1 -1 -1 -1]]
[[  2   6  12  20]
 [ 30  42  56  72]
 [ 90 110 132 156]
 [182 210 240 272]]
[[0.5        0.66666667 0.75       0.8       ]
 [0.83333333 0.85714286 0.875      0.88888889]
 [0.9        0.90909091 0.91666667 0.92307692]
 [0.92857143 0.93333333 0.9375     0.94117647]]


Si las arrays no tienen las mismas dimensiones --> [broadcasting](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html)
- Restricciones

## Operadores unarios y binarios

| Tipo | Operación | Descripción |
|:---------|:-----|:-----|
| Unario | *abs* | Valor absoluto de cada elemento |
| | *sqrt* | Raíz cuadrada de cada elemento |
| | *exp* | e^x, siendo x cad elemento |
| | *log, log10, log2* | Logaritmos en distintas bases de cada elemento |
| | *sign* | Retorna el signo de cada elemento (-1 para negativo, 0 o 1 para positivo) |
| | *ceil* | Redondea cada elemento por arriba |
| | *floor* | Redondea cada elemento por abajo |
| | *isnan* | Retorna si cada elemento es Nan |
| | *cos, sin, tan* | Operaciones trigonométricas en cada elemento |
| | *arccos, arcsin, arctan* | Inversas de operaciones trigonométricas en cada elemento |
| Binario | *add* | Suma de dos arrays |
| | *substract* | Resta de dos arrays |
| | *multiply* | Multiplicación de dos arrays |
| | *divide* | División de dos arrays |
| | *maximum, minimum* | Retorna el valor máximo/mínimo de cada pareja de elementos |
| | *equal, not_equal* | Retorna la comparación (igual o no igual) de cada pareja de elementos |
| | *greater, greater_equal, less, less_equal* | Retorna la comparación (>, >=, <, <= respectivamente) de cada pareja de elementos |

In [None]:
# ejemplos de operadores
array = np.arange(5)
np.sqrt(array)

In [None]:
# ejemplos de operadores
array1 = np.arange(4)
array2 = np.array([0,-1,2,-3])
np.greater(array1,array2)

# Estadística descriptiva
- Importante saber la naturaleza de los datos
- Valores máximos, mínimos, distribución, etc.

| Función | Descripción |
|:---------|:-----|
| *sum(arr)* | Suma de todos los elementos de *arr* |
| *mean(arr)* | Media aritmética de los elementos de *arr* |
| *std(arr)* | Desviación estándar de los elementos de *arr* |
| *cumsum(arr)* | Devuelve array con la suma acumulada de cada elementos con todos los anteriores |
| *cumprod(arr)* | Devuelve array con el producto acumulado de cada elementos con todos los anteriores |
| *min(arr), max(arr)* | Mínimo y máximo de *arr* |
| *any(arr)* | En array de tipo *bool*, retorna *True* si algún elemento es *True* |
| *all(arr)* | En array de tipo *bool*, retorna *True* si todos los elementos son *True* (o >0 en valores numéricos) |
| *unique(arr)* | Devuelve un array con valores únicos |
| *in1d(arr1, arr2)* | Devuelve un array con bool indicando si cada elemento de *arr1* está en *arr2* |
| *union1d(arr1, arr2)* | Devuelve la unión de ambos arrays |
| *intersect1d(arr1, arr2)* | Devuelve la intersección de ambos arrays |

In [2]:
# sum != cumsum
import numpy as np
array1 = np.arange(9)
print(array1)
#Devuele el valor de la suma de todos los elementos
print(array1.sum())
#Devuelve un array con la suma acumulada por posición
print(array1.cumsum())

[0 1 2 3 4 5 6 7 8]
36
[ 0  1  3  6 10 15 21 28 36]


In [5]:
# any vs all
array1 = np.arange(0,10).reshape(2,5)
print(array1)
print(array1.any()) # any para saber si hay elementos True o valores > 0
print(array1.all()) # all para saber si TODOS los elementos son True o valores > 0

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
True
True


In [6]:
# todas las funciones aceptan parametro 'axis' 
# 0 para columnas, 1 para filas, 2 para profundidad...
array1 = np.arange(10).reshape(2,5)
print(array1)
#Si todos los elementos por columna son mayores a 0
print(array1.all(axis=0))
#Si todos los elementos por fila son mayores a 0
print(array1.all(axis=1))
print(array1.all())

[[0 1 2 3 4]
 [5 6 7 8 9]]
[False  True  True  True  True]
[False  True]
False


# Álgebra lineal
- numpy.linalg contiene funciones para álgebra lineal
- dot product, multiplicación de matrices, cálculo del determinante, factorizaciones...


| Función | Descripción |
|:---------|:-----|
| *dot(mat1, mat2)* | Devuelve el producto escalar entre dos arrays. Si son matrices 2D, es equivalente a la multiplicación de ambas |
| *matmul(mat1, mat2)* | Devuelve el producto entre dos matrices |
| *trace(mat1, mat2)* | Suma de las diagonales de ambas matrices |
| *det(mat)* | Devuelve el determinante de la matriz |
| *eig(mat)* | Computa los autovalores y autovectores de la matriz cuadrada *mat* |
| *inv(mat)* | Devuelve la inversa de la matriz |
| *qr(mat)* | Computa la factorización QR de *mat* |
| *solve(A, b)* | Resuelve el sistema lineal de ecuaciones *Ax = b* para *b*, cuando *A* es una matriz cuadrada |

In [8]:
A = np.arange(12).reshape(4,3)
B = np.arange(9).reshape(3,3)

print('El resultado es el mismo')
print(np.matmul(A,B))
print(np.dot(A, B))
print(A @ B)

El resultado es el mismo
[[ 15  18  21]
 [ 42  54  66]
 [ 69  90 111]
 [ 96 126 156]]
[[ 15  18  21]
 [ 42  54  66]
 [ 69  90 111]
 [ 96 126 156]]
[[ 15  18  21]
 [ 42  54  66]
 [ 69  90 111]
 [ 96 126 156]]


In [18]:
#Determinante de una matriz
A = np.arange(1,10).reshape(3,3)
print(A)
print(f"Determinante de la matriz A{np.linalg.det(A)}")

print(f"Computa los autovalores y autovectores de la matriz A{np.linalg.eig(A)}")

[[1 2 3]
 [4 5 6]
 [7 8 9]]
Determinante de la matriz A-9.51619735392994e-16
Computa los autovalores y autovectores de la matriz A(array([ 1.61168440e+01, -1.11684397e+00, -3.38433605e-16]), array([[-0.23197069, -0.78583024,  0.40824829],
       [-0.52532209, -0.08675134, -0.81649658],
       [-0.8186735 ,  0.61232756,  0.40824829]]))


In [12]:
# resolver sistema de ecuaciones
# 3x + 2y = 12
# x - 3y = 2
# Ax = b --> resolver para x

a = np.array([ [3,2],[1,-3] ])
b  = np.array([12,2])
x,y = np.linalg.solve(a,b)
print('x=' + str(x) + ', y=' + str(y))

x=3.6363636363636367, y=0.5454545454545454


In [10]:
#matriz identidad
np.identity(4)
#Lo mismo que la función eye

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

# Filtrado de datos
- Filtrar y modificar datos numéricos con np.where
- Retorna A o B en función de una condición en una array

In [19]:
prices = np.array([0.99, 14.49, 19.99, 20.99, 0.49])
# mask con los elementos menores de 1

#Si es menor que 1, devuelve True sino False
mask = np.where(prices < 1, True, False)
print(mask)
print(prices[mask])

#Si es menor que 1, devuelve 1.0 sino el valor mismo
prices_mask=np.where(prices < 1, 1.0, prices)
print(prices)
print(prices_mask)

[ True False False False  True]
[0.99 0.49]
[ 0.99 14.49 19.99 20.99  0.49]
[ 1.   14.49 19.99 20.99  1.  ]


In [20]:
# Se puede usar para sustituir datos fuera de rango
bank_transfers_values = np.array([0.99, -1.49, 19.99, 20.99, -0.49, 12.1]).reshape(2, 3)

clean_data = np.where(bank_transfers_values > 0, bank_transfers_values, 0)
print(clean_data)

[[ 0.99  0.   19.99]
 [20.99  0.   12.1 ]]


In [21]:
# limpiar NaN (sustitución)
data = [10, 12, -143, np.nan, 1, -3] # np.nan --> NotANumber, elemento especial
data_clean = np.where(np.isnan(data),0,data)
print(data_clean)

[  10.   12. -143.    0.    1.   -3.]


In [22]:
# np.where puede seleccionar elementos
bank_transfers_values = np.array([0.99, -1.49, 19.99, 20.99, -0.49, 12.1]).reshape(3, 2)
credits = np.where(bank_transfers_values > 0) # array de índices para los que la condición es True

print(bank_transfers_values)
#credit devuelve los indexes de elementos que cumplen la condicones en dos array, uno por cada eje.
# en un array los valores de x y entro lado los valores de y, al juntarlos tenes el par de valores que hacen referencia a la matriz
print(credits)
print(bank_transfers_values[credits]) # es igual que bank_transfers_values[bank_transfers_values > 0]

[[ 0.99 -1.49]
 [19.99 20.99]
 [-0.49 12.1 ]]
(array([0, 1, 1, 2], dtype=int64), array([0, 0, 1, 1], dtype=int64))
[ 0.99 19.99 20.99 12.1 ]


In [24]:
# valor de array dependiendo del valor en array referencia
rewards_default = np.arange(6)
rewards_upgrade = np.arange(6) * 10
daily_points = np.array([0, 0, 1, 6, 0, 2])

print(rewards_default)
print(rewards_upgrade)
print(daily_points)
#al poner que si cumple al condición tome el valor de un array y sino del otro array
#los array deben de tener la misma dimensión
final_rewards = np.where(daily_points > 1, rewards_upgrade, rewards_default)
print(final_rewards)

[0 1 2 3 4 5]
[ 0 10 20 30 40 50]
[0 0 1 6 0 2]
[ 0  1  2 30  4 50]


# Números aleatorios
- Python módulo random

In [40]:
import random

print(random.random()) # número entre 0 y 1
print(f"Número random entero entre 0 y 5 === {random.randint(0,5)}") # integral entre dos valores

print(f"Número random real entre 0 y 5 === {random.uniform(0,5)}") # real entre dos valores

0.07053705631264251
Número random entero entre 0 y 5 === 4
Número random real entre 0 y 5 === 3.4498860732231136


In [38]:
# elegir un elemento al azar dentro de una colección
names = ['Marta','Anna','Vanesa']
random.choice(names)

'Anna'

## NumPy.random
- Generar fácilmente listas con valores aleatorios

In [41]:
#El módulo random de numpy es mucho más potente que el de python

print(np.random.rand()) # número entre 0 y 1
print(np.random.randint(0,5)) # integral entre dos valores 
print("Generenado un matriz de 2x4 con valores enteros aleatorios, usando numpy random")
print(np.random.randint(5, size=(2, 4))) # parametro 'size' para indicar las dimensiones)
print("Generenado un matriz de 2x4 con valores reales aleatorios")
print(np.random.uniform(5, size=(2, 4))) # parametro 'size' para indicar las dimensiones)

0.7083550567194628
4
Generenado un matriz de 2x4 con valores enteros aleatorios, usando numpy random
[[4 2 0 2]
 [1 1 4 4]]
Generenado un matriz de 2x4 con valores reales aleatorios
[[2.38664714 1.67457954 2.72912272 1.97388207]
 [1.68618445 1.5151009  3.8389051  2.99230524]]


In [31]:
# array de elementos aleatorios valores reales siguiendo la distribucion normal gaussiana, campana de Gauss, media 0, desviación 1
print(np.random.randn(4,2))

[[-2.11436682  0.62002883]
 [-0.11694809  0.35739435]
 [-2.64007891  0.32249905]
 [-0.32849746 -0.56531664]]


In [34]:
# otras distribuciones
print(np.random.binomial(n=5, p=0.3)) # 'n' intentos, 'p' probabilidad
print(np.random.uniform(low=0, high=10)) # distribución uniforme
print(np.random.poisson(lam=2, size=(2,2))) # 'lam' número de ocurrencias esperadas, retornar 'size' valores

2
1.9094099065056669
[[1 1]
 [1 1]]


## Random seed
- Números pseudo-aleatorios
- Ordenadores generan números a partir de ecuaciones
- Basadas en un número inicial (seed)
- Bueno para reproducibilidad de experimentos

In [20]:
#No hay números aleatorios al 100%,
#todas las funciones se basan en una semilla
#Con seed podemos manipular el proceso de números aleatrios

i = 5
for _ in range(5):  
    np.random.seed(i) # misma semilla
    #la misma semilla en la iteracion, bajo un mismo scope
    #por ende tendremos el mismo número aleatorio
    print(np.random.rand())

print()    
    
for i in range(5):
    np.random.seed(i) # diferentes semillas
    print(np.random.rand())

0.22199317108973948
0.22199317108973948
0.22199317108973948
0.22199317108973948
0.22199317108973948

0.5488135039273248
0.417022004702574
0.43599490214200376
0.5507979025745755
0.9670298390136767


# Escritura y lectura de ndarrays a archivos 
- Para futuro acceso
- Compartir datos con otros
- Formato *.npy

In [47]:
# escribir a archivo
import os
import numpy as np
ruta = os.path.join("res" ,"o_values_array.npy")
values = np.random.randint(9, size=(3,3))

np.save(ruta, values)
print(values)

[[1 2 1]
 [0 5 0]
 [1 6 3]]


In [48]:
# leer de archivo
old_values = np.load(ruta)
print(old_values)

[[1 2 1]
 [0 5 0]
 [1 6 3]]


In [23]:
# escribir y cargar múltiples arrays
ruta = os.path.join("res" ,"o_array_group.npz")
values1 = np.random.randint(9,size=(3,3))
values2 = np.random.randint(4,size=(2,2))
values3 = np.random.randint(16,size=(4,4))
np.savez(ruta,values1,values2,values3) # añade la extensión .npz   

In [24]:
# leer los archivos (retorna un lista con las arrays)
npzfile = np.load(ruta)
print(type(npzfile.files))

for key in npzfile.files: # array.files contiene el nombre de las arrays (arr_0, arr_1...)
     print(npzfile[key])

<class 'list'>
[[7 8 4]
 [2 6 4]
 [3 0 7]]
[[1 1]
 [1 2]]
[[13  6  8  2]
 [14  5 14  8]
 [ 1  2 10  7]
 [ 0  8  3 10]]


### ¿Por qué molestarse con .npy?
 R/ Porque es mucho más eficiente leer un archivo con esta extensión y pesa menos, y menos línea de código para leer 
 el acrhivo.
- Bases de datos suelen estar en CSV o txt, que requieren lectura con streams (parsing)
- ¿Para qué escribir los datos de nuevo?

In [49]:
ruta_csv = os.path.join("res" ,"fdata.csv")
with open(ruta_csv,'r') as f:
    data_str = f.read()
data = data_str.split(',')
#Se empaqueta la información, las comas quitan espacio
data_array = np.array(data, dtype = np.int8).reshape(1000,1000)
print(data_array)

ruta_npy = os.path.join("res" ,"o_fdata.npy")
np.save(ruta_npy, data_array)

[[67 92 49 ... 25 48 47]
 [98 90 33 ... 14 72  3]
 [33 78  8 ... 96 26 70]
 ...
 [ 2  8 83 ... 64 12 91]
 [22 91 36 ... 56 98 68]
 [89 82 21 ... 39 21 77]]


In [5]:
%%timeit # magic function jupyter
with open(ruta_csv,'r') as f:
    data_str = f.read()
data = data_str.split(',')
data_array = np.array(data,  dtype = np.int8).reshape(1000,1000)
#218 ms ± 4.21 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

130 ms ± 1.96 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [28]:
#al leer un archivo en formato npy nos percatamos que es mucho más eficiente ya que se tarda microsegundos en vez de milisegundos
%%timeit
data = np.load(ruta_npy)
#660 µs ± 22.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

660 µs ± 22.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


### velocidad + simplicidad vs memoria

# Ejercicios
- Ejercicios para practicar NumPy: https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises.ipynb
- Con pistas: https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises_with_hints.md
- Soluciones en: https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises_with_solutions.md

- __No mires las soluciones desde el principio__. Intenta resolverlos por tu cuenta
- No hemos dado todo ¡Investiga!
- Comentar resultados en el foro