![logo_itq](img/logo-itq.jpeg)
## Tercer Modulo-Python, Numpy
![logo_python](img/logo-python.jpeg)<br>
*Nixon Malquin*

# NumPy ndarray
- NumPy (__Num__ erical __Py__ thon) es la de facto librería estándar para análisis numérico en Python
- Estructura de datos multidimensional eficiente (escrita en C): ndarray
- Colección de funciones para álgebra lineal, estadística descriptiva
- Ayuda al procesamiento de datos (np.where)

In [1]:
#importar libreria
import numpy as np

## Performance Sample, NumPy vs Plain Python

In [2]:
my_list = list(range(10000000)) # Utilizando Listas Python
%time my_list = [x * 2 for x in my_list]

CPU times: user 589 ms, sys: 195 ms, total: 784 ms
Wall time: 818 ms


In [3]:
my_arr = np.arange(10000000)  # Utilizando NumPy Arrays
%time my_arr2 = my_arr * 2

CPU times: user 23.6 ms, sys: 22.7 ms, total: 46.3 ms
Wall time: 47 ms


## Formas de crear ndarrays

In [4]:
array = np.array([ [2,71,0,34], [2,171,-35,34] ]) # 2D
print(array)

[[  2  71   0  34]
 [  2 171 -35  34]]


In [5]:
shopping_list = [ ['onions', 'carrots', 'celery'], ['apples', 'oranges', 'grapes'] ] # 2D
array = np.array(shopping_list) # convertir una lista en una ndarray
print(array)
print(type(array))

[['onions' 'carrots' 'celery']
 ['apples' 'oranges' 'grapes']]
<class 'numpy.ndarray'>


In [6]:
print(np.array([100,10,1])) # array a partir de una lista
print(np.arange(2,10,2.1))    # array a partir de una secuencia(range) 1D

[100  10   1]
[2.  4.1 6.2 8.3]


In [7]:
# Generar arrays con valores fijos
print(np.zeros(2))       # 1D
print(np.ones((4,3)))    # matrix 2x2
print(np.empty((2,2,2))) # matrix 2x2x2, no inicializados
print(np.full((5,2),2)) # matrix 5x2
print(np.eye(3))         # matrix identity

[0. 0.]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[[[9.88e-324 3.51e-322]
  [0.00e+000 1.68e-322]]

 [[9.88e-324 8.45e-322]
  [      nan 1.68e-322]]]
[[2 2]
 [2 2]
 [2 2]
 [2 2]
 [2 2]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


## Obtener información sobre ndarray

In [8]:
my_ndarray = np.array([2,71,0,34])
print(my_ndarray)

[ 2 71  0 34]


In [9]:
print(my_ndarray.argmax())    # índice del valor más alto
print(np.amax(my_ndarray))

print(my_ndarray.argmin())    # índice del valor más bajo
print(np.amin(my_ndarray))

print(my_ndarray.nonzero())   # retorna los índices de los elementos distintos a 0

1
71
2
0
(array([0, 1, 3]),)


In [10]:
my_ndarray = np.full((5, 4,2), 2) # matrix 5x2x2
print(my_ndarray)

print(my_ndarray.size)        # número de elementos
print(my_ndarray.shape)       # dimensiones
print(my_ndarray.ndim)        # número de dimensiones

[[[2 2]
  [2 2]
  [2 2]
  [2 2]]

 [[2 2]
  [2 2]
  [2 2]
  [2 2]]

 [[2 2]
  [2 2]
  [2 2]
  [2 2]]

 [[2 2]
  [2 2]
  [2 2]
  [2 2]]

 [[2 2]
  [2 2]
  [2 2]
  [2 2]]]
40
(5, 4, 2)
3


In [11]:
my_ndarray = np.array([2,71,0,34])

print(my_ndarray.size)        # número de elementos
print(my_ndarray.shape)       # dimensiones
print(my_ndarray.ndim)        # número de dimensiones

4
(4,)
1


#### Redimensionar los datos

In [12]:
my_ndarray = np.array([[0, 71, 21, 19, 213, 412, 111, 98]])  # matrix 1x8
print(my_ndarray)
print(my_ndarray.shape)
print(my_ndarray.ndim)

[[  0  71  21  19 213 412 111  98]]
(1, 8)
2


In [13]:
new_dims = my_ndarray.reshape(2, 4)  # cambiar las dimensiones a 2x4
print(new_dims)
print(new_dims.ndim)

[[  0  71  21  19]
 [213 412 111  98]]
2


In [14]:
new_dims = my_ndarray.reshape(4, 2)  # cambiar las dimensiones a 4x2
print(new_dims)
print(new_dims.ndim)

[[  0  71]
 [ 21  19]
 [213 412]
 [111  98]]
2


In [15]:
x = np.array([100, 10, 1]).reshape(3,1)
print(x.shape)
print(x)

(3, 1)
[[100]
 [ 10]
 [  1]]


In [16]:
# reducir a 1D
new_dims = np.arange(9).reshape(3,3)
print(new_dims)
print(new_dims.flatten())

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2 3 4 5 6 7 8]


In [17]:
# reducir
new_dims = np.arange(16).reshape(4,4)
print(new_dims)
print(new_dims.reshape(2,-1))    # el segundo valor se infiere del primero

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]]


## Manipulación de ndarrays

In [18]:
# Cambiar ejes
new_dims = np.arange(16).reshape(8,2)
print(new_dims)
print(new_dims.swapaxes(0,1))

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]]
[[ 0  2  4  6  8 10 12 14]
 [ 1  3  5  7  9 11 13 15]]


In [19]:
# Flip
new_dims = np.arange(16).reshape(4,4)
print(new_dims)
print(np.flip(new_dims, axis = None))

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[15 14 13 12]
 [11 10  9  8]
 [ 7  6  5  4]
 [ 3  2  1  0]]


In [20]:
# ordenar
array1 = np.array([10,2,9,17])
array1.sort()
print(array1)

[ 2  9 10 17]


In [21]:
# Juntar dos arrays
a1 = [0,0,0,0,0,0]
a2 = [1,1,1,1,1,1]

print(np.hstack((a1,a2))) # una al lado de la otra
print(np.hstack((a1,a2)).shape)

print(np.vstack((a1,a2))) # una encima de la otra
print(np.vstack((a1,a2)).shape)

[0 0 0 0 0 0 1 1 1 1 1 1]
(12,)
[[0 0 0 0 0 0]
 [1 1 1 1 1 1]]
(2, 6)


In [22]:
array1 = np.array([[2, 4], [6, 8]]) 
array2 = np.array([[3, 5], [7, 9]])
  
print(np.concatenate((array1, array2), axis = 0))

[[2 4]
 [6 8]
 [3 5]
 [7 9]]


In [23]:
# dividir un array
array = np.arange(16).reshape(4,4)
print(array)
print(np.array_split(array, 2, axis = 0)) # divide array en 2 partes iguales
print(np.array_split(array, 3)) # divide array en 3 partes "iguales"

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])]
[array([[0, 1, 2, 3],
       [4, 5, 6, 7]]), array([[ 8,  9, 10, 11]]), array([[12, 13, 14, 15]])]


In [24]:
# dividir un array
array = np.arange(16).reshape(4,4)
print(array)
print(np.array_split(array, [3], axis = 1)) # divide array, por la fila 3

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]]), array([[ 3],
       [ 7],
       [11],
       [15]])]


In [25]:
split = np.array_split(array, [3], axis = 1)
print(split[0][3][0])

12


In [26]:
array = np.arange(64).reshape(8,8)
print(array)
print(np.array_split(array, [1, 3], axis = 0))  # divide array por la fila 1 y 3

print(np.array_split(array, [1, 3], axis = 1))  # divide array por la columna 1 y 3
# axis = n_dimensions - 1

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47]
 [48 49 50 51 52 53 54 55]
 [56 57 58 59 60 61 62 63]]
[array([[0, 1, 2, 3, 4, 5, 6, 7]]), array([[ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23]]), array([[24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47],
       [48, 49, 50, 51, 52, 53, 54, 55],
       [56, 57, 58, 59, 60, 61, 62, 63]])]
[array([[ 0],
       [ 8],
       [16],
       [24],
       [32],
       [40],
       [48],
       [56]]), array([[ 1,  2],
       [ 9, 10],
       [17, 18],
       [25, 26],
       [33, 34],
       [41, 42],
       [49, 50],
       [57, 58]]), array([[ 3,  4,  5,  6,  7],
       [11, 12, 13, 14, 15],
       [19, 20, 21, 22, 23],
       [27, 28, 29, 30, 31],
       [35, 36, 37, 38, 39],
       [43, 44, 45, 46, 47],
       [51, 52, 53, 54, 55],
       [

# Índices y slicing
- De manera análoga a índices y slicing para listas

In [27]:
array = np.arange(10, 16)
print(array)
print(array[-1])    # acceso unidimensional
print(array[:-1])  # slice

[10 11 12 13 14 15]
15
[10 11 12 13 14]


In [28]:
# bidimensional
array = np.arange(16).reshape(4,4)
print(array)
print(array[2, 2]) # fila, columna
print(array[3][2]) # fila, columna

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
10
14


In [29]:
# multidimensional
array = np.arange(36).reshape(2,3,6)
print(array)
print(array[0,2,4])
print(array[1][2][4])

[[[ 0  1  2  3  4  5]
  [ 6  7  8  9 10 11]
  [12 13 14 15 16 17]]

 [[18 19 20 21 22 23]
  [24 25 26 27 28 29]
  [30 31 32 33 34 35]]]
16
34


#### NumPy es row major

In [30]:
row_major = np.array([1, 2, 3, 4, 5, 6])
row_major = row_major.reshape(2,3)  # by default, row major
print(row_major)

[[1 2 3]
 [4 5 6]]


In [31]:
row_major = np.array([1, 2, 3, 4, 5, 6])
row_major = row_major.reshape(2,3,order='C')  # by default, row major
print(row_major)

col_major = np.array([1, 2, 3, 4, 5, 6])
col_major = col_major.reshape(2,3,order='F')  # col major
print(col_major)

[[1 2 3]
 [4 5 6]]
[[1 3 5]
 [2 4 6]]


#### Slice

In [32]:
# se puede hacer slice por fila o columna
array = np.arange(81).reshape(9,9)
print(array)
print(array[1:3, 2::2])

[[ 0  1  2  3  4  5  6  7  8]
 [ 9 10 11 12 13 14 15 16 17]
 [18 19 20 21 22 23 24 25 26]
 [27 28 29 30 31 32 33 34 35]
 [36 37 38 39 40 41 42 43 44]
 [45 46 47 48 49 50 51 52 53]
 [54 55 56 57 58 59 60 61 62]
 [63 64 65 66 67 68 69 70 71]
 [72 73 74 75 76 77 78 79 80]]
[[11 13 15 17]
 [20 22 24 26]]


In [33]:
# se puede hacer slice por fila o columna
array = np.arange(9).reshape(3,3)
print(array)
print(array[0,:])

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[0 1 2]


#### Diferencias entre índices y slicing en listas y ndarrays:
- ¡Retornan una referencia, no una copia!

In [34]:
# uso de slice en listas, retorna copia
lista = [0,1,2,3,4,5,6,7,8,9]
my_copy = lista[0:2]  # devuelve una copia
print(my_copy)
my_copy[0] = 222
print(lista)
print(my_copy)

[0, 1]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[222, 1]


In [35]:
# slicing retorna una referencia en ndarrays
array = np.arange(10)
my_copy = array[2:5]  # devuelve una referencia
print(array)
print(my_copy)
my_copy[0] = 222
print(array)
print(my_copy)

[0 1 2 3 4 5 6 7 8 9]
[2 3 4]
[  0   1 222   3   4   5   6   7   8   9]
[222   3   4]


In [36]:
# copiar ndarrays
array = np.arange(10)
my_copy = array[2:5].copy()  # hay que hacer la copia explicitamente
my_copy[0] = 222
print(array)
print(my_copy)

[0 1 2 3 4 5 6 7 8 9]
[222   3   4]


- Permite asignar valores a un corte

In [37]:
array = np.arange(10)
print(array)

print(array[0:3])

array[0:3] = -1
print(array)

[0 1 2 3 4 5 6 7 8 9]
[0 1 2]
[-1 -1 -1  3  4  5  6  7  8  9]


- Slicing condicionales (mask)

In [38]:
# slicing condicional
array = np.arange(-3,4)
print(array)

mask = array %2 == 0
print(mask)
print(array[mask])

print(array[array %2 == 0])

array[mask] = 0
print(array)

[-3 -2 -1  0  1  2  3]
[False  True False  True False  True False]
[-2  0  2]
[-2  0  2]
[-3  0 -1  0  1  0  3]


In [None]:
array = np.arange(-3,4)
print(array)

array[array < 0] = 0
print(array)

In [39]:
# slicing condicional
array = np.arange(-3,4)
print(array)

mask = array % 2 == 0
print(mask)

array_par = array[mask]  # devuelve una copia
print(array_par)

array_par[0] = -10
print(array)
print(array_par)

[-3 -2 -1  0  1  2  3]
[False  True False  True False  True False]
[-2  0  2]
[-3 -2 -1  0  1  2  3]
[-10   0   2]


- Acceso a múltiples valores con listados de índices

In [40]:
array = np.arange(0,16).reshape(4,4)
print(array)
print(array[[1,2]])  #selecting rows
print(array[:,[1,2]])   #selecting columns

# cross product of indexes
print(array[[1,2],:][:,[1,2]])

print(array[np.ix_([1,2],[1,2])])  # built in ix_

ar = array[[2,3,1]] # slice, copia
print(ar)
ar[0] = 999
print(ar)
print(array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 4  5  6  7]
 [ 8  9 10 11]]
[[ 1  2]
 [ 5  6]
 [ 9 10]
 [13 14]]
[[ 5  6]
 [ 9 10]]
[[ 5  6]
 [ 9 10]]
[[ 8  9 10 11]
 [12 13 14 15]
 [ 4  5  6  7]]
[[999 999 999 999]
 [ 12  13  14  15]
 [  4   5   6   7]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


# Funciones matemáticas
- Aplicar operaciones entre escalares y arrays o entre arrays

In [41]:
# listas y escalares
lista = [0,1,2,3]
lista *= 3
print(lista)

lista += [1]
print(lista)

[0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3]
[0, 1, 2, 3, 0, 1, 2, 3, 0, 1, 2, 3, 1]


In [42]:
# ndarray hace las operaciones sobre los elementos
array = np.ones(4, dtype = np.int8)
print(array)
array *= 2
print(array)

array += 10
print(array)

print(array.dtype)  # check data type of array

[1 1 1 1]
[2 2 2 2]
[12 12 12 12]
int8


In [43]:
# operaciones entre arrays es como operaciones entre matrices
array_1 = np.ones(4) * 2
array_2 = np.arange(4) + 1

print(array_1)
print(array_2)

print(array_1 + array_2)
print(array_1 - array_2)
print(array_1 * array_2)
print(array_2 / array_1)

[2. 2. 2. 2.]
[1 2 3 4]
[3. 4. 5. 6.]
[ 1.  0. -1. -2.]
[2. 4. 6. 8.]
[0.5 1.  1.5 2. ]


## Broadcasting

Si las arrays no tienen las mismas dimensiones, se hace broadcast del pequeño al grande -> [broadcasting](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html)

## Operadores unarios y binarios

| Tipo | Operación | Descripción |
|:---------|:-----|:-----|
| Unario | *abs* | Valor absoluto de cada elemento |
| | *sqrt* | Raíz cuadrada de cada elemento |
| | *exp* | e^x, siendo x cad elemento |
| | *log, log10, log2* | Logaritmos en distintas bases de cada elemento |
| | *sign* | Retorna el signo de cada elemento (-1 para negativo, 0 o 1 para positivo) |
| | *ceil* | Redondea cada elemento por arriba |
| | *floor* | Redondea cada elemento por abajo |
| | *isnan* | Retorna si cada elemento es Nan |
| | *cos, sin, tan* | Operaciones trigonométricas en cada elemento |
| | *arccos, arcsin, arctan* | Inversas de operaciones trigonométricas en cada elemento |
| Binario | *add* | Suma de dos arrays |
| | *substract* | Resta de dos arrays |
| | *multiply* | Multiplicación de dos arrays |
| | *divide* | División de dos arrays |
| | *maximum, minimum* | Retorna el valor máximo/mínimo de cada pareja de elementos |
| | *equal, not_equal* | Retorna la comparación (igual o no igual) de cada pareja de elementos |
| | *greater, greater_equal, less, less_equal* | Retorna la comparación (>, >=, <, <= respectivamente) de cada pareja de elementos |

In [44]:
# ejemplos de operadores
array = np.arange(5)
print(array)
np.sqrt(array)

[0 1 2 3 4]


array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ])

In [45]:
# ejemplos de operadores
array1 = np.arange(4)
array2 = np.array([0,-1,2,-3])

print(array1)
print(array2)

print(np.greater(array1,array2))
print(np.less(array2, array1))

[0 1 2 3]
[ 0 -1  2 -3]
[False  True False  True]
[False  True False  True]


# Estadística descriptiva
- Importante saber la naturaleza de los datos
- Valores máximos, mínimos, distribución, etc.

| Función | Descripción |
|:---------|:-----|
| *sum(arr)* | Suma de todos los elementos de *arr* |
| *mean(arr)* | Media aritmética de los elementos de *arr* |
| *std(arr)* | Desviación estándar de los elementos de *arr* |
| *cumsum(arr)* | Devuelve array con la suma acumulada de cada elementos con todos los anteriores |
| *cumprod(arr)* | Devuelve array con el producto acumulado de cada elementos con todos los anteriores |
| *min(arr), max(arr)* | Mínimo y máximo de *arr* |
| *any(arr)* | En array de tipo *bool*, retorna *True* si algún elemento es *True* |
| *all(arr)* | En array de tipo *bool*, retorna *True* si todos los elementos son *True* (o <>0 en valores numéricos) |
| *unique(arr)* | Devuelve un array con valores únicos |
| *in1d(arr1, arr2)* | Devuelve un array con bool indicando si cada elemento de *arr1* está en *arr2* |
| *union1d(arr1, arr2)* | Devuelve la unión de ambos arrays |
| *intersect1d(arr1, arr2)* | Devuelve la intersección de ambos arrays |

In [73]:
# sum != cumsum
array1 = np.arange(9) # se crea un array con números del 0 al 8 (el 9 queda excluido)
print(array1)# Imprime el array completo: [0 1 2 3 4 5 6 7 8]
print(array1.sum()) # Suma TOTAL: Suma todos los elementos y devuelve un único resultado (36)
# 0 + 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 = 36
print(array1.cumsum()) # Suma acumulada: Devuelve un array donde cada posición es la suma de los anteriores


[0 1 2 3 4 5 6 7 8]
36
[ 0  1  3  6 10 15 21 28 36]


In [47]:
# any vs all
array1 = np.arange(-8,2).reshape(2,5) # Crea una matriz de 2 filas y 5 columnas con valores del -8 al 1
print(array1) # Imprime la matriz
print(array1.any()) # any para saber si hay elementos True o valores <> 0
print(array1.all()) # all para saber si TODOS los elementos son True o valores <> 0

[[-8 -7 -6 -5 -4]
 [-3 -2 -1  0  1]]
True
False


In [48]:
# todas las funciones aceptan parametro 'axis' 
# 0 para columnas, 1 para filas, 2 para profundidad...
array1 = np.arange(10).reshape(2,5)
print(array1)
print(array1.all(axis=0))
print(array1.all(axis=1))
print(array1.all())

[[0 1 2 3 4]
 [5 6 7 8 9]]
[False  True  True  True  True]
[False  True]
False


# Álgebra lineal
- numpy.linalg contiene funciones para álgebra lineal
- dot product, multiplicación de matrices, cálculo del determinante, factorizaciones...


| Función | Descripción |
|:---------|:-----|
| *dot(mat1, mat2)* | Devuelve el producto escalar entre dos arrays. Si son matrices 2D, es equivalente a la multiplicación de ambas |
| *matmul(mat1, mat2)* | Devuelve el producto entre dos matrices |
| *trace(mat1, mat2)* | Suma de las diagonales de ambas matrices |
| *det(mat)* | Devuelve el determinante de la matriz |
| *eig(mat)* | Computa los autovalores y autovectores de la matriz cuadrada *mat* |
| *inv(mat)* | Devuelve la inversa de la matriz |
| *qr(mat)* | Computa la factorización QR de *mat* |
| *solve(A, b)* | Resuelve el sistema lineal de ecuaciones *Ax = b* para *b*, cuando *A* es una matriz cuadrada |
| *transpose(mat)* | Devuelve la transpuesta de la matrix |

In [49]:
A = np.arange(12).reshape(4,3)
B = np.arange(6).reshape(3,2)

print(A)
print(B)

print(np.matmul(A, B))
print(np.dot(A, B))
print(A @ B)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[0 1]
 [2 3]
 [4 5]]
[[10 13]
 [28 40]
 [46 67]
 [64 94]]
[[10 13]
 [28 40]
 [46 67]
 [64 94]]
[[10 13]
 [28 40]
 [46 67]
 [64 94]]


In [74]:
import numpy.linalg as lg
import math

# resolver sistema de ecuaciones
# 3x + 2y + 5z = 12
# x - 3y -z = 2
# 2x -y +12z = 32
# Ax = b --> resolver para x

a = np.array([ [3,2,5], [1,-3,-1], [2,-1,12] ])
b = np.array([12,2,32])

print(a)
print(b)
x,y,z = lg.solve(a,b)
print(f'x={x} y={y} z={z}')

print(math.isclose(3*x + 2*y +5*z, 12))
print(math.isclose(x - 3*y - z, 2))
print(math.isclose(2*x -y + 12*z, 32))

[[ 3  2  5]
 [ 1 -3 -1]
 [ 2 -1 12]]
[12  2 32]
x=0.7543859649122807 y=-1.2280701754385965 z=2.43859649122807
True
True
True


In [75]:
#matriz identidad
I = np.identity(4)
print(I)

A = np.arange(16).reshape(4,4)
print(A)

print(np.matmul(A,I))

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]
 [12. 13. 14. 15.]]


# Filtrado de datos
- Filtrar y modificar datos numéricos con np.where
- Retorna A o B en función de una condición en una array

In [51]:
prices = np.array([0.99, 14.49, 19.99, 20.99, 0.49])
mask = prices < 1
print(prices[prices < 1]) #slicing condicional

#mask con los elementos menores de 1
mask = np.where(prices < 1, True, False)
print(mask)
print(prices[mask])

prices[mask] = 1.0
print(prices)

print(np.where(prices < 1, 1.0, prices))

[0.99 0.49]
[ True False False False  True]
[0.99 0.49]
[ 1.   14.49 19.99 20.99  1.  ]
[ 1.   14.49 19.99 20.99  1.  ]


In [52]:
# Se puede usar para sustituir datos fuera de rango
bank_transfers_values = np.array([0.99, -1.49, 19.99, 20.99, -0.49, 12.1]).reshape(2, 3)
print(bank_transfers_values)
clean_data = np.where(bank_transfers_values > 0, bank_transfers_values, 0)
print(clean_data)

[[ 0.99 -1.49 19.99]
 [20.99 -0.49 12.1 ]]
[[ 0.99  0.   19.99]
 [20.99  0.   12.1 ]]


In [53]:
# limpiar NaN (sustitución)
data = [10, 12, -143, np.nan, 1, -3] # np.nan --> NotANumber, elemento especial
data_clean = np.where(np.isnan(data), 0, data)
print(data_clean)

print(id(data))
print(id(data_clean))

[  10.   12. -143.    0.    1.   -3.]
5932808960
4523978704


In [54]:
# np.where puede seleccionar elementos
bank_transfers_values = np.array([0.99, -1.49, 19.99, 20.99, -0.49, 12.1]).reshape(2, 3)
print(bank_transfers_values)
credits = np.where(bank_transfers_values > 0) # array de índices para los que la condición es True

print(credits)
print(bank_transfers_values[credits]) # es igual que bank_transfers_values[bank_transfers_values > 0]
print(bank_transfers_values[bank_transfers_values > 0])

[[ 0.99 -1.49 19.99]
 [20.99 -0.49 12.1 ]]
(array([0, 0, 1, 1]), array([0, 2, 0, 2]))
[ 0.99 19.99 20.99 12.1 ]
[ 0.99 19.99 20.99 12.1 ]


In [55]:
# valor de array dependiendo del valor en array referencia
rewards_default = np.arange(6)
print(rewards_default)

rewards_upgrade = np.arange(6) * 10
print(rewards_upgrade)

daily_points = np.array([0, 0, 1, 6, 0, 2])
print(daily_points)

final_rewards = np.where(daily_points > 1, rewards_upgrade, rewards_default)
print(final_rewards)

[0 1 2 3 4 5]
[ 0 10 20 30 40 50]
[0 0 1 6 0 2]
[ 0  1  2 30  4 50]


# Números aleatorios
- Python módulo random

In [56]:
import random

print(random.random()) # número entre 0 y 1
print(random.randint(0,5)) # integral entre dos valores
print(random.uniform(0,5)) # real entre dos valores

0.8307832621844213
3
0.5294769746861372


In [57]:
# elegir un elemento al azar dentro de una colección
names = ['Pikachu','Eevee','Charmander']
random.choice(names)

'Pikachu'

## NumPy.random
- Generar fácilmente listas con valores aleatorios

In [58]:
print(np.random.rand()) # número entre 0 y 1
print(np.random.randint(0,5)) # integral entre dos valores 
print(np.random.randint(5, size=(2, 4))) # parametro 'size' para indicar las dimensiones)

0.7163549136680154
1
[[4 2 1 4]
 [0 3 4 0]]


In [59]:
# array de elementos aleatorios (distribucion normal gaussiana, media 0, desviación 1)
print(np.random.randn(4,2))

[[-1.24842641 -1.58255865]
 [-1.31864936  0.52323369]
 [ 0.23069069  1.67305735]
 [ 0.03872752  2.24989268]]


In [60]:
# otras distribuciones
print(np.random.binomial(n=5, p=0.3)) # 'n' intentos, 'p' probabilidad
print(np.random.uniform(low=0, high=10)) # distribución uniforme
print(np.random.poisson(lam=2, size=(2,2))) # 'lam' número de ocurrencias esperadas, retornar 'size' valores

1
9.317790242663634
[[3 2]
 [2 1]]


## Random seed
- Números pseudo-aleatorios
- Ordenadores generan números a partir de ecuaciones
- Basadas en un número inicial (seed)
- Bueno para reproducibilidad de experimentos

In [61]:
i = 5
for _ in range(5):
    np.random.seed(i) # misma semilla
    print(np.random.rand())
    print(np.random.rand())

print()    
    
for i in range(6):
    np.random.seed(i) # diferentes semillas
    print(np.random.rand())
    print(np.random.rand())

0.22199317108973948
0.8707323061773764
0.22199317108973948
0.8707323061773764
0.22199317108973948
0.8707323061773764
0.22199317108973948
0.8707323061773764
0.22199317108973948
0.8707323061773764

0.5488135039273248
0.7151893663724195
0.417022004702574
0.7203244934421581
0.43599490214200376
0.025926231827891333
0.5507979025745755
0.7081478226181048
0.9670298390136767
0.5472322491757223
0.22199317108973948
0.8707323061773764


# Escritura y lectura de ndarrays a archivos 
- Para futuro acceso
- Compartir datos con otros
- Formato *.npy

In [62]:
# escribir a archivo
import os
ruta = os.path.join("res" ,"o_values_array.npy")

values = np.random.randint(9, size=(3,3))
np.save(ruta, values)
print(values)

[[6 6 0]
 [8 4 7]
 [0 0 7]]


In [63]:
# leer de archivo
old_values = np.load(ruta)
print(old_values)

[[6 6 0]
 [8 4 7]
 [0 0 7]]


In [65]:
# escribir y cargar múltiples arrays
ruta = os.path.join("res" ,"o_array_group.npz")

values1 = np.random.randint(9,size=(3,3))
values2 = np.random.randint(4,size=(2,2))
values3 = np.random.randint(16,size=(4,4))
np.savez(ruta,values1,values2,values3) # añade la extensión .npz   

In [66]:
# leer los archivos (retorna un diccionario con las arrays)
npzfile = np.load(ruta)

print(type(npzfile.files))
print(npzfile.files)

for key in npzfile.files: # array.files contiene el nombre de las arrays (arr_0, arr_1...)
     print(npzfile[key])

<class 'list'>
['arr_0', 'arr_1', 'arr_2']
[[3 2 1]
 [5 7 4]
 [3 1 7]]
[[3 3]
 [2 3]]
[[13  1  9  5]
 [ 7  0 14 14]
 [10 15  9  6]
 [15  0  5  2]]


### ¿Por qué molestarse con .npy?
- Bases de datos suelen estar en CSV o txt, que requieren lectura con streams (parsing)
- ¿Para qué escribir los datos de nuevo?

In [68]:
import os
ruta_csv = os.path.join("res" ,"fdata.csv")
with open(ruta_csv,'r') as f:
    data_str = f.read()
data = data_str.split(',')
data_array = np.array(data, dtype = np.int8).reshape(1000,1000)
# print(data_array)

ruta_npy = os.path.join("res" ,"o_fdata.npy")
np.save(ruta_npy, data_array)

In [69]:
%%timeit # magic function jupyter
with open(ruta_csv,'r') as f:
    data_str = f.read()
data = data_str.split(',')
data_array = np.array(data,  dtype = np.int8).reshape(1000,1000)

214 ms ± 2.58 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [70]:
%%timeit
data = np.load(ruta_npy)

245 μs ± 2.89 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [71]:
%%timeit # magic function jupyter
result = np.fromfile(ruta_csv, dtype=np.int8, sep=",")

357 ms ± 4.57 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


### velocidad + simplicidad vs memoria

## Ejercicios

- Ejercicios para practicar NumPy: https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises.ipynb


In [None]:
# Ejercico 1

import numpy as np  # Carga la librería numpy y  asignar el alias 'np'

In [76]:
# Ejercicio2
# Imprime la versión de NumPy que tienes instalada (ej. 1.26.4)
print(np.__version__)
print(np.show_config())

2.1.3
Build Dependencies:
  blas:
    detection method: pkgconfig
    found: true
    include directory: /opt/anaconda3/include
    lib directory: /opt/anaconda3/lib
    name: openblas
    openblas configuration: USE_64BITINT= DYNAMIC_ARCH=1 DYNAMIC_OLDER= NO_CBLAS=
      NO_LAPACK=0 NO_LAPACKE= NO_AFFINITY=1 USE_OPENMP=0 CORE2 MAX_THREADS=128
    pc file directory: /opt/anaconda3/lib/pkgconfig
    version: 0.3.21
  lapack:
    detection method: pkgconfig
    found: true
    include directory: /opt/anaconda3/include
    lib directory: /opt/anaconda3/lib
    name: openblas
    openblas configuration: USE_64BITINT= DYNAMIC_ARCH=1 DYNAMIC_OLDER= NO_CBLAS=
      NO_LAPACK=0 NO_LAPACKE= NO_AFFINITY=1 USE_OPENMP=0 CORE2 MAX_THREADS=128
    pc file directory: /opt/anaconda3/lib/pkgconfig
    version: 0.3.21
Compilers:
  c:
    args: -march=core2, -mtune=haswell, -mssse3, -ftree-vectorize, -fPIC, -fPIE, -fstack-protector-strong,
      -O2, -pipe, -isystem, /opt/anaconda3/include, -fdebug-prefi

In [77]:
#Ejercicio 3  
# Crear un vector de tamaño 10 lleno de ceros
vector_nulo = np.zeros(10)

print(vector_nulo)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [78]:
#Ejercicio 4 encontrar el tamaño de memoria de cualquier array

Z = np.zeros((10,10))

# Multiplicamos la cantidad de elementos (size) por el tamaño de cada uno (itemsize)
memoria = Z.size * Z.itemsize

print(f"El array tiene {Z.size} elementos y ocupa {memoria} bytes")


El array tiene 100 elementos y ocupa 800 bytes


In [79]:
#Ejercicio 5.  obtener la documentación de la función 'add' de NumPy desde la línea de comandos

import numpy as np

# Muestra la definición, parámetros y ejemplos de la función suma (add)
np.info(np.add)


add(x1, x2, /, out=None, *, where=True, casting='same_kind', order='K', dtype=None, subok=True[, signature])

Add arguments element-wise.

Parameters
----------
x1, x2 : array_like
    The arrays to be added.
    If ``x1.shape != x2.shape``, they must be broadcastable to a common
    shape (which becomes the shape of the output).
out : ndarray, None, or tuple of ndarray and None, optional
    A location into which the result is stored. If provided, it must have
    a shape that the inputs broadcast to. If not provided or None,
    a freshly-allocated array is returned. A tuple (possible only as a
    keyword argument) must have length equal to the number of outputs.
where : array_like, optional
    This condition is broadcast over the input. At locations where the
    condition is True, the `out` array will be set to the ufunc result.
    Elsewhere, the `out` array will retain its original value.
    Note that if an uninitialized `out` array is created via the default
    ``out=None``,

In [80]:
#Ejercicio 6    
# 1. Crear un vector de 10 posiciones llenas de ceros
Z = np.zeros(10)

Z[4] = 1

print(Z)

[0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]


In [81]:
#Ejercicio 7 Crear un vector con valores que van desde el 10 hasta el 49

Z = np.arange(10, 50)

print(Z)

[10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49]


In [82]:
#Ejercicio 8 Invertir un vector: que el primer elemento se convierta en el último

Z = np.arange(10, 50)


Z_invertido = Z[::-1]

print(Z_invertido)

[49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26
 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10]


In [83]:
#Ejercicio 9 Crear una matriz de 3x3
matriz = np.arange(9).reshape(3, 3)

print(matriz)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [84]:
#Ejercicio 10 Encontrar los índices de los elementos que no son cero de [1,2,0,0,4,0]

lista = [1, 2, 0, 0, 4, 0]

indices = np.nonzero(lista)

print(indices)

(array([0, 1, 4]),)


[Repositorio de mi proyecto ](https://github.com/Ngmalquin123/introduccionpythonnocturno)
https://github.com/Ngmalquin123/introduccionpythonnocturno