
# Mod04 - Introducción a Python
## Parte 2 - NumPy

# En la clase anterior
- Colecciones: diccionario y set
- Funciones
- Python comprehension
- Escritura y lectura de archivos

# Resumen
- ndarray
- creacion y modificacion de ndarrays
- indexacion y slicing
- estadistica descriptiva
- filtrado de datos con where
- algebra lineal
- Valores aleatorios
- Leer y escribir NumPy ndarrays

# NumPy ndarray
- NumPy (__Num__ erical __Py__ thon) es la de facto librería estándar para análisis numérico en Python
- Estructura de datos multidimensional eficiente (escrita en C): ndarray
- Colección de funciones para álgebra lineal, estadística descriptiva
- Ayuda al procesamiento de datos (np.where)

In [2]:
import numpy as np
shopping_list = [ ['onions','carrots','celery'], ['apples','oranges','grapes']] # 2D
array = np.array(shopping_list) # convertir una lista en una ndarray

## Formas de crear ndarrays

In [2]:
np.array([100,10,1]) # array a partir de una lista
np.arange(2,10,2)# array a partir de una secuencia

array([2, 4, 6, 8])

In [4]:
# Generar arrays con valores fijos
cero = np.zeros(5)
print(cero)

[0. 0. 0. 0. 0.]


In [5]:
unos=np.ones( (2,2) )
print(unos)

[[1. 1.]
 [1. 1.]]


In [10]:
repetidos= np.full(5,-6)
print(repetidos)

[6 6 6 6 6]


## Obtener información sobre ndarray

In [11]:
my_ndarray = np.array([0,71,21,19])
my_ndarray.argmax() # índice del valor más alto
print(my_ndarray.argmax() )
my_ndarray.argmin() # índice del valor más bajo
print(my_ndarray.argmin() )

1
0


In [5]:
my_ndarray.nonzero() # retorna los índices de los elementos distintos a 0

(array([1, 2, 3], dtype=int64),)

In [6]:
my_ndarray.size # número de elementos == len(my_ndarray)

4

#### Redimensionar los datos

In [12]:
my_ndarray = np.array([[10,71,21,19],[213,412,111,98]])
print(my_ndarray.ndim) # número de dimensiones
print(my_ndarray.shape) # tamaño de las dimensiones
print(my_ndarray)

2
(2, 4)
[[ 10  71  21  19]
 [213 412 111  98]]


In [8]:
# cambiar las dimensiones a 4 filas y 2 columnas
new_dims = my_ndarray.reshape(4,2) # qué sucede si utilizamos otros valores?
print(new_dims)

[[ 10  71]
 [ 21  19]
 [213 412]
 [111  98]]


In [13]:
# Cambiar ejes
new_dims = np.arange(4).reshape(2,2)
print(new_dims)
print("Cambio ejes")
print(new_dims.swapaxes(0,1))


[[0 1]
 [2 3]]
[[0 2]
 [1 3]]


In [10]:
# reducir a una dimensión
flatten = new_dims.flatten() 
print(flatten)

[0 1 2 3]


## Manipulación de ndarrays

In [11]:
# ordenar
array1 = np.array([10,2,9,17])
array1.sort()
print(array1)

[ 2  9 10 17]


In [12]:
# Juntar dos arrays
a1 = [0,0,0,0,0,0]
a2 = [1,1,1,1,1,1]
np.hstack( (a1,a2) ) # una al lado de la otra
np.vstack( (a1,a2) ) # una encima de la otra

array([[0, 0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1, 1]])

In [13]:
# dividir una array
array = np.arange(4).reshape(2,2)
np.array_split(a1,2) # divide a1 en dos

[array([0, 0, 0]), array([0, 0, 0])]

In [14]:
np.array_split(a1,([2])) # divide utilizando el índice 2 como corte

[array([0, 0]), array([0, 0, 0, 0])]

cómo afecta np.array_split a una array multidimensional? Por ejemplo, np.arange(9).reshape(3,3)

# Índices y slicing
- De manera análoga a índices y slicing para listas

In [15]:
array = np.arange(16)
print(array[2])
print(array[:-10])

2
[0 1 2 3 4 5]


In [19]:
# multidimensional
array = np.arange(16)
array = array.reshape(4,4)
print(array)

1
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [20]:
print(array[0,1]) # fila, columna. == array[0,1]

1


In [21]:
# se puede hacer slice por fila o columna
array = np.arange(9).reshape(3,3)
print(array)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [18]:
# --> qué estamos accediendo aquí?
array[:,0] 

array([0, 3, 6])

In [19]:
# --> qué estamos accediendo aquí?
array[:-1,:]

array([[0, 1, 2],
       [3, 4, 5]])

#### Diferencias entre índices y slicing en listas y ndarrays:
- ¡Retornan una referencia, no una copia!

In [25]:
# slicing retorna una referencia en ndarrays
array = np.arange(10)
my_copy = array[0:2]
my_copy[0] = 222
print(array)

[222   1   2   3   4   5   6   7   8   9]


In [27]:
nuevaCopia = my_copy.copy()
nuevaCopia[0] = 444
print(my_copy)

[222   1]


In [21]:
# en listas, retorna una copia
list1 = [0,1,2,3,4,5,6,7,8,9]
my_copy = list1[0:2]
my_copy[0] = 222
print(list1)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


- Permite asignar valores a un corte

In [22]:
array = np.arange(10)
array[0:3] = -1
print(array)

[-1 -1 -1  3  4  5  6  7  8  9]


- Slicing condicionales (mask)

In [29]:
array1 = np.arange(-3,4) # [-3,-2,-1,0,1,2,3]
mask = array1 < 0
array1[mask] # [-3,-2,-1]

array([-3, -2, -1])

In [28]:
mask = array1 % 2 == 0
array1[mask] = 10 # ??
mask = array1 == 10
array1[mask] = 0 # ??

NameError: name 'array1' is not defined

- Acceso a múltiples valores con listados de índices

In [25]:
array = np.arange(-10,0)
array[ [0,2,4] ]

array([-10,  -8,  -6])

# Funciones matemáticas
- Aplicar operaciones entre escalares y arrays o entre arrays

In [26]:
array1 = np.ones(4) * 2
array1 += 10
array1

array([12., 12., 12., 12.])

In [27]:
# operaciones entre arrays es como operaciones entre matrices
array2 = np.arange(4)
result = array1 - array2
print(result)
print(array1 * array2)

[12. 11. 10.  9.]
[ 0. 12. 24. 36.]


Si las arrays no tienen las mismas dimensiones --> [broadcasting](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html)
- Restricciones

## Operadores unarios y binarios


In [28]:
# ejemplos de operadores
array = np.arange(5)
np.sqrt(array)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ])

In [29]:
# ejemplos de operadores
array1 = np.arange(4)
array2 = np.array([0,-1,2,-3])
np.greater(array1,array2)

array([False,  True, False,  True])

# Estadística descriptiva
- Importante saber la naturaleza de los datos
- Valores máximos, mínimos, distribución, etc.

In [30]:
# sum != cumsum
array1 = np.arange(9)
print(array1.sum())
(array1.cumsum())

36


array([ 0,  1,  3,  6, 10, 15, 21, 28, 36], dtype=int32)

In [31]:
# any vs all
array1 = np.arange(10).reshape(2,5)
print(array1)
print(array1.any()) # any para saber si hay elementos True o valores > 0
print(array1.all()) # all para saber si TODOS los elementos son True o valores > 0

[[0 1 2 3 4]
 [5 6 7 8 9]]
True
False


In [32]:
# todas las funciones aceptan parametro 'axis' 
# 0 para columnas, 1 para filas, 2 para profundidad...
print(array1.all(axis=0))
print(array1.all(axis=1))

[False  True  True  True  True]
[False  True]


# Álgebra lineal
- numpy.linalg contiene funciones para álgebra lineal
- dot product, multipliacción de matrices, cálculo del determinante, factorizaciones...

In [33]:
import numpy.linalg as linalg

A = np.arange(12).reshape(4,3)
B = np.arange(9).reshape(3,3)

print(A @ B == np.matmul(A,B))

[[ True  True  True]
 [ True  True  True]
 [ True  True  True]
 [ True  True  True]]


In [34]:
# resolver sistema de ecuaciones
# 3x + 2y = 12
# x - 3y = 2
# Ax = b --> resolver para x
a = np.array([ [3,2],[1,-3] ])
b  = np.array([12,2])
x,y = linalg.solve(a,b)
print('x=' + str(x) + ', y=' + str(y))

x=3.6363636363636367, y=0.5454545454545454


# Filtrado de datos
- Filtrar y modificar datos numéricos con np.where
- Retorna A o B en función de una condición en una array

In [35]:
prices = np.array([0.99, 14.49, 19.99, 20.99, 0.49])
# mask con los elementos menores de 1
np.where(prices < 1,True,False)

array([ True, False, False, False,  True])

In [36]:
# Se puede usar para sustituir datos fuera de rango
bank_transfers_values = np.array([0.99, -1.49, 19.99, 20.99, -0.49])
clean_data = np.where(bank_transfers_values > 0, bank_transfers_values,0)
clean_data

array([ 0.99,  0.  , 19.99, 20.99,  0.  ])

In [37]:
# limpiar NaN (sustitución)
data = [10,12,-143,np.nan,1,-3] # np.nan --> Not A Number, elemento especial
data_clean = np.where(np.isnan(data),0,data)
data_clean

array([  10.,   12., -143.,    0.,    1.,   -3.])

In [38]:
# np.where puede seleccionar elementos
credits = np.where(bank_transfers_values > 0) # array de índices para los que la condición es True
bank_transfers_values[credits] # es igual que bank_transfers_values[bank_transfers_values > 0]

array([ 0.99, 19.99, 20.99])

In [39]:
# valor de array dependiendo del valor en array referencia
rewards_default = np.arange(6)
rewards_upgrade = np.arange(6) * 10
daily_points = np.array([2,0,1,6,0,0])

final_rewards = np.where(daily_points > 0, rewards_upgrade,rewards_default)
final_rewards

array([ 0,  1, 20, 30,  4,  5])

# Números aleatorios
- Python módulo random

In [40]:
import random
random.random() # número entre 0 y 1
random.randint(0,5) # integral entre dos valores
random.uniform(0,5) # real entre dos valores

4.809523905764887

In [41]:
# elegir un elemento al azar dentro de una colección
names = ['marta','anna','vanesa']
random.choice(names)

'anna'

## NumPy.random
- Generar fácilmente listas con valores aleatorios

In [42]:
np.random.rand() # número entre 0 y 1
np.random.randint(0,5) # integral entre dos valores (parametro 'size' para indicar las dimensiones)

0

In [43]:
# array de elementos aleatorios (media 0, desviación 1)
random_vals = np.random.randn(4,2) 
random_vals

array([[-1.37018209, -1.41943224],
       [-1.88426403,  1.24514521],
       [ 0.25403711,  0.71165234],
       [ 0.29727097,  0.87938929]])

In [44]:
# otras distribuciones
np.random.binomial(n=5,p=0.3) # 'n' intentos, 'p' probabilidad
np.random.uniform(low=0,high=10) # distribución uniforme
np.random.poisson(lam=2,size=(2,2)) # 'lam' número de ocurrencias esperadas, retornar 'size' valores

array([[2, 2],
       [6, 3]])

## Random seed
- Números pseudo-aleatorios
- Ordenadores generan números a partir de ecuaciones
- Basadas en un número inicial (seed)

In [45]:
for _ in range(5):
    np.random.seed(55)
    print(np.random.rand())

0.093108286671858
0.093108286671858
0.093108286671858
0.093108286671858
0.093108286671858


# Escritura y lectura de ndarrays a archivos 
- Para futuro acceso
- Compartir datos con otros
- Formato *.npy

In [3]:
# escribir a archivo
values = np.random.randint(9,size=(3,3))
np.save('resources/values_array.npy',values)
print(values)

[[7 6 4]
 [3 6 0]
 [1 3 2]]


In [4]:
# leer de archivo
old_values = np.load('resources/values_array.npy')
old_values

array([[7, 6, 4],
       [3, 6, 0],
       [1, 3, 2]])

In [5]:
# escribir y cargar múltiples arrays
values1 = np.random.randint(9,size=(3,3))
values2 = np.random.randint(4,size=(2,2))
values3 = np.random.randint(16,size=(4,4))
np.savez('resources/array_group',values1,values2,values3) # añade la extensión .npz   

In [7]:
import numpy as np
# leer los archivos (retorna un diccionario con las arrays)
npzfile = np.load('resources/array_group.npz')
for key in npzfile.files: 
    print(npzfile[key])

[[3 3 4]
 [0 4 0]
 [3 3 3]]
[[2 2]
 [1 1]]
[[15  6  5 12]
 [ 1  3  5 13]
 [14  7 10  5]
 [12  7 14  5]]


### ¿Por qué molestarse con .npy?
- Bases de datos suelen estar en CSV o txt, que requieren lectura con streams (parsing)
- ¿Para qué escribir los datos de nuevo?

In [8]:
%%timeit
with open('resources/fdata.csv','r') as f:
    data_str = f.read()
data = data_str.split(',')
data_array = np.array(data).reshape(1000,1000)

212 ms ± 5.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [9]:
%%timeit
data = np.load('resources/fdata.npy')

6.34 ms ± 302 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


# Ejercicios
- Ejercicios para practicar NumPy con pistas: https://github.com/rougier/numpy-100/blob/master/100_Numpy_exercises_with_hints.md

- __No mires las soluciones desde el principio__. Intenta resolverlos por tu cuenta