# Operaciones básicas y tipos de datos en numpy

#### Este archivo contiene los siguientes temas:
* Tipo de datos en numpy
* Operaciones báscias (aritméticas y estadísticas)
* Cómo ordenar los elementos de un ndarray
* Operaciones de conjuntos en numpy
* Broadcasting

Algunos *shortcuts* útiles:
* tab --> ofrece sugerencias sobre funciones y atributos 
* shift + tab --> muestra la documentación 
* shift + enter --> run cell

Documentación de numpy: https://docs.scipy.org/doc/numpy/reference/

In [1]:
import numpy as np

------

## Tipo de datos en NumPy

In [2]:
# Cuando creamos un array sin especificar un tipo de dato específico, numpy lo asigna automáticamente
arr01 = np.array([1,2,3])
arr02 = np.array([1.0, 2.0, 3.0])

# numpy tiene métodos para saber tipo de datos de un array
print(arr01, '     ', arr01.dtype)
print(arr02, '  ', arr02.dtype)

[1 2 3]       int64
[1. 2. 3.]    float64


In [3]:
# También podemos explicitar (o forzar) el tipo de dato que queremos que nuestro array tenga
arr03 = np.array([1, 2, 3], dtype=np.float16)
print(arr03, '  ', arr03.dtype)

[1. 2. 3.]    float16


Para ver la diferencia entre un int «normal» en python y un int de numpy:
https://stackoverflow.com/questions/38155039/what-is-the-difference-between-native-int-type-and-the-numpy-int-types

----

## Operaciones báscias (aritméticas y estadísticas)

In [4]:
a = np.array([[100, 200], [300, 400]])

b = np.array([[100.5, 200.5], [300.5, 400.5]])

print(a, a.dtype, '\n')
print(b, b.dtype, '\n')

[[100 200]
 [300 400]] int64 

[[100.5 200.5]
 [300.5 400.5]] float64 



Para efectuar operaciones básicas entre arrays de numpy podemos usar los operadores de python o las funciones y métodos de numpy

In [5]:
# Dos maneras de sumar arrays
print(a + b, '  ', (a+b).dtype, '\n')
print(np.add(a, b), '  ', (np.add(a,b)).dtype, '\n')

[[200.5 400.5]
 [600.5 800.5]]    float64 

[[200.5 400.5]
 [600.5 800.5]]    float64 



In [6]:
# Substracción (resta) de arrays
print(a - b, '\n')
print(np.subtract(a,b))

[[-0.5 -0.5]
 [-0.5 -0.5]] 

[[-0.5 -0.5]
 [-0.5 -0.5]]


In [7]:
# Multiplicación de arrays
print(a * b, '\n')
print(np.multiply(a,b))

[[ 10050.  40100.]
 [ 90150. 160200.]] 

[[ 10050.  40100.]
 [ 90150. 160200.]]


In [8]:
# División de arrays
print(a/b, '\n')
print(np.divide(a,b))

[[0.99502488 0.99750623]
 [0.99833611 0.99875156]] 

[[0.99502488 0.99750623]
 [0.99833611 0.99875156]]


In [9]:
# Raíz cuadrada
print(np.sqrt(a))

[[10.         14.14213562]
 [17.32050808 20.        ]]


In [10]:
# Exponencial
print(np.exp(a))

[[2.68811714e+043 7.22597377e+086]
 [1.94242640e+130 5.22146969e+173]]


#### Un par de ejemplos para aplicar operaciones estadísticas

In [11]:
# Creamos un array de 10x12, cuyos elementos se distribuyen uniformemente entre 20 y 30
my_array = (np.random.rand(10,12) * 10) + 20

# Imprimimos usando una función que redondea los valores (para una visualización más clara)
# Esto no modifica los valores (para ello, tendríamos que reasignar el array)
print(np.around(my_array, 1)) 

[[24.8 27.9 25.  29.3 25.2 26.1 23.2 26.1 26.  27.2 26.  29.6]
 [24.  23.6 24.8 20.8 21.6 24.3 25.1 25.2 26.9 28.2 26.1 29.4]
 [26.  29.3 20.3 20.9 24.8 22.4 26.5 26.  20.8 22.5 20.4 26.8]
 [21.7 21.6 21.6 27.  29.7 20.4 21.7 20.2 20.8 28.1 27.7 22.9]
 [23.8 22.4 20.5 27.6 25.4 28.1 23.8 26.4 20.3 27.4 21.5 25.2]
 [23.8 25.3 27.9 21.  22.8 24.3 20.8 21.5 21.  29.1 24.  29.8]
 [26.7 29.  27.8 28.8 28.9 27.3 26.1 25.5 21.4 24.7 22.8 25.2]
 [27.  29.7 24.  29.1 27.8 21.6 24.4 23.6 22.3 23.  29.  29.7]
 [29.2 29.9 21.9 20.3 20.9 22.1 23.5 26.3 29.7 26.2 23.4 24.5]
 [24.5 28.6 26.9 26.9 27.3 21.3 21.6 22.9 29.9 24.1 20.8 28.6]]


In [12]:
# Computamos la media de todos los elementos en el array
print(my_array.mean())

24.974805912854496


In [13]:
# Computamos la media para cada renglón (en numpy, el 'eje' de las X es 1, y el de las Y es 0)
print(my_array.mean(axis = 1), '\n')
print('shape: ', my_array.mean(axis = 1).shape)

[26.36609137 25.01000886 23.8936865  23.6089485  24.36313733 24.28112926
 26.19796656 25.93495057 24.82645292 25.26568726] 

shape:  (10,)


In [14]:
# Obtenemos la media para cada columna
print(my_array.mean(axis=0), '\n')
print('shape: ', my_array.mean(axis = 0).shape)

[25.13994543 26.73038825 24.06847781 25.16142765 25.44667179 23.79589104
 23.66897322 24.37654301 23.90978135 26.04988036 24.17043913 27.1792519 ] 

shape:  (12,)


In [15]:
# sumar todos los elementos del array
print(my_array.sum())

2996.9767095425395


## Cómo ordenar los elementos de un array

In [16]:
# Creamos un array de una dimensión (rank 1) con 100 elementos generados a partir de una distribución uniforme entre 0 y 20
# Además, aplicamos la función floor para eliminar los decimales, y convertimos el tipo de dato de los elementos del array a int16
arr04 = np.round(np.random.rand(100) * 20).astype('int16')

arr04

array([ 9,  1, 14,  5,  1,  6, 19,  9, 13,  7, 12, 18, 10, 10,  9, 15, 13,
        8,  1, 16, 12, 13, 20,  2,  3, 11,  3, 12,  3, 14,  9, 15, 11,  4,
        6, 18, 10,  4,  5,  5,  1, 12,  4,  4,  4, 11, 10,  9,  4,  4, 16,
        8,  7, 13,  4,  4, 14,  8, 11,  2,  5, 12,  1,  0,  8,  4,  3,  6,
        2,  3, 15, 15, 15,  3, 10,  9,  6,  4, 17,  1,  5,  5, 19,  2, 13,
        7, 19,  2,  5,  2, 16,  3,  9,  8,  4,  8,  2, 12,  4, 13],
      dtype=int16)

In [17]:
# Para ordenar los elementos del array:
arr04.sort()
print(arr04)

[ 0  1  1  1  1  1  1  2  2  2  2  2  2  2  3  3  3  3  3  3  3  4  4  4
  4  4  4  4  4  4  4  4  4  4  5  5  5  5  5  5  5  6  6  6  6  7  7  7
  8  8  8  8  8  8  9  9  9  9  9  9  9 10 10 10 10 10 11 11 11 11 12 12
 12 12 12 12 13 13 13 13 13 13 14 14 14 15 15 15 15 15 16 16 16 17 18 18
 19 19 19 20]


In [18]:
# Quizás nos interese saber cuáles son los valores únicos en nuestro array
print(np.unique(arr04))

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]


## Operaciones de conjuntos en numpy

In [19]:
x = np.array([[1, 2, 3], [4, 5, 6]])
y = np.array([[4, 5, 6], [7, 8, 9]])

print(x, '\n')
print(y)

[[1 2 3]
 [4 5 6]] 

[[4 5 6]
 [7 8 9]]


In [20]:
# Intersección (nótese que el resultado es un array de una dimensión (rank 1))
print(np.intersect1d(x, y))

[4 5 6]


In [21]:
# Unión
print(np.union1d(x, y))

[1 2 3 4 5 6 7 8 9]


In [22]:
# Conjunto de elementos que están en x pero no están en y
print(np.setdiff1d(x, y))

[1 2 3]


-----

## Broadcasting

Para mayor información: https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html

In [23]:
# Creamos un array de 3x4 cuyos elementos son todos 1
arr01 = np.ones((4, 3), dtype='int16')
# Creamos un array de una dimensión
arr02 = np.array([1, 2, 3])
# Creamos un array de 1x3
arr03 = np.array([[1, 2, 3]])
# Creamos un array de 4x1 (nótese cómo aplicamos 'T' para transponer)
arr04 = np.array([[1,2,3,4]]).T
print('arr01:'); print(arr01, '\n')
print('arr02:'); print(arr02, '\n')
print('arr03:'); print(arr03, '\n')
print('arr04:'); print(arr04, '\n')

arr01:
[[1 1 1]
 [1 1 1]
 [1 1 1]
 [1 1 1]] 

arr02:
[1 2 3] 

arr03:
[[1 2 3]] 

arr04:
[[1]
 [2]
 [3]
 [4]] 



In [24]:
arr01 + arr02

array([[2, 3, 4],
       [2, 3, 4],
       [2, 3, 4],
       [2, 3, 4]])

In [25]:
arr01 + arr03

array([[2, 3, 4],
       [2, 3, 4],
       [2, 3, 4],
       [2, 3, 4]])

In [26]:
arr01 + arr04

array([[2, 2, 2],
       [3, 3, 3],
       [4, 4, 4],
       [5, 5, 5]])

In [27]:
arr02 + arr04 

array([[2, 3, 4],
       [3, 4, 5],
       [4, 5, 6],
       [5, 6, 7]])

In [28]:
arr01 + 1000

array([[1001, 1001, 1001],
       [1001, 1001, 1001],
       [1001, 1001, 1001],
       [1001, 1001, 1001]], dtype=int16)